当前位置:首页>文章>人工智能>新加坡科技设计大学研究团队成功开发出小巧而强大的TinyLlama AI模型,仅用90天、3万亿token训练

新加坡科技设计大学研究团队成功开发出小巧而强大的TinyLlama AI模型,仅用90天、3万亿token训练

新加坡科技设计大学的研究人员正在进行一项令人瞩目的项目,他们取得了巨大的突破,成功地开发出了一款小巧而强大的AI模型,名为TinyLlama。这个模型采用了一种紧凑的设计,仅占用550MB的内存。不仅如此,令人惊叹的是,这个模型只用了90天时间,在庞大的3万亿token的数据集上完成了训练。

TinyLlama的独特之处在于它被设计用于内存受限的边缘设备,为这些设备提供高性能的人工智能解决方案。随着越来越多的开发者对于创建更小的AI模型的需求增加,因为对于内存和计算能力受限的边缘设备来说,更少的参数更加优化。而且,较小的模型还可以辅助解码更大的模型,正如前特斯拉高级AI总监Andrej Karpathy所指出的那样。

这个由新加坡科技设计大学的研究助理领导的TinyLlama项目旨在在3万亿token的数据集上预训练一个11亿token的Llama模型。尽管仅占用550MB的内存,但团队相信它的紧凑性将满足多种应用的需求,特别是那些对计算和内存占用有限制的实时机器翻译等功能。

TinyLlama的训练于9月1日开始,使用了16个A100-40G GPU,团队计划在短短90天内完成训练。目前为止,团队已经成功完成了1050亿token的训练。

模型的构建者表示,他们正在使用与Meta用于训练Llama2的“完全相同的架构和分词器”,这使得TinyLlama可以轻松应用于基于Llama构建的开源项目。

TinyLlama团队使用了包括Cerebras Systems的Slimpajama和StarCoder数据在内的三万亿token数据集,而这些数据集曾经用于训练一个代码生成模型StarCoder。

一旦完成,TinyLlama将加入越来越多的较小语言模型的行列,这些模型由开发者用于构建各种应用。此外,EleutherAI的Pythia-1b和Databricks旗下MosaicML的MPT-1b也在不断取得进展。

声明:学AI网所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服或提交工单进行处理。学AI网内用户所发表的所有内容及言论仅代表其本人,并不反映任何学AI网之意见及观点。

给TA充电
共{{data.count}}人
人已充电
人工智能

联合国教科文组织发布全球首份生成式 AI 教育指南,呼吁各国制定相关法规、开展教师培训

2023-9-8 11:29:07

人工智能

百度智能云千帆平台率先适配开源大模型Falcon-180B,提供全流程工具链和开发环境

2023-9-9 9:02:02

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索