新加坡科技设计大学研究团队成功开发出小巧而强大的TinyLlama AI模型，仅用90天、3万亿token训练

人工智能
23年9月9日
编辑

全民智能

新加坡科技设计大学的研究人员正在进行一项令人瞩目的项目，他们取得了巨大的突破，成功地开发出了一款小巧而强大的AI模型，名为TinyLlama。这个模型采用了一种紧凑的设计，仅占用550MB的内存。不仅如此，令人惊叹的是，这个模型只用了90天时间，在庞大的3万亿token的数据集上完成了训练。

TinyLlama的独特之处在于它被设计用于内存受限的边缘设备，为这些设备提供高性能的人工智能解决方案。随着越来越多的开发者对于创建更小的AI模型的需求增加，因为对于内存和计算能力受限的边缘设备来说，更少的参数更加优化。而且，较小的模型还可以辅助解码更大的模型，正如前特斯拉高级AI总监Andrej Karpathy所指出的那样。

这个由新加坡科技设计大学的研究助理领导的TinyLlama项目旨在在3万亿token的数据集上预训练一个11亿token的Llama模型。尽管仅占用550MB的内存，但团队相信它的紧凑性将满足多种应用的需求，特别是那些对计算和内存占用有限制的实时机器翻译等功能。

TinyLlama的训练于9月1日开始，使用了16个A100-40G GPU，团队计划在短短90天内完成训练。目前为止，团队已经成功完成了1050亿token的训练。

模型的构建者表示，他们正在使用与Meta用于训练Llama2的“完全相同的架构和分词器”，这使得TinyLlama可以轻松应用于基于Llama构建的开源项目。

TinyLlama团队使用了包括Cerebras Systems的Slimpajama和StarCoder数据在内的三万亿token数据集，而这些数据集曾经用于训练一个代码生成模型StarCoder。

一旦完成，TinyLlama将加入越来越多的较小语言模型的行列，这些模型由开发者用于构建各种应用。此外，EleutherAI的Pythia-1b和Databricks旗下MosaicML的MPT-1b也在不断取得进展。

声明：学AI网所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服或提交工单进行处理。学AI网内用户所发表的所有内容及言论仅代表其本人，并不反映任何学AI网之意见及观点。

{{userData.name}}已认证

新加坡科技设计大学研究团队成功开发出小巧而强大的TinyLlama AI模型，仅用90天、3万亿token训练

联合国教科文组织发布全球首份生成式 AI 教育指南，呼吁各国制定相关法规、开展教师培训

百度智能云千帆平台率先适配开源大模型Falcon-180B，提供全流程工具链和开发环境

极简主义女生头像MidJourney提示词

怀旧报纸女孩MidJourney提示词

MidJourney彩虹列车咒语

{{userData.name}}已认证

联合国教科文组织发布全球首份生成式 AI 教育指南，呼吁各国制定相关法规、开展教师培训

百度智能云千帆平台率先适配开源大模型Falcon-180B，提供全流程工具链和开发环境

华为轮值董事长表示，将打造可持续发展的 AI 计算产业生态

微软 GitHub AI 代码助手 Copilot Chat 开放个人使用，提供实时指导和代码分析功能

特斯拉AI潜力引发市场激烈反应，市值一夜暴涨超5800亿元

小米公司声音识别算法在音频标记任务中取得突破，国际性能排名第一

极简主义女生头像MidJourney提示词

怀旧报纸女孩MidJourney提示词

MidJourney彩虹列车咒语