您当前的位置:首页 > 热点资讯 > 正文

国内最大Llama开源社区发布首个预训练中文版Llama2

时间：2023-08-02 17:28:38 来源：哔哩哔哩

(资料图)

"7月31日，Llama中文社区率先完成了国内首个真正意义上的中文版Llama2-13B大模型，从模型底层实现了Llama2中文能力的大幅优化和提升。毋庸置疑，中文版Llama2一经发布将开启国内大模型新时代！

| 全球最强，但中文短板

Llama2是当前全球范围内最强的开源大模型，但其中文能力亟待提升Meta不负众望，于7月19日凌晨开源了第一代LLaMA的升级版：Llama2，7B、13B和70B三种大小的模型全开放并且可免费商用。作为AI领域最强大的开源大模型，Llama2基于2万亿token数据预训练，并在100万人类标记数据上微调得到对话模型。在包括推理、编程、对话和知识测试等许多基准测试中效果显著优于MPT、Falcon以及第一代LLaMA等开源大语言模型，也第一次媲美商用，在一众开源模型中独树一帜。虽然Llama2的预训练数据相对于第一代扩大了一倍，但是中文预训练数据的比例依然非常少，仅占0.13%，这也导致了原版Llama2的中文能力较弱。我们对于一些中文问题进行提问，发现大多数情况下Llama2都不能以中文回答，或者以中英文混杂的形式回答问题。因此，需要基于大规模中文数据对Llama2进行优化，使Llama2具备更好的中文能力。

为此国内顶尖高校大模型博士团队创办了Llama中文社区，开启了Llama2中文大模型训练征程。

| 最领先的Llama中文社区

Llama中文社区是国内最领先的开源大模型中文社区，Github在两周内即达到 star，由清华、交大以及浙大博士团队领衔，汇聚了60+AI领域高级工程师以及各行业2000+顶级人才。社区链接：/FlagAlpha/Llama2-Chinese

社区历程：

| 首个预训练中文版Llama2模型发布！

不是微调！而是基于200B中文语料预训练！

7月31日，Llama中文社区率先完成了国内首个真正意义上的中文版13B Llama2模型：Llama2-Chinese-13B，从模型底层实现了Llama2中文能力的大幅优化和提升。Llama2的中文化可以采用大致两种路线：1. 基于已有的中文指令数据集，对预训练模型进行指令微调，使得基座模型能够对齐中文问答能力。这种路线的优势在于成本较低，指令微调数据量小，需要的算力资源少，能够快速实现一个中文Llama的雏形。但缺点也显而易见，微调只能激发基座模型已有的中文能力，但由于Llama2的中文训练数据本身较少，所以能够激发的能力也有限，治标不治本，从根本上增强Llama2模型的中文能力还是需要从预训练做起。2. 基于大规模中文语料进行预训练。这种路线的缺点在于成本高！不仅需要大规模高质量的中文数据，也需要大规模的算力资源。但是优点也显而易见，就是能从模型底层优化中文能力，真正达到治本的效果，从内核为大模型注入强大的中文能力！为了从内核实现一个彻底的中文大模型，我们选择了第二条路线！我们汇集了一批高质量的中文语料数据集，从预训练开始优化Llama2大模型。部分预训练数据数据如下：类型描述网络数据互联网上公开的网络数据，挑选出去重后的高质量中文数据，涉及到百科、书籍、博客、新闻、公告、小说等高质量长文本数据Wikipedia中文Wikipedia的数据悟道中文悟道开源的200G数据ClueClue开放的中文预训练数据，进行清洗后的高质量中文长文本数据竞赛数据集近年来中文自然语言处理多任务竞赛数据集，约150个MNBVCMNBVC 中清洗出来的部分数据集首期 Llama2-Chinese-13B 模型的预训练数据包含 200B token，未来，我们将持续不断地迭代更新 Llama2-Chinese，逐步将预训练数据提升到1T token。除此以外，我们也将逐步开放70B模型的中文预训练版本，敬请期待！我们从通用知识、语言理解、创作能力、逻辑推理、代码编程、工作技能等不同方面提问大模型，得到了令人满意的效果！部分效果展示如下：通用知识语言理解创作能力逻辑推理代码编程工作技能

标签：

最新文章推荐

陕西7名核酸检测阳性外省游客活动轨迹公布

万人说新疆 | 棉花朵朵赛白云，阿克苏美出新高度！

万人说新疆 | 孙芳红：我在新疆每天过得很充实也很快乐

万人说新疆 | 棉农阿卜来提开心地笑了

万人说新疆 | 阿迪力的棉花合作社年入300万

四川乐山犍为县发生4.3级地震无人员伤亡

西安全面开展排查管控目前20481人核酸检测结果均阴性

陕西7名核检阳性者为一旅行团同行人员活动轨迹公布

西安交大举行2021级本科生迎新会校长：学习是主动作为之事

【母亲河畔的中国】黄河岸边的这个村庄如何打好旅游服务牌？

嘉峪关市：排查出核酸阳性游客密接者26人核酸均为阴性

四川乐山市犍为县发生4.3级地震震源深度10千米

明天起新一轮冷空气又来本周中东部气温持续偏低

陕西2例外省游客核酸阳性病例曾去内蒙古额济纳旗详情公布

北京本周阳光唱“主调” 夜间气温依然很“高冷”

海南岛中东部出现强降雨西藏西南部有较强降雪

宁夏银川一例外省返银核酸检测阳性人员已确诊

全球气候变暖为何还会有强寒潮来袭？气象专家解读

云南省新增2例本土无症状感染者

宁夏银川新增一例外省返银核酸检测阳性人员

宁夏银川发现一例外省返银核酸检测阳性人员

职业本科生需求已进入爆发期职业教育升级版如何打造

大凉山里的“妞妞合唱团”

面馆劝人结账被捅身亡小伙未获评“见义勇为”

纯金大米扔江里讽刺浪费粮食行为艺术引争议

数字阅读让盲人的世界有了更多“色彩”

外卖骑手为你我送餐，他们在哪儿吃饭？

青少年抑郁症状不明显家长多将其当成“青春期叛逆”

一个蒸饺店，“救了”十一个妈妈

北京怀柔红螺寺6株古树成功获得救助复壮

X 关闭

资讯中心

传拼多多成立出海项目组或将与极兔速递进行合作
2022-08-06

低价高品质引发抢购热潮盒马生鲜奥莱在京靠什么赚钱？
2022-07-08

厦门保障性租赁房认定细则发布配租面向新市民群体年度租金涨幅不超过5%
2022-05-20

新疆(含兵团)15日新增本土无症状感染者1例
2021-10-18

X 关闭

热点资讯

1
华为Mate X5直接开售，秒售罄！除价格外，其他信息已汇总

2
长飞特种光纤助力高质量光通信网络与数据中心建设

3
国信证券：港股底部条件具备，等待美联储加息结束

4
同一个作者的作品，为什么西行纪可以做成年番，武庚纪却不行？

5
河岸“会客厅”打造京城新地标

6
股票行情快报：亿联网络（300628）9月8日主力资金净卖出212.22万元

7
个人ip如何打造 ip的意思是什么

8
“速度王者”DNBSEQ-G99获国家药监局批准华大智造再拓18亿销售空间

9
李墨谦(对于李墨谦简单介绍)

10
受降雨影响，居庸关长城景区夜长城及部分区域暂时关闭

11
新华社权威快报｜10位国际友人获颁首届兰花奖

12
几内亚西芒杜铁矿北部区块开发快速推进：中国宝武即将“进场”项目投资

13
记者观察丨违规减持屡禁不止上市公司守信合规要加强

14
恒宇信通：9月7日融资买入480.22万元，融资融券余额2345.29万元

15
儿童友好看雄安丨“我与雄安一同成长”儿童友好科普教育基地巡礼活动举办

16
贵港重点在园区发展保障性租赁住房着力解决产业工人职住问题

17
白醋怎么洗脸才美白祛斑视频（白醋怎么洗脸）

18
《灌篮高手》日本下档，票房已突破155.2亿日元

19
没想到，辣椒素是牛生长不可缺少的因素，辣椒素对牛的好处有哪些

20
交易异动！鸣志电器：无未披露的重大事项