中国指股网 > 利率 > 内容页

中国大模型语料数据联盟开源发布“书生·万卷” 1.0多模态预训练语料

2023-08-15 17:55:41 来源:中新网上海  


(资料图片仅供参考)

(郑莹莹)据上海经信委发布的消息,继今年7月在2023世界人工智能大会发起成立“中国大模型语料数据联盟”(以下简称“语料数据联盟”)后,上海人工智能实验室(上海AI实验室)于8月14日宣布,联合语料数据联盟成员单位,共同开源发布“书生·万卷” 多模态预训练语料。

据介绍,本次开源的“书生·万卷”包含文本、图文、视频三部分数据集。其中文本数据为来自网页、百科、书籍、专利、教材、考题等不同来源的清洗后预训练语料,数据总量超过5亿个文档,数据大小超过1TB,覆盖科技、文学、媒体、教育、法律等多个领域。图文数据主要来自公开网页,经处理后形成图文交错文档。文档总量超过2200万个,数据大小超过140GB(不含图片),覆盖新闻事件、人物、自然景观、社会生活等多个领域。视频数据主要来自中央广播电视总台和上海文广集团,包含新闻、影视等多种类型的节目影像,总计视频文件数超过1000个,数据大小超过900GB,内容覆盖军事、文艺、体育、自然、真实世界、知识、影像艺术、媒体、美食、历史、科教等方面。

基于语料数据联盟构建的语料库,上海AI实验室对其中部分数据进行细粒度清洗、去重以及价值对齐,形成了高质量多模态预训练语料“书生·万卷”,具备多元融合、精细处理、价值对齐、易用高效等四大特征。

比如,在精细处理方面,“书生·万卷”经历了语言甄别、正文抽取、格式标准化、基于规则及模型的数据过滤与清洗、多尺度去重、数据质量评估等精细化数据处理环节,因而能更好地适配后续的模型预训练需求。

又如,在价值对齐方面,研究人员在“书生·万卷”的构建过程中,着眼于内容与中文主流价值观的对齐,通过算法与人工评估结合的方式,提升语料纯净度。(完)

注:请在转载文章内容时务必注明出处!

编辑:郑莹莹

关键词: