上海人工智能实验室发布多模态语料

2023-08-16 13:33:25 来源: 人民日报

打印 放大 缩小


(资料图)

人民日报上海8月15日电 (记者沈文敏)近日,上海人工智能实验室宣布联合语料数据联盟成员单位,共同开源发布“书生·万卷”1.0多模态预训练语料。

“书生·万卷”1.0集合了语料数据联盟成员丰富的内容积累与上海人工智能实验室的数据处理能力等优势,将为学术界及产业界提供高质量大模型多模态预训练语料。本次开源的数据总量超过2TB,具备多元融合、精细处理、价值对齐、易用高效等四大特征。

本次开源的“书生·万卷”1.0包含文本、图文、视频三部分数据集。其中文本数据来自网页、百科、书籍、专利、教材、考题等,数据总量超过5亿个文档,数据大小超过1TB,覆盖科技、文学、媒体、教育、法律等多个领域;图文数据主要来自公开网页,经处理后形成图文交错文档,总量超过2200万个,数据大小超过140GB(不含图片),覆盖新闻事件、人物、自然景观、社会生活等多个领域;视频数据主要来自中央广播电视总台和上海文广集团,包含新闻、影视等多种类型的节目影像,总计视频文件数超过1000个,数据大小超过900GB,内容覆盖军事、文艺、体育、自然、知识、影像艺术等方面。

编辑: sj004

相关阅读

最近更新

上海人工智能实验室发布多模态语料
晶科能源启动股份回购,光伏竞争加剧,龙头如何布局行业未来?
火车票一开售就秒光,12306为何多个车次只剩候补票?
南阳市卧龙区:美了生态 富了口袋
餐饮消费加速回暖 挖潜提质仍有空间
我国将实施县域商业三年行动
木蚁机器人完成B2轮超亿元融资,中信建投资本领投
这阵容!超三联赛上海上实官宣新人加盟:威姆斯、王薪凯、赵率舟领衔
《不完美受害人》:不完美才显真实
滨州市高质量发展工作推进会议召开
消除汛期安全隐患 确保公路安全畅通
“暑期经济”新玩儿法,你参与了哪个?
黄茅海跨海通道象山隧道双线贯通
前7个月我国服务零售额同比增长20.3%
“新茶饮老三”茶百道冲刺IPO:3年开出4000门店,净利润率超蜜雪冰城
新疆友好:上半年营收9.39亿元 同比下降299.85%
这次投产的项目,真香!| “三个一批”上新季
7月份国民经济持续稳定恢复
法国西部一载有3人的小型飞机坠毁
古巴迎来疫情后首个中国旅游团
天津调整防洪应急响应
博爱县召开学习“千万工程”推进乡村振兴培训成果交流座谈会
别克英朗09款怎么样?外观、性能、安全配置全面解析
首个全国生态日丨山东东营“全领域生态”一体治理 守黄河岁岁安澜
学思践悟上党课 以学增智促发展--方城县妇幼保健院党支部召开党组织书记讲专题党课活动
医疗服务进广场 健康义诊暖人心——方城县中医院到全民健身广场开展 健康宣传和义诊活动
​南阳市开展第九期“三个一批”项目建设活动
从产品比拼看项目落地 | “三个一批”上新季
专访河南省发展和改革委员会副主任李新国丨“三个一批”上新季
7月民航旅客运输量6242.8万人次 行业总体运输规模首超疫情前水平