您的位置:首页 >> 科技前沿

科技前沿

讯飞星火在一项评测中获评“最聪明”国产大模型
来源:科学网    发布时间:2023-08-18 16:01:36         [关闭本页]

8月18日,在《麻省理工科技评论》中国(MIT TR China)发布的一项大模型评测报告中,讯飞星火认知大模型V2.0在6个大类中得分率排名第一,以 81.5 分(百分制计)的成绩在本次评测中获评为“最聪明”的国产大模型。

据介绍,该评测使用的测试集包含600道题目,覆盖了语言专项、数学专项、理科综合、文科综合、逻辑思维、编程能力、综合知识、安全性共 8 个一级大类,126 个二级分类,290 个三级标签,并针对问题的丰富性和多样性做了优化,力图从研发和商业化能力、外界态度以及发展趋势等维度全方位检测大模型的能力。

在题目类型上,为了兼顾定量、定性的评价与测试,MIT TR China在评测中设置了“单选”、“多选”、“填空”、“简答”4个题型,分别有 145 道、138 道、136 道和 181 道。其中,语言专项评测中包含对话理解、多语种、讽刺、古诗词理解、文本生成、要点总结、情感分析、语义判断等 61 个二级分类,题型则以主观题简答为主。

值得一提的是,大模型评测体系使用盲评方式,以客观评估国产大模型的“聪明”程度。

结果显示,讯飞星火在主客观题型评测中均有良好表现:主观简答题中讯飞星火凭借 83.98% 的得分率位居第一;而在客观题上,讯飞星火以 75.7% 的得分率排名第一。其中,讯飞星火在编程能力、理科综合、逻辑思维、数学专项、语言专项和综合知识这 6 个一级大类中表现十分出色,尤其是在代码生成、数学能力、理科与逻辑等方面优势明显,是本次评测中“最聪明的理科生”。

在刚刚过去的8月15日,讯飞星火认知大模型V2.0如期发布,进一步突破代码能力和多模态能力;技术获得重大突破的同时,搭载讯飞星火V2.0核心能力的应用和产品也越来越丰富。此外,科大讯飞还和华为联合发布星火一体机,宣称要“让每一家企业都有机会构建专属大模型”。

设为首页 | 加入收藏 | 领导信箱 | 监督举报 | 咨询留言 | 征集调查 |
Copyright ©2001-2025 濮阳市科学技术局主办 濮阳市科技创新综合服务中心承办
备案编号: 豫ICP备2021001807号       政府网站标识码:4109000036
Tel:0393-6661626 科技局办公室电话:0393-6666200 传真:0393-6666200

本网原创内容可免费转载,转载时请注明“来源:濮阳市科学技术局”。转载或引用本网内容必须是目的合理、善意引用,
不得对本网内容原意进行曲解、修改,并自负版权等法律责任。对于不当转载或引用本网内容而引起的民事纷争、行政处理或其他损失,
本网不承担责任,并有追究转载方法律责任的权利。