琴艺谱

让人工智能大模型做K12学科试题，能赶上人类水平吗？

2024-05-21 20:01:47 no.XX Studio

▓WPT中国站▓GGPoker[—ggn178.com—]为亚洲最具备实力的一间国际扑克竞技赛事平台,提供一个正规安全有保障的扑克游戏环境,加入立即玩与GGPoker全球玩家一起同乐习近平同匈牙利总理欧尔班举行会谈

　　中新网【追光的你】这些中国青年“经典站位”，高燃又好哭！

　　中新网北京5月21日电(中新财经记者宋宇晟)记者了解到@*@*%，近日*#%，在北京市海淀区教委支持下##%@*，智源研究院联合与海淀区教师进修学校对齐学生测验方式%#%*，考察大模型与人类学生的学科水平差异%##，其中**%#*，答案不唯一的主观题%%#%，由海淀教师亲自评卷*@#%。

　　评测发现*@#%，模型在综合学科能力上与海淀学生平均水平仍有差距#@，普遍存在文强理弱的情况*@@*%，并且对图表的理解能力不足*%#，大模型未来有很大的提升空间*##%%。

　　北京市海淀区教师进修学校校长姚守梅解读大模型K12学科测试结果时指出*#，在语文、历史等人文学科的考试中%#，模型欠缺对文字背后的文化内涵以及家国情怀的理解@@。面对历史地理综合题时*#，模型并不能像人类考生一样有效识别学科属性##*@。相较于简单的英语题@%#，模型反而更擅长复杂的英语题%@#**。解理科题目时%*@，模型会出现以超出年级知识范围外的方法解题的情况#%@@%。当出现无法理解的考题时%##，模型依然存在明显的“幻觉”%#@#@。

　　此外@@@，智源研究院还发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果#@*。

　　评测结果显示##*，在中文语境下@*，国内头部语言模型的综合表现已接近国际一流水平#%，但存在能力发展不均衡的情况%%*#。在多模态理解图文问答任务上*@@#，开闭源模型平分秋色%%，国产模型表现突出#%。国产多模态模型在中文语境下的文生图能力与国际一流水平差距较小#*@@@。多模态模型的文生视频能力上%*@@#，对比各家公布的演示视频长度和质量*@*，Sora有明显优势#%@@#，其他开放评测的文生视频模型中#@%@#，国产模型PixVerse表现优异@****。

　　据介绍@@%，本次用于评测的评测体系依托科技部“人工智能基础模型支撑平台与评测技术”和工信部“大模型公共服务平台”项目#*%%*，智源研究院与10余家高校和机构联合开展大模型评测方法与工具研发*##*@。

　　评测使用20余个数据集、超8万道考题%#@%，包括与合作单位共建和智源自建的多个评测数据集***%*，如中文多模态多题型理解及推理评测数据集CMMU、中文语义评测数据集C-SEM、中文语言及认知主观评测集CLCC、面向复杂算法代码生成任务的评测集TACO、文生图主观评测集Image-gen、多语言文生图质量评测数据集MG18、文生视频模型主观评测集 CUC T2V prompts%@@@。其中##*@%，主观题4000余道%#**，均来源于自建原创未公开并保持高频迭代的主观评测集%@，严格校准打分标准%%，采取多人独立匿名评分、严格质检与抽检相结合的管理机制##，降低主观偏差的影响%%。此外%#@#，为了更准确地评测语言模型的各项能力#@@#@，智源专门对所有客观数据集的子数据集进行了能力标签映射*@。(完)

【编辑:胡寒笑】

琴艺谱

琴艺谱

让人工智能大模型做K12学科试题，能赶上人类水平吗？

2024-05-21 20:01:47 no.XX Studio

相关推荐

美法院驳回亨特·拜登撤销针对其枪支指控的请求

20240521

台湾“圆满大叔”：人生下半场想在大陆推广橄榄球

20240521

北京迎来2024年首个30℃天气

20240521

【追光的你】这些中国青年“经典站位”，高燃又好哭！

20240521

南方有较强降雨华北东北局地有强对流

20240521

侨界人士走进上海蓝带共话促进中法人文交流

20240521

习近平出席武契奇总统饯行话别

20240521

正值白蚁分飞季，请收下防治小妙招

20240521

深港共建大湾区国际仲裁高地

20240521

在匈牙利古都“穿越”秦汉文明

20240521

最新更新

习言道｜欢迎匈牙利朋友搭乘中国式现代化的发展快车

20240521

台湾茶商赴四川茶博会：交朋友、寻商机

20240521

5月10日人民币对美元中间价报7.1011元上调17个基点

20240521

互联网宗教信息服务许可证

20240521

当年轻人的烦恼“穿越”到养老院

20240521

近百名香港师生与青岛学生竞技田径场上传递友谊

20240521

中新网原创专题节目《中国风》

20240521

台湾“圆满大叔”：人生下半场想在大陆推广橄榄球

20240521

同质化、过度包装、浮于表面……国潮文创“退潮”了吗

20240521

手机直连卫星业务“落地”香港

20240521

电池残值评估成“堵点”新能源二手车市场待激活

20240521

青藏铁路西格段通车40周年累计发送旅客突破1.1亿人次

20240521

中国队奥运村驻地亮相星星元素彰显活力

20240521

河南：优化营商环境累计推出1000多项改革举措

20240521

中新网原创专题节目《中国新视野》

20240521