让人工智能大模型做K12学科试题,能赶上人类水平吗?
▓WSOP金手链得主▓GGPoker[—ggn178.com—]为亚洲最具备实力的一间国际扑克竞技赛事平台,提供一个正规安全有保障的扑克游戏环境,加入立即玩与GGPoker全球玩家一起同乐粤港澳大湾区去年新增常住人口超44万
本文转自:中新网
新人报到|我当古籍“医生”的一天
中新网北京5月21日电(中新财经记者 宋宇晟)记者了解到#@*,近日#%#%#,在北京市海淀区教委支持下@@*,智源研究院联合与海淀区教师进修学校对齐学生测验方式*@%#@,考察大模型与人类学生的学科水平差异@*,其中%%##,答案不唯一的主观题*@%@,由海淀教师亲自评卷*@*%%。
评测发现*%#@,模型在综合学科能力上与海淀学生平均水平仍有差距#%%%,普遍存在文强理弱的情况@@*#,并且对图表的理解能力不足%*%,大模型未来有很大的提升空间#@*。
北京市海淀区教师进修学校校长姚守梅解读大模型K12学科测试结果时指出@%**,在语文、历史等人文学科的考试中##@,模型欠缺对文字背后的文化内涵以及家国情怀的理解@%**。面对历史地理综合题时%*#*%,模型并不能像人类考生一样有效识别学科属性%**。相较于简单的英语题%%,模型反而更擅长复杂的英语题#*#@。解理科题目时*###,模型会出现以超出年级知识范围外的方法解题的情况**。当出现无法理解的考题时#*,模型依然存在明显的“幻觉”%%%。
此外##,智源研究院还发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果#%*。
评测结果显示@#@*,在中文语境下@@*,国内头部语言模型的综合表现已接近国际一流水平#*,但存在能力发展不均衡的情况%%#%@。在多模态理解图文问答任务上###@,开闭源模型平分秋色@#,国产模型表现突出*#@@。国产多模态模型在中文语境下的文生图能力与国际一流水平差距较小%%%%#。多模态模型的文生视频能力上#%#@,对比各家公布的演示视频长度和质量@@@,Sora有明显优势*%%@,其他开放评测的文生视频模型中@#,国产模型PixVerse表现优异@*#。
据介绍@@,本次用于评测的评测体系依托科技部“人工智能基础模型支撑平台与评测技术”和工信部“大模型公共服务平台”项目*#*#%,智源研究院与10余家高校和机构联合开展大模型评测方法与工具研发#@@。
评测使用20余个数据集、超8万道考题@*%,包括与合作单位共建和智源自建的多个评测数据集##@#,如中文多模态多题型理解及推理评测数据集CMMU、中文语义评测数据集C-SEM、中文语言及认知主观评测集CLCC、面向复杂算法代码生成任务的评测集TACO、文生图主观评测集Image-gen、多语言文生图质量评测数据集MG18、文生视频模型主观评测集 CUC T2V prompts@*@@%。其中*#*,主观题4000余道#@%*%,均来源于自建原创未公开并保持高频迭代的主观评测集*%,严格校准打分标准@@*,采取多人独立匿名评分、严格质检与抽检相结合的管理机制#%,降低主观偏差的影响*#。此外@@#,为了更准确地评测语言模型的各项能力*%@*@,智源专门对所有客观数据集的子数据集进行了能力标签映射#*。(完)
分享让更多人看到
热门排行
- 1美法院驳回亨特·拜登撤销针对其枪支指控的请求
- 2海上丝绸之路上的峇峇娘惹文化展吸引游客打卡
- 3侨界人士走进上海蓝带共话促进中法人文交流
- 4外媒关注习近平欧洲行:“获宾至如归般欢迎”
- 5因《哈利·波特》闻名全球英国格伦芬南高架桥将翻修
- 6南非建筑倒塌已致8人死亡72小时后搜救工作尚未停止
- 7瞰中国迈向新中国的脚印
- 8我国首批适老化药品说明书已上市你注意到了吗?
- 9疯狂的黄金一天一个价,现在还能买吗?
- 10法国埃菲尔铁塔长高了直升机为其安装6米高新天线
- 11习近平出席武契奇总统饯行话别
- 12三十一个省份一季度GDP数据出炉——经济运行开局良好
- 13【东西问·中外对话】联合国环境问题专家:中国为应对气候变化付出诸多努力外界应加深了解
- 14瞰中国丨旅游吗?我们陪你
- 15除了刷牙,还要刷舌头吗?
- 16中新网原创专题节目《中国风》
- 17电池残值评估成“堵点”新能源二手车市场待激活
- 18北京动物园:科普馆因展区设施检修临时关闭
- 19深港共建大湾区国际仲裁高地
- 20近百名香港师生与青岛学生竞技田径场上传递友谊