中文通用大模型评测基准superclue发布:gpt居首、讯飞星火国内第-pg电子官方网站试玩网
当前位置: 苏州资讯网 >热点 >

中文通用大模型评测基准superclue发布:gpt居首、讯飞星火国内第-pg电子官方网站试玩网

时间:2023-05-11 14:29   阅读量:14121   

,中文通用大模型综合性评测基准superclue正式发布。

中文通用大模型基准,是针对中文可用的通用大模型的一个测评基准,它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。

它主要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型不同任务的效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?

根据首个榜单显示,国内大模型中,近期发布的星火认知大模型最好,总分53.58分,与gpt-4相比有23个百分点的差距,与gpt-3.5-turbo在总分上有13个百分点的差距。

值得一提的是,讯飞星火认知大模型在对话、百科知识、角色模拟、计算能力、语义理解、逻辑推理方面,已经达到gpt 3.5平齐的水准。

在语义理解方面,讯飞星火认知大模型甚至得到100分的满分,超过gpt-4。

据了解,superclue评测榜单由三部分组成:总榜单、基础能力榜单、中文特性榜单,排行榜会定期更新,可点此访问.

基础能力:包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力。

专业能力:包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力。

中文特性能力:针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等10项多种能力。

总榜单

来源: techweb 编辑: 柳暮雪

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

  • 苏州
  • 江苏
  • 财经
  • 资讯
  • 旅游
  • 文化
周庄 今晚亮灯“灯”你,共度佳节
周庄 今晚亮灯“灯”你,共度佳节
第十四届全国运动会开幕 目前已决出多枚金牌
第十四届全国运动会开幕 目前已决
亿联银行同业交流会开幕,全国各地近66家金融机构125名代表出席会议
亿联银行同业交流会开幕,全国各地
【传承民族经典 弘扬中华武术】苏州市青少年武术锦标赛开赛
【传承民族经典 弘扬中华武术】苏
“鹭岛”为家:苍鹭的东北安家之旅
“鹭岛”为家:苍鹭的东北安家之旅
国家大剧院周末音乐会迎来600场
国家大剧院周末音乐会迎来600场
网站地图