share_log

智源研究院:国内头部模型已达国际一流水平,但能力发展不均衡

智源研究院:國內頭部模型已達國際一流水平,但能力發展不均衡

新浪科技 ·  05/18 02:21

新浪科技訊 5月18日下午消息,在北京智源研究院(智源研究院)大模型評測發佈會上,智源評測體系發佈並公佈了140餘個國內外開/閉源語言及多模態大模型能力評測結果。評測結果顯示,在中文語境下,國內頭部語言模型的綜合表現已接近國際一流水平,但存在能力發展不均衡情況;在多模態理解圖文問答任務上,開閉源模型平分秋色,國產模型表現突出;在中文語境下的文生圖能力上,國產多模態模型與國際一流水平差距較小。

據評測結果,在中文語境下,字節跳動豆包Skylark2、OpenAI GPT-4位居第一、第二,國產大模型更懂中國用戶。在語言模型客觀評測中,OpenAI GPT-4、百川智能Baichuan3位列第一、第二。百度文心一言4.0、智譜華章GLM-4和月之暗面Kimi均進入語言模型主客觀評測前五。

多模態理解模型客觀評測結果顯示,圖文問答方面,阿里巴巴通義Qwen-vl-max與上海人工智能實驗室InternVL-Chat-V1.5先後領先於OpenAI GPT-4,LLaVA-Next-Yi-34B和上海人工智能實驗室Intern-XComposer2-VL-7B緊隨其後。

在海淀區教委支持下,智源研究院聯合與海淀區教師進修學校對齊學生測驗方式,考察大模型與人類學生的學科水平差異。評測發現,模型在綜合學科能力上與海淀學生平均水平仍有差距,普遍存在文強理弱的情況,並且對圖表的理解能力不足,大模型未來有很大的提升空間。

據介紹,2023年6月,智源研究院與多個高校團隊共建FlagEval大模型評測平台上線,迄今爲止已完成1000多次覆蓋全球多個開源大模型的評測和報告發布。本次評測使用了20餘個數據集、超8萬道考題,包括與合作單位共建和智源自建的多個評測數據集。(文猛)

声明:本內容僅用作提供資訊及教育之目的,不構成對任何特定投資或投資策略的推薦或認可。 更多信息
    搶先評論