share_log

智源研究院:国内头部模型已达国际一流水平,但能力发展不均衡

智源研究院:国内のトップモデルは国際的な一流水準に達していますが、能力の発展が不均衡です。

新浪科技 ·  05/18 02:21

5月18日の北京智源研究院(智源研究院)にて、智能評価システムが発表され、国内外の140以上のオープンソース/クローズソース言語および多様なモデル能力評価結果が公開された。評価結果によると、中国語の文脈では、国内の主要言語モデルの総合的なパフォーマンスが国際的なトップクラスに迫る水準に達しているが、能力の発展が不均衡な状況がある。 多様なモデル理解図形式問答タスクでは、オープンおよびクローズソースモデルが同等のパフォーマンスを示しており、国内のモデルのパフォーマンスが優れている。中国語の文脈でのビジュアルキャパビリティに関して、国産の多様なモデルは国際トップレベルと同等のレベルに達している。

評価によると、中国語の文脈で、バイトトーク豆包Skylark2、OpenAI GPT-4が第1、第2位に位置し、国産の大規模モデルが中国のユーザーをより理解している。言語モデル客観的評価において、OpenAI GPT-4とBaiChuan Intelligence Baichuan3が第1、第2位にランクインしています。Baidu Wenyi Yiyuan 4.0、Zhipu Huazhang GLM-4、月之暗面Kimiは言語モデルの主客観的評価のトップ5に入っています。

多様なモデル理解モデル客観的評価の結果、図形式問答において、アリババ通義Qwen-vl-maxと上海人工知能実験室InternVL-Chat-V1.5が最も優れた結果を発表し、OpenAI GPT-4がこれに続き、LLaVA-Next-Yi-34Bと上海人工知能実験室Intern-XComposer2-VL-7Bがそれに続いている。

海淀区教育委員会の支援を受け、智源研究院は海淀区教師進修学校と協力して、生徒の試験方法を合わせ、大規模モデルと人間の生徒の学科レベルの差異を調査しました。評価では、モデルは総合学科能力において海淀区の生徒の平均水準にはまだ達しておらず、文強理弱という問題が普遍的であり、グラフの理解力が不十分であり、将来的に大規模な改善が必要です。

智源研究院は2023年6月にFlagEval大規模モデル評価プラットフォームを多くの大学チームと共同して立ち上げ、これまでに1000箇所を超えるオープンソースの大規模モデルを評価し、報告を公開しました。今回の評価は20以上の異なるデータセットと8万を超える試験問題に基づいています。当該データセットは、共同の建設と智源研究院による複数の評価データセットを含む。 (文猛)

これらの内容は、情報提供及び投資家教育のためのものであり、いかなる個別株や投資方法を推奨するものではありません。 更に詳しい情報
    コメントする