本文に移動
全体  > 経済

キラー問題もスラスラ…「韓国製数学AI」、ChatGPT抜き世界評価1位

登録:2024-01-09 09:32 修正:2024-01-09 09:51
KTの投資得てアップステージとマスプレッソが共同開発
アップステージ提供//ハンギョレ新聞社

 韓国の人工知能(AI)スタートアップ「アップステージ」は、KTから投資を受けてAIベースの学習プラットフォーム「QANDA(クァンダ)」を運営するマスプレッソと共同で数学ドメイン特化言語モデル「MathGPT(仮称)」を開発した。このモデルが数学能力を評価するベンチマーク(性能指標)テストで、オープンAIやマイクロソフト(MS)などのビッグテック企業のモデルを超える成績を収めたと8日に明らかにした。

 アップステージは「130億(13B)のパラメータのMathGPTは『MATH』や『GSM8K』などの言語モデルの数学能力を評価する代表的なベンチマークテストで、マイクロソフトの『ToRA13B』をしのぐ、勇気づけられる成績を収めた」とし、「これは130億(13B)以下のモデルの1位にあたる新記録」だと説明した。アップステージは、MathGPTがベンチマークテストの平均でオープンAIのChatGPTの性能を超え、MATHのベンチマークではGPT-4をもしのいだと強調した。

 ChatGPTは専門知識のような学習データではなく、大規模テキストデータをベースに学習するため、誤った情報を事実であるかのように答えるという幻覚現象がみられることもある。よって、正確な情報提供が肝心な教育、特に数学分野は、正確性の低さのせいでChatGPTが克服できていない領域だと考えられる。アップステージの関係者は「ChatGPTがこれまで単純データ量で学習してきたとすれば、MathGPTはクァンダの保有する高級数学データをベースとした、数学能力に特化したAIモデル」だと説明した。

 アップステージとマスプレッソによると、MathGPTはMATHのベンチマークテストにおいて1点満点で0.488をたたき出し、130億パラメータ以下のモデルで過去最高点を記録した。GPT-4は0.425、ChatGPTは0.355、ToRA13Bは0.481、ToRA7Bは0.401だった。GSM8Kでは、MathGPTは0.782を記録し、ToRA13B(0.758)を抜いて1位となった。アップステージは「1万2500問の高難度の数学問題からなるMATHのベンチマークと、8500問の小学校の算数問題で算術演算をテストするGSM8Kのベンチマークで同時に最高性能を達成したケースは、世界的にも類例がない」と説明した。

 昨年11月、アップステージとマスプレッソはKTからそれぞれ100億ウォンの戦略的投資を受け、MathGPTの開発に着手した。アップステージはクァンダの数学専門データを学習させ、自然言語ベースの言語モデルが論理的推論とプログラミング化によって複雑な数学問題を解けるようファインチューニング(データに合わせた性能の微調整)をおこなった。

 アップステージのキム・ソンフン代表は、「マスプレッソ、KTとの協力を通じてChatGPTを超える、世界最高水準の数学特化言語モデルを開発したことは意義深い。今後、グローバル1位の巨大言語モデル(LLM)の技術力を基盤として、様々な領域で生成AIのイノベーションを主導していく」と語った。マスプレッソのイ・ヨンジェ代表は「AIチューターによって、アジアにとどまらず世界中の生徒たちの教育経験を革新していく」と語った。

パク・チヨン記者 (お問い合わせ japan@hani.co.kr )
https://www.hani.co.kr/arti/economy/it/1123385.html韓国語原文入力:2024-01-08 10:43
訳D.K

関連記事