GMOメディア---「日本語言語モデルの実践的評価」研究によりIT分野での大規模言語モデル(LLM)の能力差を解明
GMOメディア<6180>は11日、「日本語言語モデルの実践的評価」研究によりIT分野での大規模言語モデル(LLM)の能力差を解明したと発表。
現在、各方面でChatGPTをはじめとする大規模言語モデル(LLM)の評価が行われており、医療や法律といった特定の専門分野での有用性に関する評価も進められている。今回、IT分野においてLLMがどの程度の能力を持っているかを解明することを目的に研究を実施。
「大規模言語モデルの日本語実践的評価:JGLUEとITパスポート試験を用いた比較分析」をテーマとした研究を実施、現在公開されている大規模言語モデル(LLM)のIT分野における推論・問題解決能力を、ITパスポート試験を解答させた。
結果から、IT分野の問題に対して一定程度論理的な解答を導き出すことが期待できることが判明、最も解答の精度が高かったのは「ELYZA-japanese-Llama-2-7b-instruct」で正答率は72.3%だった。
また、LLMに補助的にITパスポート試験に関するヒント(プロンプト)を入力することで、ほとんどのLLMでヒントを与えない場合よりも出力(解答)の精度を上げることができた。
これにより、IT分野での正確な解答を導き出す力はLLMのモデル間で差異があり、IT分野に関してLLMに質問をする場合は、ある程度有効的に活用できるLLM(「gpt-3.5-turbo-1106」「gpt-4-11-6-preview」「ELYZA-japanese-Llama-2-7b-instruct」)と、活用に注意しなければならないLLMがあることが分かった。
《SI》
提供:フィスコ