「Nejumiリーダーボード Neo」の評価方法
Nejumi LLM リーダーボード Neo(以下、Nejumiリーダーボード)とは、「世の中でオープンになっているモデルで一番精度がいいのはどれか、いろいろな指標で評価をしてベンチマークするもの」だ。Stability AIの評価チーム(日本)の助力のもと開発された同サービスは、今や日本最大級のLLMリーダーボードとなっている。
なお、サービス名の「Nejumi」は山本氏のKaggleのIDでもある。「夏休みの休暇から帰ってきたら、私の名前がつけられていた」といい、山本氏にとっても強い愛着のあるサービスのようだ。
そんなNejumiリーダーボードの特徴は、多面的かつビジュアライゼーションに優れた評価手法にあるという。ここでいう「多面的」とは、大きく異なる2つの側面を持つ評価を組み合わせているという意味だ。評価は「一問一答形式」とマルチターンによる「会話形式」を組み合わせている。
1つ目の一問一答形式では、主にJasterを使った評価「llm-jp-eval」を行う。llm-jp-evalは、llm-jp勉強会で構築された日本語LLMを評価するツールだ。Jasterはllm-jp-evalの一部であり、常識的な推論を行う「JCommonsenseQA」など、複数のサブ評価タスクを含んでいる。
このような簡単な択一式テストの評価方法としては「尤度選択式」と「テキスト生成式」の2種類が存在する、と山本氏は説明する。
尤度選択式は、モデルが与えられた選択肢の中から、最も尤もらしい(確率の高い)答えを選ぶ方式だ。古典的な分類問題だが、シンプルで迅速に評価できるというメリットがある。
一方のテキスト生成式は、択一式や抜き出し問題であっても、モデルの全ボキャブラリーから指定の答えを生成させるというものだ。質問に対して自然言語で答えを生成できるのがメリットだが、たとえば「int型で返せ」と命令したにもかかわらず文字列で回答してしまうなど、フォーマットに関わる誤りが発生することもある。
このうちNejumiリーダーボードで採用されたのは後者の「テキスト生成式」だ。その理由について山本氏は、「BERT世代などのモデルで従来の分類や課題を解かせる場合には、尤度選択式が非常に適合している。しかし今の時代の生成系のモデルであれば、テキスト生成式の方があるべき姿と考えた」と話す。
2つ目の評価手法は、MT-bench(JP)を用いた会話形式で評価する方法だ。MT-benchとは、一つの質問に対してモデルが答え、その答えを基にさらに質問を重ねるというマルチターン形式によって、LLMを評価するためのベンチマークだ。
例えば「新入社員へのビジネスメールのエチケットについて指導書を作成してください。敬語の正しい使い方や日本のビジネス文化での注意点を取り入れてください」という質問をすると、モデルが何らかの答えを返す。それを受けて、もう一度「自分の作成した指導書を客観的に評価し、改善例があれば指摘してください」などと質問するという手法がこれにあたる。1回目で出力した答えが2回目のインプットにもなる点が、この手法のユニークな部分だ。
「先ほどのような択一式ではないので、表現力や流暢性、数学やコーディング能力などがより問われる。コーディングの場合なら、ちゃんと動作するコードを書かないと2回目のアウトプットで『怒られる』わけだ」と山本氏。
上記の事例はライティングだったが、実際には全8つのカテゴリー、各10問の課題が出題される。それぞれに2ターン回答するため、合計160回の回答が生成されることになる。
このように自由な出力をさせて、評価は一体どのように行うのか。山本氏は、「採点はGPT‐4に任せている」と明かす。「模範解答とモデルの答えをセットで渡し、それを正解とするかどうかをGPT‐4に決めさせる。モデルベースエヴァルエーションあるいは、LLM-as-a-Judge(※)という、最近流行っている手法の一つだ」。これにより、自由回答形式であっても正誤が判定できる。
※LLMモデルの評価において、別の高性能なモデルを使って評価を行う手法