SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

Developers Summit 2024 セッションレポート

LLMの日本語能力は? リーダーボード「Nejumi.ai」の開発・運営から見えてきた課題

【15-B-7】LLMの日本語能力はいかほど?日本最大級のLLMリーダーボードNejumi.aiの開発と運営

 ChatGPTをはじめ、オープンに利用できる大規模言語モデル(LLM)が続々と公開される中、これらの日本語能力はどれほどのものなのだろうか。本セッションでは、さまざまなLLMモデルを一律で比較するための日本最大級のリーダーボード「Nejumi.ai」の開発と運営を行っている、Weights & Biases Japan機械学習エンジニアの山本 祐也氏が登壇。最新のLLMモデルの日本語能力の評価方法、評価を深掘りして分析することで得られたさまざまな知見、オリジナルのリーダーボードの作成方法などについて解説した。

「Nejumiリーダーボード Neo」の評価方法

 Nejumi LLM リーダーボード Neo(以下、Nejumiリーダーボード)とは、「世の中でオープンになっているモデルで一番精度がいいのはどれか、いろいろな指標で評価をしてベンチマークするもの」だ。Stability AIの評価チーム(日本)の助力のもと開発された同サービスは、今や日本最大級のLLMリーダーボードとなっている。

 なお、サービス名の「Nejumi」は山本氏のKaggleのIDでもある。「夏休みの休暇から帰ってきたら、私の名前がつけられていた」といい、山本氏にとっても強い愛着のあるサービスのようだ。

Weights & Biases Japan 機械学習エンジニア 山本 祐也氏
Weights & Biases Japan 機械学習エンジニア 山本 祐也氏

 そんなNejumiリーダーボードの特徴は、多面的かつビジュアライゼーションに優れた評価手法にあるという。ここでいう「多面的」とは、大きく異なる2つの側面を持つ評価を組み合わせているという意味だ。評価は「一問一答形式」とマルチターンによる「会話形式」を組み合わせている。

一問一答形式/マルチターンによる会話形式という2つの評価系を持つNejumiリーダーボード
一問一答形式/マルチターンによる会話形式という2つの評価系を持つNejumiリーダーボード

 1つ目の一問一答形式では、主にJasterを使った評価「llm-jp-eval」を行う。llm-jp-evalは、llm-jp勉強会で構築された日本語LLMを評価するツールだ。Jasterはllm-jp-evalの一部であり、常識的な推論を行う「JCommonsenseQA」など、複数のサブ評価タスクを含んでいる。

 このような簡単な択一式テストの評価方法としては「尤度選択式」と「テキスト生成式」の2種類が存在する、と山本氏は説明する。

 尤度選択式は、モデルが与えられた選択肢の中から、最も尤もらしい(確率の高い)答えを選ぶ方式だ。古典的な分類問題だが、シンプルで迅速に評価できるというメリットがある。

 一方のテキスト生成式は、択一式や抜き出し問題であっても、モデルの全ボキャブラリーから指定の答えを生成させるというものだ。質問に対して自然言語で答えを生成できるのがメリットだが、たとえば「int型で返せ」と命令したにもかかわらず文字列で回答してしまうなど、フォーマットに関わる誤りが発生することもある。

 このうちNejumiリーダーボードで採用されたのは後者の「テキスト生成式」だ。その理由について山本氏は、「BERT世代などのモデルで従来の分類や課題を解かせる場合には、尤度選択式が非常に適合している。しかし今の時代の生成系のモデルであれば、テキスト生成式の方があるべき姿と考えた」と話す。

Nejumiリーダーボードではテキスト生成式を採用している
Nejumiリーダーボードではテキスト生成式を採用している

 2つ目の評価手法は、MT-bench(JP)を用いた会話形式で評価する方法だ。MT-benchとは、一つの質問に対してモデルが答え、その答えを基にさらに質問を重ねるというマルチターン形式によって、LLMを評価するためのベンチマークだ。

 例えば「新入社員へのビジネスメールのエチケットについて指導書を作成してください。敬語の正しい使い方や日本のビジネス文化での注意点を取り入れてください」という質問をすると、モデルが何らかの答えを返す。それを受けて、もう一度「自分の作成した指導書を客観的に評価し、改善例があれば指摘してください」などと質問するという手法がこれにあたる。1回目で出力した答えが2回目のインプットにもなる点が、この手法のユニークな部分だ。

 「先ほどのような択一式ではないので、表現力や流暢性、数学やコーディング能力などがより問われる。コーディングの場合なら、ちゃんと動作するコードを書かないと2回目のアウトプットで『怒られる』わけだ」と山本氏。

 上記の事例はライティングだったが、実際には全8つのカテゴリー、各10問の課題が出題される。それぞれに2ターン回答するため、合計160回の回答が生成されることになる。

 このように自由な出力をさせて、評価は一体どのように行うのか。山本氏は、「採点はGPT‐4に任せている」と明かす。「模範解答とモデルの答えをセットで渡し、それを正解とするかどうかをGPT‐4に決めさせる。モデルベースエヴァルエーションあるいは、LLM-as-a-Judge(※)という、最近流行っている手法の一つだ」。これにより、自由回答形式であっても正誤が判定できる。

※LLMモデルの評価において、別の高性能なモデルを使って評価を行う手法

次のページ
LLM評価の課題とわかったこと

この記事は参考になりましたか?

Developers Summit 2024 セッションレポート連載記事一覧

もっと読む

この記事の著者

丸毛 透(マルモ トオル)

インタビュー(人物)、ポートレート、商品撮影、料理写真をWeb雑誌中心に活動。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

CodeZine編集部(コードジンヘンシュウブ)

CodeZineは、株式会社翔泳社が運営するソフトウェア開発者向けのWebメディアです。「デベロッパーの成長と課題解決に貢献するメディア」をコンセプトに、現場で役立つ最新情報を日々お届けします。

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

水無瀬 あずさ(ミナセ アズサ)

 現役エンジニア兼フリーランスライター。PHPで社内開発を行う傍ら、オウンドメディアコンテンツを執筆しています。得意ジャンルはIT・転職・教育。個人ゲーム開発に興味があり、最近になってUnity(C#)の勉強を始めました。おでんのコンニャクが主役のゲームを作るのが目標です。

※プロフィールは、執筆時点、または直近の���事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

CodeZine(コードジン)
https://codezine.jp/article/detail/19784 2024/08/26 11:00

おすすめ

アクセスランキング

アクセスランキング

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

アクセスランキング

アクセスランキング