2024年10月18日
中国アジアITライター
1976年生まれ、東京都出身。2002年より中国やアジア地域のITトレンドについて執筆。中国IT業界記事、中国流行記事、中国製品レビュー記事を主に執筆。著書に『中国のITは新型コロナウイルスにどのように反撃したのか?』(星海社新書)『中国のインターネット史 ワールドワイドウェブからの独立』(星海社新書)『新しい中国人 ネットで団結する若者たち』(ソフトバンククリエイティブ)など。
中国には2700万人の聴覚障がい者がいると報じられている。近年のネットテクノロジーのおかげで動画には字幕がつき、端末に文字を入力すれば音声で出力できるようになるなど、大きく環境は改善した。この記事では、さらにテクノロジーで聴覚障がい者が意思を伝達できるようにするための各社の取り組みを紹介したい。
音が聞こえない人のために手話があり、手話ができるようになれば意思を伝えることができる。中国のテレビ番組の中には、画面の隅で手話で音声を紹介する番組もあるのでそれを見て意味がわかるようになる。とはいえ言語を学ぶというのは簡単ではなく、何かの拍子に音が聞こえなくなったから、と手話を身に付けようと思うと難しい。
2012年に北京師範大学が約1万人の聴覚障がい者を対象に実施した調査によると、「テレビ局の手話ニュースの多くを理解できる」との回答はわずか8%で、「一部は理解できる」という回答は56%、「わからない」との回答は29%だった。
この背景としては、まず人々の生活の中で慣れ親しまれてきた自然な手話と標準手話は別のもので、手話の規格が統一されてないという問題がある。また地域ごとの自然手話にも大きな違いがあり、異なる背景の人々による手話によるコミュニケーションがうまく成り立たない問題もある。初等教育では一律で標準語を教えるように、特別支援学校では全国標準の手話を使うが、前述の通り、完璧にわかる人が少ないので教員の数も不足している。また手話の語��も十分ではない。手話の語彙数は約8000語あり、日常の学習やコミュニケーションには対応できるが、「人工知能」や「メタバース」などの比較的新しい専門用語は、手話で完全に表現するのが難しく、同義語に置き換える形で単語を組み合わせるしかない。
とすると、聴覚障がい者にとっての問題のひとつは、標準手話が学びにくいということだとわかる。そこで、聴覚障がい者がいかに効率的に手話を学び、円滑なコミュニケーションを実現し、情報交換の「時間差」を短縮できるかが、多くのテクノロジー企業の取り組みの方向性となっている。
この問題に対し、手話学習アプリなどを手がける千博信息というIT企業は、大規模モデルを活用した手話学習端末を開発した。その端末は既に数十の学校に導入されているという。画面では端末が生成したCGモデルが文字に合わせ動き、文字にあった動作かどうかを認識して正答かどうか判断するというもの。
この端末は大規模3モーダル(画像、テキスト、音声)モデルを内蔵し、テキストから画像への自動生成を行うことで手話の動作動画を作成できるほか、リアルタイム��手話語彙認識、表情、口唇言語認識の機能を備えている。また、大規模モデル活用により、前述の「人工智能」や「メタバース」といった手話にない語彙を既存の語彙に分解することで表現を映像として出力できる。これにより新しい語彙のタイムリーな学習と更新も実現できる。
製品化の過程では、ファーウェイが開発したディープラーニング、機械学習、人工知能のためのOSSフレームワーク「MindSpore」および、同社の高性能な計算能力を持つAIチップ「Ascend」が搭載されたハードウェアを採用し、さらに中国科学院が開発した大規模3モーダルモデル「紫東太初」を導入した。手話の語彙、文法、言語材料を多数学習させ、MindSporeAIフレームワークに基づいてマルチモーダル手話モデルを開発した。
ちなみに、ファーウェイ自身も聴覚障がい者向けソリューションを開発している。同社が開発するOS「HarmonyOS NEXT」にある音声復元機能では、聴覚障がい者の話した発音を正確に識別し、それを標準中国語に変換して音声でアウトプットし、声をより明瞭で標準的なものにしている。HarmonyOS NEXTはまだ執筆段階でパブリックベータ版であり対応機種は少ないが、低価格モデルまで多くのファーウェイの端末に入れば、声が思うように出せない人に福音となるだろう。
大規模モデルで聴覚障がい者を救おうという試みは、2012年より手話認識と翻訳の実生活における応用と研究を行う安徽(アンキ)省合肥の合肥国家総合科学センター人工知能研究所でも進んでいる。中国国内でも合肥は、ベンチャー企業が多く起業意欲が高い人が集まる場所として知られている。
同研究所は動画による手話認識システムを模索し、手話の理解における最初の大規模手話モデルであるSignBERTを開発。自治体向けに聴覚障がい者の手話質問・回答システムを開発した。
このシステムは手話の動作をテキスト文に翻訳するプロセス、次にテキスト文から大規模言語モデルと文書検索よりテキストでの回答を導き出すプロセス、そして自然言語のテキストの回答を手話の文法規則に準拠したデジタル人間の手話ビデオに変換するプロセスから成り立っている。やはり大規模言語モデルを使って文章をわかる形で変換できるのが大きい。
実際にカメラに手話をみせると、システムが手話をリアルタイムでテキストに変換し、音声でアウトプットする。さらにシステムはこの手話に対してテキストで応答を自動生成し、画面上のバーチャルキャラクターが手話で生成された応答を表現する。
このシステムを通すことで、手話を知らない人でも聴覚障がい者が手話で言っていることを理解することができる。つまり、今回のケースは手話ができる人が手話を知らない相手に伝えるためのシステムと言える。
今後は、微信(WeChat)や支付宝(Alipay)のミニプログラム向けの手話質疑応答システムをつくることで、聴覚障がい者が公共政策や公共サービス情報について問い合わせられるようにしていくという。さらに長期的な目標としては、手話質疑応答システムをより幅広い応用シナリオに活用させることを目指していくとしている。
余談だが、合肥のAI企業と言えば日本にも進出するアイフライテックだ。長年スマートスピーカーなど音声系AIに携わってきた同社は、聴覚障がい者向けに音声系AIで聴きやすくブラッシュアップされた補聴器をリリースしている。さらに余談だが、WeChatのテンセントからもボイスチャットで磨いたソフトパワーで補聴器をリリースしている。AIの力でスマホのカメラ性能が上がったように、AI補聴器は安くて聴きやすいと好評だ。今後さらにブラッシュアップされたAI補聴器が出てくるかもしれない。
ところで、バーチャルキャラクターによる手話が表舞台に登場したのは2022年の北京冬季オリンピック・パラリンピック(オリパラ)のころだ。大手ではバイドゥやテンセントが開発に参加したほか、マシンビジョンに強いIT企業「凌雲光」が、入力された文字からキャスターが動作する動画へと変換するマルチモーダル手話素材収集ソリューションを開発し、中国のオリンピック番組で活用された。当時バーチャルキャラクターはゼロコロナ体制下の中国で盛り上がり、様々なサービスが出てきてはいたが、手話に特化したサービスは珍しかった。
2022年に行われる北京冬季オリパラで導入されるということで、凌雲光は大会に向けて北京障がい者連盟や、ろう者協会などの関連組織と協力して開発に取り組んでいた。
手話は体の部位、ジェスチャー、表情を活用した包括的な言語である。当時中国に存在する手話コーパス(大規模に収集し、コンピュータで検索できるようにすべく整理されたデータベース)の数は少なく、そのほとんどが画像や動画などの2次元的な平面素材ばかりで、AI学習のニーズを満たすものではなかった。手話の語順は中国語とは大きく異なり、方言の区別もより複雑で、なによりも表情、口の形、動きなどを通じて情報を伝える必要がある。従来の2次元の平面画像や映像の収集に加え、3次元の身体の動きや表情情報のデータ収集や構造化されたパラメータ表現が不可欠だ。そこで、モーションキャプチャのほか、表情や手指動作のキャプチャなどをした上で、無数のデータのラベリングを実施し学習させた。3か月以内に10万項目からなる高品質な手話の学習が完了し、北京冬季オリパラに登場した凌雲光社のAIデジタルキャラクターに活用されたという。
GPT-3ベースのChatGPTは2022年11月に公開され話題になったが、中国ではその年の冬季オリパラに向けて大規模マルチモーダルモデルによる手話サービスが開発されていたわけだ。開発の結果、サービスが運用できただけでなく、その作業プロセスにおいて中国の手話データベースの構築が大幅に改善され、手話の普及とAIの研究によりコーパスのデータ資産が残された。国際的なビッグイベントが決まり、政府が後押ししたときの開発力を改めて感じるところだ。
中国政府はバリアフリーや高齢者対応に向けて様々な計画や目標を発表している。2023年10月には国家標準手話の習得テストに関して定めた「視力残疾和聴力残疾人員普通話水平測試管理方法」を発表した。最初に紹介した千博信息の手話学習端末はまさに政府の方針にあった形だ。今後、他の企業も政府方針に従い、手話のAIソリューションをリリースすれば、耳が不自由な人がテクノロジーでより救われる可能性がある。
関連記事
人気記事