EU公式24言語と日本語を含むその他11言語に対応したヨーロッパ製の大規模言語モデル「EuroLLM」がオープンソースで公開中なので実際に使ってみたレビュー – GIGAZINE

ヨーロッパの研究機関や企業のコンソーシアムが、英語中心のAI開発に対抗しヨーロッパの言語的多様性を反映したAIの実現を目的としてEUの公式全24言語に加え、その他11言語をサポートする大規模言語モデル(LLM)「EuroLLM」を開発しオープンソースとして公開しています。

eurollm.io
https://eurollm.io/

◆EuroLLMでサポートされているEU公式24言語
・ブルガリア語
・クロアチア語
・チェコ語
・デンマーク語
・オランダ語
・英語
・エストニア語
・フィンランド語
・フランス語
・ドイツ語
・ギリシャ語
・ハンガリー語
・アイルランド語
・イタリア語
・ラトビア語
・リトアニア語
・マルタ語
・ポーランド語
・ポルトガル語
・ルーマニア語
・スロバキア語
・スロベニア語
・スペイン語
・スウェーデン語

◆EuroLLMでサポートされているその他11言語
・アラビア語
・カタロニア語
・中国語
・ガリシア語
・ヒンディー語
・日本語
・韓国語
・ノルウェー語
・ロシア語
・トルコ語
・ウクライナ語

A EuroHPC Success Story: Speaking Freely with EuroLLM – EuroHPC JU
https://www.eurohpc-ju.europa.eu/eurohpc-success-story-speaking-freely-eurollm_en

このプロジェクトには、Unbabel、リスボン工科大学、エディンバラ大学、パリ＝サクレー大学など、ヨーロッパ各地の著名な研究機関や企業が参加しています。

開発チームは「ほとんどのLLMは英語中心であり、英語圏の文化を反映しがちです。私たちは、ヨーロッパの全言語で公平に高性能を発揮するモデルを目指しました」と述べています。

開発の大きな課題として、ギリシャ語のテキストは英語に比べて5～6倍のトークンを消費することがあり、利用コストの不平等につながっていました。この問題に対して、学習データにおける英語の割合を50%に抑え、他の言語にも十分なデータを割り当てることで解決を図っています。この学習システムにはEuroHPCのスーパーコンピュータ「MareNostrum 5」が活用されたとのこと。

Hacker Newsのコミュニティでは、「ヨーロッパの納税者が出資した研究モデルとして重要」「言語の多様性を守る素晴らしいイニシアチブだ」といった肯定的な意見が見られる一方で「既存の商用モデルと比較して性能面でどこまで競争力があるか」といった現実的な課題を指摘する声もあります。LifeArchitect.aiによると、様々な分野のタスクに対する言語モデルの性能を評価するためのベンチマーク指標であるMMLUの値が52.5と他の同クラスのモデルと比較して10ポイント程度劣る結果となっています。