Metaが1600以上の言語に対応した文字起こしAI「Omnilingual ASR」を公開 – GIGAZINE

2025年11月11日 11時08分
AI

Metaが文字起こしAI「Omnilingual ASR」をリリースしました。Omnilingual ASRは日本語を含む1600以上の言語の文字起こしに対応しており、対応言語を簡単に追加できることも特徴としています。

Omnilingual ASR: Open-Source Multilingual Speech Recognition for 1600+ Languages | Research – AI at Meta
https://ai.meta.com/research/publications/omnilingual-asr-open-source-multilingual-speech-recognition-for-1600-languages/

Omnilingual ASR: Advancing Automatic Speech Recognition for 1,600+ Languages
https://ai.meta.com/blog/omnilingual-asr-advancing-automatic-speech-recognition/

文字起こしAIを開発するには、膨大な学習データを用意するのが一般的です。Omnilingual ASRでは70億パラメーターの音声エンコーダー「wav2vec 2.0」を採用することで必要な学習データの削減に成功しました。

対応する1600以上の言語のうち78％の言語で文字誤り率(CER)が10％を下回っています。CERが10％を下回った言語のうち、50時間以上の学習データを必要としたのは236言語で、195言語は10時間未満の学習データでトレーニングされました。また、Omnilingual ASRは大規模言語モデルなどで採用されているコンテキスト内学習(In-Context Learning)に対応しており、少ない操作で対応言語を増やすことができます。これにより、Whisperなどの既存モデルと比べて圧倒的に多くの言語をサポートできます。

Omnilingual ASRを実行できるデモページが以下のリンク先で公開されています。

Omnilingual ASR Media Transcription – a Hugging Face Space by facebook
https://huggingface.co/spaces/facebook/omniasr-transcriptions

実際にGIGAZINEの記事を読み上げて文字起こししてみたところ、「ブラックチキンラーメン」が「ボック地金の雨」という謎フレーズになってしまいました。

Omnilingual ASRのソースコードやドキュメントは以下のリンク先で公開されています。

GitHub – facebookresearch/omnilingual-asr: Omnilingual ASR Open-Source Multilingual SpeechRecognition for 1600+ Languages
https://github.com/facebookresearch/omnilingual-asr

対応言語一覧は以下のコードに記されています。日本語も「jpn_Jpan」として記載されています。また、対応言語を探索できるインタラクティブなページも用意されています。

omnilingual-asr/src/omnilingual_asr/models/wav2vec2_llama/lang_ids.py at main · facebookresearch/omnilingual-asr · GitHub
https://github.com/facebookresearch/omnilingual-asr/blob/main/src/omnilingual_asr/models/wav2vec2_llama/lang_ids.py

さらに、Omnilingual ASRの開発時に収集された音声データセット「Omnilingual ASR Corpus」も公開されています。

facebook/omnilingual-asr-corpus · Datasets at Hugging Face
https://huggingface.co/datasets/facebook/omnilingual-asr-corpus

この記事のタイトルとURLをコピーする

ソース元はコチラ

この記事は役に立ちましたか？

もし参考になりましたら、下記のボタンで教えてください。

テックニュース

Metaが「いいね！」埋め込みボタンを廃止すると発表前の記事スマート電球に「マインクラフト」のサーバーを実装する - GIGAZINE 次の記事

関連記事

ついにFFmpegがWebRTCサポートを統合、OBSで1秒未満の超低遅延配信が実現＆最新コーデックの選択可能＆サーバー不要の配信すらも可能に – GIGAZINE

Threadsのウェブアプリ版がThreads.netからThreads.comへ正式に移行、同時に新機能も追加される – GIGAZINE

自分で3DCGアニメを作れる体験会に参加してきたレポート、Unityを操作してカメラワークを自由に設定可能【マチ★アソビ vol.28】 – GIGAZINE

MetaがMeta AI＆Editsアプリに生成AIによる動画編集機能を追加、期間限定無料でユーザーは50以上のプリセットプロンプトを使用して最大10秒の動画を編集可能に – GIGAZINE

サイバートラックのオーナーがテスラのドライバーへの数カ月に及ぶ憎悪に困惑、「まさか自分が敵視されるとは」「サイバートラックを買えば注目されると思ったが反感を買うとは」との声 – GIGAZINE

氷を曲げると電気が生まれることが判明、長年の謎だった雷の発生メカニズムを解明する糸口になる可能性