フランスに拠点を置くAI企業のMistral AIが文字起こしAI「Voxtral Mini Transcribe V2」と「Voxtral Realtime」を発表しました。どちらも日本語に対応しており、高速かつ高精度な文字起こしが可能です。
Voxtral transcribes at the speed of sound. | Mistral AI
https://mistral.ai/news/voxtral-transcribe-2
Voxtral Mini Transcribe V2は話者を識別しながら文字起こしすることができるAIです。以下のグラフは各種AIモデルの文字起こし精度を示すもので、横軸がコスト、縦軸がエラー率を示しています。Voxtral Mini Transcribe V2はGemini 2.5 FlashやGPT-4o mini transcribeより高い精度で文字起こしが可能で、Scribe v2より圧倒的に低コストです。
話者の識別製能を示したグラフが以下。Voxtral Mini Transcribe V2が低コストかつ高精度であることが分かります。
Voxtral Realtimeはリアルタイムでの文字起こしを念頭に設計されたAIで、遅延速度を200ミリ秒未満まで抑えることができます。対応言語は日本語、英語、中国語、ヒンディー語、スペイン語、アラビア語、フランス語、ポルトガル語、ロシア語、ドイツ語、韓国語、イタリア語、オランダ語の13種類です。遅延の大きさに応じてに性能が変化し、遅延を2400ミリ秒に設定するとVoxtral Mini Transcribe V2に近い精度で文字起こしが可能です。
Voxtral Mini Transcribe V2とVoxtral RealtimeはAPI経由で利用可能です。また、Voxtral Realtimeはモデルデータが公開されており、ローカル環境でも実行できます。
Voxtral Mini Transcribe 2 – Mistral AI | Mistral Docs
https://docs.mistral.ai/models/voxtral-mini-transcribe-26-02
Voxtral Mini Transcribe Realtime – Mistral AI | Mistral Docs
https://docs.mistral.ai/models/voxtral-mini-transcribe-realtime-26-02
mistralai/Voxtral-Mini-4B-Realtime-2602 · Hugging Face
https://huggingface.co/mistralai/Voxtral-Mini-4B-Realtime-2602
この記事のタイトルとURLをコピーする
ソース元はコチラ
この記事は役に立ちましたか?
もし参考になりましたら、下記のボタンで教えてください。



