名古屋大学大学院情報学研究科の研究チームが、日本語全二重(Full-duplex)音声対話システム「J-Moshi」を発表しました。J-Moshiは近年注目を集めている同時双方向的な音声対話システムを、日本語でも実現するという点で画期的であり、英語の全二重音声対話システムであるMoshiをベースとしています。
J-Moshi
https://nu-dialogue.github.io/j-moshi/
[2506.02979] Towards a Japanese Full-duplex Spoken Dialogue System
https://arxiv.org/abs/2506.02979
First publicly available Japanese AI dialogue system can speak and listen simultaneously
https://techxplore.com/news/2025-07-japanese-ai-dialogue-simultaneously.html
自然な日本語の会話は、英語よりも頻繁に「なるほど」や「そうですか」といった返答を繰り返すため、自然な会話をAIで実現するには「話すこと」と「聞くこと」の両方を同時に行う必要があります。しかし、従来のAIは「話すこと」と「聞くこと」の両方を行うことができなかったため、あいづちを行うことが困難でした。
名古屋大学大学院情報学研究科の東中研究室の研究者が率いる開発チームは、オープンソースAI研究所のKyutaiが開発した音声対話システム・Moshiを改良し、J-Moshiを構築しました。
Moshiはリアルタイムに感情表現可能なAI音声アシスタントです。
リアルタイムに感情表現可能なAI音声アシスタント「Moshi」をフランスのAI研究所が公開 – GIGAZINE
J-Moshiの開発には約4カ月かかっており、複数の日本語音声データセットを用いてトレーニングが行われています。
J-Moshiは人間の話し方を完璧に模倣するAIシステムで、日本語の自然な会話の流れを捉えており、日本語話者が会話中に行う「あいづち」も完璧に模倣しています。
以下の動画を再生すればJ-Moshiの音声出力が以下に自然なものかがわかります。
トレーニングに使用されたデータセットには、東京大学が作成・公開している日本語対話データセットJ-CHATが含まれています。J-CHATはポッドキャストとYouTubeから収集された、約6万7000時間の音声データが含まれたデータセットです。
開発チームは他にも研究室内で収集された音声データや、20~30年前に録音されたデータなど、小規模ながらも高品質な対話データセットをトレーニングに使用しています。トレーニングデータを増やすため、開発チームは音声合成プログラムを用い、チャットで作成した会話を人工音声に変換しトレーニングに利用しました。
J-MoshiはHugging Faceでも公開されています。
nu-dialogue/j-moshi-ext · Hugging Face
https://huggingface.co/nu-dialogue/j-moshi-ext
英語の音声データに比べて日本語の音声データは限られているため、従来の音声対話システムを専門分野や業界に適応させることは困難でした。しかし、J-Moshiなら日本のコールセンターや医療現場、カスタマーサービスといった分野で商用利用できる可能性があると、開発チームは指摘しています。
研究チームのリーダーである東中竜一郎教授は、2020年に名古屋大学の教授に就任するまで、NTTで企業研究員として19年間勤務した経歴を持っています。NTTでは音声エージェントサービスの「しゃべってコンシェル」の質疑応答機能開発プロジェクトをはじめ、コンシューマー向け対話システムや音声エージェントの開発に携わってきた人物です。
この記事のタイトルとURLをコピーする
ソース元はコチラ
この記事は役に立ちましたか?
もし参考になりましたら、下記のボタンで教えてください。