人の感情を推測し読み取るAI「R1-Omni」をAlibabaがオープンソースで公開しダウンロード可能に – GIGAZINE

Alibaba Group Holdingが、人間の感情を読み取る能力を備えたAIモデル「R1-Omni」を公開しました。動きと音を通じて感情を分析することが可能とのことです。

GitHub – HumanMLLM/R1-Omni
https://github.com/HumanMLLM/R1-Omni

Alibaba Releases AI Model That Reads Emotions to Take On OpenAI – Bloomberg
https://www.bloomberg.com/news/articles/2025-03-12/alibaba-releases-emotional-intelligence-model-to-rival-chatgpt

Alibaba’s R1-Omni AI Model Expands the Frontier of Emotion Recognition – WinBuzzer
https://winbuzzer.com/2025/03/12/alibabas-r1-omni-ai-model-expands-the-frontier-of-emotion-recognition-xcxwbn/

R1-Omniのベースとなったモデルは、Alibabaの主任研究員であるJiaxing Zhao氏が作成したオープンソースモデル「HumanOmni-0.5B」です。AlibabaはHumanOmni-0.5Bとトレーニング前モデルの「EMER-SFT」、データセットでトレーニングした「MAFW-DFEW-SFT」、そして最終モデルのR1-Omniをすべてオープンソースで公開。それぞれのモデルでパフォーマンスを測定しました。

Alibabaが公開したデモンストレーションムービーが以下。クリックすると再生されます。

各モデルの出力は以下の通りです。開発陣が想定した回答は「怒り」。

◆HumanOmni-0.5B:恐怖。
◆EMER-SFT：映像の中で、茶色のジャケットを着た男が生き生きとした壁画の前に立っている。眉をひそめ、口を開いて不満を表現している。彼の表情と声の特徴から、激しい感情の混乱を経験していることが推測できる。音声の内容には「恐怖」と「声を低くする」という表現があり、緊急事態に直面しているか、感情的に緊張した瞬間に強い感情を表現していることが示唆される。全体として、この男性は深い恐怖感と不安感を経験していることが分析からわかる。回答「恐怖」。
◆MAFW-DFEW-SFT：怒り。
◆R1-Omni：映像の中で、茶色のジャケットを着た男が鮮やかな壁画の前に立っている。茶色のジャケットの下にはピンクのシャツを着ており、髪は黒くカールしている。彼の表情は複雑で、大きな目、少し開いた口、つり上がった眉、眉間にしわを寄せ、驚きと怒りを露わにしている。音声認識技術によれば、彼の声には「お前」、「声を小さく」、「ビクビクしている」といった言葉が含まれており、強い感情や動揺を示している。全体的に、彼は混乱、怒り、興奮の感情状態を示している。回答「怒り」。

2本目のムービーが以下。

回答は以下の通りです。開発陣が想定した回答は「ハッピー」です。

◆HumanOmni-0.5B：ハッピー
◆EMER-SFT：映像では、個人的な空間か勉強部屋と思われる屋内に女性がいる。彼女は赤いヘッドバンドをつけ、白いトップスの上にベージュのブレザーを羽織り、髪は後ろできちんと結んでいる。彼女の表情は、予期せぬことに遭遇したかのような、わずかな戸惑いと驚きを示している。時間が経つにつれ、彼女の感情は落ち着いていくようだが、その具体的な理由は説明されていない。音声では、「but」と「it was」の間に長い沈黙があり、ためらいと不安を示している。字幕はこうなっている「でも、面白かった」。この一文は、本人の戸惑いや驚きを表現しているのだろう。映像の手がかりである女性の少し戸惑ったような表情や驚いたような表情、また全体的な外見や表情から、この文はためらいや不確かな口調を表しているのではないかと推測できる。さらに、「but」と「it was」の間に長い沈黙があることを示す音声の手がかりも、ためらいや不確かさを示している。したがって、この文は、女性の何かに対する興味や好奇心を表すと同時に、ある種のためらいや不確実性も示していることになる。回答「驚き」
◆MAFW-DFEW-SFT：ハッピー
◆R1-Omni：映像では、冒頭のシーンで、目を少し閉じ、口をゆっくりと開けて笑っている女性が映っている。彼女の表情はどこか楽しそうで、その瞬間、何か楽しい状況や愉快な状況を体験していることを示しているのかもしれない。音声では、センテンスとセンテンスの間に間がなく、途切れることなく流れ、トーンは明るく軽快だ。テキストの内容と相まって、登場人物がとても楽しく前向きな感情状態にあることが感じられる。字幕にはこうある「おもしろかった」。この文章は、女性の何かや誰かに対する満足感や好奇心を表現しているのだろう。映像の手がかりで女性が見せている笑いや喜びの感情、音声の手がかりで流れるような軽快で明るい口調が続いている描写から、この文章は女性の何かに対する興味や好奇心を表していると推測できる。この文章の喜びは、全体的な幸福感や積極性の表れと一致している。回答「ハッピー」。

以上のように、Alibabaはモデルに思考過程を書き出させています。これは「検証可能な報酬による強化学習(RLVR)」という手法で、単に回答だけをチェックして誤りを訂正するよりも細かい調整が可能だとされています。

ちなみに、R1-Omniの「R1」が直近に登場した「DeepSeek-R1」を意識したものなのかは不明。なお、R1-Omniは、DeepSeek-R1も使用した教科学習手法「Group Relative Policy Optimization(GRPO)」を用いてトレーニングを効率化したとのことです。

この記事のタイトルとURLをコピーする

DeepSeekがさらに強化されたAIモデル「DeepSeek-R2」を2025年5月までに前倒しで発表か、さらにAPI利用料を最大75％割引きと発表 – GIGAZINE

ついにAIが「自己複製」できるようになったと研究者が主張、スイッチを切られる前に自分のレプリカを作ってシャットダウンを回避 – GIGAZINE

GPT-4oやDeepSeek-V3よりも高性能なAIモデル「Qwen2.5-Max」を中国IT大手のAlibabaがリリース – GIGAZINE

ソース元はコチラ