チャットAIやエージェントAIは文章や画像など多様なデータ形式の入力に対応しています。AIモデルの有用な使い方を研究しているImproving Agentsは、「1000行に及ぶ巨大な表をGPT-4.1 miniに入力する」という条件に最も適したフォーマットを分析し、その結果を公開しています。
Which Table Format Do LLMs Understand Best? (Results for 11 Formats)
https://www.improvingagents.com/blog/best-input-data-format-for-llms
Improving Agentsは1000人の従業員の「ID」「名前」「年齢」「勤務地」「部門」「給与」「職歴」「プロジェクト参加数」をまとめた表」を11種のフォーマットで記述し、GPT-4.1 miniに入力して1000問の問題に対する正答率を測定しました。実験に使われたフォーマットは「JSON」「CSV」「XML」「YAML」「HTML」「Markdown Table」「Markdown KV」「INI」「パイプで区切った文字列」「JSONL」「自然言語」の11種です。
上記のフォーマットのうち、「Markdown KV」は以下のようにMarkdownでキーバリュー型のデータベースを表現したものです。
# Employee Database
## Record 1
```
id: 1
name: Charlie A0
age: 56
city: New York
department: Operations
salary: 67896
years_experience: 7
project_count: 1
```
## Record 2
```
id: 2
name: Grace B1
age: 59
city: Mumbai
department: Marketing
salary: 47248
years_experience: 0
project_count: 43
```
また、自然言語での入力では、以下のように各従業員の情報を文章で説明しました。
Employee Records Summary:
Diana A0 (ID: 1) is a 46-year-old employee working in the Engineering department in London. They earn $141,015 with 7 years of experience and have completed 17 projects.
Grace B1 (ID: 2) is a 59-year-old employee working in the Engineering department in Berlin. They earn $100,066 with 11 years of experience and have completed 32 projects.
Grace C2 (ID: 3) is a 64-year-old employee working in the Engineering department in Dubai. They earn $91,727 with 9 years of experience and have completed 49 projects.
実験の結果は以下の通り。表の記述方式として広く使われているCSVでの正答率は44.3%で、自然言語(49.6%)より低くなりました。最も正答率が高かったのはMarkdown KV(60.7%)で、その後にXML(56.0%)、INI(55.7%)、YAML(54.7%)と続きます。
Improving Agentsは上記の結果をもとに、正確性が求められる環境ではMarkdown KVを、人間にとっての読みやすさが重視される環境ではMarkdownのテーブル形式を利用するように推奨しています。ただし、今回のテストは「1000人の従業員のデータ」を「GPT-4.1 nano」に入力するという条件でしか検証していないため、表の種類やAIモデルが変われば適切なフォーマットが変化する可能性もあります。
この記事のタイトルとURLをコピーする
ソース元はコチラ
この記事は役に立ちましたか?
もし参考になりましたら、下記のボタンで教えてください。