久しぶりにtiktokenでトークナイザの性能変遷を確認してみる | ヘッドウォータースのフィード


執筆日2025/09/16 概要最近トークナイザの変化についてリリースノートにあんまり書かれてないなと思ったので今一度トークン化の効率を確認してみようという趣旨です。結論として、GPT-4o以降はトークナイザは変更がなく、共通のo200k_baseを使っていてトークン化の効率は変わっていませんでした。そんなにトークナイザを作り直すメリットないのか、既に十分最適化されていてこれ以上になることが期待できないのか、トークナイザを作り直したときに書き直さなければならない諸々のことを考えると現実的ではないのか。その辺りの事情は分かりません。 検証 インストール$ pip …


元の記事を確認する

関連記事