DeepSeekが、AIのトレーニングと推論パフォーマンスを効率化させる並列ファイルシステムである「Fire-Flyer File System(3FS)」を、オープンソースプロジェクトとしてリリースしました。
DeepSeek brings disruption to AI-optimized parallel file systems, releases powerful new open-source Fire-Flyer File System | Tom’s Hardware
https://www.tomshardware.com/pc-components/storage/deepseek-releases-powerful-new-parallel-file-system-fire-flyer-fire-system-made-open-source
DeepSeek AI Releases Fire-Flyer File System (3FS): A High-Performance Distributed File System Designed to Address the Challenges of AI Training and Inference Workload – MarkTechPost
https://www.marktechpost.com/2025/02/28/deepseek-ai-releases-fire-flyer-file-system-3fs-a-high-performance-distributed-file-system-designed-to-address-the-challenges-of-ai-training-and-inference-workload/
DeepSeekは、2025年2月24日からさまざまなAI技術のオープンソース化を発表するイベント「OpenSourceWeek」を催しており、NVIDIAのHopperアーキテクチャベースのGPU向けに開発されたMLAデコードカーネル「FlashMLA」や、Mixture of Experts(MoE)モデルのトレーニングと推論を高速化できる通信ライブラリ「DeepEP」などがこれまでに発表されています。
DeepSeek-R1の開発企業が独自技術を次々にオープンソース化、AIの学習や推論を高速化可能 – GIGAZINE
5日目となる2025年2月28日には、 SSDとRDMAネットワークを念頭に設計された並列ファイルシステムである「3FS」が発表されました。3FSは、Filesystem in Userspace(FUSE)を採用したLinuxベースのファイルシステムで、3FSを自社サーバーに使うことでDeepSeekは7.3TB毎秒の総読み取りスループットを達成しているとのこと。
🚀 Day 5 of #OpenSourceWeek: 3FS, Thruster for All DeepSeek Data Access
Fire-Flyer File System (3FS) – a parallel file system that utilizes the full bandwidth of modern SSDs and RDMA networks.
⚡ 6.6 TiB/s aggregate read throughput in a 180-node cluster
⚡ 3.66 TiB/min…— DeepSeek (@deepseek_ai) February 28, 2025
AIの進化を支えるハイ・パフォーマンス・コンピューティング(HPC)では、GPUが絶えずランダムなトレーニングデータにアクセスしてLLMをトレーニングしており、その際のデータの読み取りは基本的に1回限りです。
特に、同じデータを同じ順序で繰り返し読み取ると、LLMの中で無関係なデータがセットで学習されてしまうため、読み取りキャッシュの使用はAIを開発する上で有害でさえあります。
読み取りキャッシュがほとんど役に立たたないことから、3FSでは読み取りキャッシュをほぼ完全に無視してランダム読み取り速度を最優先としており、この点で3FSは他のファイルシステムとは一線を画しているといわれています。
DeepSeekのサーバークラスターのひとつである「Fire-Flyer 2」のオペレーションを担当するチームが、2024年8月に発表した3FSに関する論文によると、DeepSeekは容量が16TBのSSD16台と、200Gbpsのネットワーク・インターフェイス・カード(NIC)2台で構成されたストレージノードを180台運用しているとのこと。
DeepSeekは、このサーバークラスターで3FSを使うことで6.6TiB毎秒のパフォーマンスを達成したほか、25台のストレージノードと50台のコンピューティングノードのクラスターで行ったGraySortベンチマークでは、8192のパーティションに分散された110.5TiBのデータをわずか30分強でソートし、平均3.66TiB毎分のスループットを実現したとしています。
3FSのリポジトリには以下のリンクからアクセスすることができます。
GitHub – deepseek-ai/3FS: A high-performance distributed file system designed to address the challenges of AI training and inference workloads.
https://github.com/deepseek-ai/3FS
この記事のタイトルとURLをコピーする
この記事は役に立ちましたか?
もし参考になりましたら、下記のボタンで教えてください。