PySparkでデータマネジメントをやってみよう(データ品質編) | NTT DATA TECHのフィード
この記事は「ビギナーズ Advent Calendar 2025」の2日目の記事です。 1. はじめにデータが企業の意思決定、製品開発、顧客体験の向上において中心的な役割を果たす現代において、そのデータの品質を維持・向上させることは極めて重要です。以前、自分が執筆したDATA INSIGHTの記事で、来たるべきAIエージェント時代に向けたビジネス視点でのデータマネジメントの重要性についてを説明しました。本稿では、データマネジメントの実装に焦点を当てて解説します。特に、ビッグデータを扱う上で重要な分散処理技術であるSparkと、データ品質の維持・向上に役立つDelta Lakeを利…
元の記事を確認する