GlueからRDSへの並列読み取りの仕様を明らかにしよう | NTT DATA TECHのフィード
はじめに先日、とあるプロジェクトでAmazon Web Services(AWS)のGlueを利用し、Apache Sparkを用いた並列処理を実装する機会がありました。Glueは大規模データの並列分散処理を得意とするサービスです。一般的にはGlueのソースとしてS3を利用するケースが多いですが、今回のプロジェクトではソースがRDSという珍しいケースでした。GlueからRDSへの読み込みに関する情報はあまり公開されておらず、特に「どのようにRDSへ並列読み込みを実現しているのか」について、明確な情報がありませんでした。そこで、本記事ではGlueからRDSへの並列読み込み方法の実装…
元の記事を確認する