Spark の MLlib で k-means法によるクラスタリングを行う
Task nodes で EMR クラスタのスケールインを高速化する
Athena for Apache Spark の Notebook で DataFrame.toPandas().plot() した際の日本語が文字化けしないようにする
CDK で立ち上げた EKS クラスタを EMR on EKS に登録し Spark のジョブを動かす
ScalaでSparkのアプリケーションを開発してGitHub ActionsでデプロイしEMRでリモートデバッグする
SparkをビルドしIntelliJでリモートデバッグする
Spark SQLのJOIN時に余分なパーティションが読まれる例とDynamic Partition Pruning (DPP)
EMRクラスタで動かしたSparkのログをFluent BitでNew Relicに集約する
EMRでSparkを動かす際の設定
AWS CLIでEMRクラスタを立ち上げSparkのアプリケーションを実行する
Redshift Serverlessと他のサーバーレス集計サービス、Glue Data Catalogのテーブルへのクエリ実行
Sparkでstructをmapとして扱いexplodeで複数行に展開できるようにする
SparkのWeb UIでJobのStageとExecutorによるTask分散、SQLのplanを確認する
GlueのカスタムコネクタでBigQueryに接続する
Athena(Presto)とGlue(Spark)で同じクエリを実行した際に異なる値が返る原因
AWS GlueのJobのBookmarkを有効にして前回の続きから処理を行う
Apache SparkのRDD, DataFrame, DataSetとAction, Transformation
AWS GlueでCSVを加工しParquetに変換してパーティションを切りAthenaで参照する
Cloudera Docker ImageでHiveの実行環境を立ち上げてJSONのログにクエリを実行する