spark

Spark の MLlib で k-means法によるクラスタリングを行う

Task nodes で EMR クラスタのスケールインを高速化する

Athena for Apache Spark の Notebook で DataFrame.toPandas().plot() した際の日本語が文字化けしないようにする

CDK で立ち上げた EKS クラスタを EMR on EKS に登録し Spark のジョブを動かす

ScalaでSparkのアプリケーションを開発してGitHub ActionsでデプロイしEMRでリモートデバッグする

SparkをビルドしIntelliJでリモートデバッグする

Spark SQLのJOIN時に余分なパーティションが読まれる例とDynamic Partition Pruning (DPP)

EMRクラスタで動かしたSparkのログをFluent BitでNew Relicに集約する

EMRでSparkを動かす際の設定

AWS CLIでEMRクラスタを立ち上げSparkのアプリケーションを実行する

Redshift Serverlessと他のサーバーレス集計サービス、Glue Data Catalogのテーブルへのクエリ実行

Sparkでstructをmapとして扱いexplodeで複数行に展開できるようにする

SparkのWeb UIでJobのStageとExecutorによるTask分散、SQLのplanを確認する

GlueのカスタムコネクタでBigQueryに接続する

Athena(Presto)とGlue(Spark)で同じクエリを実行した際に異なる値が返る原因

AWS GlueのJobのBookmarkを有効にして前回の続きから処理を行う

Apache SparkのRDD, DataFrame, DataSetとAction, Transformation

AWS GlueでCSVを加工しParquetに変換してパーティションを切りAthenaで参照する

Cloudera Docker ImageでHiveの実行環境を立ち上げてJSONのログにクエリを実行する