Task nodes で EMR クラスタのスケールインを高速化する
Hadoop YARN でリソースの割り当てを行う Scheduler と Dominant Resource Fairness (DRF)
Hadoop YARN によってアプリケーションにリソースが割り当てられる流れと割り当てられているリソース量の確認
EMRでSparkを動かす際の設定
AWS CLIでEMRクラスタを立ち上げSparkのアプリケーションを実行する
カラムナフォーマットParquetの構造とReadの最適化
Cloudera Docker ImageでHiveの実行環境を立ち上げてJSONのログにクエリを実行する
HDFS(Hadoop Distributed File System)とは