English

sambaiz-net

Etl

2024-10-23

Apache Beam による ETL のマネージドサービス Dataflow のサンプルコード Word Count を読んで実行する

2024-05-22

Livy を EMR on EKS にインストールしSparkmagic でローカルの Jupyter Notebook から Spark のジョブを実行する

2023-03-19

Task nodes で EMR クラスタのスケールインを高速化する

2023-01-02

CDK で EKS クラスタを立ち上げ EMR on EKS に登録し Spark のジョブを動かす

2022-12-18

Airflow の Callback で複数の Task からなる処理のリトライを行う

2022-11-30

Airflow で過去の Task への依存を表す

2022-11-28

CDK で Amazon Managed Workflow for Apache Airflow (MWAA) の環境を作成しワークフローを実行する

2022-11-19

Docker Compose で Apache Airflow を起動しワークフローを実行する

2022-10-21

ScalaでSparkのアプリケーションを開発してGitHub ActionsでデプロイしEMRでリモートデバッグする

2022-10-09

SparkをビルドしIntelliJでリモートデバッグする

2022-09-11

Spark SQLのJOIN時に余分なパーティションが読まれる例とDynamic Partition Pruning (DPP)

2022-08-16

Athena v2でparquetをソースとしmapフィールドを持つテーブルのクエリが成功したり失敗したりする原因

2022-08-13

EMRでSparkを動かす際の設定

2022-06-22

AWS CLIでEMRクラスタを立ち上げSparkのアプリケーションを実行する

2022-05-17

Athenaで他アカウントのテーブルを参照するために必要な設定

2022-04-23

Athenaのデータソースコネクタとユーザー定義関数(UDF)を実装する

2022-02-20

Redshift ServerlessとAthenaの性能をTPC-DSのクエリで比較する

2022-01-18

Generate data with TPC-DS Connector for Glue

2021-12-26

Redshift Serverlessと他のサーバーレス集計サービス、Glue Data Catalogのテーブルへのクエリ実行

2021-12-25

AthenaのFederated QueryでTPC-DS Connectorを用いてデータを生成する

2021-10-13

Sparkでstructをmapとして扱いexplodeで複数行に展開できるようにする

2021-09-30

SparkのWeb UIでJobのStageとExecutorによるTask分散、SQLのplanを確認する

2021-09-27

Glue DataBrewでデータを可視化して分析するProjectと機械学習の前処理を行うJobをCDKで作成する

2021-07-13

GlueのカスタムコネクタでBigQueryに接続する

2021-07-03

Athena(Presto)とGlue(Spark)で同じクエリを実行した際に異なる値が返る原因

2021-05-09

CDKでGlue Data CatalogのDatabase,Table,Partition,Crawlerを作成する

2021-04-24

CDKでKinesis Data Analytics上にPyFlinkのコードをデプロイして動かす

2021-04-16

AWS GlueのJobのBookmarkを有効にして前回の続きから処理を行う

2021-02-24

Athena(Presto)でWindow関数を用いた集計を行う

2020-11-14

GoでAthenaのクエリを実行する

2020-10-03

Kinesis Data AnalyticsのSQL, Lambdaへの出力とCDKによるリソースの作成

2020-09-04

VSCodeのDocker開発コンテナでJupyter Notebookを開いてAthenaのクエリを実行し可視化する

2019-02-13

Apache SparkのRDD, DataFrame, DataSetとAction, Transformation

2019-01-01

AWS GlueでCSVを加工しParquetに変換してパーティションを切りAthenaで参照する

2017-12-24

Athenaのmigrationやpartitionするathena-adminを作った

2017-08-24

Cloudera Docker ImageでHiveの実行環境を立ち上げてJSONのログにクエリを実行する

2017-06-15

NorikraでログをJOINする

2017-06-10

NorikraとFluentdで流れてきたログをリアルタイムに集計する

2017-02-26

fluentdでKinesis Streamsに送ってLambdaで読んでS3に保存する

2017-02-20

Kinesis Streams/Firehose/Analyticsを試す