SageMaker Processing で前処理を行って Training で学習したモデルのパラメータや精度を Experiments で記録する
Spark の MLlib で k-means法によるクラスタリングを行う
Task nodes で EMR クラスタのスケールインを高速化する
S3のバージョニングを有効にして誤って上書きや削除してしまったオブジェクトを復旧できるようにする
相関比でカテゴリ変数と目的変数の相関の強さを表す
sbt-assembly で依存ライブラリを含んだ über-jar を生成する
平衡二分探索木 AVL木 を Go で実装して高さが最小限に保たれることを確認する
Athena for Apache Spark の Notebook で DataFrame.toPandas().plot() した際の日本語が文字化けしないようにする
Java から Go でビルドした shared library を JNI と JNA で呼び出した際の速度を比較する
JMH で Java のコードのベンチマークを取る
Python の組み込みコンテナと collections.deque
CDK で立ち上げた EKS クラスタを EMR on EKS に登録し Spark のジョブを動かす
Hadoop YARN でリソースの割り当てを行う Scheduler と Dominant Resource Fairness (DRF)
Airflow の Callback で複数の Task からなる処理のリトライを行う
CloudTrail で AWS 上のリソースの操作記録を確認する
GuardDuty, Inspector, Macie などによって検出されたセキュリティ上の問題を AWS Security Hub で確認する
Airflow で 過去の Task への依存を表す
CDK で Amazon Managed Workflow for Apache Airflow (MWAA) の環境を作成しワークフローを実行する
Hadoop YARN によってアプリケーションにリソースが割り当てられる流れと割り当てられているリソース量の確認
Docker Compose の service に AWS のクレデンシャルを渡す
Docker Compose で Apache Airflow を起動しワークフローを実行する
New RelicでAWSのコストをモニタリングする
Scala 2/3 の列挙型と既存の型へのフィールドの追加
AWS Cost Management でコストをモニタリングし最適化する
GitHub ActionsからOIDCでassumeできるRoleをCDKで作成する
ScalaでSparkのアプリケーションを開発してGitHub ActionsでデプロイしEMRでリモートデバッグする
SparkをビルドしIntelliJでリモートデバッグする
deanishe/awgo で Alfred の Workflows で動かすスクリプトを実装する
Spark SQLのJOIN時に余分なパーティションが読まれる例とDynamic Partition Pruning (DPP)
EMRクラスタで動かしたSparkのログをFluent BitでNew Relicに集約する
Athena v2でparquetをソースとしmapフィールドを持つテーブルのクエリが成功したり失敗したりする原因
EMRでSparkを動かす際の設定
Javaで発生したOOMの原因をGCログとヒープダンプから探る
WebAssemblyでGoの関数をブラウザのJavaScriptから呼び出す
JDWPを有効にしてリモートマシンで動いているJavaアプリケーションをデバッグする
AWS CopilotでECS on Fargate上にコンテナをデプロイしECS Execによるコマンドの実行やSession Managerによるポートフォワーディングを行う
AWS CLIでEMRクラスタを立ち上げSparkのアプリケーションを実行する
NewRelicのMetricsとEventsの特性とNRQLによるクエリ
最大フロー問題と最小カット問題とFord-Fulkersonのアルゴリズム
Segment TreeとBineary Indexed Tree (BIT)で部分和を求める
Athenaで他アカウントのテーブルを参照するために必要な設定
繰り返しコマンドを実行する際都度プロセスを生成する場合と常駐させておきUNIXドメインソケットで入出力を行う場合の速度比較
NewRelic CodeStreamでコードの質問やデバッグを効率的に行えるようにする
Athenaのデータソースコネクタとユーザー定義関数(UDF)を実装する
CloudWatch Logsを介さずにLambdaのテレメトリを行うnewrelic-lambda-extensionとその仕組み
New RelicのGraphQL API、NerdGraphでリソースを取得する
New Relicでインフラやアプリケーションをモニタリングする
VSCode NeovimでVSCodeをVimのように操作する
Redshift ServerlessとAthenaの性能をTPC-DSのクエリで比較する
IntelliJ IDEA/IdeaVimでよく使うショートカット/コマンド
最小二乗法(OLS)による線形回帰と決定係数
2種の母集団の比較を行う2標本問題での統計量
GlueのTPC-DS Connectorでデータを生成する
Redshift Serverlessと他のサーバーレス集計サービス、Glue Data Catalogのテーブルへのクエリ実行
AthenaのFederated QueryでTPC-DS Connectorを用いてデータを生成する
Union-Find木で無向グラフに閉路があるかを判定する
FlutterのNavigatorとAuroRoute
FlutterでiOS/Android/Webアプリをビルドする
ラビン-カープアルゴリズムをC++で実装する
カラムナフォーマットParquetの構造とReadの最適化
C++のstructとclass
Sparkでstructをmapとして扱いexplodeで複数行に展開できるようにする
Adaptive Replacement Cache (ARC) とは
SparkのWeb UIでJobのStageとExecutorによるTask分散、SQLのplanを確認する
Glue DataBrewでデータを可視化して分析するProjectと機械学習の前処理を行うJobをCDKで作成する
GoでAmazon Forecastに時系列データをimportしPredictorを作成して予測結果をS3にexportする
CDKでCloudWatch Dashboardsを作成しコンソール上からAWSアカウントを持たない外部ユーザーに公開する
CDKでECS(EC2)上にLocust masterとworkerのServiceをデプロイしCloud Mapで名前解決させる
CDKでALBとECS(EC2)クラスタを作成し、ecs-cliでDocker Composeの構成をデプロイする
AWS X-rayでアプリケーションのリクエストをトレースし可視化する
gomockのmockを入力とするmockが意図した出力を返さない理由
Vue 3でTODOを作る
Clean ArchitectureとDDDの概念と得られるもの
SageMaker Studioの使っていないKernelを自動でシャットダウンするsagemaker-studio-auto-shutdown-extension
GlueのカスタムコネクタでBigQueryに接続する
C++ STLのmapやunordered_mapのkeyにstructを使えるようにする
Athena(Presto)とGlue(Spark)で同じクエリを実行した際に異なる値が返る原因
Next.jsのpre-rendering
Notionでタスク管理を行う際のRelationによる親子タスクの紐付けとFormulaとRollupによる完了率の表示
Auth0の設定をauth0-deploy-cliでexportしてバージョン管理する
AWS SDK for Java 2.x のUnable to load an HTTP implementationとクライアント変更によるlambda実行高速化
WindowsのターミナルからRPAツールUiPathによる自動操作を行う
CircleCIのOrbをPublishする
ReviewdogのGitHub ActionsでGoのlintをかけてPRに表示する
shellの条件分岐の[と[[
AWS App Runnerの特徴と料金、CloudFormationのResource
127.0.0.1(localhost)と0.0.0.0
Windowsでの開発環境を構築する(WSL2, Docker, VSCode)
CDKでGlue Data CatalogのDatabase,Table,Partition,Crawlerを作成する
Raspberry PiでおうちKubernetesクラスタを構築する
FluentdがどのようにMulti Process Workersで処理を実行しているのか実装を追う
CDKでKinesis Data Analytics上にPyFlinkのコードをデプロイして動かす
AWS GlueのJobのBookmarkを有効にして前回の続きから処理を行う
CDKでStep Functionsによるワークフローを構築する
Application Auto Scalingのcustom-resourceによるKinesis Data Streamsのオートスケール設定
Goのio packageのReader/Writer/Closer/Seeker interfaceとストリーム処理
x/sync/semaphoreでgoroutineの数を制御する
Athena(Presto)でWindow関数を用いた集計を行う
Amazon Forecastで時系列データの予測を行う
偽陽性を許容して空間効率良くキーの存在を確認するBloom filterとCuckoo filter