PySpark

PySparkでコントロールブレイク処理

お題は次のエントリです。 gonsuke777.hatenablog.com 上記エントリではいわゆるコントロールブレイク処理(ソート済みのレコードを読み込み、キー項目ごとにグループ分けして行う処理のことでキーブレイク処理と呼ぶことも)を 1 本の SQL でスマートに行っ…

PySparkでの時刻変換色々

最近はデータエンジニアリングのお仕事がメインで、もっぱら PySpark を触っています。 自分向けの備忘録的も兼ねてちょいちょい blog に tips を書いていきたいと思います。 今回は時刻変換に関するもの。 タイムゾーン付き日付文字列をパースしてtimestamp…