データ分析でコードをクリーンに保つ技術

こんにちは、ひぐです。
最近データサイエンティストのための良いコーディング習慣という記事を読みました。
www.thoughtworks.com

こうした方がいいよなという自分の経験則が綺麗に言語化されていてよかったです。
ここではデータ分析でコードをクリーンに保つ技術について、記事の内容と自分の取り組みを合わせて紹介したいと思います。

自分はまだチームでの開発経験などが浅いため、間違っている部分もあるかもしれません。
あらかじめご了承ください汗

コードが汚くなる要因

f:id:zerebom:20200610210812p:plain:w300
コードが解くべき問題の複雑さを増長させている時、そのコードは汚いと言えます。
汚いコードは汚い部屋で探し物をする時などと同じく、簡単な作業を困難にしてしまいます。

では、どのような書き方をするとコードが汚くなるのでしょうか。

元記事には下記のような例が記載されています。

関数やクラスを使って処理を抽象化しない
一つの関数に長く複数の処理を書く
ユニットテストを書かず、リファクタリング時に1から書き直す

部屋で例えると、

一つの収納箱にあれこれ詰め込む
物の定位置を決めず、空いているところに収納する
整理してない収納箱を全てひっくり返して、再配置する

といった振る舞いと似てそうです。

処理が１箇所に纏まっていないことや、
どこに何が書いてあるかわからないことが複雑さを冗長させていると言えます。

jupyter notebookはコードを煩雑にしやすい

さらにデータ分析でおなじみのjupyter notebookは

df.head()/describe()などデータの内部を確認できる機能が豊富
上下のセルから変数の中身が引き継がれる

といった特徴から、プロジェクト序盤は素早いフィードバックを得られて便利ですが、
これらの特徴は裏を返せば

変数の影響範囲が広くなりやすい
処理に影響を及ぼさないコードが増えやすい

とも言え、コード量が増えると急速に煩雑になってしまいます。

インテリアデザイナーには「平たい場所は乱雑さを蓄積しやすい」という通説があるそうですが、
何でも１箇所に書けてしまう"notebook"は、データ分析における平たい場所であると言えます。

良いコードにする振る舞い

では良いコードにするにはどのようにすれば良いのでしょうか。
元記事では下記の5点が紹介されていました。

コードを綺麗に保つ

データ分析に限らず、綺麗なコードを書くセオリーがあります。
たとえば

DEAD CODEを消す
処理の内容が明快にわかる変数名をつける
似た記述はまとめる(DRYである)

データ分析も例外ではなく、これらのセオリーには従うべきです。
リーダブルコードなどの書籍にまとめられていて、目を通しておくべきでしょう。

リーダブルコード ―より良いコードを書くためのシンプルで実践的なテクニック (Theory in practice)

作者:Dustin Boswell,Trevor Foucher
発売日: 2012/06/23
メディア: 単行本（ソフトカバー）

関数を使って実装を抽象化する

一つの関心ごとに対しては一つの関数でまとめ、処理を抽象化するべきです。
そうすることで、以下のメリットが得られます。

読みやすい
テストしやすい
再利用しやすい(引数を与えて、ハードコーディングを防げる)

これは例を見てみるとわかりやすいです。

# bad example
pd.qcut(df['Fare'], q=4, retbins=True)[1] # returns array([0., 7.8958, 14.4542, 31.275, 512.3292])


df.loc[ df['Fare'] <= 7.90, 'Fare'] = 0
df.loc[(df['Fare'] > 7.90) & (df['Fare'] <= 14.454), 'Fare'] = 1
df.loc[(df['Fare'] > 14.454) & (df['Fare'] <= 31), 'Fare']   = 2
df.loc[ df['Fare'] > 31, 'Fare'] = 3
df['Fare'] = df['Fare'].astype(int)
df['FareBand'] = df['Fare']

# good example (after refactoring into functions)
df['FareBand'] = categorize_column(df['Fare'], num_bins=4)