Higu`s diary

新米データサイエンティストのブログ。技術についてゆるく書きます〜

Pythonで国会議員の政党特長を抽出した話【Day5】

こんちは、ひぐです!

毎日ブログ書く時間が遅すぎて投稿タイミングを逃しております(白目)

 

 

先日からポートフォリオを作る!と意気込んだのですが、、

zerebom.hatenablog.com

 

 

大学で研究室に所属しているのにもかかわらず、

研究をおろそかにして、教授にめっためたに怒られてしまったため

本日は研究の進捗を生むためPythonをいじっていました。。。

 

 

研究内容は

国会議事録APIを用いて、民主党政権時代と現在の政権の野党の言葉遣いの比較

 です。

 

今回はこれについて紹介したいと思います!!

 

 

と、言っても???

って感じだと思います。

 

簡単に説明します。

 

国会の議事録ってネット上にデータとして公開されているんですね。

国会会議録検索システム -国会会議録検索システム検索用API

 

Pythonを用いてここにアクセスすると、欲しいデータを自動で検索かけて

ごそっとパソコンに保存できるのです!

 

 

そしてそのまとまった言語データを統計して、

時代ごとの野党の特徴を見てみよう!というのが今回の趣旨です。

 

 

 

ここからは、ゼミ発表のスライドを使いつつ説明したいと思います!

 

 内容的には、インターン先で書いたブログの続きとなっております。

良かったらこっちも見てください(めちゃくちゃ時間かけて書いたので)

blog.aidemy.net

 

 

内容

①手法

APIから議員の発言を3年分集めます。そして今回比較したい

民主党政権時代の野党」と「現在の野党」の発言に分別します。

その後形態素解析を行い、単語を抽出します。

f:id:zerebom:20180624005817j:plain

 

 

形態素解析というのは、文章を単語単位に分割し、品詞を同定する作業です

f:id:zerebom:20180624005819j:plain

 

今回集めた具体的なデータは↓のようになります

f:id:zerebom:20180624005821j:plain

 

なんで予算委員会なの?という理由は

f:id:zerebom:20180624005826j:plain

 

こんな感じです。

予算委員会は、基本的に野党が与党の追及を行う場所なので、

そういった意味でも言葉遣いの特徴が出るかと思います。(笑)

 

②結果

 

結果は、単語を品詞ごとに収集し、

2つのグループに使用頻度の偏りがあるものをピックアップしました。

 

グラフにするとこんな風になります。

見にくいですが、色の偏りがある単語が特徴と捉えることができます。

f:id:zerebom:20180624005825j:plain

 

②-1 形容詞

f:id:zerebom:20180624005835j:plain

 

旧野党は東日本大震災を彷彿させるようなワードが。

現野党は、与党の発言に対して不信感を持っていることを示唆するワードが出ていますね。

 

②-2動詞

 

f:id:zerebom:20180624005834j:plain

動詞はあまり特徴が出なかったかなーと思います。

現在の野党に買う、売る、下がるなどお金について示唆している単語が多く出ているのは、モリカケ問題で土地の話が出るからかなと思います。

 

②-3 末尾表現

末尾表現は、文章で「。」が出てきた部分の前4単語を拾ってきています。

 

f:id:zerebom:20180624005832j:plain

 

かなり特徴が出ている!と思います。

 とくに現野党は言質を取っているように見えないでしょうか?

 

③プログラミング的なお話

興味ない人にはほんとに興味ない話なんで飛ばしてください

 

 

どういう仕組みかというと、

①HTTP通信でAPIに欲しい大臣の発言データを期間指定してGET通信を送る

XML形式で返ってくるので、タグの要素を検索し、txtファイルに保存する

③保存したtxtファイルをMeCabという形態素解析ツールによって、

 品詞ごとに分類する

 ④sklearnのCountVectorizer()メソッドを用いて、各単語の使用回数をベクトル化してまとめる。

⑤DataFrameに保存しto_csvでエクセルに出力する

⑥適当にエクセルでいじって見やすくする

 

ってな感じです!

いつかコードをGitHubに乗せます!

 

 反省・考察・今後の流れ

 

 このように、スライドを用意して発表を行ったのですが、

結果はボコボコにされました。

 

なぜかというと、、、

 

・データ量を合わせるべく、発言回数に小数をかけたのですが、

有効数字をとっていなかった

 

・各単語の使用者数を取っていなかった。

グループ全体の特徴か、ある人の口癖かわからなかった。

 

・末尾表現の定義が微妙。

「ているわけです」と「です」が両方ランキングしているところとか怪しい

 

などなど。。。。

 

教授の知の暴力により、あっという間にコテンパンにされてしまいました(*^_^*)

 

研究は普通のブログとか、「やってみた」程度のノリでやってはいけないのです。

それを深く認識させられました。また、こういう風に一つの事にしっかり打ち込んで学べる事が、研究室・大学院の意義なのかなぁと実感しました。

 

 

現在、というか今日そのボコボコにされた内容をすべて修正したので、

これからは機械学習を用いて、更に特長を調べてみたいと思います。

これによって、「もっとも与党らしい与党議員」みたいなのも

数値で出せるようになります(笑)

 

 

てな感じで今日はここまで!!

 

 

明日は今までの記事を見直してより見やすくしようかなぁと思います。

では~

 

 

google-site-verification: google1c6f931fc8723fac.html