読者です 読者をやめる 読者になる 読者になる

togetterをpython3系でスクレーピングしてtsvファイルを作る

togetter とは

Twitterで公開されているツイートをドラッグアンドドロップで選び、1画面にまとめて表示できる。文字の色を替えたり、時系列に並んでいるつぶやきの順序を入れ替えたりもできる。自分で投稿したツイートや他人のツイートから面白いものを抜き出す、イベントなどの実況報告を抜き出す、論争が起きた場合に各論者の立場をわかりやすくするなどの使い方がある。(wikiより)

togetter.com
簡単に言うと、Twitterまとめサイト的なものです。

Twitterを分析するためにtsvファイルに

大学の授業では発表会が多く、そのたびに実況ツイートをtogetterにまとめて頂いてます。
今回、そのデータを使って、Twitterの分析をすることになり、python3.5でスクレーピングしてtsvファイルを生成することにしました。

ソース

github.com

欠点

ただ、上記のコードだと、26番目から50番目のツイートを取得する処理をしてないので、完全なデータではありません。プルリクエストいただけたら嬉しいです。

工夫点

最後のページに来たことを調べるために、各ページの最後のツイートの時間を取得して、比較してます。headerみてリダイレクト処理かかったらででも良かったかもしれません。

久しぶりのpythonで書くのが大変でした。やっぱり慣れないな....