濱沖敢太郎のブログ

濱沖敢太郎(教育学)のブログです。主に研究教育のメモとして使おうと思っています。

Twitterのデータ取得について

Twitterの検索結果をテキストデータで出力するための方法。

以下、手順に即して参考にしたURLを記載。

 

1. Twitter APIのアカウント取得

Twitter API 登録 (アカウント申請方法) から承認されるまでの手順まとめ ※2019年8月時点の情報 - Qiita

アカウント取得まで承認手続きなどがあって時間がかかるので先に作業をしておいた方がいい。

 

2. Pythonの環境構築

データ分析で欠かせない!Jupyter Notebookの使い方【初心者向け】 | TechAcademyマガジン

Pythonをインストール→Anaconda(仮想環境を構築するパッケージ)をインストール→Jupyter NotebookでPythonを動かす。

なお、MacOSX Catalinaの場合、Python3.7が入っているので、Pythonのインストール作業は不要。

 

3. Tweepyのインストール

Jupyter notebook上で、以下のサイトに記載されているコマンドを実行。

https://anaconda.org/conda-forge/tweepy

 

4. Twitterの検索&データ取得

pythonスクリプトは以下のものを参考に。

【Python】tweepyでTwitterのツイートを検索して取得 | ぱいそん日記

Python Twitterからツイートを取得してテキスト分析(wordcloudで見える化) - Qiita

上は「Jupyter notebook内に結果が出力される」下は「txtやcsvで出力される」仕様。

ただし、KHCoderでの分析などを考えた場合、いずれも出力結果そのままでは使いづらい部分があるかも。「出力する際にtweet間の区切りの示し方を変える」+「正規表現を使えるテキストエディタで編集する」などの工夫が必要になりそう。このあたりは今後あらためて考える。

それから、Twitter APIの仕様で、検索をかける期間やツイート数には制限があるので、"since"、"until"や"-RT"などをうまく活用する必要がある。

 

以上。