準備室
能書き
弊観測所では「ごたごた気流」の観測をウェブスクレイピングの手法で行い、分析のための前処理として日本語形態素解析を行って何らかの説明変数を抽出したうえで、「事件」(目的変数)との関係を見てみようという目論んでいます。
手始めに「インターネットの巨大掲示板」の特定の「板」や「短文投稿サイト」を観測対象に考えています。もっとも、これらに関しては既に10年以上前に先人が多くの実績を残している分野であり、いまやSNS等を対象としたテキストマイニングの有料サービスも多数ある状況なので目新しいところはありませんが、遅ればせながら自分でもちょっと勉強してみたいと思っています(実は、数年前に有料サービスを利用したことがあるのですが、それなりのお値段(数十万円/月程度)でした。なので、有料サービスで実験するのはちょっと…)。
舞台裏は、恥を忍んで適宜GitHubで晒して行きますので、何かお気付きの点があればご教示いただけると幸いです。
予備調査
スクレイピング
定評のあるウェブスクレイピング・ツールは多数ありますが(The 10 Best Data Scraping Tools and Web Scraping Tools. 2019, The Scraper API Team)、少しさわったことがあるBeautiful Soupをメインに使用する予定です。
Beautiful Soup, so rich and green,
Waiting in a hot tureen!
Who for such dainties would not stoop?
Soup of the evening, beautiful Soup!
Soup of the evening, beautiful Soup!
Turtle Soup – in Alice’s Adventures in Wonderland, Lewis Carroll, 1865
Beautiful Soupの最初バージョンのリリースが2004年4月(1.0 “So rich and green”) なので、2004年04月から最近(2019年07月)までの検索傾向をBeautifulSoup(スペースなし)をキーワードとしてGoogle Trendsで見てみました(Figure)。検索件数(相対値)は世界的にはほぼ一定の成長率(月平均1.4%成長)で伸びている一方、日本では2006年頃と2008-10年頃にピークが有ったようです(他の関連キーワードで見ても概ね同様の傾向)。実際、「◯ちゃんねるスクレイピング」や「企業情報スクレイピング」等のキーワードでGoogle検索を行うとこの時期の業績が多くヒットするので、それなりに実態を反映していると考えて良さそうです。
ちなみに、市立図書館のOPAC(Online Public Access Catalog:オンライン蔵書目録検索システム)を対象としたスクレイピング/クローリングを行なった方が偽計業務妨害容疑で逮捕(のち起訴猶予)されてしまったLibrahack事件は2010年に起きています。
Figure: “BeautifulSoup”をキーワードとしたGoogle検索の傾向(2004/04 – 2019/07)
Data source: Google Trends, Powered by Visualizer
Alice in Wonderland
Google Trendsで日本と世界の傾向を比較するにあたって”Web scraping”や”ウェブスクレイピング”など異なる言語、キーワードを使うと直接の比較がしにくいので、日本/世界の共通キーワードとしてで”BeautifulSoup”を使いました。
もともと、Beautiful Soupは『不思議の国のアリス』に出てくる歌“ウミガメのスープ”に由来するので、これがノイズとなるのではないかとも思いましたが、結果を見ると杞憂だったようです。
テキストマイニング
本体のテキストマイニングについても、先人が開発してくれたオープンソースのツールが数多くありますので、感謝して活用できればと思います。
形態素分析に関してはNTTコミュニケーションズのCOTOHAが利用できそうなので、様子を見ながら使ってみた結果などを随時報告したいと思います。KOTOHA API PortalにDemoが公開されており、任意の短文を入力すると、構文解析のデモを見ることができます。
次のページ 観測器
コメントを残す
コメントを投稿するにはログインしてください。