Pythonスクリプト
前回の 某巨大掲示板 の株式関係某板 の① 書き込みデータ収集用の python スクリプト( stockb.py_.zip [2 KB] に続き、② HTMLデータをCSV形式に整理する、書き込み分析 スクリプト ( bbs_threads_to_csv.py_.zip [3 KB] をアップロードしました。
修正版
2020-07-01に ②の 書き込み分析 スクリプトを少し手直ししたのですが、その際にバグが入ってしまったので、2020-08-01に修正しました。ご迷惑をお掛けしてすみません🙇♂️
また、② は ① で集めた HTMLファイル(UTF-8に自動修正済) を対象として整理する前提で作っていたため、ブラウザの「HTMLとして保存」機能などを使って別途収集した HTMLファイルを整理しようとすると、encoding の問題(伝統と格式の 某巨大掲示板 の encoding は Shift JIS(*))が生じることに気がついたので、これについても少し修正しました(そのせいで使い勝手が悪くなっちゃいましたが😅)。
(*) より正確に言うと、ほとんどスレッドはShift JISですが一部スレッドがUTF-8で、両者が混在している状態です。
データ見本
上記 python スクリプトで取得、整理したデータの見本として、 某巨大掲示板 の「株個別銘柄(仮)」板のデータ(dat落ちしたものを除く2007年06月02日〜2019月08月13日のデータ)をCSVファイルでシェアしました( stockb_20070602-20190813.zip [2.8 MB] )。
書き込み分析 用のデータですので、メッセージ本体のデータは9文字目以降削除してありますが、これだけでも銘柄ごとの書き込み速度は分析できます。
もちろん、上記スクリプトで新たにデータを取得した場合はフルデータが得られます。メッセージデータは、改めてMeCabやNTTコミュニケーションズのKOTOHA APIなどで整理分析すると楽しそうです。
その他
株式関係のデータを 書き込み分析 対象に選んだのは、証券コード、書き込みデータの豊富さ、目的変数の単純さ(株価という一次元データ)に注目したためです。私自身、株式投資にはほとんど興味がありませんので、アサッテを向いた分析をやらかす可能性もありますので、これもまた詳しい方にご指摘いただけると助かります。
証券コードごとの書込速度(書込み数の微分値)と当該銘柄の騰落に相関が見られれば面白いのですが、多分、騰落が先行して書込速度が変化するという面白くもない結果になる可能性大ですね。これが逆だったら、むしろ何らかの不正工作発見の端緒になるかも。証券取引等監視委員会あたりはそんなシステムをとっくの昔からバリバリ回しているのだろうな…。
字ばっかりで寂しいので「いらすとや」イラストを入れてみました。なんか近所のスーパーみたいな感じになったな😄