stockb.py
某掲示板の某板から 情報収集 するためのスクレイピング実験用のスクリプト(stockb.py)です。Python 3.7 / Mojave ver.10.14.5 で動作確認しましたが、他の環境で動くかどうかは神のみぞ知る。
もともと stockb は「株板」に因んだ命名ですが、某掲示板の他の板での 情報収集 にも使えます。
スクリプト ダウンロード stockb.py_.zip [2 KB]
- 初めて走らせるときは、第61行以下の for loop が暴走しないように第88行の”#”を外して、loopが3回しか回らないようにしておいた方が安全です。自分の環境で問題なく動くようなら、”#”でコメントアウトして本番。
- さて、 起動すると、カレントディレクトリの下に”DOWNLOADS”ディレクトリ(フォルダ)が作られます。
- 最初にスレッド一覧の所在を聞かれます(”Thread list URLs?”)ので、 “https://example.com/foo/bar.html” のような形式で入力してください。全スレッドhtmlのURL一覧が表示されるので、状況を確認してください。
- 次に、各スレッドのhtmlが格納されているディレクトリを聞かれます(”Base URL?”)ので、これも “https://example.com/baz/qux/” のような感じで入力してください(最後は”/”。ここはわざと曖昧に書いてあるので、実際のサイトを見て工夫してください)。
- スレッドの所在一覧が表示されますので、良さそうだったら”y”を入力してください(URLをひとつ試してみて目的のページが表示されるかどうかチェックします。うまく行かなかったら、きっと上記3.の「最後は”/”」が問題です)。
- うちのADSL環境で、300スレッド程度(全部で大体60 MBぐらい)のダウンロードが約30分で完了しました(sleepの設定に依存)。
- 後は煮るなり焼くなり。
- 設定をいじるとダウンロード速度を上げることができますが、相手のサーバに負担を掛けてしまうのでお手柔らかに。うっかりすると新聞沙汰になって一躍有名人になれるかもしれないので、くれぐれも良識ある行動をお願いします。❤️
前のページ 観測所
コメントを残す
コメントを投稿するにはログインしてください。