ダウンロード

指定したサイト、ページ内のファイルを一括ダウンロード

もちろんJSとかが絡んでくると動作しないはず。
普通に生のファイルリンクがあれば動作するはず。

wget -r --no-parent --domains=example.com -A "*.txt" -l 1 https://example.com/data/texts.html
  • -A pattern の部分で対象ファイルを指定。
    上記の例では.txtファイルのみダウンロード。
  • -l n 再帰の深さ
    0だと無制限になるので注意。
  • -r 再帰オプション。
    指定したURLから再帰的に辿れるURLも対象になる。
  • --no-parent -rで再帰が有効の際に、指定したURLの上のディレクトリを無視する。
  • --domains= 再帰が有効の際に、指定したサイトのみを処理することで、リンク経由で他のサイトが紛れ込まないようにする。
    IPも指定可能なはず。

下手すると大量のファイルをダウンロードするハメになるので、-lを1から2と少しずつ上げてテストしたほうが良い。