ダウンロード
指定したサイト、ページ内のファイルを一括ダウンロード
もちろんJSとかが絡んでくると動作しないはず。
普通に生のファイルリンクがあれば動作するはず。
wget -r --no-parent --domains=example.com -A "*.txt" -l 1 https://example.com/data/texts.html
-A pattern
の部分で対象ファイルを指定。
上記の例では.txt
ファイルのみダウンロード。-l n
再帰の深さ
0だと無制限になるので注意。-r
再帰オプション。
指定したURLから再帰的に辿れるURLも対象になる。--no-parent
-r
で再帰が有効の際に、指定したURLの上のディレクトリを無視する。--domains=
再帰が有効の際に、指定したサイトのみを処理することで、リンク経由で他のサイトが紛れ込まないようにする。
IPも指定可能なはず。
下手すると大量のファイルをダウンロードするハメになるので、-l
を1から2と少しずつ上げてテストしたほうが良い。