Think before you speak, read before you think.

wget使用笔记

by

in

wget最早接触到的功能就是下载,做为一个http下载器它还有很多http附加选项, -S 显示 response 头。

➜  ~  wget -S http://jpuyy.com
--2014-05-25 11:12:29--  http://jpuyy.com/
Resolving jpuyy.com... 54.251.156.114
Connecting to jpuyy.com|54.251.156.114|:80... connected.
HTTP request sent, awaiting response... 
  HTTP/1.1 200 OK
  Server: nginx/1.1.19
  Date: Sun, 25 May 2014 03:12:29 GMT
  Content-Type: text/html; charset=UTF-8
  Transfer-Encoding: chunked
  Connection: keep-alive
  Vary: Accept-Encoding
  X-Powered-By: PHP/5.3.10-1ubuntu3.9
  X-CF-Powered-By: WP 1.3.14
  X-Pingback: http://jpuyy.com/xmlrpc.php
Length: unspecified [text/html]
Saving to: 'index.html.7'

    [  <=>                                  ] 42,347       142KB/s   in 0.3s   

2014-05-25 11:12:30 (142 KB/s) - 'index.html.7' saved [42347]

保存到 jpuyy.html

wget -O jpuyy.html http://jpuyy.com

使用上面的方法还是会保存文件,如果再加上 -O ,则会在输入到后面跟的文件中,注意-O后面还有一个减号,表示输出到标准输出中。

wget -S -O - http://jpuyy.com

用wget测试gzip压缩的话需要加上

--header="accept-encoding:gzip"

wget下载限速,加参数

--limit-rate=800k

断点续传,在下载大文件的时候中断了,加 -c 参数重新下载, 如果不加 -c 会重新下载并加上 .1 .2 后缀

wget -c http://www.openss7.org/repos/tarballs/strx25-0.9.2.1.tar.bz2

后台下载 -b ,tailf wget-log 可以显示下载进度。

# wget -b -c http://jpuyy.com/software/bigfile.tar.gz
Continuing in background, pid 4742.
Output will be written to `wget-log'.

有些网站设定了 user-agent 限制,需要带 user-agent

wget --user-agent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36" http://jpuyy.com/aabbcc

有一些需要下载的 url 时,将 url 写到download-file-list.txt,下载多个文件时可以 -i

wget -i download-file-list.txt

当下载大文件或网络不好时,可以增加尝试次数,确保下载成功

wget --tries=75 DOWNLOAD-URL

不下载某种类型的文件

wget --reject=gif WEBSITE-TO-BE-DOWNLOADED

像爬虫一样访问,可以查看资源的存在情况以及外链。如果加上 -r 会下载整个网站

wget --spider http://jpuyy.com

wget --spider -r http://jpuyy.com

wget 下载整个目录

wget -r --user="username" --password="password" ftp://10.23.80.2/ --limit-rate=800k  -P /data/ftp/myfiles/

下载子目录

wget -r --no-parent http://shareconf.hupu.io/nginx/dace-web-gui-prd/

wget mirror方式下载整个站, -P 参数指定下载的目录

wget -m --user="username" --password="password" ftp://10.23.80.2/ -P /data/ftp/myfiles/

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *