wget一些参数

作者:admin 日期:2008-03-02

字体大小: 小中大

每次用到新功能都要搜真麻烦
以后每次收到都在这里记一下。
当然我不会用大脑记他

1、
//下需要cookies得，如果没有cookies第一次运行会生成一个，以后就好了
wget --save-cookies=$cookies --load-cookies=$cookies http://...

2、待续....

/////////////相关文章得一些资料备份。。。。。。

wget常用参数如下

GNY Wget ，一个非交谈式的网路抓档工具.

用法: wget [选项]... [URL]...

命令的引数使用长项目与短项目相同.

启动:

-V, --version显示Wget的版本并且离开.

-h, --help显示这个说明档.

-b, -background在启动之後跳到背景去.

-e, -execute=COMMAND执行一个`.wgetrc'里面的COMMAND指令.

纪录档与输入的档案:

-o, --output-file=FILE纪录讯息到FILE去.

-a, -append-output=FILE增加讯息到FILE去.

-d, --debug显示除错的输出.

-q, --quiet安静模式(不输入任何讯息).

-v, --verbose冗长模式(这是内定值).

-nv, --non-verbose关闭verboseness,但不是安静模式.

-i, --input-file=FILE从FILE读取URL .

-F, --force-html把输入的档案当作HTML.

下载:

-t, --tries=NUMBER设定重复尝试NUMBER次(0是无限制).

-O --output-document=FILE把文件写到FILE里.

-nc, --no-clobber不破坏已经存在的档案.

-c, --continue重新取得一个已经存在的档案.

--dot-style=STYLE设定取回状况的显示风格.

-N, --timestamping不取回比本地旧的档案.

-S, --server-response显示伺服器回应状况.

--spider不下载任何东西.

-T, --timeout=SECONDS设定读取时超过的时间为SECONDS秒.

-w, --wait=SECONDS在取回档案时等待SECONDS秒.

-Y, --proxy=on/off开启或关闭Proxy.

-Q, --quota=NUMBER设定取回档案的定额限制为NUMBER个.

目录:

-nd --no-directories不建立目录.

-x, --force-directories强制进行目录建立的工作.

-nH, --no-host-directories不建立主机的目录.

-P, --directory-prefix=PREFIX把档案存到PREFIX/...

--cut-dirs=NUMBER忽略NUMBER个远端的目录元件.

HTTP选项:

--http-user=USER设http使用者为USER.

--http0passwd=PASS设http使用者的密码为PASS.

-C, --cache=on/off提供/关闭快取伺服器资料(正常情况为提供).

--ignore-length忽略`Content-Length'标头栏位.

--proxy-user=USER设USER为Proxy使用者名称.

--proxy-passwd=PASS设PASS为Proxy密码.

-s, --save-headers储存HTTP标头成为档案.

-U, --user-agent=AGENT使用AGENT取代Wget/VERSION作为识别代号.

FTP选项:

--retr-symlinks取回FTP的象徵连结.

-g, --glob=on/off turn file name globbing on ot off.

--passive-ftp使用"passive"传输模式.

使用递回方式的取回:

-r, --recursive像是吸入web的取回--请小心使用!.

-l, --level=NUMBER递回层次的最大值(0不限制).

--delete-after删除下载完毕的档案.

-k, --convert-links改变没有关连的连结成为有关连.

-m, --mirror开启适合用来映射的选项.

-nr, --dont-remove-listing不要移除`.listing'档.

递回式作业的允许与拒绝选项:

-A, --accept=LIST允许的扩充项目的列表.

-R, --reject=LIST拒绝的扩充项目的列表.

-D, --domains=LIST允许的网域列表.

--exclude-domains=LIST拒绝的网域列表(使用逗号来分隔).

-L, --relative只跟随关联连结前进.

--follow-ftp跟随HTML文件里面的FTP连结.

-H, --span-hosts当开始递回时便到外面的主机.

-I, --include-directories=LIST允许的目录列表.

-X, --exclude-directories=LIST排除的目录列表.

-nh, --no-host-lookup不透过DNS查寻主机.

-np, --no-parent不追朔到起源目录.

范例一：mirror一个网站

wget -r www.redhat.com

范例二：mirror一个网站下的某个目录：

wget -r www.redhat.com/mirrors/LDP

范例三：结合nohup在后台运行，让机器自动下载，并生成nohup.out文件，纪录下载过程的速度。
nohup wget -c -t0 -T120 -i list.txt &

wget是一个命令行工具，用于批量下载文件，支持HTTP和FTP。究竟比其他的工具好在哪里？看看内容吧 :)
wget基本上所有的Linux版本都自己带了，但是有多少人在用呢？呵呵，如果你没有用过，不妨试试。Windows下面的用户可以使用GNUwin32的项目，wget，基本功能完全一致。好吧，我们来以几个简单的例子看看wget的威力。

如果我们想下载ftp里面某个目录里面的所有文件，我们也可以不用ftp这个笨蛋，呵呵，可以享受cute ftp等图形化工具的拖一个目录的轻松了。如

wget -r ftp://10.8.8.8/movie/
呵呵，等吧！下完了，发觉有些不对劲，怎么出来个10.8.8.8的目录，进去看看，又是一个movie，哦，wget将目录结构和网站标题都给记录下来了，不要？？没有问题！比如说还是这个例子

wget -r -nd ftp://10.8.8.8/movie/
结果什么目录都没有了，faint！怎么会这样？呵呵，你如果想要这样就让它这样吧，否则使用

wget -r -nH ftp://10.8.8.8/movie/
恩？movie也不要？OK，那就这样

wget -r -nH --cut-dirs=1 ftp://10.8.8.8/movie/
这有什么用啊？cuteftp比他好用多了，而且，你这断了线能连吗？呵呵，不好意思，可以连

wget -c -r -nH --cut-dirs=1 ftp://10.8.8.8/movie/

但是cuteftp能做下面的事情吗？比如，现在很多网站使用Apache建站，并不提供ftp服务，但是Apache有一个indexing功能，可以提供一个类似于ftp的界面，好多文件我想下啊，怎么办？由于是HTTP协议，CuteFTP无能为力了，倒是flash get等有什么get all这种功能，不知道他们对于目录处理怎么样。但是wget一点问题都没有，不信？我们拿CTAN为例（例子并不恰当，CTAN有FTP服务），我们下载这里面所有的宏包，呵呵

wget -r -k http://www.ctan.org/tex-archive/macros/latex/
-k表示将连接转换为本地连接。但是现在同样有上面的问题啊，那就把你需要的加上吧，另外也许你根本不需要向下走那么多层，比如，我们就要到第二层，那么

wget -r -l2 -k http://www.ctan.org/tex-archive/macros/latex/
现在新的问题是，由于网页有一个排序功能，很讨厌，因为下载的时候把网页重复了好多次，那么我们可使用-A和-R开关控制下载类型，并且可以使用通配符，呵呵，现在随心所欲了吧

wget -r -R ".htm\?*" -k http://www.ctan.org/tex-archive/macros/latex/
这次没有那种网页了吧？-R的意义在于拒绝下载匹配类型的文件，-A表示仅仅接受的文件类型，如-A "*.gif"将仅下载gif图片，如果有多个允许或者不允许，可以使用,分开。

那么，我们现在在使用代理服务器，怎么办呢？呵呵，很高兴你选择了wget，你可以使用它的配置文件，环境变量来利用代理。这里推荐使用环境变量，如在 bash里面我们可以把天天用的proxy加到.bash_profile里面，这是Linux标准写法（很多软件都用的，什么apt-get，yum等等）

export http_proxy=http://10.20.30.40:8080
然后，proxy就默认打开了，如果需要暂时关闭，可以使用

wget --proxy=off -r -k http://www.ctan.org/tex-archive/macros/latex/
当然，写一个.wgetrc文件也可以，该文件可以从/usr/local/etc里面找到，里面有很详细的注释，我就不多说了。

下载网页的时候比较麻烦的事情是，有的网页被同时指向了很多遍，那么为了避免多次下载，我们使用

wget -nc -r -k http://www.ctan.org/tex-archive/macros/latex/
可以避免这件事情。为了不被有的连接指向非http://www.ctan.org/tex-archive/macros/latex/内层目录，我们还应该加上

wget -nc -np -r -k http://www.ctan.org/tex-archive/macros/latex/
避免下载非该目录里面的文件，这也避免了到不同的host上面去。当然，如果你希望有这个功能，在多个host之间跳来跳去的下载，可以使用

wget -nc -np -H -r -k http://www.ctan.org/tex-archive/macros/latex/
使得可以在多个host之间span，同时-I和-X可以使得我们仅仅跟踪某些目录或者不跟踪某些目录。如果某些HTML里面你需要的东西不是由<a>这种东西作出来的，你就得使用--follow-tags和--ignore-tags了。

嘿，我有个文件里面都是连接，怎么办？要是不是html你只需要

wget -i your.file

如果是，那也不繁
wget -F -i your.file

wget是一个从网络上自动下载文件的自由工具。它支持HTTP，HTTPS和FTP协议，可以使用HTTP代理.

所谓的自动下载是指，wget可以在用户退出系统的之后在后台执行。这意味这你可以登录系统，启动一个wget下载任务，然后退出系统，wget将在后台执行直到任务完成，相对于其它大部分浏览器在下载大量数据时需要用户一直的参与，这省去了极大的麻烦。

wget 可以跟踪HTML页面上的链接依次下载来创建远程服务器的本地版本，完全重建原始站点的目录结构。这又常被称作"递归下载"。在递归下载的时候，wget 遵循Robot Exclusion标准(/robots.txt). wget可以在下载的同时，将链接转换成指向本地文件，以方便离线浏览。

wget 非常稳定,它在带宽很窄的情况下和不稳定网络中有很强的适应性.如果是由于网络的原因下载失败，wget会不断的尝试，直到整个文件下载完毕。如果是服务器打断下载过程，它会再次联到服务器上从停止的地方继续下载。这对从那些限定了链接时间的服务器上下载大文件非常有用。

wget的常见用法
wget的使用格式

Usage: wget [OPTION]... [URL]...
用wget做站点镜像:
wget -r -p -np -k http://dsec.pku.edu.cn/~usr_name/# 或者wget -m http://www.tldp.org/LDP/abs/html/
在不稳定的网络上下载一个部分下载的文件，以及在空闲时段下载
wget -t 0 -w 31 -c http://dsec.pku.edu.cn/BBC.avi -o down.log &# 或者从filelist读入要下载的文件列表wget -t 0 -w 31 -c -B ftp://dsec.pku.edu.cn/linuxsoft -i filelist.txt -o down.log &
上面的代码还可以用来在网络比较空闲的时段进行下载。我的用法是:在mozilla中将不方便当时下载的URL链接拷贝到内存中然后粘贴到文件filelist.txt中，在晚上要出去系统前执行上面代码的第二条。

使用代理下载
wget -Y on -p -k https://sourceforge.net/projects/wvware/
代理可以在环境变量或wgetrc文件中设定

# 在环境变量中设定代理export PROXY=http://211.90.168.94:8080/# 在~/.wgetrc中设定代理http_proxy = http://proxy.yoyodyne.com:18023/ftp_proxy = http://proxy.yoyodyne.com:18023/
wget各种选项分类列表
启动
     -V,     --version              显示wget的版本后退出     -h,     --help                 打印语法帮助     -b,     --background           启动后转入后台执行     -e,     --execute=COMMAND      执行`.wgetrc'格式的命令，wgetrc格式参见/etc/wgetrc或~/.wgetrc
记录和输入文件
     -o,     --output-file=FILE        把记录写到FILE文件中     -a,     --append-output=FILE      把记录追加到FILE文件中     -d,     --debug                   打印调试输出     -q,     --quiet                   安静模式(没有输出)     -v,     --verbose                 冗长模式(这是缺省设置)     -nv, --non-verbose             关掉冗长模式，但不是安静模式     -i,     --input-file=FILE         下载在FILE文件中出现的URLs     -F,     --force-html              把输入文件当作HTML格式文件对待     -B,     --base=URL                将URL作为在-F -i参数指定的文件中出现的相对链接的前缀          --sslcertfile=FILE        可选客户端证书          --sslcertkey=KEYFILE      可选客户端证书的KEYFILE          --egd-file=FILE           指定EGD socket的文件名
下载
          --bind-address=ADDRESS      指定本地使用地址(主机名或IP，当本地有多个IP或名字时使用)     -t,     --tries=NUMBER              设定最大尝试链接次数(0 表示无限制).     -O      --output-document=FILE      把文档写到FILE文件中     -nc, --no-clobber                不要覆盖存在的文件或使用.#前缀     -c,     --continue                  接着下载没下载完的文件          --progress=TYPE             设定进程条标记     -N,     --timestamping              不要重新下载文件除非比本地文件新     -S,     --server-response           打印服务器的回应          --spider                    不下载任何东西     -T,     --timeout=SECONDS           设定响应超时的秒数     -w,     --wait=SECONDS              两次尝试之间间隔SECONDS秒          --waitretry=SECONDS         在重新链接之间等待1...SECONDS秒          --random-wait               在下载之间等待0...2*WAIT秒     -Y,     --proxy=on/off              打开或关闭代理     -Q,     --quota=NUMBER              设置下载的容量限制          --limit-rate=RATE           限定下载输率
目录
     -nd     --no-directories               不创建目录     -x,     --force-directories            强制创建目录     -nH, --no-host-directories          不创建主机目录     -P,     --directory-prefix=PREFIX      将文件保存到目录 PREFIX/...          --cut-dirs=NUMBER              忽略 NUMBER层远程目录
HTTP 选项
          --http-user=USER         设定HTTP用户名为 USER.          --http-passwd=PASS       设定http密码为 PASS.     -C,     --cache=on/off           允许/不允许服务器端的数据缓存 (一般情况下允许).     -E,     --html-extension         将所有text/html文档以.html扩展名保存          --ignore-length          忽略 `Content-Length'头域          --header=STRING          在headers中插入字符串 STRING          --proxy-user=USER        设定代理的用户名为 USER          --proxy-passwd=PASS      设定代理的密码为 PASS          --referer=URL            在HTTP请求中包含 `Referer: URL'头     -s,     --save-headers           保存HTTP头到文件     -U,     --user-agent=AGENT       设定代理的名称为 AGENT而不是 Wget/VERSION.          --no-http-keep-alive     关闭 HTTP活动链接 (永远链接).          --cookies=off            不使用 cookies.          --load-cookies=FILE      在开始会话前从文件 FILE中加载cookie          --save-cookies=FILE      在会话结束后将 cookies保存到 FILE文件中
FTP 选项
     -nr, --dont-remove-listing      不移走 `.listing'文件     -g,     --glob=on/off              打开或关闭文件名的 globbing机制          --passive-ftp              使用被动传输模式 (缺省值).          --active-ftp               使用主动传输模式          --retr-symlinks            在递归的时候，将链接指向文件(而不是目录)
递归下载
     -r,     --recursive             递归下载－－慎用!     -l,     --level=NUMBER          最大递归深度 (inf 或 0 代表无穷).          --delete-after          在现在完毕后局部删除文件     -k,     --convert-links         转换非相对链接为相对链接     -K,     --backup-converted      在转换文件X之前，将之备份为 X.orig     -m,     --mirror                等价于 -r -N -l inf -nr.     -p,     --page-requisites       下载显示HTML文件的所有图片
递归下载中的包含和不包含(accept/reject)
     -A,     --accept=LIST                   分号分隔的被接受扩展名的列表     -R,     --reject=LIST                   分号分隔的不被接受的扩展名的列表     -D,     --domains=LIST                  分号分隔的被接受域的列表          --exclude-domains=LIST          分号分隔的不被接受的域的列表          --follow-ftp                    跟踪HTML文档中的FTP链接          --follow-tags=LIST              分号分隔的被跟踪的HTML标签的列表     -G,     --ignore-tags=LIST              分号分隔的被忽略的HTML标签的列表     -H,     --span-hosts                    当递归时转到外部主机     -L,     --relative                      仅仅跟踪相对链接     -I,     --include-directories=LIST      允许目录的列表     -X,     --exclude-directories=LIST      不被包含目录的列表     -np, --no-parent                     不要追溯到父目录

[本日志由 admin 于 2008-03-02 11:52 PM 编辑]