工具准备:
1. chrome 浏览器(或者其他可以按F12打开源代码)
2. atom 编辑器(一款带正则匹配搜索的编辑器,github发布,无比顺手)
3. 了解基本的正则表达式
开始:
1. 案例是下载https://web.stanford.edu/~jurafsky/NLPCourseraSlides.html
内所有的ppt和pdf文件
2. 按F12 可以发现整个网页的框架,在源代码窗口内移动鼠标,网页页面会高亮显示对应的内容。
可以看到,table border 整一块对应了所有的下载链接的HTML代码
3. 右键该层HTML -> copy -> copy to outerHTML, atom打开后随便新建文档,黏贴到文档,可以看到一层层的html代码
4. atom下,按ctrl +F 搜索,搜索栏右边点击 ".*" 启动正则匹配
5. 此时打开迅雷, 在搜索栏写入
http.*?.pdf
解释:. 句号代表匹配任意的一个字符,*代表句号匹配的个数是任意多个,?代表非贪婪匹配,只要遇到.pdf就直接停止匹配
http.*?.pptx
匹配ppt, 其他内容也是相似的方式,因为下载链接都是文件后缀名结尾,如下载页面内全部视频 flv mp4 替换表达式的pdf即可
6.点击find all, ctrl + c ,接着开着的迅雷就会自动识别你的复制栏,然后下载全部内容
本文介绍如何使用Chrome浏览器和Atom编辑器配合正则表达式来批量下载网页上的特定格式文件,如PDF和PPTX等。

1万+

被折叠的 条评论
为什么被折叠?



