如何用webscraper实现百度文库批量下载

作者 : 慕源网 本文共856个字,预计阅读时间需要3分钟 发布时间: 2021-09-20 共162人阅读

如何用webscraper实现百度文库批量下载

因为我是做运营的,现在想找百度关于“引流”的pdf文档。

 

在百度输入引流,然后利用百度的搜索工具,选择只查PDF格式文档。

如何用webscraper实现百度文库批量下载

 

其实百度还有许多其他快捷搜索方式,直接输入filetype:pdf 关键字,filetype:doc 关键字,intitle:关键字等等,这样百度搜索出来的结果只显示相关格式的文档。

如何用webscraper实现百度文库批量下载

 

二、分析网址规律

 

开始分析网址,假设我们现在只采集百度前10页的搜索结果页,把前5页网址复制下来分析它们是否有相同的规律。

 

查看后发现在pn=x数字的前半部分网址是一样的,它们的规律是一页以10累计相加,但后半部分的网址却完全不一样,竟然没有规律那不就不能在webscraper实现批量下载了?

如何用webscraper实现百度文库批量下载

 

抱着试试的态度,我把前半部分网址复制到百度,神奇的是发现竟然也可以跳转到对应的页码,那这样我们就可以把后半部分去掉,网址就变得规律起来。

如何用webscraper实现百度文库批量下载

 

三、创建webscraper

 

因为网址是以10累加的,明白老师之前说过,这样的网址就可以用这样的格式[1-90:10],因为我们前面分析了,只采集前10页,第10页的pn=90,所以网址如下

如何用webscraper实现百度文库批量下载

 

不过下载百度文库的资料其实是要钱的,但是没关系,后面我会教大家方法,现在先把这些文库的链接先采集下来。

 

在type类型里直接选择link类型,link类型采集的结果本身就含有标题,所以我就没选择tex来采集标题了。

 

选择完成后,用元素检查工具查看其他页码是否选中,发现确实都选中了,除了广告部分,广告部分也不是我们想要的,所以是对的。

如何用webscraper实现百度文库批量下载

 

四、导出结果文档

 

开始采集,采集完成后导出到桌面。

如何用webscraper实现百度文库批量下载

 

打开文档,随便找几条链接检查下是否可以跳转到对应文档,发现正确。

如何用webscraper实现百度文库批量下载

 

五、免费解析百度文库

 

现在就开始解析百度文库链接了,在baidu字母后面加vvv三个字母,点击确定后会跳转到一个页面,如下。

如何用webscraper实现百度文库批量下载

 

跳转到这个页面后,选择你要导出的格式,然后点击下载。如下

如何用webscraper实现百度文库批量下载

 

六、大功告成

 

然后就会开始下载,下载完成后,直接保存就可以啦。

 

大功告成。

如何用webscraper实现百度文库批量下载

 

我自己平常也搜集筛选出了比较经典的引流干货,喜欢的可以直接下载哦。

 


慕源网 » 如何用webscraper实现百度文库批量下载

常见问题FAQ

程序仅供学习研究,请勿用于非法用途,不得违反国家法律,否则后果自负,一切法律责任与本站无关。
请仔细阅读以上条款再购买,拍下即代表同意条款并遵守约定,谢谢大家支持理解!

发表评论

开通VIP 享更多特权,建议使用QQ登录