如果你正在学习编程,那么“爬虫”绝对是你不能忽视的东西。那么,学习python爬虫之前需要做哪些准备呢?
一颗热爱学习的心和一颗不屈不挠的心
带键盘的计算机(任何系统都可以。我使用OSX,所以示例将以此为基础)
一些html相关的知识。不需要精通,懂一点点就可以了
Python的基本语法知识。
当你具备了所有这些之后,你需要学习:
0.爬虫基本工作原理
1.基础http爬取工具:scrapy
2.BloomFilter:BloomFiltersbyExample
3、如果需要大规模爬取网页,就需要学习分布式爬虫的概念。简单来说,你只需要学会如何维护一个所有集群机器都能有效共享的分布式队列即可。最简单的实现是python-rq:
https://github.com/nvie/rq
4.rq与Scrapy的结合:darkrho/scrapy-redis·GitHub
5.后续处理:网页提取(grangier/python-goose·GitHub)、存储(Mongodb)
python受欢迎的一个很大原因就是各种有用的模块,这些模块是在家旅行时爬取网站时常用的——
NO.1F12开发者工具
看源码:快速定位元素
分析xpath:1.这里推荐谷歌浏览器。您可以在源代码界面上右键查看。
NO.2抓包工具
推荐httpfox,火狐浏览器的插件。它比GoogleFirefox附带的F12工具更好。可以轻松查询网站包裹收发货信息。
NO.3XPATHCHECKER(火狐插件)
一个非常好的xpath测试工具,但是它也有几个小缺点:
xpathchecker生成绝对路径。当遇到一些动态生成的图标(常见的包括列表翻页按钮等)时,不稳定的绝对路径很可能会导致错误,所以这里建议仅作为实际分析时的参考。
请记住删除xpath框中的“x:”,如下所示。看起来这是xpath早期版本的语法。目前与某些模块(例如scrapy)不兼容。最好将其删除,以免出现错误。
NO.4正则表达式测试工具
在线正则表达式测试,多用它来练习,还可以辅助分析!有很多现成的正则表达式可以使用,也可以参考!
了解更多