程序员需要知道的数据抓取插件“WebScraper”
介绍网络抓取工具,这是Google的一个插件
您可以轻松捕获网页上的内容:文本、链接、图像、表格等,而无需编写一行代码。
1.安装网页抓取插件
打开GoogleChrome,找到该扩展程序并转到ChromeWebAppStore。搜索网络爬虫。
特别提示:
如果无法进入Google商店。
方法一:您可以先安装一个【GoogleAssistant】来访问GoogleStore,然后进行与上述相同的操作。
方法二:到这个插件库网站https://crxdl.com/下载,这个在实际测试中是可行的。
下载后,它是一个crx文件,然后打开Chrome。最重要的一点是:仅支持Chrome浏览器!

1.打开Chrome浏览器设置并找到该扩展程序。

2.启用浏览器开发者模式。

3.将crx的后缀更改为zip格式并解压。
4.单击扩展中的“加载提取的扩展”按钮。

5.成功实施网络抓取。

这就是基本安装步骤。现在让我们尝试一下。
2、网页抓取安装后的工作界面在哪里?
在浏览器中点击“右键”-“检查”后,会出现下图-

通知!!:在底层模式下调试开发者工具。
!!您可以在这里找到一个实际的例子!
在博客的第一页记录所有标题、内容和时间。
1.添加请求头,URL为
https://blog.csdn.net/blogdevteam/

2.理解工具的含义

创建选择器时,应使用元素预览和数据预览功能来确保选择正确的网页元素和数据。
2)多个-如果要选择多条记录,则必须勾选此选项。从两个或多个多重选择器中提取的数据不会合并到单个记录中;【元素类型的父选择器元素中可以设置multiple,子元素不需要设置multiple】
3)延时:选择器动作前的延时时间;
4)父母选择器:为该选择器选择一个父母选择器,生成选择器树结构;
5)文本选择器(TextSelector);
6)链接选择器;
7)元素选择器。

3在根文件夹中添加一个element类型元素
元素类型元素是父选择器元素,可以捆绑你想要抓取的子元素。

通常该元素是下图中的蓝色块线。

4.为要捕获的内容创建规则。
成功创建父类选择器后[即elementtypeelement],我们可以在父选择器中创建一个新的子类选择器,如标题、内容和TimeAndNum,如下所示。

5.开始抓取


附录:您可能遇到的网页抓取问题
1、为什么记录数据的结果顺序与网站上的不一样?
Webscraper抓取数据结果默认是无序的。如果您希望结果清晰,则需要安装CouchDB或使用其他解决方案。我们最终导出的数据是CSV格式的。用Excel打开CSV后,可以使用Excel的功能对其进行整齐的排序。
2.捕获的内容可以导出为Excel以外的其他格式吗?
不可以,网络抓取工具目前仅支持导出到Excel。
3.数据已被捕获,但已丢失。发生了什么?
由于您没有创建子选择器,因此数据放置不正确。
您必须创建一个新元素作为父选择器,并将要捕获的信息用作子选择器,这样捕获的信息才不会丢失。
4.捕获多页数据

5.如何捕获滚动加载数据?

6.如何抓取图片源?

7.如何从该触发器触发的多个页面加载更多数据?