程序员必须知道的抓取数据插件「WebScraper」

文章中心8个月前发布 admin
69 0 0

程序员需要知道的数据抓取插件“WebScraper”

介绍网络抓取工具,这是Google的一个插件

您可以轻松捕获网页上的内容:文本、链接、图像、表格等,而无需编写一行代码。

1.安装网页抓取插件

打开GoogleChrome,找到该扩展程序并转到ChromeWebAppStore。搜索网络爬虫。

特别提示:

如果无法进入Google商店。

方法一:您可以先安装一个【GoogleAssistant】来访问GoogleStore,然后进行与上述相同的操作。

方法二:到这个插件库网站https://crxdl.com/下载,这个在实际测试中是可行的。

下载后,它是一个crx文件,然后打开Chrome。最重要的一点是:仅支持Chrome浏览器

程序员必须知道的抓取数据插件「WebScraper」

1.打开Chrome浏览器设置并找到该扩展程序。

程序员必须知道的抓取数据插件「WebScraper」

2.启用浏览器开发者模式。

程序员必须知道的抓取数据插件「WebScraper」

3.将crx的后缀更改为zip格式并解压。

4.单击扩展中的“加载提取的扩展”按钮。

程序员必须知道的抓取数据插件「WebScraper」

5.成功实施网络抓取。

程序员必须知道的抓取数据插件「WebScraper」

这就是基本安装步骤。现在让我们尝试一下。

2、网页抓取安装后的工作界面在哪里?

在浏览器中点击“右键”-“检查”后,会出现下图-

程序员必须知道的抓取数据插件「WebScraper」

通知!!:在底层模式下调试开发者工具。

!!您可以在这里找到一个实际的例子!

在博客的第一页记录所有标题、内容和时间。

1.添加请求头,URL为

https://blog.csdn.net/blogdevteam/

程序员必须知道的抓取数据插件「WebScraper」

2.理解工具的含义

程序员必须知道的抓取数据插件「WebScraper」

创建选择器时,应使用元素预览和数据预览功能来确保选择正确的网页元素和数据。

1)选择器CSS选择器选择需要的元素;

2)多个-如果要选择多条记录,则必须勾选此选项。从两个或多个多重选择器中提取的数据不会合并到单个记录中;【元素类型的父选择器元素中可以设置multiple,子元素不需要设置multiple】

3)延时:选择器动作前的延时时间;

4)父母选择器:为该选择器选择一个父母选择器,生成选择器树结构;

5)文本选择器(TextSelector);

6)链接选择器;

7)元素选择器。

程序员必须知道的抓取数据插件「WebScraper」

3在根文件夹中添加一个element类型元素

元素类型元素是父选择器元素,可以捆绑你想要抓取的子元素。

程序员必须知道的抓取数据插件「WebScraper」

通常该元素是下图中的蓝色块线。

程序员必须知道的抓取数据插件「WebScraper」

4.为要捕获的内容创建规则。

成功创建父类选择器后[即elementtypeelement],我们可以在父选择器中创建一个新的子类选择器,如标题、内容和TimeAndNum,如下所示。

程序员必须知道的抓取数据插件「WebScraper」

5.开始抓取

程序员必须知道的抓取数据插件「WebScraper」

程序员必须知道的抓取数据插件「WebScraper」

附录:您可能遇到的网页抓取问题

1、为什么记录数据的结果顺序与网站上的不一样?

Webscraper抓取数据结果默认是无序的。如果您希望结果清晰,则需要安装CouchDB或使用其他解决方案。我们最终导出的数据是CSV格式的。用Excel打开CSV后,可以使用Excel的功能对其进行整齐的排序。

2.捕获的内容可以导出为Excel以外的其他格式吗?

不可以,网络抓取工具目前仅支持导出到Excel。

3.数据已被捕获,但已丢失。发生了什么?

由于您没有创建子选择器,因此数据放置不正确。

您必须创建一个新元素作为父选择器,并将要捕获的信息用作子选择器,这样捕获的信息才不会丢失。

4.捕获多页数据

程序员必须知道的抓取数据插件「WebScraper」

5.如何捕获滚动加载数据?

程序员必须知道的抓取数据插件「WebScraper」

6.如何抓取图片源?

程序员必须知道的抓取数据插件「WebScraper」

7.如何从该触发器触发的多个页面加载更多数据?

© 版权声明

相关文章