程序员必须知道的抓取数据插件「WebScraper」

文章中心8个月前发布 admin

69 0 0

程序员需要知道的数据抓取插件“WebScraper”

介绍网络抓取工具，这是Google的一个插件

您可以轻松捕获网页上的内容：文本、链接、图像、表格等，而无需编写一行代码。

1.安装网页抓取插件

打开GoogleChrome，找到该扩展程序并转到ChromeWebAppStore。搜索网络爬虫。

特别提示：

如果无法进入Google商店。

方法一：您可以先安装一个【GoogleAssistant】来访问GoogleStore，然后进行与上述相同的操作。

方法二：到这个插件库网站https://crxdl.com/下载，这个在实际测试中是可行的。

下载后，它是一个crx文件，然后打开Chrome。最重要的一点是：仅支持Chrome浏览器！

1.打开Chrome浏览器设置并找到该扩展程序。

2.启用浏览器开发者模式。

3.将crx的后缀更改为zip格式并解压。

4.单击扩展中的“加载提取的扩展”按钮。

5.成功实施网络抓取。

这就是基本安装步骤。现在让我们尝试一下。

2、网页抓取安装后的工作界面在哪里？

在浏览器中点击“右键”-“检查”后，会出现下图-

通知！！：在底层模式下调试开发者工具。

！！您可以在这里找到一个实际的例子！

在博客的第一页记录所有标题、内容和时间。

1.添加请求头，URL为

https://blog.csdn.net/blogdevteam/

2.理解工具的含义

创建选择器时，应使用元素预览和数据预览功能来确保选择正确的网页元素和数据。

1）选择器CSS选择器选择需要的元素；

2)多个-如果要选择多条记录，则必须勾选此选项。从两个或多个多重选择器中提取的数据不会合并到单个记录中；【元素类型的父选择器元素中可以设置multiple，子元素不需要设置multiple】

3）延时：选择器动作前的延时时间；

4)父母选择器：为该选择器选择一个父母选择器，生成选择器树结构；

5）文本选择器（TextSelector）；

6）链接选择器；

7)元素选择器。

3在根文件夹中添加一个element类型元素

元素类型元素是父选择器元素，可以捆绑你想要抓取的子元素。

通常该元素是下图中的蓝色块线。

4.为要捕获的内容创建规则。

成功创建父类选择器后[即elementtypeelement]，我们可以在父选择器中创建一个新的子类选择器，如标题、内容和TimeAndNum，如下所示。

5.开始抓取

附录：您可能遇到的网页抓取问题

1、为什么记录数据的结果顺序与网站上的不一样？

Webscraper抓取数据结果默认是无序的。如果您希望结果清晰，则需要安装CouchDB或使用其他解决方案。我们最终导出的数据是CSV格式的。用Excel打开CSV后，可以使用Excel的功能对其进行整齐的排序。

2.捕获的内容可以导出为Excel以外的其他格式吗？

不可以，网络抓取工具目前仅支持导出到Excel。

3.数据已被捕获，但已丢失。发生了什么？

由于您没有创建子选择器，因此数据放置不正确。

您必须创建一个新元素作为父选择器，并将要捕获的信息用作子选择器，这样捕获的信息才不会丢失。

4.捕获多页数据

5.如何捕获滚动加载数据？

6.如何抓取图片源？

7.如何从该触发器触发的多个页面加载更多数据？

# 文章中心 # 元素 # 捕获 # 数据 # 浏览器 # 选择器

文章版权归作者所有，未经允许请勿转载。

程序员必须知道的抓取数据插件「WebScraper」

用这个插件，看视频再也没有广告

超好用20款谷歌插件推荐和实现B站看巨人

相关文章

站点公告

热门插件