步骤1

首先得创建一个采集任务,在任务列表里点「创建采集任务(高级模式)」,采集模式选「列表页|表格数据(单页多数据)」,填上你要采集的网址,保存。

image

步骤2

接下来,需要配置采集表格数据的样本规则,让工具知道要批量获取哪一部分信息。

配置需分成两步操作:

第一步、框选数据区块

啥意思呢,就是告诉系统「哪些东西算一条数据」,通常这些数据区块结构相同且有规律罗列在网页里,表格就是一行为一条数据。

操作方式极其简单,先随便点选一个单元格,再点击「设置选取表格行」按钮,系统会自动识别出页面上所有表格行,全部给框选出来。

我当时点完两下,六百多行产品数据一瞬间全被选中,太爽了。

image

image

圈选完区块,保存,点「第2步:详情提取器」,进入下一步数据字段配置。

第二步、配置数据字段

该配置其实是告诉工具「每条数据里,你想拿哪些东西」。

比如说一个表格有好几列,姓名、性别、年龄、班级等,你可以在同一个表格行里,分别点选目标列的内容,把它们设成不同的字段进行存储。

比如先点姓名那一格,设为title字段。再点性别那一格,设为content字段。以此类推。

image

image

每个字段是独立的,互不影响。你还可以给每个字段加一些数据处理规则(替换、提取和过滤等),点击字段名后的绿齿轮按钮即可,这里就不过多展开了。

全部设完之后点右上角保存。

步骤3

配置完就可以启动任务开始采集了,我那六百多条大概跑了几分钟,全部搞定。

image

Logo

一站式 AI 云服务平台

更多推荐