【影刀RPA】10分钟零代码实现抖音数据自动化采集:影刀RPA实战教程
一、简介
影刀RPA是一款面向企业的智能流程自动化平台,通过模拟人类在电脑上的操作,自动执行重复性高、规则明确的业务流程,帮助企业降本增效,释放员工创造力
| 特点 | 通俗举例说明 |
|---|---|
| 低代码/无代码操作 | 就像搭积木一样,用鼠标拖拽“打开网页”“输入账号”“点击登录”这些小模块,就能让机器人自动帮你登录后台,不用写一行代码 |
| 模拟人工操作 | 机器人能像真人一样操作电脑:打开Excel、复制数据、粘贴到系统里、点“提交”按钮……全程自动完成 |
| 跨软件协同工作 | 比如从淘宝后台导出订单 → 自动填到快递打单软件 → 再把结果记到Excel里,三个软件它都能串起来干 |
| 支持AI能力(如OCR) | 收到一张发票图片?机器人能自动“看懂”上面的金额、公司名,再把信息填进财务系统,不用你手动敲字 |
| 7×24小时自动运行 | 晚上你睡觉时,它还能在电脑上默默干活——比如半夜12点自动抓取竞品价格,早上你一上班就能看到报告 |
| 云平台管理 & 多人协作 | 团队里5个人用的自动化流程,可以统一放在“影刀云”上管理,谁改了流程大家都能看到,还能分配机器人轮流干活 |
| 适用多种行业场景 | - 电商:自动上架商品、回评客户 - 财务:自动对账、开发票 - HR:批量录入简历、发入职通知 - 运营:抓取数据做日报 |
二、使用简介
1、创建自定义PC应用
点击左上角“新建”,选择“PC自动化应用”

选择“自定义搭建”

即可弹出工作空间
2、工作空间介绍
1)、界面预览

2)、工具栏

| 按钮 | 功能说明 | 举例 |
|---|---|---|
| 保存 | 保存当前应用或流程 | 编写完某流程后点击保存,防止丢失(Ctrl + S) |
| 撤销 | 撤销上一步操作 | 误删了一个指令,点“撤销”可恢复(Ctrl + Z) |
| 重做 | 重做被撤销的操作 | 撤销错了,再点“重做”还原回来(Ctrl + Y) |
| 智能录制 | 自动记录用户操作并生成流程 | 手动在网页上登录+点击下载,系统自动生成对应指令序列 |
| 数据抓取 | 快速提取网页/表格中的结构化数据 | 从京东商品页批量抓取“名称、价格、评论数” |
| 影刀浏览器 | 启动内置的自动化专用浏览器 | 避免其他浏览器有插件干扰导致流程失败 |
| 运行 | 执行当前整个流程 | 点击后流程开始运行到第一个断点 |
| 调试 | 进入调试模式,逐行执行并查看变量状态 | 调试是一步步运行指令(F10),配合调试区使用 |
注:右方也有“学习中心”,可以先看官方教程
3)、指令区

指令过多,这里演示查看每个命令使用说明的方法
随意双击一个指令,能打开他的调试页面,点击“使用说明”

即可弹出相关指令的官方使用教程,如下图

4)、主流程区

可视化流程编辑区,用户在此拖拽指令构建自动化流程
- 空白画布:初始为空,等待添加指令
- 支持拖拽:从左侧指令区拖入指令,形成流程图
- 可嵌套:支持条件、循环等结构嵌套
注:可以点击中间的“查看示例”,弹出示例流程,选择生成一些流程试用

5)、调试区

用于识别和管理网页或桌面应用中的UI元素(如按钮、输入框等)
| 标签页 | 作用 |
|---|---|
| 元素库 | 存储已识别的UI元素,可以用来判断所需数据位置 |
| 图像库 | 图像识别所需的图片模板 |
| 错误列表 | 显示流程执行中发生的错误 |
| 运行日志 | 记录流程执行过程的日志 |
| 数据表格 | 显示流程中保存下来的数据 |
| 流程参数 | 设置流程入口参数(如传入当前网页对象) |
6)、流程结构

展示当前应用的流程结构树,便于管理和跳转
| 项目 | 作用 |
|---|---|
未命名的应用 |
当前正在编辑的应用名称 |
引用 |
查看被引用的外部流程或模块 |
资源文件 |
存放图片、配置文件等资源 |
主流程.flow |
主要的自动化流程文件,可双击进入编辑 |
注:适合大型项目,比如主流程中需要循环,可将循环结构改为子流程,便于分离逻辑
7)、全局变量区

定义和管理在整个流程中可共享使用的变量
作用:
- 在不同指令之间传递数据
- 实现动态参数化
示例:
点击“f+”,新增一个全局变量

然后在其他指令中使用 ${userName},就可以自动填入“zhangsan”
三、采集某音作者和作品信息
这里用某音举例,我们尝试采集指定一批作者的作品内容和链接
提供这样两个表:
作者表,包含需要采集的作者链接和作者名,格式如下,表头如图即可

作品表,表头如图即可

经过影刀自动化处理后,会返回这样的表
作者表

作品表

1、打开网页
想象一下我们要人工去查找这些信息,第一步是什么,当然是打开浏览器
我们可以使用“打开网页”指令,在指令区的“网页自动化”里面(不知道的可以直接搜索),双击它弹出指令调试

首先要确保浏览器能稳定打开,我们先到某度页面试试,在网址处输入
www.baidu.com
可以选择其他浏览器类型(注意需要下载对应影刀插件)
这个指令会输出该网页对象,可以修改他命名,我这里不改,因为就只有一个网页对象

然后点击“确定”,可以看到主流程出现了新建的指令,这就是主流程区的作用

可以自己点击“调试”一下试试,这里我们还要确保浏览器到了正确的链接后再执行下一个指令
所以我们再添加一个“等待网页加载完成”,
因为网页对象唯一,所以这里不需要额外指定
超时时间默认设置20秒差不多了
超时后执行不管

同时打开了网页要记得关闭,否则网页越开越多
添加一个“关闭网页”,操作可以选择关闭所有,这里就默认

写到这里可以调试一下,看看每一步是否正确
注:停止调试才能修改指令

2、打开Excel
现在打开网页了,我们应该怎么进入某个某音作者的页面呢,这里我选择用作者的链接直接跳转
那么我们可以把所有需要采集的作者的链接存到Excel里,让它自己去读取
先在本地电脑里创建一个Excel表,命名为“某音作者表”,第一行填上如下内容,便于采集后区分

作者表有了,那么采集的作品内容也应该放在一个Excel里
我们再创建一个Excel表,命名为“某音作品表”,同理第一行填上如下内容

现在就可以使用指令读取了,使用“打开/新建Excel”指令

选择刚刚创建的“某音作者表”路径,保存输出为“作者表”

同理使用“打开/新建Excel”指令,读取并保存作品表

注:拖动指令,保证所有对象是先打开再关闭

可以在调试一下,看看读取到Excel对象没,调试区有其对象即成功

3、循环读取Excel
想要循环读取作者表的内容,首先要知道作者表的总行数
使用“读取Excel总行数”,保存输出为“作者表总行数”

接下来读取作者表的链接内容了,使用“循环Excel内容”
选择:循环行,起始行号2,结束行号点击fx,选择刚刚输出的作者表总行数(自定义参数都点这里)

输出保存为,作者表当前项和作者表当前行

现在已经能循环作者表了,使用“读取Excel内容”指令
选择:对象作者表,方式单元格内容,行号作者表当前行号,列名选择A,保存数据为作者名

同理使用“读取Excel内容”指令,读取作者链接(可以cv复制粘贴,直接修改列名和输出即可)

在作者表里输入一些作者,调试看看是否读取成功

在第一个循环后,调试变量中应该有以下参数,可以看到作者名和作者链接


4、跳转作者链接
现在每个循环都能读取到作者链接和名字,使用“跳转至新网址”指令
选择跳转至新页面,网址选择“作者链接”

同理因为是新页面,所以需要添加一个“等待网页加载完成”指令
此时循环体内指令如下,也可调试下是否跳转

5、可见内容抓取
以下内容要完全掌握的需要一点HTML语言基础,不了解的可以一个个尝试也能抓取到
在打开了目标页面后,就可以准备定位元素了,先抓取能看见的数据
添加“获取相似元素列表(web)”指令,选择操作目标,点击捕获新元素

按住 Ctrl 键,点击需要提取数据的位置,比如这里需要标题,就点击标题位置

此时弹出元素编辑器,这里选择精确定位,
只保留 <p> 节点(因为有class能确保唯一,同时我们需要的标题也在里面)
属性class等于后方捕获值即可,在修改元素名称

此时可以点击校验元素,查看是否识别成功,如图所示成功
抓取不正确的,多换节点和属性值,配合校验元素多半都能成功

此时我们仅仅识别了元素的位置,我们还需要对元素操作
可以看到我们需要的标题,就在 p节点 的 innerText 属性里面
所以这里选择获取元素属性,输入属性名称innerText,保存输出为作品标题list

同理使用“获取相似元素列表(web)”指令获取点赞数

注:有些数据存在元素文本内容里面,比如这里

同理使用“获取相似元素列表(web)”指令获取作者信息

同上获取元素文本内容

调试一下,看看是否能抓取数据
第一个循环后抓到以下数据

6、不可见内容抓取(作品链接)
界面上显示的内容都能抓到,但是界面上看不见的在哪里采集呢,比如作品链接
其实像链接这种,你点击哪里能够跳转,那么点击哪里捕获就行
同理使用“获取相似元素列表(web)”指令获取作品链接,捕获位置就选择任意一个视频
然后找到里面的 <a> 节点,只保留 class 属性即可匹配到整个元素

我们在<a>节点里,找到 href 属性,经过观察里面就有视频的跳转链接后半部分
所以我们就能通过影刀提供的获取元素链接地址和智能补充,完成链接提取

同理调试一下,查看链接是否抓取成功,可以再去网页打开该链接试试是否正确

7、插入Excel
数据都获取到了,我们应该插入作品表的Excel了,那么我们怎么才能知道数据从哪里开始插入呢
这里可以用到“获取第一个可用行”指令,即除去作品表的表头的第一行

再使用“写入内容至Excel工作表”指令
选择:作品表对象,写入范围列,起始行号选择刚刚设置的第一个可用行,
方式覆盖一列,列名选作品链接那一列,内容选择捕获的作品链接list

同理再使用“写入内容至Excel工作表”指令,写入标题和点赞数


接下来我要插入作品表,每个作品对应的作者名和作者链接了,那我应该怎么插入呢
这里我提供一个思路,同样还是直接使用“写入内容至Excel工作表”指令,不过写入内容有所改变
原理:写入内容还是一个列表,不过是用过python生成的,用作者名*作品链接的长度即可
注:要使用python相关用法,需激活如图箭头所示的按钮

同理使用“写入内容至Excel工作表”指令,写入作者链接

同理使用“写入内容至Excel工作表”指令,写入作者信息
写入内容是展开作者信息list,然后选择列表第一项关注数,显示为作者信息list[0](是从0开始计数的,没有编程基础的直接硬记)

写入关注数如图所示

同理使用“写入内容至Excel工作表”指令,写入粉丝数和获赞数


到这里已经完成了自动化抓取,循环体如图所示

8、优化流程
这里直接点击运行,等待完成后,查看作品表和作者表插入数据是否正确,可以看到几秒钟就能完成抓取了

但是还有个问题,相信调试的时候大家可能已经遇到过了,就是作者信息有可能抓取不到,这里可能是因为浏览器没有完全加载
解决办法是在“等待网页加载完成”后面加一个“等待”指令,随机5-10秒,还能防止被限制访问,礼貌抓取

主流程完成了但是这样看起来逻辑混乱而且篇幅过长,我不喜欢
所以我可以选择将其指令分类,比如按抓取内容将作品信息和作者信息抓取分到子流程
使用 Ctrl 键选择要分到一起的流程,然后右键点击转换为子流程


然后给每个子流程重新命名,如图所示这样就能将职责分离了



如果还需要对子流程添加输入参数或输出参数的,可以点击流程参数中的如图的 fx 进行设置
此时由于作者名和作者链接变量在此流程中没有显示使用,所以这里需要用此方法继续设置

加入两个参数如下

然后去主流程的调用位置,完善这俩输入参数

到此运行成功,可以在作者表里按格式加入所需要采集的作者链接和名字,这样就能自动获取了
四、总结
只要是重复性的工作,理论上影刀都能完成自动化
这里只是简单的抓取某音作者的第一页作品,而且流程还可以优化扩展
比如影刀还能实现抓取作品的转发、评论、收藏,还有指定日期范围内的自动翻页抓取等等操作
就像他的官网主页说的一样

结尾:希望对大家有帮助!
更多推荐


所有评论(0)