记一次把意图分流准确率从七成多调到九成出头的过程,没什么高深的,全是笨功夫。

背景:客服Agent进来先过一个意图分类节点,把用户问题分成"退换货、物流、产品咨询、投诉、其他"五类,再分流到对应处理逻辑。上线第一周分流就乱套——"我这东西用着用着不亮了"被分进了"咨询",其实该走"退换货/质量"。一统计,分错率快三成。

我是这么一步步调的。

第一步:先把错例捞出来看。 没数据瞎调没用。我导了三百条线上对话,人工标了正确类别,跟Agent分的对一遍,挑出分错的。看完发现规律:错的大多集中在"投诉"和"退换货"之间,还有大量口语化表达模型没接住。

第二步:给每个类别补"反例和边界"。 原来的prompt只说"投诉:用户表达不满"。太虚。我改成带例子带边界:"投诉=对服务/态度不满且要求处理(如'你们客服太差了我要投诉');注意:只是抱怨产品不好用但想换货的,归退换货,不归投诉。"把容易混的两类之间画条线,立竿见影。

第三步:把高频口语表达喂进去。 中文客服全是大白话。"不亮了""没反应""黑屏"这些都指向质量问题,但模型不一定自动关联。我把线上真实说法整理成一批,写进对应类别的示例里。这一步贡献最大。

第四步:加一个"低置信度兜底"。 实在分不清的,别硬分,统一进"转人工/再问一句澄清"。我让它对拿不准的先反问"您是想退换还是咨询使用方法呀",一句澄清省掉大量误分流。

调到最后大概91%。剩下那不到10%的硬骨头,是那种一句话夹好几个意图的("东西坏了我要退而且要投诉你们物流"),单标签分类天生扛不住,这类我直接放行转人工,没硬抠。坦白讲准确率再往上的边际成本很高,性价比不划算就停了。

整个调优是在一个零代码就能搭智能体的平台里做的,分类节点能直接配类别、写示例、调prompt,还自带个效果测评——但有个实话,测评的用例集得你自己攒,平台不会凭空给你测试数据。我那三百条标注样本是一条条人工标的,这活躁不得。

一句话收尾:意图分类调优没有银弹,就是"捞错例→补边界→喂真实说法→兜底",循环几轮。

(模型层走的讯飞 MaaS,多档模型现成切换调用,没自己训没自己部署。)

Logo

一站式 AI 云服务平台

更多推荐