- 约1195字
- 技术
- 2026年3月19日
去年底我负责了一个智能客服系统的开发,上线后效果却远不及预期。花了两个月做的系统,转化率只有预期的三分之一。经过详细复盘,我发现了三个关键问题,今天分享出来,希望帮你少走弯路。
第一个坑:过度依赖AI,忽视了人工兜底
项目初期,我和技术团队一致认为有了大语言模型,客服完全可以自动化。于是我们设计了一套"纯AI"方案:用户提问 → AI回答 → 完成。
上线第一周,问题就来了。用户问"你们退款多久到账",AI给出的答案是"7个工作日内"。但实际上我们和财务确认过,最快是3天,最慢是7天。这个"模糊答案"让很多用户不满,客服投诉量反而增加了。
后来我们加了人工兜底机制:AI处理高频标准化问题,人工处理复杂和情绪化问题。转化率立刻回升。这让我意识到,AI不是万能的,在关键业务流程上,永远需要人工审核和兜底。
教训:AI适合处理重复性高、容错空间大的任务;但涉及用户利益、金额、时间等敏感信息,必须人工确认。
第二个坑:提示词迭代太快,没有建立评估体系
第二个问题更隐蔽。我们团队在一个月内迭代了6版提示词,每次都觉得"这版肯定比上版好"。但上线后用户满意度没有明显提升,后来复盘数据才发现,我们自己都说不清楚哪版更好。
原因很简单:我们没有建立科学的评估体系。团队里每个人都有自己的主观感受,但没有量化指标。我后来总结了三个核心指标,供你参考:
- 准确率:AI回答正确的比例(需要人工抽样或规则校验)
- 拦截率:AI独立完成对话的比例(不需要人工介入)
- 满意度:用户对AI回答的评分(可以引导用户打分)
建立评估体系后,提示词迭代才有方向。否则就是凭感觉改,改来改去也不知道是进步还是退步。
教训:提示词优化必须有量化指标支撑,否则就是自嗨式迭代。
第三个坑:低估了数据清理的工作量
第三个坑是我们严重低估了数据准备的工作量。项目初期,我们以为"喂给AI一些文档就能用",实际发现:
- 历史客服对话数据质量参差不齐,大量口语化表达、错别字、截断句子
- 产品文档分散在多个系统,有些已经过时,有的格式不统一
- 业务知识没有结构化,AI无法理解"我们的退换货政策"具体指什么
光数据清理就花了预期时间的两倍。如果一开始就把数据准备列为重点任务,整个项目进度会更可控。
教训:AI项目的数据准备往往是最大的时间黑洞,提前评估数据质量和整理成本非常重要。
三个坑的共同教训
回顾这三个问题,我总结了AI项目落地的三个关键原则:
- 人机协作而非完全替代:AI处理标准化的,人工处理关键的
- 用数据驱动优化:建立评估体系,让迭代有据可依
- 重视数据基础设施:提前评估数据质量,不要在垃圾数据上训练模型
AI项目失败不可怕,可怕的是不知道为什么会失败。希望我的复盘能给你一些参考。
如果你有类似的踩坑经历,欢迎在评论区分享,我们一起避坑。