中科白癜风暖心公益活动 https://m.39.net/disease/a_t5oft8k.html年是人工智能野蛮生长的一年,谷歌、微软等大厂AI实验室如火如荼,市面上人工智能产品层出不穷。在智能语音方面,智能手机(例如Cortana,Siri,OkGoogle,...),个人助理(例如GoogleHome,AmazonEcho,...),交互式语音应答(银行,应答机,......),语音机器人(电话机器人、客服机器人、电销机器人,……),在生活中很常见,表现都让人惊喜。同时他们工作原理也大致相同。本文以灵声机器人为例,讲解智能语音电话机器人工作原理:第一阶段:C端——B端语音到文本的过程。信号源→设备(捕获音频输入)→增强音频输入→检测语音→转换为其他形式(如文本)在检测语音过程中,就包括分辨是否为语音信号,该过程会通过指定的频率对模拟信号进行采样,将模拟声波转换为数字数据。这一过程很重要,是否成功地识别语音。如果生成数字数据都是错误的,那么后期的处理响应那肯定是错的。这也是影响智能语音助理或语音机器人识别率的重要因素。灵声运用VAD技术简化语音处理,同时可以在IP电话应用中避免对静音数据包的编码和传输,节省计算时间和带宽。第二阶段:B端——云端——B端AI应答处理过程。数字化语音数据→处理文本(如用NLP处理文本,识别意图)→传达AI应答指令。同时在灵声AI平台(LAP)会基于CRM和语音应答进行大数据分析,生成用户画像。在这个过程,灵声AI平台(LAP)会对一些字段进行记录,包括标记和打分。这些可以用来分类客户的意向等级,便于帮助您指定二次跟进计划。同时会基于CRM和语音应答进行大数据分析,生成用户画像。客户画像主要包含两层内容,第一层包括用于描述客户的最常见类别,例如人口统计,社会经济状况和产品使用。第二层扩展了第一层的概念,包括心理特征,生成,地理,地理信息和所寻求的利益,即客户意向。通过意向分析,可以查看客户意向状况。通过圆环图和柱状图展示意向的分布情况。圆环图主要用于查看各类意向分布的比例,柱状图对比分析不同时期意向分布的异同。第三阶段:B端——C端操作相应。AI应答指令→用户。营造更好的交流体验,及时响应用户需求,在用户遇到困难时提出指导性建议,及时解决用户在使用中遇到的各种问题。通过LSTM循环神经网络框架,以及使用大量标记数据,进行训练培养灵声,深入识别对方意图和理解对话的上下文,与用户进行深度沟通。假设用户说“我想要预定房间”。NLU的工作是获取此输入,了解用户的意图并在输入中查找实体。在这个例子里,意图是预定,实体是房间。事实上,“我想要预计个房间”,有多种表述,比如“你这里空房间,我要订个”,“房间有吗,给我订个”……在这些表述中,灵声ai机器人提炼出意图和实体应该都是相同的。这仅仅是第一步,第二步为chatbot生成回复消息。它接受上个组件的意图和实体的输出并应用机器学习模型来生成回复/采取行动。针对“我想要预计个房间”,灵声应该给出相应建议和解决方案,比如“您好,酒店还有空房,你想要哪种房型?”同时在通话过程中支持打断,即用户可以随时打断机器人。在通话过程中,除了识别语义,意图和情绪把控很重要。灵声可以细分意图(通用的意图、业务性意图)和情绪(通用的情绪、业务性的情绪。)
转载请注明:
http://www.aideyishus.com/lkzp/7179.html