设为首页收藏本站 官方微信 开启辅助访问
注册忘记密码

深圳特区便民网为用户提供及时的沟通交流平台,内容覆盖港澳台、深圳圈子、中国黄页、离岸问答、外贸圈子、软件下载、租房、招聘等,微信扫码登录发表所见所闻

扫码登录深圳特区便民网

AI语音技能产品,如何设计

2021-7-20 17:17| 发布者: newKevin| 查看: 55| 评论: 0|来自: 鸿鑫瑞商务集团

摘要: 随着科技的快速发展,如今我们的生活越来越便捷,很多时候通过说话便有机器代替我们去完成一些事情,这便是语音技能带给我们的好处。日常生活中,语音技能仿佛无处不在,小到手机、智能音箱,大到机器人,那么,语音 ...

随着科技的快速发展,如今我们的生活越来越便捷,很多时候通过说话便有机器代替我们去完成一些事情,这便是语音技能带给我们的好处。日常生活中,语音技能仿佛无处不在,小到手机、智能音箱,大到机器人,那么,语音已经应该如何设计出来呢?

随着语音交互的普及,我们首先用到的最多的就是语音技能,比如:我们让智能音箱唱歌、查天气、讲笑话等,这些都是语音技能。

1. 基础信息介绍

在设计语音技能之前,我们首先要掌握技能用到的一些基础定义,每家公司可能叫法上面会有区别,但是都大同小异。

1.1 基础定义

我们在聊聊语音技能常见的一些名词和定义,主要有领域(domain)、意图(intent)和槽位(slot),这些都是语音技能必不可少的一些参数内容。

1.2 底层逻辑

基于什么能力实现的。

目前大部分做语音技能的公司,都是用正则表达式来写的,就是基于一些文本规则,作为约束条件,筛选出来明确的意图。抽取的槽位也是基于规则,或者穷举的方式。

这样做的好处是改动方便,以及改动后的影响好评估,而且冷启动非常方便,甚至可以做到每天迭代;缺点也同样明确,泛化能力弱,没有学习能力。

也有一小部分公司已经开始使用算法做语音技能了。

语音技能本质是一个意图识别的事情,而意图识别实际上又是一个分类问题,有基于传统机器学习的SVM,基于深度学习的CNN、LSTM、RCNN、C-LSTM等。

槽位识别实际上是一种序列标记的任务,有基于传统机器学习的DBN、SVM,也有基于深度学习的LSTM、Bi-RNN等。用算法做的优点就是泛化能力强,有一定的学习能力;缺点就是成本高,适合复杂技能后期迭代的方向。

2. 语音技能的定义

在开始动手做语音技能的之前,要先对语音技能进行定义,知道技能的边界,要有明确的反馈逻辑在里面。我们这里用“查天气”这个烂大街,也是最典型的技能来举例子。

2.1 定义技能

我们要明白为什么做“查天气”这个技能,以及要做到多细。

原因可能是我们就觉得这个技能很基础,用户都被教育过了,必须要有;也可能是我们看用户的交互日志,发现每天都有很多人有这个意图,现在是未满足状态,值得单拿出来作为一个技能。

2.2 触发技能反馈

反馈这块一方面依赖于产品底层的设计;另一方面依赖于产品形态,按照有无屏幕,可以简单分为两种产品形态:有屏幕和没有屏幕。这两方面结合,才能设计出一个人性化的体验。

产品的底层设计要考虑意图要不要细化,比如:“今天有雾霾吗?”和“今天天气怎么样?”这两种问法有没有必要分开处理,设置不一样的回复内容。

3. 数据的准备

前面说到的都是产品设计的时候要考虑到的问题,如果你把技能已经设计的差不多的时候,就可以准备这个意图的训练和测试数据,因为我们最终语音技能的开发是基于数据的,数据覆盖的越全面,技能的效果越好。

数据堂针对智能家居场景自研多套优质训练数据集,可应用于语音交互、语音控制、手势控制、异常行为检测等任务。更是得到了广大公司的青睐,该数据包含3D人脸识别数据, 200人唤醒词手机采集语音数据,559460段50种动态手势识别数据,8643张14类异常图像视频数据等,让智能家居产品更理解主人需求,人机沟通更加智能化。

4. 语音技能的实现

训练数据准备好之后,就是技能的实现了,这块需要工程师的支持。有些公司是工程师直接写语音技能的逻辑,有些公司是会提供一个平台,通过培训,让产品经理和运营同学也可以写。

这里就会用到一些基础能力,当一句query传过来,首先会使用中文分词对这句话进行分词。

比如:“北京明天天气怎么样”,会被分为“北京”、“明天”、“天气”、“怎么样”,然后就是命名实体识别;比如:“北京”就是地点实体,“明天”就是时间实体,对应的就是语音技能的槽位。

最后就是匹配我们写的正则表达式,这里就不过多赘述,感兴趣的同学可以搜搜看。

中文分词:为什么叫中文分词呢?因为英文是以词为单位的,词和词之间是依靠空格和标点隔开的,而中文是以字为单位的,一句话的所有字是连在一起的。

所以就需要算法把一句话切分成有意义的词,这就是中文分词,也叫切词,主要为了NLU后面处理做准备。了解锤子手机的人可能知道上面有一个叫做“大爆炸”的功能,就是基于该算法的。

这是NLU最底层的能力,一般都是用的开源的算法,大家能力相差不大,基本可以保证准确率在90%以上。

5. 测试验收效果

一般的语音技能开发会比较快,开发完成之后就是验收了,验收最关心的指标是精准率和召回率。

6. 总结

做一个语音技能,产品首先要有一个明确的定义,其次就是基于产品定义准备训练集和测试集,然后基于训练集完成技能的开发,最后使用测试集进行验证。

  鸿鑫瑞商务集团在内地与香港实体办公,香港持牌秘书公司、香港持牌会计师事务所、英国持牌秘书公司、新加坡、BVI、美国、开曼等一手秘书服务。专注国际、国内、离岸企业一站式综合服务,解决公司工商财税、资质批文、公司年审、做账审计、记账报税、执照注销、疑难注销,地址异常、刻章、商标、专利、版权代理,包开银行公户、包开香港公户私户、银行税务贷款、网站建设、小程序定制、会计培训、社保代缴补缴等。

公司网址:www.szhxr.com


路过

雷人

握手

鲜花

鸡蛋

相关分类

嗨!您好:
欢迎来到 深圳特区便民网。
我的名字叫丫丫
很高兴能够为您服务!
如果已经注册【立即登录】
还没有账号请微信扫右侧二维码或QQ登录。注册会员
返回顶部