博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
「镁客·请讲」极限元温正棋:从前端信号处理到语音识别、对话、声纹情绪与合成,要打造智能交互闭环...
阅读量:5814 次
发布时间:2019-06-18

本文共 2215 字,大约阅读时间需要 7 分钟。

在温正棋看来,鉴于开源等原因,智能语音的核心技术已经不存在太大差别,而他们相比之下的优势更多集中在业务服务能力及闭环技术的应用层面。

前段时间,亚马逊智能音箱Echo时而抽风的怪笑声令消费者“震惊”,虽然到底是什么原因造成的,我们目前尚不清楚。不过,我们可以确定的是,语音交互已经成为了人们智能生活中不可或缺的一个因素。

极限元温正棋:从前端信号处理到语音识别、合成与交互,我们要打造智能语音技术闭环

选择极限元,他的初衷就是把研究转化为产品应用到市场

我自己是中科院自动化所模式识别国家重点实验室的副研究员,就想把研究做成产品运用到市场上,这是我当初加入极限元的初衷。极限元CEO温正棋表示。可以说,从成立之初到现在,温正棋见证了极限元的成长与蜕变。

在最初,极限元选择以“单项技术应用”来切入市场。彼时,基于音频比对和关键词检索两个关键技术的结合,再加之与其他公司的合作,极限元开拓了多个业务,包括音频防恐防暴、反电信诈骗等等。

此外,温正棋表示,在语音合成、语音识别等方面,极限元最初也与多家大型公司达成了合作,如“腾讯、搜狗、奇虎360等”。

目前,在自身公司主体之外,极限元也与中科院自动化所联合挂牌成立了“中国科学院自动化研究所-极限元(北京)智能科技股份有限公司智能交互联合实验室”。

极限元温正棋:从前端信号处理到语音识别、合成与交互,我们要打造智能语音技术闭环

打造智能语音技术闭环,为市场提供整套的智能交互解决方案

从2017年开始,极限元对自己的定位进行了调整,温正棋称,当前他们致力于打造一个从前端信号处理——语音识别——人机对话 —声纹识别—情绪识别——语音合成的语智能交互技术“闭环”。

而基于这一全新定位,在业务的开展方面,温正棋指出了三个全新的角度,分别是机器人和智能客服、语音转写

具体来讲,比如机器人,遵循自身定位的极限元提供的也是闭环式解决方案。“从前端信号到语音识别、语音合成、再到对话,‘对话’方面会接入第三方内容。”温正棋称。也就是说,在具体的案例中,机器人厂商只需提供一个配备了系统的机器人,而极限元则是将自身智能语音软件嵌入其中,以便厂商基于软件来搭建智能机器人的语音交互能力。

又比如智能客服,也被细分为两个小方向,分别外呼机器人,因为手握主动权,极限元在设计规划的时候将针对性的设计对话逻辑,以避免语音识别不准确、对话逻辑混乱等问题。另一个则是语音质检,将之替代客服行业中的人工质检,在全面覆盖的前提下提升质检效率。

与众多从事智能语音技术的公司一样,极限元当前的业务也是以B端市场为主。同时,他们也面向C端用户提供了一些产品/服务,譬如语音转写等

在智能化趋势之下,作为人机交互的主要途径之一,语音交互市场愈发庞大。与此同时,我们看见的业内多个公司的此起彼伏。“鉴于技术、算法开源等因素,业内各家公司在核心技术上并没有太大的差别,最主要的关键是你在特定领域的数据积累。”谈及极限元的市场竞争力,温正棋这样表示。

在其看来,作为一个创业公司,相比于技术,他们比之其他公司的优势更多的集中在业务上。“对于一个业务来说,友商们可能没有分配单人来专门跟进业务合作、提供服务等等。作为初创公司,我们在这一服务方面肯定做的比他们好。”

极限元温正棋:从前端信号处理到语音识别、合成与交互,我们要打造智能语音技术闭环

智能语音技术的行业门槛不低,语音交互不顺畅的解决方案在于“特定”

今年来,像智能客服、智能服务机器人以及智能家居单品等产品与人类之间经常会发生智能交互的过程。在这其中,我们应该也注意到,有时候基于语音的人机交互过程并没有那么的顺利,常常会上下文没有逻辑

对于这种问题,温正棋将原因总结为两点,分别是语音识别不准确以及对话的不准确。至于如何解决,前者的关键还是在于“特定”,在收集特定领域的数据之后,再通过迭代迁移学习算法等等,不断地将模型进行更新。“这种快速迭代的方法更适合我们这种小公司。”他表示。

至于对话,众做周知,在具体的应用中,其中关键部分自然语言处理的准确率并不存在百分之百的情况,为了更好地效果,还是需要将应用场景进行固定。从本质上讲,这一解决方案与语音识别的解决方案是相同的,讲究专用、讲究特定领域。

在采访中,温正棋提到,他经常会分析一个问题:智能语音技术的人才主要是由哪些队伍来产生的?“从全国的角度来看,智能语音人才主要由这么几个渠道产生,像科大讯飞、清华北大、中国科学院自动化研究所,以及西工大、上海交大等等,每年出来的智能语音技术方向的人才的数量其实很少,但是市场上的需求是很大。”

对于智能语音技术行业的进入门槛,温正棋称并不低,除了技术上存在的门槛,数据积累是一个不容忽视的重要部分,尤其是在做垂直领域的时候。

从创业角度来讲,“除了单独的技术储备,还需要拥有对应的数据积累与运用。”如今,所在智能化的驱使下,不管是算法的训练,亦或是产品的功能实施,数据的重要性愈加凸显。而对于从事智能语音技术的创业者而言,如何在保证隐私、数据安全的前提下获得大量数据,是他们时刻都需要考虑的问题。

结语

目前,基于自身定位的调整,接下来,极限元将基于智能机器人、智能客服等业务来积累数据。另外,再加以对市场的调研,以此前提到的三个业务角度为中心向外围进行扩展,根据市场的实际需求来定制产品服务。

距离上一次天使轮融资,极限元已经走过了一年多的时间。据温正棋在采访中透露,虽然公司略有盈余,但也正着手准备开启下一轮融资,希望投资方能够带来更多的应用场景资源。

原文发布时间:
2018-03-16 09:05
本文作者:
韩璐
本文来自云栖社区合作伙伴镁客网,了解相关信息可以关注镁客网。

转载地址:http://netbx.baihongyu.com/

你可能感兴趣的文章
数据库三范式是什么?
查看>>
[转载]设置Ubuntu自动连接无线,无须再输入密钥环和无线密码
查看>>
九叔Xen App测试报告
查看>>
Apache配置
查看>>
Ext gridPanel 单元格数据的渲染
查看>>
Android SDK 的下载代理
查看>>
Method Swizzling对Method的要求
查看>>
佛祖保佑,永不宕机
查看>>
四、配置开机自动启动Nginx + PHP【LNMP安装 】
查看>>
LNMP一键安装
查看>>
SQL Server数据库概述
查看>>
Linux 目录结构及内容详解
查看>>
startx命令--Linux命令应用大词典729个命令解读
查看>>
华为3026c交换机配置tftp备份命令
查看>>
Oracle命令导入dmp文件
查看>>
OCP读书笔记(24) - 题库(ExamD)
查看>>
Http、TCP/IP协议与Socket之间的区别(转载)
查看>>
解决Unable to load R3 module ...VBoxDD.dll (VBoxDD):GetLastError=1790
查看>>
.net excel利用NPOI导入oracle
查看>>
vrpie在Visio Studio 中无法调试的问题
查看>>