• 发文
  • 评论
  • 微博
  • 空间
  • 微信

物联网全景动态图谱2.0|智能语音交互

物联网智库 2018-10-22 14:44 发文

物联网智库 整理发布

转载请注明来源和出处

导  读

        伴随着交互场景的扩展,人们对交互自由度的需求也在不断地提升。而语音交互凭借其输入速度快,场景限制少,技术链条发展成熟的优势,成为智能时代的理想交互途径。



从互联网时代,到移动互联网时代,再到物联网时代,信息的交互方式中语音交互的重要性日渐凸显并成为主流。受时代发展的影响,网络节点数逐渐增加,从单纯的PC到移动端设备,最后到包括家电等物件,都可纳入逐渐扩大的网络中。伴随着交互场景的扩展,人们对交互自由度的需求也在不断地提升。而语音交互凭借其输入速度快,场景限制少,技术链条发展成熟的优势,成为智能时代的理想交互途径。



语音交互作为人机交互最为重要的一种方式,正在进入消费者生活的日常,家居、医疗、娱乐、社交各个场景都已经出现了“它”的身影。物联网大潮下,各个巨头悉数入局语音交互市场,创业公司更是雨后春笋般地迅速成长。不同的基因与成长环境促使不同的厂商在语音交互的各个环节发挥着不同重要性的作用。


本文将针对国内外智能语音交互技术提供商、服务商以及应部分应用厂商进行汇总介绍。


公司:阿里巴巴

名称:AliGenie

AliGenie开发者平台是阿里巴巴人工智能实验室(AI-Labs)面向软硬件厂商和开发者推出的,将人工智能中ASR语音识别、NLP自然语言处理、TTS语音合成等自然语言处理技术和能力对外共享的开放式平台。



平台针对不同类型的开发者提供了丰富的开发工具,协助开发者完成语音技能的开发、智能设备的接入、云端服务的接入等。依托强大的底层技术、智能的算法引擎、完善的云端服务和成熟的软硬件标准系统,AliGenie会持续不断的将全面、易用的核心技术能力进行输出,为开发者带去更多可能。


近日,阿里云IoT联合阿里巴巴达摩院正式发布分布式语音交互解决方案,该方案将集成双方的平台连接能力和语音交互技术,以声控的形式改造家居环境。据介绍,该方案包括前端声学模组、语音自学习平台、对话平台以及阿里云IoT智能人居平台。采用该分布式语音解决方案的电器设备,可以通过就近的开关作为智能语音交互入口,实现对全屋智能家居的语音控制。


公司:腾讯

名称:腾讯叮当


TVS(Tencent Voice Service),是腾讯叮当面为硬件厂商提供的接入方案。只要硬件具备麦克风和扬声器,腾讯叮当便能赋予硬件基于语音互动的人机自然交互能力,以及来源丰富的生活领域服务。



TVS目前已接入车载、音箱、机器人、电视、穿戴、手机六大硬件平台,并兼容Linux、Android、QNX多硬件操作系统。TVS还针对不同产品特点和使用场景,结合厂商需求定制专属硬件方案,提升厂商差异化竞争优势。


TVS提了供云端API和硬件SDK两种接入方式,让硬件同时具备本地智能和云端智能。TVS与亚马逊的AVS接口标准兼容,让已接入AVS的硬件快速低成本的拥有腾讯叮当智能语音服务。


公司:百度

名称:DuerOS


百度做为最早布局人工智能的技术公司之一,汇聚了全球顶尖的人工智能人才。 在人工智能三大要素:算法、计算、数据上,都有着得天独厚的优势。 拥有建立在超大规模神经网络、万亿级参数、千亿级样本上的人工智能算法; 依托数十万服务器和中国最大GPU集群的计算能力; 作为全球最大的中文搜索引擎,累计了全网万亿网页、数十亿搜索、百亿级图像视频和定位数据;DuerOS对话式人工智能系统,建立在语音识别、图像识别、自然语言处理、用户画像等世界领先的技术能力之上,是百度技术的集大成者。



DuerOS可以广泛支持手机、电视、音箱、汽车、机器人等多种硬件设备,在不同场景的测评下,DuerOS识别率、响应速度、及流量节省方面,数据均领先与行业其他产品。通过与DuerOS结合,可以让机器听懂人们日常交流的口语化表达内容,使设备具备与人类沟通和提供服务的能力,助力产业升级。


DuerOS整合了百度的信息与服务生态优势,精心打造了10大类目250多项能力,用户可在不同场景下实现指令控制、信息查询、知识应用、寻址导航、日常聊天、智能提醒和多种O2O生活服务;同时支持第三方开发者的能力接入。


公司:小米

名称:小爱开放平台


小米的小爱开放平台主要提供技能开发的能力和小爱语音服务输出的能力,客户可以将自身服务接入到可以落地的小米全生态硬件产品上,通过云端交互和开发者的应用进行通信,使用HTTPS保护通信内容。让用户可以使用语音来和自己的产品进行交互。并提供开发的便捷性来服务面向的用户。目前小米已提供NLP能力,未来将提供基于全平台的用户数据等。



小爱语音服务基于小米声学实验室,大数据和全生态,涵盖语音、NLP、搜索推荐等技术,为开发者提供更加高效、便捷、智能的语音服务。支持手机、电视、音箱和生态链智能设备接入,语音助手等应用程序接入。涵盖内容类、工具类、互动类、娱乐类等近百个语音技能。


开发者接入小爱语音服务后,产品将语音指令传送到小米大脑,可以与产品进行语音交互及语音控制硬件设备。使语音服务更高效便捷地接入智能设备及应用程序。


公司:科大讯飞

名称:讯飞开放平台


科大讯飞股份有限公司,成立于1999年, 2008年在深圳证券交易所挂牌上市。

讯飞开放平台作为全球首个开放的智能交互技术服务平台,致力于为开发者打造一站式智能人机交互解决方案。用户可通过互联网、移动互联网,使用任何设备、在任何时间、任何地点,随时随地享受讯飞开放平台提供的“听、说、读、写……”等全方位的人工智能服务。目前,开放平台以“云+端”的形式向开发者提供语音合成、语音识别、语音唤醒、语义理解、人脸识别、个性化彩铃、移动应用分析等多项服务。


讯飞开放平台整合了科大讯飞研究院、中国科技大学讯飞语音实验室以及清华大学讯飞语音实验室等在语音识别、语音合成等技术上多年的技术成果,语音核心技术达到了国际领先水平,同时引进国内外最先进的人工智能技术,如人脸识别等,与学术界、产业界合作,共同打造以语音为核心的全新移动互联网生态圈。


公司:云知声


云知声专注于物联网人工智能服务,拥有完全自主知识产权,是世界领先的智能语音识别AI技术企业之一。公司成立于2012年6月29日,总部位于北京,在上海、深圳、厦门均设有分公司。



云知声利用机器学习平台,在语音技术、语言技术、知识计算、大数据分析等领域建立了领先的核心技术体系,这些技术共同构成了云知声完整的人工智能技术图谱。云知声目前的合作伙伴数量超过2万家,覆盖用户达2亿,其中开放语音云覆盖的城市超过470个,覆盖设备超过9000万台。


公司:思必驰(深圳势必可赢科技有限公司)


深圳势必可赢科技有限公司,简称SpeakIn,2015年诞生于美国硅谷,目前总部位于深圳,是一家全球领先的声纹识别与身份安全人工智能公司,面向全球提供领先的解决方案与专业服务,致力于为客户持续创造最大价值。SpeakIn云集了一批世界顶尖的声纹识别算法与机器学习的科学家和来自BAT等知名互联网企业的产品研发团队,具有极强的科研实力及产品研发能力。



SpeakIn凭借自身的核心算法,以及对行业应用与用户需求的理解和把握,结合近年来在公共安全、金融、社保、智能硬件等主要行业的丰富运营经验,成功推出了兼具开创性与实用性的声纹识别系统建设解决方案。


公司:捷通华声

名称:灵云开放平台


北京捷通华声科技股份有限公司成立于2000年,是一家专注于智能语音、智能图像、生物特征识别、智能语义等全方位人工智能技术研究与应用,全面发展人工智能云服务的高新技术企业。


2001年,捷通华声推出代表国内最高水平的中文语音合成技术。2011年,推出了全球首个全方位人工智能开放平台—灵云平台(aicloud.com)。将语音交互、图像识别、语义理解、生物特征识别等技术完美整合,实现并提供全方位一体化的人工智能技术解决方案与服务。2013年,清华大学产业基金入资捷通华声,成为捷通华声第二大股东。随后双方共同创立“清华灵云人工智能研究中心”。2014年,灵云平台面向产业全面开放,并以“云+ 端”方式,为产业界提供语音合成(TTS)、语音识别(ASR)、麦克风阵列(SMA)、手写识别(HWR)、光学字符识别(OCR)、人脸识别(AFR)、声纹识别(VPR)、指纹识别(FPR)、自然语言理解(NLU)、数据挖掘(DM)、机器翻译(MT)等全方位人工智能能力。


2015年,捷通华声面向行业相继推出灵云全智能能力平台、灵云全智能客户服务、灵云身份认证系统等系列产品,广受行业好评。捷通华声在产业发展进程中,坚持“合作共赢”合作模式,与数以千计的合作企业精诚合作,旨在共同构建健康繁荣的人工智能产业生态圈,推动整个中国人工智能产业的长足发展。


2016年6月,捷通华声登陆新三板。 2017年3月,海通证券入资捷通华声。 


公司:Rokid


Rokid 成立于2014 年,总部位于杭州,是一家专注人机交互技术研究和人工智能软硬件产品开发的科技创新型企业,产品涵盖智能家庭机器人、智能音箱、增强现实(AR)眼镜,以及人工智能应用与服务。


Rokid 拥有国际领先的自主人工智能技术研发和创新能力,核心技术包括语音识别、自然语言处理(NLP)、图像识别等,北京和美国硅谷均设有研发实验室,用于人工智能理论、算法研究,以及前瞻性技术的探索。


2017 年,Rokid 携手阿里云共同推出全栈语音开放平台,为业界提供一站式语音解决方案和开发者平台,面向全行业开放语音识别、语音合成、语义理解、声纹识别、麦克风阵列、信号分析处理等多项技术。作为国内最早涉足AI 领域的创业者,Rokid在2018 Rokid Jungle发布会上推出首款自研AI芯片KAMINO18。2018年,Rokid 完成新一轮由淡马锡领投,瑞士信贷、CDIB、IDG等机构跟投的亿级美元融资。


公司:出门问问


出门问问是Google(谷歌)投资的一家中国人工智能公司。拥有自主研发的语音识别、语义分析、垂直搜索、基于视觉的ADAS和机器人SLAM等核心技术。出门问问品牌隶属于北京羽扇智信息科技有限公司,同时负责运营问问商城。问问VPA是出门问问自主研发的多场景虚拟个人助理。在可穿戴、车载和家居等场景,出门问问推出搭载虚拟个人助理VPA的Ticwatch问问手表、Ticmirror问问魔镜、Ticeye问问魔眼、Tichome问问音箱、Ticpods小问智能耳机等产品。


公司:慧听科技



北京慧听科技有限公司是一家专业的数据服务提供商,致力于为语音技术提供商提供服务。该公司团队核心成员拥有十余年的数据制作经验,服务于国内外大中型企业,为客户提供高质量快捷的数据服务。包括语言语音、多媒体两大类几十余种数据服务。公司拥有符合ITU国际标准的录音室和录音设备。目前拥有儿童中文普通话语音识别数据库800小时、老人中文普通话语音识别数据库800小时、中英混合语音识别数据库1000小时等多种自助产品数据库。为客户提供语音数据库制作、语音质量评测、文本数据标注、音乐数据制作与标注、图像数据标注、配音、其他数据制作等专业服务。



公司:驰声科技


苏州驰声信息科技有限公司(简称“驰声”),是教育行业内一家领先的、专业从事智能语音技术研究和产业化的教育科技公司。


驰声科技是国内最早进入教育行业的语音公司之一,驰声科技自主研发了基于大数据、深度学习的智能语音系列技术,帮助客户实现人机互动的智能学习产品,引领教育信息化创新发展。


迄今,驰声科技已在培训、出版、教育软件、在线教育、教育硬件、考试服务等领域培养了一大批标杆客户,驰声科技的智能学习技术也已惠及海内外数以亿计的个人学习者。市场上应用了智能语音技术的教育产品半数以上都采用了驰声科技的先进技术。



公司:普强信息


普强信息技术(北京)有限公司是一家以智能语音识别、语音分析和语言处理技术产业化为主要发展方向的高新技术企业,是以中文为主的智能语音和语言核心技术提供商、解决方案提供商、云平台服务提供商。2009年成立于美国加州硅谷,2010年设立中国运营公司。在硅谷和中关村均建设有技术研发中心,集合了语音识别、语言处理和云计算技术领域的专家和工程团队。


普强信息基于先进的语音唤醒、语音识别、语义理解、语音播报技术,提供丰富的信息查询、电话短信、导航、车体功能控制、第三方软件操作、车联网信息娱乐检索等语音交互功能。


公司:Nuance


Nuance公司是最大的专门从事语音识别软件、图像处理软件及输入法软件研发、销售的公司。目前世界上最先进的电脑语音识别软件Naturally Speaking就出自于Nuance公司。


Nuance Voice Platform (NVP)是Nuance公司推出的智能语音平台。Nuance公司的NVP平台由三个功能块组成:Nuance Conversation Server对话服务器,Nuance Application Environment (NAE)应用环境及Nuance Management Station管理站。Nuance Conversation Server对话服务器包括了与Nuance语音识别模块集成在一起的VoiceXML解释器,文语转换器(TTS)以及声纹鉴别软件。NAE应用环境包括绘图式的开发工具,使得语音应用的设计变得和应用框架的设计一样便利。Nuance Management Station管理站提供了非常强大的系统管理和分析能力,它们是为了满足语音服务的独特需要而设计的。


公司:Apple

名称:Siri


Siri在语音交互界可谓大名鼎鼎,算是世界上语音识别的执牛耳者。然而,Siri并不是苹果自己研发的技术。


Siri成立于2007年,2010年被苹果以2亿美金收购,2011年苹果将该技术融入到iPhone 4S中并发布了Siri语音助理。Siri Inc.这家公司成立于2007年,原本核心技术是CALO人工智能项目。当然Siri刚开始发布的时候语音识别的体验还很差,众多果粉也是四处吐槽。


因此2013年苹果又收购了语音识别公司Novauris Technologies。Novauris是一种可识别整个短语的语音识别技术,这种技术并非简单识别单个词句,而是试图利用超过2.45亿个短语的识别辅助理解上下文,当然这是很有难度的一件事情。不管怎样,这次收购也让苹果进一步完善了Siri的功能。


苹果近年来为了提升Siri的语音交互水平,不断开启收购模式,已经通过收购或者并购了包括VocalIQ、Turi和Emotient等众多人工智能领域的多家知名企业。


VocalIQ:在被苹果收购之前,VocalIQ是一家全球知名的语音技术创新公司。该公司主要负责开发人工智能软件,可以帮助计算机与用户之间产生更加自然的对话,该技术主要被应用于改进Siri的人机语音交互能力。


Turi:Turi公司主要致力于研发雅法Turi机器学习平台、GraphLab Create和Turi预测服务,研究内容被广泛应用于推荐、欺诈检测、情感分析等多个领域。不过,对于苹果而言,Turi的技术和服务内容还是主要人工智能研究有关的。


Emotient:Emotient则是一家研究与情绪检测和分析的公司,其最大的价值在于有一项能够在一天内收集并标记多达10万张面部图像的技术专利,通过这项技术,将会提升Siri与用户之间的互动联系,并且通过面部识别来增进对用户情绪上的了解


公司:谷歌


与苹果相比,谷歌的动作稍微缓慢了一些。2011年谷歌才出手收购语音通信公司SayNow和语音合成公司Phonetic Arts。


SayNow可以把语音通信、点对点对话、以及群组通话和Facebook、Twitter、MySpace、Android和 iPhone等等应用等整合在一起;而Phonetic Arts可以把录制的语音对话转化成语音库,然后把这些声音结合到一起,从而生成听上去非常逼真的人声对话。


当然,这才只是开始,实际上语音技术远没那么简单,因此2013年谷歌以超过3000万美元收购了新闻阅读应用开发商Wavii。Wavii擅长“自然语言处理”技术,可以通过扫描互联网发现新闻,并直接给出一句话摘要及链接。


但是谷歌忙活了这么久,似乎还没真正介入语音识别行业,因此谷歌还收购了SR Tech Group 的多项语音识别相关的专利,这些技术和专利谷歌也很快应用到市场,比如YouTube已提供标题自动语音转录支持,Google Glass使用了语音控制技术,Android也整合了语音识别技术等等,Google Now更是拥有了完整的语音识别引擎。


公司:亚马逊


Amazon是一家最有可能把语音识别落地到消费市场的巨头。


Amazon的语音技术起步于2011年收购语音识别公司Yap,Yap成立于2006年,主要提供语音转换文本的服务。


2012年Amazon又收购了语音技术公司Evi,继续加强语音识别在商品搜索方面的应用,不得不提的是,Evi这家公司也曾经应用过Nuance的语音识别技术。


2013年,Amazon继续收购语音技术公司Ivona Software,Ivona是一家波兰公司,主要做文本语音转换,其技术已被应用在Kindle Fire的文本至语音转换功能、语音命令和Explore by Touch应用之中,其最近推出的智能音箱Echo也是利用了这项技术。


Alexa则是亚马逊基于云的语音服务,可在亚马逊和第三方设备制造商的数千万台设备上使用。借助Alexa,客户可以构建自然的语音体验,为用户提供更直观的方式来与他们每天使用的技术进行交互。

公司:微软


Cortana微软在机器学习和人工智能领域方面的尝试。Cortana可以记录用户的行为和使用习惯,利用云计算、搜索引擎和“非结构化数据”分析,读取和学习包括手机中的文本文件、电子邮件、图片、视频等数据,来理解用户的语义和语境,从而实现人机交互。


而微软小冰是微软亚洲研究院2014年发布的人工智能机器人,微软小冰除了智能对话之外,还兼具群提醒、百科、天气、星座、笑话、交通指南、餐饮点评等实用技能。


以上内容对国内外智能语音交互玩家进行了简单介绍,如有不准确和遗漏之处,可以联系小编,相互交流!小编将在后续文章以及物联网行业报告中进行更新。


关于本系列文章

2018年,物联网对行业的深度变革已轰然开启。物联网产业链企业的质与量将进入全面爆发期。物联网智库作为物联网全周期观察者和信息服务聚焦中心,被产业推动,亦将反哺于产业升级。自2016年起,物联网智库每年一度推出《全国物联网产业全景图谱》,为从业者提供物联网全视角跟踪和分析,切实践行物联网业内的信息对称化。


然而,随着物联网产业狂奔式升级,一年一度的全景图谱发布,已远远满足不了高歌猛进的发展速度和企业诉求。基于上述事实,《全国物联网产业全景图谱》决定进行重大改版升级:

(1)一年一度的静态,将浓缩为更短周期的“动态更新”;

(2)大而全的企业收录方式,将嵌入符合产业事实标准的筛选标准,弱水三千,只取优上;

(3)对物联网企业的基本信息收录,将升级为更丰富更深度的信息整合与加工;

(4)对于物联网产业全版块的关注,将升级为侧重关注重点领域、潜力赛道的权重分配。


首次被翻牌的重点版块包括:物联网芯片(计算芯片、通信芯片为主)、授权频谱物联网网络、非授权频谱物联网网络、 物联网操作系统、物联网PaaS云平台、公用事业、智能安防摄像头、智能家居、 智慧消防、智慧物流、智能门锁、智能照明等十余个技术类别/垂直领域。


物联网智库将持续发布上述领域的企业信息的简版汇总。如果因为我们的疏漏,错过了哪些物联网产业优上企业,烦请联系我们,不吝赐教。

声明:本文为OFweek维科号作者发布,不代表OFweek维科号立场。如有侵权或其他问题,请及时联系我们举报。
2
评论

评论

    相关阅读

    暂无数据

    物联网智库

    物联网智库是发布物联网干货的智囊...

    举报文章问题

    ×
    • 营销广告
    • 重复、旧闻
    • 格式问题
    • 低俗
    • 标题夸张
    • 与事实不符
    • 疑似抄袭
    • 我有话要说
    确定 取消

    举报评论问题

    ×
    • 淫秽色情
    • 营销广告
    • 恶意攻击谩骂
    • 我要吐槽
    确定 取消

    用户登录×

    请输入用户名/手机/邮箱

    请输入密码