【关于思乡的歌词】人工智能在语音识别中的运用

2018-10-12 10:38  阅读 43 views 次 评论 1 条

关于思乡的歌词】人工智能在语音识别中的运用

据悉,语音识别的准确性已高达98%。人工智能在语音识别上已取得突破性的成果,科大讯飞、思必驰、云知声等语音识别公司,已经渗透到了生活中各个场景。

然而,李开复曾在“2017年投资界百人论坛”提到,「语音识别是所有技术里面最不成熟的,当我看到一个一个的计划非常担忧,99%会死掉。……你们不要看科大迅飞的演讲说懂得语音了,他一点不懂。」

听得见听得准,不意味着听得懂。目前的语音识别,是把声音直接转成文字。尽管,语音识别得发展速度,超乎所有人想象,可喜。但不能回避的是,语音识别,还是理解不了人在说什么。以当前常见的语音助手来说,除了一些特别简单的问题答得出来,其余的问话,则是答非所问,不知所云。要实现真正人工智能,语义的理解是必不可少的,否则只能被调侃为“人工智障”。

文化传信(厦门)公司总经理胡天宝说到,「当前,人工智能自然语言处理方法,不能算真正意义上的理解。说穿了,只是用大量问答语料库,沿用统计学的方法,使用大容量服务器进行计算,不停给语料库投喂数据。费电,费人力。一旦你换个语序问问题,或者提点语料库里没有的问题,它根本回答不了。」

香港文化传信集团于2014年4月在厦门成立文化传信(厦门)软件科技有限公司,专注研发小信子云端中文理解服务引擎。早在2003年,文化传信集团研发完成了全球独一无二 “中文中国芯” — “飞龙CPU”。2006年,文化传信公开首部全自动图文系统(人工智能分析剧本自动产出3D动画)自制影片《记承天寺夜游》。

当前,文化传信推出了产品——小信子,专注在中文语义理解,试图砸开,语音识别和人工智能之间,隔着的那堵墙。小信子,作为云端中文理解 API 生活与文化服务平台,提供全方位中文理解核心技术服务。

 

5
  简单来说,小信子平台是可以对接到智能软硬件里的技术,例如机器人、智能音箱、智能家居等,提供单一接口 API 服务,大大降低开发者研发时间与难度,用最低成本,去让机器听得懂人话,更懂中文。

小信子,以主程序 1825 KB,完成中文理解的核心工作,是目前最节能与最环保的自然语言处理核心。计算机在不需要大数据问答数据库的情况下,就能理解中文自然语言。而这小体积轻量级的程序,却比市面上的机器人,更听得懂人在说什么,可以提供单一界面API,一次搞定天气、备忘、时间、交通、文化、饮食娱乐、理财、解问、聊天、搜索、健康、新闻百科、四则运算、外语翻译等等多种应用场景。

 

4
 

3
  小信子(左)与其它家(右)问答机器人比较。

小信子基于朱邦复先生「汉字基因」理论,从汉字根源下手,去解决 NLP(自然语言处理)的问题。靠的不是数据库,而是语义上的理解。不得不提,朱邦复是仓颉输入法发明人、中文计算机之父、汉字基因理论创始人,同时也是文化传信公司前主席。

有业内人士称,“听的懂”才是自然语言人工智能在未来十年内,最为关键的问题。这些年NLP的研究,开始热起来。也逐渐地发展成为一门独立的学科。在产业界,越来越多资金资源向这个领域去靠。

语义理解领域出现了三角兽、蓦然认知等产品,目前都更倾向于利用芯片、算法、数据模型来推进NLP(自然语言处理),以求达到语言上理解和交互。Global Market Insights的数据显示,2017-2014这七年,智能语音交互的全球市场,每年增长率将达到34.9%。据估算,2024年的全球市场规模,将达到720亿元。目前语义理解行业中还未出现真正意义上的独角兽,创业公司仍有很大机会。

胡天宝认为,基于大数据、并行计算的深度学习的自然语言处理,不是最好的路子。语义的复杂性,包含因果关系和逻辑推理的上下文,靠海量数据是整理不完的。回归到中文语言逻辑上,才能实现真正的人工智能。

文化传信团队在人工智能语义理解领域已深耕十几年。生活助理类中文语义理解引擎已可以应用到更多商业产品中,实现真正意义上的中文理解。

小信子团队共十余人。由朱邦复先生进行理论指导。董事长沈红莲毕业于台大中文系,是汉字基因中文人工智能专家、云端中文理解核心的总设计师。总经理胡天宝是中国科学院研究生,小信子云端中文理解 API 系统设计师。其它团队成员主要来自港澳台以及大陆,主要由软件设计工程师,3D 动画师以及工业设计师所组成。

目前,小信子中文理解 API 服务平台已于2017年1月3日在阿里云平台正式上线,寻求更多商业合作机会。

语义理解是人工智能一个重要的技术方向,在过去两年里屡屡以合作伙伴身份登上锤子、小米和百度发布会的三角兽正是国内这一领域创业公司中的翘楚。

作为一家 To B 的公司,三角兽很少直接面对 C 端用户。在对外的报道中,文科出身的媒体们对语义技术科幻式的理解也给三角兽“带来了一些困扰”。在对技术并不了解的人们眼里,语义理解的终极形式就是《西部世界》和 Her 这些影视作品中与人类自由交流的机器人。

事实上,三角兽也的确接触过类似的厂家,在 9 月 25 日的一场沙龙活动上,三角兽创始人马宇驰提到,他们曾经与一家做仿真塑胶娃娃的厂商谈过合作。这家大连的厂商是国内的行业第一,他们对三角兽的技术很感兴趣,想要给自己「两三万块」的娃娃加上。

“到他的工厂里面看,如果真的能够说话,特别像《西部世界》,因为是全身的真人穿着衣服坐一排……”马宇驰不无打趣地说道。

语义理解的落地场景在哪?

噱头十足的科幻重现并不是三角兽真正想要的。在过去两年创业的经历中,三角兽面对过许多快速的变现方式,但在公司高层的权衡之后,三角兽选择了更加审慎也更加。两年走下来,手机成为了公司主要的落地场景之一,在接连与 OPPO、vivo 和魅族等十多家国内主流手机厂商达成合作之后,三角兽已经渐渐在国内的手机行业里站稳了脚跟。

最初,创业不满一年的三角兽选择了在电视领域落地。2017 年 1 月三角兽首先与小米达成合作,给出了一整套的电视语义理解解决方案,应用上小米选择了模糊语义理解和视频问答两个功能。

小米之后,三角兽与多家传统电视厂商达成了合作,如 TCL 和 LG等等,但在这些后续的合作中,三角兽并没有进行更加深入的合作,而是选择了开放更加轻量级的 API 接口。对于这样的转变,马宇驰解释称,“在电视的场景下,语言的交互只有两个是真实需求,并且在相当长时间内不会改变”,分别是语音的操作控制和内容搜索。

三角兽另一个没有选择的领域是车载。三角兽曾经与多家汽车企业谈过合作,国企之外也包括日本和德国的汽车厂商,其中甚至有公司想要投资三角兽。车载系统使用语义理解的解决方案本是一个非常自然的选择,但三角兽在与多家海外车企沟通过后,发现海外车企在国内的公司没有决策权,流程要走到海外的总部,这给合作带来了不小的阻碍。此外,语义理解的系统对汽车而言并不是一个必需品,更不会影响汽车整车的售价,因此三角兽目前仅仅选择与部分头部厂商的个别车型进行合作的尝试。

反观在手机上,最多的应用场景载体文字给了三角兽很大的发挥空间。目前,手机除了作为玩游戏、看视频的工具,大多数人都会在手机上处理一些文字信息的工作·。据三角兽给出的数据,正常用户每天会在手机上完成 10 到 15 次复制粘贴的操作,很多时候因为复制粘贴的操作过于麻烦,用户会选择直接打字。

“传统的搜索模式就是复制粘贴——选择或复制文本,退出 app,调取一个第三方 app,再进行粘贴或敲字并搜索,需要至少 6、7 步才能完成的信息查询的操作。像这样的操作,我们每个人每天都要在手机上进行 10-15 次。”三角兽技术合伙人陈华荣在活动上说道,为了解决这样的痛点,三角兽给出了自己的方案——智慧识屏。

替代“复制粘贴”

“智慧识屏”是目前在很多手机上都会具备的系统级基础功能,由三角兽提供解决方案,直接与手机厂商合作。在 OPPO、vivo 等使用三角兽“智慧识屏”解决方案的手机上,用户可以在任何文本信息上通过“长按”的操作,触发内置的自然语言理解功能,对文本进行意图分析,识别出其中有价值的信息,并以卡片的形式弹出,这时用户就可以直接点击卡片完成下一步的操作。目前「智慧识屏」已经覆盖了购物、快递、地图、餐厅、酒店、影视、音乐、动漫和明星等等多个应用领域。

目前三角兽已经与国内安卓手机市场上的大部分主流厂商达成了合作,从今年四月最初登陆各大品牌的手机开始,“目前(智慧识屏)每天会受到近 2000 万次的用户使用请求”,马宇驰说道,三角兽预计在 2018 年底到 2019 年第一季度覆盖新的智能手机数量达到 1.5 亿台,老机型通过 OTA 升级等方式陆续跟进后,预计在 2019 年底总量会覆盖到超过 5 亿台。

“过去这两年,我们参加了小米的三次发布会,老罗(锤子)的三次发布会,(百度)度秘的两三次发布会,小鱼在家的一次发布会,还有其他大大小小的厂商。”马宇驰说,“我们目前的期待就是,明年‘智慧识屏’这个功能成为主流安卓手机的用户习惯,某种程度上,它就像替代了复制粘贴一样。”

在安卓以及智能音箱等智能设备上,三角兽“智慧识屏”的解决方案已经有了初步的品牌效应。

在系统相对封闭的苹果手机上,三角兽选择直接与第三方应用合作,将“智慧识屏”的方案接入 app。目前已经达成合作的有媒体 app,“两家传统媒体和四家科技类媒体”,通过接入三角兽的技术,“让媒体自己的资源库变得立体”,在文章中使用“智慧识屏”功能后,可以直接连接到媒体自己的过往文章,进一步积累流量。在媒体的商业化上,三角兽的方案也给了广告二次激活的机会,并且智慧识屏中引入的广告是读者真正感兴趣的内容,广告效率也会相对传统内容推荐高出很多。这样一来,用户也可以收获更好的体验,广告的下载和点击的转化率也会随之提高。

目前三角兽已经在手机厂商中铺开的“智慧识屏”,就是利用上面所说的优势,采用了流量分成的商业模式。

数据的壁垒

今年五月,三角兽完成了 B 轮融资,拿到了富士康领投的 1.1 亿人民币资金,在行业整体资金吃紧的环境下,这样的成绩对一家创业仅两年的公司而言相当不易。

“投资人是比较看重真正的商业化落地的",在活动后的采访中,马宇驰如此评价三角兽颇令同行艳羡的融资成绩。

人工智能的热潮推到今天,所谓的"融资拿钱"早已不像前两年那么容易,对处于创业初期的公司来说尤为如此。相比于早先依靠团队的技术基础和能力拿融资,现在投资人更多看重的是公司已有的落地场景和数据。

目前,三角兽的对话交互平台已经接入了包括语音助手、智能音箱、智能电视、智能手表等总计超过 5000 万台设备,据三角兽预计,到 2018 年底对话交互平台将接入 2/3 的智能音箱和 3/4 的头部儿童智能产品,这些设备每天产生的海量数据,是三角兽相比同样处在创业初期的其他公司难以逾越的壁垒。

同样,三角兽之所以在这个时间点选择进入手机这一最大的存量市场,也有着积累数据的考虑。如前面所说,到明年年底覆盖 5 亿台智能手机,这样的用户基础和产生的庞大数据将帮助三角兽在手机这个场景下形成更加领先的优势。

在今天的人工智能行业里,落地场景和数据基础已经"变成了'我有但其他公司没有'的差距,这是个本质上的差距"。融资反推公司规模,数据反推技术基础,三角兽在人工智能行业对初创企业越来越不友好的时下,幸运地赶上了紧跟头部的末班车。

如果还想了解苏宁相关资讯请看:http://www.projectbidding.cn/archives/423

本文地址:http://www.projectbidding.cn/archives/425
版权声明:本文为原创文章,版权归 创业资讯网 所有,欢迎分享本文,转载请保留出处!

发表评论


表情