参与蛋酱

十年之后,科大讯飞终于「独木成林」

又是一年 1024 ,对于全球开发者来说相当特殊的一天。

1024 这一天,无论你身处何方,都能感受到浓浓的节日氛围。但说到场面最宏大、参会人数最多、内容最丰富的 1024 活动,还是要来合肥看看这家老牌 AI 企业的玩法。

10 月 23 日上午,2020 科大讯飞全球 1024 开发者节在合肥开幕。作为科大讯飞举办的第四届 1024 开发者节,今天的大会比往年来得都早了一些。

「创业的过程就像是登山,我们只有胸怀登顶的梦想,一步一个脚印,踏踏实实地积累高度,最后才能登顶。而在其中更加重要的是,要和一群志同道合的伙伴共同登顶,才能享受一览众山小的喜悦。」

在开幕致辞中,科大讯飞董事长刘庆峰开篇用一句「因为山就在那里」概括了科大讯飞对创业、对开发者、对合作伙伴的坚定态度。
科大讯飞董事长刘庆峰开幕致辞。


今年是科大讯飞这家公司成立的第 21 年,也是讯飞开放平台发布的第 10 年。在过去十年里,讯飞开放平台的成长轨迹清晰可见:从仅有语音合成和语音识别到今天的 334 种 AI 功能,从最早不到 10 万的应用终端数到今天的20亿终端设备,从最早的十几个创业团队到现在的超过 150 万开发者。

最近一年的成绩单依然亮眼:讯飞开放平台的开发者数量从 108 万上升到了 157 万,开发应用数从 70 万增长到 93 万,科大讯飞为开发者所提供的能力,从去年的 200 项提升到了 334 项。

刘庆峰表示,一个企业的成功,绝不是单独成为一个帝国,做帝国注定会衰落。只有愿意开放出自己的资源和能力,形成产业链和生态体系,才能够生生不息地发展。

刘庆峰同时也提出,未来的人工智能发展面临着四大机遇:场景驱动、数据支撑、技术驱动、资本助推。具体来说,这些机遇一方面是利好加速,一方面是危机倒逼。我国在人工智能场景应用方面具有独特的优势,比如教育、医疗等民生领域还存在着迫切的补齐短板的需求;同时疫情推动人们开始思考人工智能打造的全新的服务方式和生产方式;中美科技脱钩让全社会更加关注核心技术的创新;今年以来多家芯片企业的上市,也代表着从事源头技术创新的高新技术产业获得了更多的资本机遇。

四种因素相重叠,让人工智能行业迎来了前所未有的发展空间。与此同时,人工智能进入落地期,其生态也正在快速变化:一是移动互联红利到期,万物互联红利开启;二是人口红利到期,工程师红利开启;三是从为产品赋能,转为企业转型升级赋能。

立足当下,但更要思考未来。对于科大讯飞来说,下一阶段要攻关的技术重点清晰而明确:

  • 算法突破重点方向:小数据、半监督/无监督、个性化

  • 技术赋能数字生态:情感计算、隐私保护

  • 前瞻研究方向:脑机接口、人机耦合


正如刘庆峰所说:「我们希望通过 AI 赋能,让每一个创业者和科学家用更自由的眼光看更远的未来,也许那些想法在今天看起来天马行空,但未来或许能够改变世界。」

「1024 计划」4.0 正式发布


刚刚过去的整十年,是人工智能技术快速发展和规模化应用的十年。2020 年史无前例的疫情,确实给人们的工作和生活带来了相当程度的不确定性。在这样的时代,人工智能究竟要扮演怎样的角色?

科大讯飞高级副总裁、消费者事业群总裁胡国平。


在今年的大会上,科大讯飞高级副总裁、消费者事业群总裁胡国平正式公布了讯飞开放平台联合艾瑞发布的《2020中国人工智能API经济白皮书》,研究总共访问了 1024 位 AI 开发者和 70 位企业 CTO ,通过洞察 API 技术历史演变、商业价值与市场规模现状,聚焦中国人工智能 API 经济发展与趋势。

报告指出, 2019 年中国人工智能开放平台市场规模 104 亿,预计2020年市场规模可达 222 亿。AI 开放平台目前处于快速发展阶段,未来将继续保持高速增长。这份报告主要包括以下观点:

1)疫情加速了企业数字化、智能化转型,对AI开放平台形成利好;
2)AI 开放平台目前处于快速发展阶段,未来仍将保持高速增长;
3)AI 开放平台作为连接市场参与者共创价值的桥梁将成为各技术厂商的必争之地;
4)在 AI 技术浪潮中需要不断的跨界融合创新与各行业、场景融合,共同赋能传统产业是必由之路。

此外,在昨天的大会上,胡国平宣布「 1024 计划」迈入 4.0 时代。

2017 年,在首届科大讯飞全球 1024 开发者节,「1024 计划」正式推出,聚焦 AI 教引、AI 生态、AI 公益三个方面,旨在辅导、赋能开发者,关注公益事业。本次升级将在往年基础上,推出聚焦行业的「先导计划」、赋能线下的「城市计划」和始终坚守初心的「公益计划」。

「先导计划」面向行业需求更新服务体系,以AI生态引领,从产品赋能走向行业赋能,为生态和应用发展提供更契合的动力;「城市计划」将真正走到线下、赋能线下,基于各地产业情况打造专属服务、定制方案;在高校赋能方面,科大讯飞将全新打造 AI 开发者社区、AI 实训营等。


浇灌十年,「AI科技树」终于独木成林


借此机会,我们也看到了这家深耕语音行业多年的中国企业,所取得的最新成绩。

目前讯飞开放平台上已经拥有 334 项 AI 产品及方案,链接了 230 万合作伙伴共建人工智能生态。在未来,如何持续保持语音合成语音识别技术的领先?如何用核心技术更好地助力价值兑现?
科大讯飞 AI 研究院常务副院长刘聪。

在科大讯飞 AI 研究院常务副院长刘聪看来,AI 核心技术的发展和演进,与基础算法、技术体系、场景理解三大关键要素息息相关。

从语音到声音的全场景音频解析

下一个阶段,语音识别技术要达到什么境界?刘聪认为需要持续挑战更加复杂的场景,需要实现从语音到声音,从单纯文字内容识别到音频的全场景解析。

在现实的语音环境中,背景往往是复杂多样的,可能会出现游戏声、笑声、掌声、混叠对话等一系列音效影响到语音识别的精度,当前的框架一般很难解决此类问题。

全场景音频解析方案。


在全场景音频解析方案中,科大讯飞首先通过多分辨率特征提取的声音检测事件的方案,再结合序列训练,对一些相似声音进行精细建模,实现笑声、音效等非语音的声音及语音内容的分离。

针对包含语音的有效内容,科大讯飞使用基于富信息的语音降噪和分离方案,综合利用声音、文本、说话、人等信息;并在有条件的情况之下,使用多模态的唇形、视线以及麦克风阵列的空间位置等信息来进行联合建模。从效果来看,在直播场景等复杂任务,识别准确率从 60 % 提到了 85 % 。

这样的成就也是基于科大讯飞多年来在语音技术上的沉淀。今年 5 月的国际多通道语音分离和识别大赛中,科大讯飞联合中科大语音及语言信息处理国家工程实验室在给定说话人边界的多通道语音识别两个参赛任务上夺冠,获得三连冠的成绩;在 8 月的DCASE 2020 挑战赛中,科大讯飞-中科大联合团队在声音事件定位与检测任务中又一次夺冠。

多维度自学习平台

刘聪提到,当前语音识别呈现的另外一个趋势,是通过自学习更新的方式实现各种层次的个性化能力。「个性化能力」既指针对特定用户的常用词汇、口音、方言,也指像声学场景领域文本唤醒词等其他的内容。针对这样一个问题,科大讯飞推出了多维度自学习平台。

针对某些产品,该平台可以在端侧直接实现用户无感知的个性化训练;面向开发者的定制需求,平台提供了分层次的定制能力。不久之后,这一平台的功能也将在讯飞开放平台上线,开放给所有开发者。

语音合成的未来是什么?

对应「语音识别」的全场景音频解析,刘聪提到,在「语音合成」方面,也需要实现「从语音到声音的全场景音频合成」。

情感的表达和合成和预测也是当前语音合成领域的重要方向,也是业界的研究热点。由此,科大讯飞对自身的语音合成能力进行了新的拓展,基于自然语言理解技术,从文本中分析出情感焦点以及角色信息,并通过语音呈现,进一步结合针对特殊情况打造的背景音乐,最终呈现一场全场景的音频合成。除了交互场景之外,这一方案在小说合成、配音合成等领域也将大有可为。

第四代 OCR 识别框架

科大讯飞在图文识别领域,总共有 4 代 OCR 框架,同时也代表着业界算法演进的趋势。

上图中的第四代框架是在今年大会上提出的,它可以实现从版面分析到文字识别的端到端模型,较好地解决第三代算法中一些文本行检错误问题,并且可以解决数理化解答题等复杂问题。

但 OCR 的价值不限于此,各种场景的文档类材料,例如教育试卷、金融票据、卷宗等内容,仍然需要一套通用的方法来实现高精度的文档恢复。第四代框架结合图卷积神经网络(GCN)等结构化分析技术和基于生成对抗网络(GAN)的图文数据生成技术,解决了「通用问题」。

多语种端到端统一建模技术

无论是识别还是合成技术,都会面临多语种推广的问题。针对多语种相关语言知识积累不足的问题,科大讯飞设计了基于相似性的端到端统一建模方案。一方面,通过多语种统一的表征和混合建模,实现跨语种的信息共享,充分发挥语种之间的共性及互补性;另一方面,通过统一的端到端建模,降低对专家知识和数据的依赖。

此外,针对领域数据不足的问题,科大讯飞利用数据增强训练技术,在识别和合成的训练当中打通各种无监督、有监督语音文本数据的闭环。这些多语种的能力,也将在讯飞开放平台上正式开放给所有开发者。

针对多语种技术,科大讯飞将会陆续开放 60 个语种的语音合成能力,69 个语种的语音识别能力,56 个语种的图文识别能力和 168 个语种间的机器翻译能力。

每年的 1024 这一天,我们都能发现科大讯飞在「开放」这件事上更进一步,用自己所有的能力浇灌一棵「 AI 科技树」,去服务百万开发者。从原始种子到参天大树,每一片枝叶背后都蕴含了大量的付出和努力。

没有一家企业能够脱离大环境的影响而生存,好在「独木」已经「成林」,并且枝繁叶茂。对于科大讯飞来说,在新的十年里也许会面临更多的外部挑战,但也确实酝酿着更多的希望。

产业1024程序员节科大讯飞
相关数据
自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

麦克风阵列技术

麦克风阵列(Microphone Array),从字面上,指的是麦克风的排列。也就是说由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。 早在20世纪70、80年代,麦克风阵列已经被应用于语音信号处理的研究中,进入90年代以来,基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点。而到了“声控时代”,这项技术的重要性显得尤为突出。

图卷积神经网络技术

图卷积神经网络(Graph Convolutional Network)是一种能对图数据进行深度学习的方法。GCN的三个主要特征:它是卷积神经网络在 graph domain 上的自然推广;它能同时对节点特征信息与结构信息进行端对端学习;适用于任意拓扑结构的节点与图;

暂无评论
暂无评论~