國内智能語音行業分析報告

15天0基礎極速入門數據分析,掌握一套數據分析流程和方法,學完就能寫一份數據報告!了解一下>>

伴随着人工智能行業的快速發展,中國在智能語音這個細分市場的發展速度也将會持續增長,但是目前國内在智能語音市場,技術已經相對成熟,且頭部企業在行業的壟斷力度較大。

一、智能語音簡介

智能語音是人工智能技術的重要組成部分,包括語音識别、語義理解、自然語言處理、語音交互等。

當前,人工智能的關鍵技術均以實現感知智能和認知智能為目标。語音識别、圖像識别和機器人視覺、生物識别等目前最火熱的領域,主要解決的是感知智能的需求,就是使得人工智能能夠感知周圍的世界,能夠“聽見”或者“看到”。

自然語言理解、智能會話、智能決策、人機交互等技術更加側重的是認知智能的領域,解決“聽懂”、“看懂”,并且根據學習到的知識對人類的要求或者周圍的環境做出反應的能力。

在關鍵技術層中,語音識别、自然語義理解(Nature Language Process, NLP)、機器學習領域的關鍵技術在人工智能技術當中居于重要地位,是人機交互技術的基礎。


(語音交互流程圖)

二、智能語音市場概況

1. 中國人工智能市場規模持續增長,智能語音處于重要地位

通過上圖我們不難發現,人工智能行業最近幾年呈現出一個快速發展的态勢,産業增長率平均在43%左右,屬于一個快速發展的産業。2018年,人工智能市場規模達200億元,如果按照之前的增速,預計到2019年年末,整個人工智能行業規模将達到近300億元。

而在智能語言方面,當前人工智能産業中,智能語音是一個産業化程度相對成熟,産業規模較大的這麼一個細分領域,從2011年整個市場規模隻有6.3億,到2017年整個智能語音市場規模已經超過百億,整個行業正經曆着高速的發展,預計未來幾年,智能語音市場仍然會保持着較高速度快速發展。

2. 智能語音技術是人工智能産業鍊上的關鍵一環

上圖是當前人工智能産業鍊的一個版圖,從底層的基礎設施到中間層的技術服務到最上面的行業應用,可以看到,智能語音技術在整個産業鍊當中,起到了一個承接的作用,将人工智能的技術底層産業化,并在智能家居、可穿戴設備、機器人等行業落地,是整個人工智能産業鍊中的關鍵一環。

3. 科技巨頭紛紛從不同維度布局相關産業鍊

(1)國外科技巨頭:通過并購等手段,夯實核心技術,開放應用平台,擴展以AI為核心的生态系統

谷歌:打造開發者生态鍊,推出Google Home,試圖建立物聯網時代安卓系統。

蘋果:基于智能硬件定标準,做平台、獲數據,重視物聯網時代生态控制權。

(2)國内科技巨頭:開放語音生态系統,以産業内合作的方式,将語音技術植入産品和或應用于相關業務場景,構建全産業生态鍊廠。

百度:瞄準人工智能戰場,對外開放語音生态系統,對内在自身産品業務中實現AI First。

 

三、智能語音技術分析

1. 語音識别(ASR)

1)語音識别概述

語音識别是以語音為研究對象,通過語音信号處理和模式識别讓機器自動識别和理解人類口述的語言,語音識别技術就是讓機器通過識别和理解過程,把語音信号轉變為相應的文本或命令的高技術。

語音識别系統本質上是一種模式識别系統,包括特征提取、模式匹配、參考模式庫等三個基本單元,它的基本結構如下圖所示:

語音識别系統構建過程整體上包括兩大部分:訓練和識别。

訓練通常是離線完成的,對預先收集好的海量語音、語言數據庫進行信号處理和知識挖掘,獲取語音識别系統所需要的“聲學模型”和“語言模型”;

而識别過程通常是在線完成的,對用戶實時的語音進行自動識别。

識别過程通常又可以分為“前端”和“後端”兩大模塊:

  • “前端”模塊主要的作用是進行端點檢測(去除多餘的靜音和非說話聲)、降噪、特征提取等;
  • “後端”模塊的作用是利用訓練好的“聲學模型”和“語言模型”對用戶說話的特征向量進行統計模式識别(又稱“解碼”),得到其包含的文字信息,此外,後端模塊還存在一個“自适應”的反饋模塊,可以對用戶的語音進行自學習,從而對“聲學模型”和“語音模型”進行必要的“校正”,進一步提高識别的準确率。

目前,各語音識别方案提供方,包括訊飛、百度、雲知聲、思必馳等,都在提供包括麥克風陣列等硬件在内的整體解決方案,以軟硬件結合的方式提高語音識别的精準度的問題。

2)語音識别技術原理

聲音實際上是一種波,在開始語音識别之前,首先,需要對聲音進行靜音切除處理,以降低對後續步驟造成的幹擾。

其次,要對聲音進行分幀,把聲音切成一小段一小段,每一段就是一幀,分幀操作一般不是簡單的切開,而是使用移動窗函數來實現,而幀與幀之間一般是有交疊的,如下圖所示:

圖中,每幀的長度為25毫秒,每兩幀之間有0.2S的交疊,我們一般稱之為幀長2秒,幀移0.2秒。

分幀後,語音就變成了很多小段。但波形在時域上幾乎沒有任何描述能力,因此必須将波形作變換,常見的一種變換方法是提取MFCC特征,根據人耳的生理特性,把每一幀波形變成一個多維向量,這個向量包含了這幀語音的内容信息,我們把這個過程叫做聲學的特征提取。

至此,聲音就成了一個12行(假設聲學特征是12維)、N列的一個矩陣,稱之為觀察序列,這裡N為總幀數。觀察序列如下圖所示,圖中,每一幀都用一個12維的向量表示,色塊的顔色深淺表示向量值的大小。

再次,就是講聲音向量矩陣變成文本了,在這之前,有兩個概念需要給大家先介紹下:

  1. 音素:單詞的發音由音素構成。對英語,一種常用的音素集是卡内基梅隆大學的一套由39個音素構成的音素集,而漢語一般直接用全部聲母和韻母作為音素集,另外漢語識别還分有調無調。
  2. 狀态:比音素更細緻的語音單位就行啦。通常把一個音素劃分成3個狀态。

了解了概念之後,我們就看一下語音識别是怎麼把聲音變成文本的,其實就和我們把大象塞進冰箱一樣,也是分為三步:

  1. 把幀識别成狀态(難點);
  2. 把狀态組合成音素;
  3. 把音素組合成單詞。

如下圖所示:

圖中,每個小豎條代表一幀,若幹幀語音對應一個狀态,每三個狀态組合成一個音素,若幹個音素組合成一個單詞。也就是說,隻要知道每幀語音對應哪個狀态了,語音識别的結果也就出來了。

圖中,每個小豎條代表一幀,若幹幀語音對應一個狀态,每三個狀态組合成一個音素,若幹個音素組合成一個單詞。也就是說,隻要知道每幀語音對應哪個狀态了,語音識别的結果也就出來了。

2. 自然語義處理(NLP)

1)自然語義處理概要

語義識别是人工智能的重要方向之一,如果語音技術相當于人的嘴巴和耳朵,負責表達和獲取,那語義技術則相當于人的大腦,負責思考和信息處理,解決的是“聽得懂”的問題。語義識别最大的作 用是改變人機交互模式,将人機交互由最原始的鼠标、鍵盤交互轉變為語音對話的方式。

人機交互發展史

語義識别主要基于大數據和算法模型之上搭建,是自然語言處理 (NLP)技術的重要組成部分。NLP技術主要包括詞法分析技術、句法分析技術、語義分析技術、語用分析技術以及語句分析技術等。NLP在實際應用中最大的困難還是語義的複雜性,随着大數據、芯片和算法模型等的發展進程加速,将為NLP帶來長足的進步。

2)自然語義處理技術原理

在自然語義處理領域,也在通過深度學習的工具提升自然語義處理的準确度。目前常用的自然語義處理領域的技術包括了循環神經網絡(Recurrent Neural Network)、卷積神經網絡(Convolutional Neural Network)、遞歸神經網絡(Recursive Neural Network)的原理,它們是語句語義學習的強有力工具。

普通神經網絡可以完成詞性标記、詞語切分、實體命名識别、目的提取等一般的語義分析功能。

循環神經網絡(RNN)是把一句話看成單詞的序列,每個單詞由一個向量表示,每一個位置上有一個中間表示,由向量組成,表示從句首到這個位置的語義。

這裡假設,每一個位置的中間表示由當前位置的單詞向量以及前一個位置的中間表示決定,通過一個神經網絡模型化。RNN把句末的中間表示當作整個句子的語義表示。RNN加入長短期記憶(Long Short Term Memory,LSTM)機制, RNN可以處理遠距離依存關系,能夠更好地表示整句的語義。

卷積神經網絡(CNN)是通過對句子進行掃描,抽取特征,選擇特征,最後組合成句子的語義表示。

首先從左到右用一個滑動窗口對句子進行掃描,每個滑動窗口内有多個單詞,每個單詞由一個向量表示。在滑動窗口内,通過卷積(convolution)操作,進行特征抽取。這樣,在各個位置上得到一系列特征。之後再通過最大池化(max pooling)操作,對特征進行選擇。

重複以上操作多次,得到多個向量表示,将這些向量連接起來得到整個句子的語義表示。同一卷積層内參數是共享的,也就是同一層的卷積操作是相同的,這也就保證了在局部領域進行相同的特征抽取。

ReNN是假設對語句進行句法分析,得到句法樹。句法樹的每個節點上有一個向量中間表示。父節點的表示由其子節點的表示決定,通過神經網絡模型化,而根節點的表示就是整個句子的語義表示。句法樹上的中間表示可以在句法分析的過程中得到,比如在最大間隔分析(max margin parsing)。

除了上述這些神經網絡的算法之外,人類不斷在嘗試着用新的算法來試圖能夠為人工智能提供更加準确理解自然語言的能力。随着神經網絡和深度學習的發展,自然語義處理已經取得了長足的發展,但是,由于人類語言的複雜性,對于通用人工智能階段需要達到的自然語言理解,也存在較長的距離。

3. 語音合成(TTS)

1)語音合成概述

語音合成,又稱文語轉換(Text to Speech)技術,能将任意文字信息實時轉化為标準流暢的語音并朗讀出來,相當于給機器裝上了一個嘴巴,它涉及到聲學、語言學、數字信号處理、計算機科學等多個學科技術,是人工智能信息處理領域的一項前沿技術,解決的主要問題就是如何将文字信息轉化為可聽的聲音信息。

語音合成和語音識别技術是實現人機語音通話所必需的兩項關鍵技術,使機器具有類似于人一樣的說話能力。

2)語音合成技術處理方式

文本處理:

這一步做的事情是把文本轉化成音素序列,并标出每個音素的起止時間、頻率變化等信息。

作為一個預處理步驟,它的重要性經常被忽視,但是它涉及到很多值得研究的問題,比如拼寫相同但讀音不同的詞的區分、縮寫的處理、停頓位置的确定,等等。

  • 音素:音素(phone),是語音中的最小的單位,依據音節裡的發音動作來分析,一個動作構成一個音素。音素分為元音、輔音兩大類。
  • 音節:音節在語音學上指由一個或數個音素組成的語音結構基本單位;而音素是最小的語音單位。 如”普通話”,由三個音節組成,可以分析成”p, u, t, o, ng, h, u, a”八個音素。

語音合成:

狹義上這一步專指根據音素序列(以及标注好的起止時間、頻率變化等信息)生成語音,廣義上它也可以包括文本處理的步驟。

這一步主要有三類方法:

  1. 拼接法,即從事先錄制的大量語音中,選擇所需的基本單位拼接而成。這樣的單位可以是音節、音素等等;為了追求合成語音的連貫性,也常常用使用雙音子(從一個音素的中央到下一個音素的中央)作為單位。拼接法合成的語音質量較高,但它需要錄制大量語音以保證覆蓋率。
  2. 參數法,即根據統計模型來産生每時每刻的語音參數(包括基頻、共振峰頻率等),然後把這些參數轉化為波形。參數法也需要事先錄制語音進行訓練,但它并不需要100%的覆蓋率。參數法合成出的語音質量比拼接法差一些。
  3. 聲道模拟法。參數法利用的參數是語音信号的性質,它并不關注語音的産生過程。與此相反,聲道模拟法則是建立聲道的物理模型,通過這個物理模型産生波形。這種方法的理論看起來很優美,但由于語音的産生過程實在是太複雜,所以實用價值并不高。

三、智能語音主要公司介紹

1. 圖靈機器人

1)公司簡介

圖靈機器人是一家個性化智能機器人平台,旗下有人工智能機器人操作系統Turing OS,用戶可以在微博、微信、QQ機器人、語音客服、智能硬件等多個場景搭建屬于自己的個性化智能機器人,截止2016,公司估值已經超過10億人民币。

2)代表性産品介紹

樂迪:

樂迪是著名動畫作品《超級飛俠》裡的靈魂人物,基于圖靈機器人人工智能操作系統Turing OS,讓樂迪從熒屏走進消費者現實生活。

吉米貓:

吉米貓是一款手機寵物類應用遊戲,從功能上來說很像是湯姆貓的升級版,但與湯姆貓不同的是吉米貓接入了圖靈機器人的Chat bot接口,賦予了吉米貓聊天調侃、百科問答等語音對話能力,閑暇時還可以給你講個段子、說個故事。

2. 思必馳

1)公司簡介

思必馳是一家智能語音技術解決方案提供商,緻力于提供自然語言人機交互解決方案,應用于智能車載、智能家居和智能機器人領域,并且擁有語音識别、語音合成、語義對話及語義喚醒等技術,截止2016年,思必馳的估值已經超過20億人民币。

2)代表性産品介紹

智能車載解決方案:提供一體化解決方案,适用于智能後視鏡、智能車機、便攜式導航儀、HUD等,全稱語音操作。

智能家居解決方案:軟硬件一體化解決方案,為智能家居産品提供聲源定位、個性喚醒、語音識别、語義理解、對話交互等功能。

3. 雲知聲

1)公司簡介

雲知聲成立于2012年,是一家智能語音識别技術的高新技術企業,目前集AI芯、AIUI、AI Service三大解決方案支撐雲知聲核心技術的落地,已經在家居、汽車、醫療和教育等領域有廣泛應用,截止2018年,公司估值已經超過10.7億美金。

2)代表性産品介紹

智能家居方案-UniHome:

AI芯作為智能語音解決方案芯片,用以解決不同形态智能終端感知和部分計算問題,AI芯通過多種芯片方案,合理組合不同硬件平台,安裝不同系統下的AIUI版本,提供語音交互、IO控制、互聯内容的能力,滿足不同價位不同場景下的智能硬件交互需求。

智能車載方案-UniCar:

雲端芯一體化,方案包括拾音降噪,語音交互,雲端計算和内容服務一攬子解決方案,滿足用戶導航,電話,娛樂,咨詢,社交5大場景的功能訴求。

 

智慧醫療方案:雲知聲提供醫療垂直領域錄入軟硬件一體的解決方案,基于醫療人工智能技術和大數據分析進行持續探索,實現智能語音交互的知識問答和病曆查詢,進行健康風險預測和患者分群分析。

 

4. 出門問問

1)公司簡介

出門問問是市場上一家擁有自主語音識别、語義分析、垂直搜索技術的人工智能公司;自成立以來,一直努力将人工智能技術落地到消費産品,定義下一代人機交互的方式,截止2017年,公司估值超過10億美金。

2)代表性産品介紹

以TicWatch Pro為例:

五、智能語音市場總結

伴随着人工智能行業的快速發展,中國在智能語音這個細分市場的發展速度也将會持續增長,但是目前國内在智能語音市場,技術已經相對成熟,且頭部企業在行業的壟斷力度較大。

目前,中國智能語音市場的主要份額被科大訊飛、百度以及蘋果分割,截止到2018年,中國智能語音市場,科大訊飛市場占有率排名第一,市占率達到44.2%;其次為百度,市場占有率為27.8%;排名第三的是的蘋果,市占率為6.9%,排名前三的品牌在我國智能語音市場占比近八成,留給初創企業在這個市場的空間以及機會并不多。

未來随着智能語音技術的逐漸成熟,智能語音技術在教育領域會發揮出巨大的作用,比如在口語教學、考試測評、模拟練習等環節,能夠代替現在很多老師的工作,大大降低人工成本。

 

作者:作者:阿旺,著名投資人兼連續創業者,會從自身投資以及創業經曆,不定期輸出各類行業研究,如您想了解更多關于創業以及投資方面的内容,歡迎關注本人公衆号:awangblog

本文由 @阿旺 原創發布于人人都是産品經理。未經許可,禁止轉載。

題圖來自Unsplash,基于CC0協議

給作者打賞,鼓勵TA抓緊創作!
1人打賞
評論
歡迎留言讨論~!
  1. 不錯,比較粗淺,适合小白。

    回複
    1. 謝謝支持,歡迎多多關注

      回複
  2. 這些數據去哪兒可以找

    回複
    1. 可以去wind,邁博慧金去看下相關數據

      回複
  3. 說實話,很牛比

    回複
    1. 謝謝鼓勵,歡迎關注

      回複
  4. 多謝分享!

    回複
    1. 客氣了,請多多支持

      回複
圈子
關注微信公衆号
大家都在問