-
語音識別
Automatic Speech Recognition語音識別(Automatic Speech Recognition 簡稱ASR)通過識別語音語種和任意的連續語音,將聲音信號轉化為相應說話內容的語種文字。支持中、英、日、俄、朝、維、粵、藏、哈、滬語、閩南語等多種語言的語音識別。
- 抗噪性好:從人的聽覺感知及發音機理等現有基礎研究成果出發,分析提取具備抗噪性、鑒別性、互補性的特征參數。
- 識別準確率高:采用PLP/CMN/HLDA/VTLN/高斯化等特征提取和處理技術;采用基于深度神經網絡DNN的聲學建模技術,適應用戶自然口語發音特點。
- 識別速度快:采用基于Transformer/CTC Hybrid建模技術,多任務學習,加快訓練流程,實現魯棒性更好的識別效果。
- 采用模型自學習技術,適應多種地區的用戶口音。
- 通過系統中間層為上層應用提供服務,同時將自己的服務能力作為接口提供給第三方平臺。
- 熱詞模型:支持用戶上傳領域或者是自定義熱詞,引擎自適應選擇用戶熱詞結果。
- 開放的API接口:通過開放的API接口提供給第三方平臺靈活使用。
-
語音增強
Speech Enhancement語音增強(speech enhancement簡稱SE),通過應用信號處理方法以及深度學習策略,盡可能的從帶噪語音中恢復純凈的語音信號,從而提高帶噪語音信號的質量和可懂度。
- 高適性,適用于多種復雜場景,低信噪比音頻。
- 高質量,結合深度學習策略,通過對目標頻譜的復數域CRM進行學習優化,達到高質量語音增強的目的。
- 高實時,通過優化網絡結構,充分利用音頻諧波長期的相關性,實現了幀級的語音增強性能。
- 可定制,對特定類型的帶噪音頻進行優化增強。
-
聲紋識別
Voiceprint Recognition聲紋識別(Voiceprint Recognition,簡稱VPR):支持說話人確認、辨識,說話人分離。
- 采用國際領先的基于TDNN的聲紋識別技術。
- 引用PLDA在后端進行信道補償,大大提升識別性能。
- 聲紋識別與用戶所說的文本和語言無關。
- 聲紋識別速度快,能確保實時識別。 模型存儲空間小,
- 每個人的聲紋模型存儲空間小于100KB。
- 參數調整方便,可按不同的應用需求調整操作點閾值。高安全性,不必擔心他人的錄音頂替使用。
-
語音合成
Text To Speech語音合成(Text To Speech 簡稱TTS),將文本信息轉化成語音信息,讓機器像人類一樣能說會道,支持多語種、多業務領域語音合成。
- 高度智能的文本處理能力。
- 高自然度的節奏和韻律預測。
- 靈活的播放調節功能和多種特殊效果,可自由調節語速、音調。
- 高品質的語音合成效果。
- 靈活的系統架構,有良好的擴展性。
-
機器翻譯
Machine Translation機器翻譯((Machine Translation 簡稱MT),利用電子計算機等裝置,按照一定的程序將一種語言文本(源語言)轉換成另一種語言文本(目標語言)。
- 應用基于Transformer的神經網絡技術,搜集大規模語料多次訓練,翻譯品質較好。
- 支持在線學習優化,主動學習用戶修改糾正后的結果。
- 支持英日韓等多達200+個語言與中文互譯,覆蓋全球主流語種,覆蓋“一帶一路”及聯合國所有官方語言。
- 支持API方式接入,提供文本翻譯、標簽處理、多格式翻譯等7項開發接口。
- 提供多個翻譯插件,可應用與WPS、Office等軟件中,賦予軟件更強大的機器翻譯能力。
-
計算機視覺
Computer Vision計算機視覺(Computer Vision)用計算機代替人眼對目標進行識別、跟蹤和測量,使計算機能像人那樣通過視覺觀察和理解世界。
- 人臉識別關鍵技術:復雜環境下高動態活體人臉檢測算法,基于人臉關鍵點定位實現人臉區域的標準化預處理,減少了復雜環境因素對人臉特征提取的干擾,有效融合局部細節特征與全局整體特征,最后對活體特征實現準確分類。
- 自然監控視頻中的對象、行為識別:以視覺AI分析場景化模型為基礎,利用深度學習等方法,實現目標檢測與跟蹤、目標識別、對象行為動作分析,并針對應用場景綜合優化,實現目標識別及異常行為檢測。
