作者:許躍鑫
編輯:石亞瓊
36氪獲悉,AI數據服務公司愛數智慧已于2021年初完成B輪融資,融資金額達到數千萬人民幣。本輪融資由凡創資本投資.愛數智慧的創始人兼CEO張晴晴博士告訴36氪,本次融資的資金將主要被用于打造覆蓋全球的AI開源社區MagicHub,人工智能對話式AI的訓練數據集產品設計和數據采集標注SaaS平臺的研發等方面。
隨著人工智能在各種場景的落地應用,上游的AI數據服務行業的市場規模不斷擴大。數據、算法、算力是驅動人工智能發展的三大核心要素。數據作為人工智能技術架構的基礎層,其數量和質量會直接影響算法的訓練效果。AI數據服務是指將語音、視頻、文字等原數據經過加工處理后形成AI算法模型能夠直接使用的訓練數據。
愛數智慧成立于2016年,為超100家國內外客戶提供專業的人工智能數據解決方案,包括數據處理方案設計、訓練\測試數據集產品、數據標簽化,以及數據處理系統的私有化部署等。愛數智慧告訴36氪,愛數智慧不但擁有十幾萬小時的覆蓋多語種多種方言的訓練數據集,還為大型客戶提供數據采集標注私有化部署。
張晴晴認為數據識別率的提升包括三個階段:分別是0-90%,90%-95%、95%-100%,第一階段的絕大部分場景并不需要定制數據,標準化訓練數據集即可滿足;第二階段可以使用標準化+部分定制的垂類數據集,第三個部分才真正需要100%精準定制。語音數據的標簽化涉及語音、情感、信號等多維度,規則和規范十分復雜,一旦某些步驟出現問題,數據訓練出來的效果可能會不盡如人意,非常浪費客戶的成本和生產周期。
愛數智慧告訴36氪,目前公司已處于AI語音數據服務行業的第一梯隊;2020年,愛數智慧的營業收入接近億元。客戶包括國內外頭部互聯網公司、移動通信、知名算法公司等,這些客戶將成為愛數智慧新的營收增長來源。此外,在業務板塊上,愛數智慧還于2020年開拓了文本數據業務線,提供文本數據的產品和服務,以完善對話式AI業務板塊。
為響應國家十四五規劃提出的支持數字技術開源社區,同時在行業深耕多年的經歷,愛數智慧發現AI工程師最崩潰的就是如何在汪洋大海里找到好數據/能用的數據。俗話說,巧婦難為無米之炊,數據作為基礎層,為算法提供了堅實的基礎,沒有好數據,什么也做不了。于是,MagicHub開源社區應運而生。MagicHub開源社區的發布將滿足更多行業和AI從業者對于訓練數據的需求、降低數據使用門檻,解決找數據難的問題,愛數智慧將會在4月15號開源30種語音訓練數據集,首批數據集包括NLP數據集、ASR數據集、TTS數據集和LEX發音詞典,涵蓋了多個語種、場景和領域,未來每個月都會更新訓練數據集。
愛數智慧建立開源社區為AI從業者提供豐富的訓練數據集和數據處理工具,探索訓練數據集即可滿足企業業務需求的可能性,從而幫助企業降本增效,促進AI行業的快速發展。
最后,張晴晴博士總結說,訓練數據集、數據采集標注SaaS平臺以及MagicHub開源社區是愛數智慧業務三大基石。
數據作為虛擬世界的原油,針對數據處理的核心競爭點在于對數據業務的專業性理解和提供解決方案的能力。除了愛數智慧外,AI語音數據服務行業已有的玩家還包括海天瑞聲、澳大利亞企業APPEN、標貝科技等企業。
36氪平臺
Copyright 2021 快鯨
掃碼咨詢與免費使用
掃碼免費用
申請免費使用
在線咨詢