人工智能技術除了在自動駕駛,智能安防,智慧金融等領域得到廣泛應用,在互聯網內容審核領域也發揮著巨大價值,AI鑒黃就是應用之一。對AI內容審核技術來說,高質量的訓練數據集必不可少,景聯文科技為相關技術服務廠商提供數據解決方案,包括敏感色情數據庫,定制化數據采集,定制化數據標注等服務。
社交網絡平臺的信息傳播具有迅速、碎片化的特點,軟色情、打擦邊球的低俗內容更容易獲取流量,污染平臺內容環境,是全球內容平臺治理的共同難題。這幾年隨著直播和短視頻的爆發,加劇了網絡低俗內容的泛濫,在此背景下,國家對內容審核的要求越來越嚴,監管政策不斷收緊,要求各大網絡平臺增強網上涉低俗色情信息內容的鑒別過濾能力。
面對爆發的網絡數據,靠人力去完成審核無疑是癡人說夢。
圖片來源pexels
通過研究人工智能技術,很多科技算法廠商使AI在互聯網內容審核領域得到落地,為電商、直播、社區、新聞等第三方平臺提供內容審核服務,行業領跑的企業主要有百度智能云,阿里綠網,網易易盾,圖普科技等。
以百度智能云為例,主要提供圖像審核,視頻審核,語音審核,文本審核等人工智能審核方案。
圖像審核:
基于深度學習技術,準確過濾圖像中的色情、暴恐、政治敏感、廣告、惡心、不良場景等違規內容。
可以應用于社交應用圖像審核,對實時聊天中的敏感圖像進行高效過濾審核;可以應用于社區論壇圖像審核,對社區、論壇、貼吧等平臺中的圖像進行審核,過濾色情、暴恐、政治敏感、惡意推廣等內容;可以應用于用戶頭像審核,對圖像中人臉的角度、遮擋、占比、清晰度等進行審核,確保圖像中包含清晰人物正臉、非明星/卡通人臉,并且無色情、暴恐、政治敏感、微商廣告、各類聯系方式內容。
視頻和語音審核:
對視頻文件或直播視頻流進行圖像和音頻兩大維度的審核,有效過濾圖像中的色情、暴恐、政治敏感、廣告、惡心、不良場景等違規內容。可以應用于視頻直播,對視頻、直播的截幀圖像進行實時自動審核,實時檢測UGC短視頻社區用戶自主上傳視頻的違規內容,對涉黃語音,嬌喘,廣告語音進行精準識別,快速高效,過濾違規內容。
文本審核:
基于自然語言理解、深度學習等技術,有效識別色情、暴恐涉政、惡意推廣、辱罵、違反廣告法、涉及違禁品等文本內容。具體的應用場景比如視頻直播中的彈幕和社區論壇的留言,對用戶評論信息進行檢測,一旦發現用戶提交違規內容,進行自動審核與實時過。適用于各種內容生產和分發平臺,能夠準確識別出文本中的色情、低俗、涉政、違禁等內容,避免用戶上傳違規內容到平臺。
AI鑒黃使用的人工智能技術主要有深度學習目標檢測、圖像分類、特征檢索、語音識別、聲紋識別小語種識別、OCR技術、NLP技術、上下文語義識別等,對圖像,視頻,語音,文本中的局部和全局信息進行分析,捕獲不同類型的色情和其他違禁內容,并對其進行處理。
簡單來說,鑒定一張圖片是否是色情圖片,需要通過深度學習和海量數據庫得到一個鑒黃模型,該模型通過分析數據的特征對其進行分類,最終給出該數據是否屬于色情數據的結果。在這其中,存在兩個難點和重點。
第一是標準。判斷標準是人為界定,涉黃內容也分很多種,色情、性感、低俗等信息分類在人類不同文化里尚有不同解讀標準,而且針對不同場景,根據實時的法規政策和輿論動向,審核標準可能存在變化,因此需要根據實際情況不斷清晰化和細分化分類標準。目前對絕大多數算法廠商來說,使用AI技術先把大部分違規內容辨別出來,對剩余少量難判斷、打擦邊球、隱晦的內容,仍然需要人工審查介入,來做到雙重保險。
第二,既然使用到人工智能技術,訓練數據的質量好壞對算法調試的影響是非常重要的,優質數據支撐高質量的算法模型。在確定了違禁數據的定義后,需要收集大量樣本數據,去進行樣本模型調優和數據集再訓練,目的是讓計算機擁有更高智慧,理解人類的情感、價值觀、潛意識,以及聯想能力,以減輕審核員的壓力。這個工作會耗費大量的時間和人力成本,并且需要一直進行。與之對應的是,AI鑒黃的優化進程也永遠沒有盡頭,因為總有網絡不法分子用各種方式試圖突破和對抗科技廠商的安全策略。
圖片由作者提供,版權歸作者所有
景聯文科技是AI基礎數據服務行業頭部的數據采集標注供應商,為AI鑒黃和其他智能內容審核算法提供一站式數據解決方案,幫助相關科技算法廠商降低算法模型訓練成本,節省研發時間。
用來訓練的數據集數量是否匱乏、場景是否豐富、類別特征是否明顯,以及是否存在干擾檢測因素(如人為遮擋,畫中畫),都將影響模型鑒定的準確率。
依托自建數據庫和豐富的數據采集和數據標注經驗優勢,景聯文科技推出相關圖像和文本標注數據集。在標注方面,標注類型主要有文本標注,圖像拉框和人像語義分割。文本標注標注行級文本的四邊框,檢測框精度不低于95%,文本轉寫精度不低于95%,圖像標注四邊形框頂點偏差不超過五個像素,人像語義分割,可以用來訓練圖像分類器,鑒黃模型,目標檢測,人體實例分割,人體行為識別等任務。
經過多年沉淀,目前景聯文在全國范圍內擁有5個標注基地,220名全職人工智能訓練師;上線了自有標注平臺,涵蓋了絕大多數主流標注工具,支持語義分割、拉框標注、多邊形標注、關鍵點標注、3D點云、2D3D融合標注、圖片分類、聲紋識別、ASR轉寫、韻律標注、NLP、文本分類、OCR轉寫、情緒判斷等多種標注業務;提供企業私有化部署、跨地區作業等定制服務。
除了AI智能內容審核領域,在AI數據服務這條賽道上,景聯文科技還提供智能駕駛,智能安防能多場景的定制化數據解決方案。未來,將繼續為AI落地提供更多高質量、場景化的數據支持。
36氪平臺
Copyright 2021 快鯨
掃碼咨詢與免費使用
掃碼免費用
申請免費使用
在線咨詢