網(wǎng)絡媒體的發(fā)展催生了一個神秘的職業(yè)——石,一個在很多宅男心中“夢寐以求的職業(yè)”。
眾所周知,黃其實是一份極其艱難的工作:熬夜、疲憊、無聊……但即使他們像鐘表一樣工作,也仍然越來越難以滿足短視頻時代黃健封堵的需要。
今年4月,Aauto rapper和火山視頻因傳播低俗信息接受采訪。此后,對網(wǎng)絡色情的打擊逐步升級。
人工智能黃色鑒定師(AI)應運而生,AI的出現(xiàn)極大地解放了在黃色鑒定偉大事業(yè)第一線奮斗的人工黃色鑒定師。
目前在國內(nèi)上線的“黃愛施簡”,不僅能識別黃色電影的黃圖,還能快速捕捉帶有色情信息的聲音內(nèi)容。阿里巴巴最近投入公測的AI語音識別和反垃圾郵件服務,不僅可以支持中文、日文、英文等語言,還可以識別東北話、四川話、粵語等方言,甚至是沒有語義的呻吟。
《環(huán)球時報》記者滿懷好奇,采訪了AI智能黃劍在圖片、聲音、語義等領域的領先技術團隊,請他們揭開黃愛劍的神秘面紗。
黃愛·施簡是如何工作的?
圖普科技股份有限公司運營總監(jiān)蔣澤榮在圖像黃色識別領域起步較早,他介紹說,圖像黃色識別的原理是先建立色情圖片的分類標準,然后收集大量素材,分類標記,最后用這些標記的素材訓練圖片,讓機器學習每個分類中的特征,不斷調(diào)整自己模型的參數(shù),最終得到最佳的識別模型。
機器識別圖像后,圖像數(shù)據(jù)將被轉換成數(shù)字信息,并被帶入模型進行計算。根據(jù)計算值,圖像會被標注為“正常、性感、色情”。如果在人工審核中發(fā)現(xiàn)機器識別錯誤,會有針對性地研究同一場景中圖片的數(shù)據(jù),并調(diào)整參數(shù),直到錯誤率達到最低值。
黃愛劍是怎么訓練出來的?
早在2014年,Tupu Technology就開始使用AI識別靜態(tài)圖像中的色情元素,但前期素材采集比較困難?!肮境闪r,每天至少收集6個小時的數(shù)據(jù)。簡單來說,它看了黃圖和色情,然后把它們?nèi)舆M了數(shù)據(jù)庫。一開始只能靠自己的力量去收集素材。每天都號召親戚朋友宅男貢獻自己收集的資源,但是來源比較單調(diào),主要是大陸和海島片。收藏的關鍵在于找到“合適的人”。只要找對人,就能得到一個敵人。直到后來,有了客戶提供的海量數(shù)據(jù),才真正走上正軌。只有數(shù)據(jù)覆蓋方案越全面,模型才能越準確?!?/p>
與語音識別和圖像識別相比,不良信息的語義識別發(fā)展稍晚。相比之下,它能捕捉到語言之間微妙而不易察覺的“軟色情”信號,漢語也是語義識別領域最難的語言。專注于AI語義識別的三角野獸科技有限公司技術總監(jiān)齊超告訴環(huán)球時報記者,該公司目前的語義“歧視”主要體現(xiàn)在人工智能交互系統(tǒng)上,這是一種常見的“人機對話”。
▲2018年8月3日,北京,油庫公司,29歲的季恒山是一名人工智能標注員。他正在訓練機器識別什么是“接吻”鏡頭,所以他也被稱為“接吻鑒定師”。圖片:VCG
一般來說,當你故意想“調(diào)戲”AI時,它會先識別你的輕浮言論,然后迅速捕捉到字與字之間的“雷點”,在毫秒內(nèi)做出反應和判斷,以巧妙的方式避免你的“調(diào)戲”。對于一些粗俗下流的話,會在人機對話中自動屏蔽掉。
在大數(shù)據(jù)學習的初始階段,AI需要學習“正反語料庫”,通常包括網(wǎng)上收集的不雅詞匯或污言穢語。有趣的是,網(wǎng)絡上一些新詞的快速變化已經(jīng)成為目前程序員最難解決的問題?!坝行┰~昨天聽起來很正常,今天卻變成了敏感詞,比如2017年很火的‘黃鱔’。事故發(fā)生后,我們不能一刀切地屏蔽黃鱔這個詞,因為它可能會傷害到它的本義,但我們必須讓機器智能地判斷這個詞的場景和語義。這就需要我們的技術不斷變化。
齊超說,在數(shù)據(jù)收集問題上,他也期待著將來與政府相關部門合作,以便收集更多的原材料來提高機器的快速學習能力。
由于擔心孩子會成為網(wǎng)絡黃色暴力的主要受害者,三角獸在其“兒童聊天引擎”的設計中對內(nèi)容的控制也更加謹慎,將內(nèi)容缺陷率降低到0.6%。齊超告訴記者,在兒童應用設備中,他們會篩選出成人可以接受的詞語,如愛情、婚姻、懷孕等,但不適合兒童接觸的詞語,從而為兒童創(chuàng)造一個安全健康的聊天環(huán)境。
AI識別黃色的準確率和效率如何?
阿里巴巴高級安全官算法工程師尉氏告訴環(huán)球時報記者:建每天可以審核上億張圖片,識別準確率高于99.5%。
“比如你要一天審核4億張圖片,那就手工審核。一個人一天會審核一萬張圖片,需要四萬人。AI黃簡只需要篩選出20萬張可疑圖片。一起再審,只需要20個人?!?/p>
圖普科技蔣澤榮告訴記者,AI完成識別分類后,只會告訴用戶判斷結果和概率,然后用戶會根據(jù)結果做出相應的處理,比如自動刪除或者人工訪問審核。
人工黃色評估師AI上崗后會被裁掉嗎?
蔣澤榮作為早期的人造黃標,承認人造黃標其實是一種枯燥的體力活動,就像“流水線上的工人遲早會被機器取代。”。人工智能的出現(xiàn)允許人類將這種體力活動外包出去,然后致力于更有意義的工作。"
很多帖子都被曝光了。由于近年來信息的快速增長和審計的嚴格控制,人工黃色評估師的加班已經(jīng)成為常態(tài)。媒體曾經(jīng)報道過這樣的新聞,黃健因為壓力太大,已經(jīng)向公司提出工傷索賠。
“剛開始接觸大量小黃圖的時候,確實有生理反應,尤其是對一些心理素質(zhì)不夠好的年輕黃健老師。”江澤榮說。
一位有類似經(jīng)歷的黃色鑒賞家也告訴記者,頻繁接觸黃色信息必然會對身體造成傷害,偶爾會遇到一些不正常的視頻或圖片,“會讓人一整天吃不下飯”。嚴重的話,路上的人都是馬賽克。但是AI的免疫力會強很多。
但蔣澤榮和Vista都表示,AI不能完全取代人工審核,因為機器很難理解內(nèi)容背后的深層含義,在不同的文化場景中也不會自由切換。
“最好的審計方式是以情報為主,人力為輔。人工黃色評估師數(shù)量少,目前主要做標記和審核可疑圖片。”阿里安全部的產(chǎn)品專家夏念說。
如何把握色情與非色情的界限?
無論是語音語義還是圖像,在初期設計模型時,都會根據(jù)大眾的普遍接受程度,人為制定一套“界定色情的標準”。人為標準不是一成不變的,但在一定程度上是主觀的。
蔣澤榮舉例說:“三點式泳衣很性感,裸露的乳房只遮住乳頭很色情,而以性感姿勢舔香蕉等‘軟色情’會被機器歸為‘正常’。
當被問及如何區(qū)分“性感”和“色情”時,他認為在設定標準時有一個默認規(guī)則——極端性感就是色情。
▲2018年8月15日,優(yōu)酷公司在北京舉行“接吻鑒定師”招聘面試。從數(shù)百份簡歷中選出的四名候選人進入面試,回答了關于人工智能的技術問題,并在屏幕上識別了數(shù)百個死磕者。圖片:IC
蔣澤榮介紹說,之前設計模型時,著名的“大衛(wèi)”雕像被標為“色情”,因為它的一些部分雕刻得太逼真了。但隨著人們對開放文化接受程度的擴大,機器通常會溫和地對待“裸露外表”的藝術品,或者認為它們是合適的,但不包括那些“明顯傳播色情文化”的藝術品,比如春宮的圖片。
在得知黃愛·施簡在線的消息后,一些人擔心人工智能的嚴格標準會切斷所有“幸運”的內(nèi)容。有人認為色情文化正是人類所需要的,但AI無疑是在阻擋人性的輸出。
對此,蔣澤榮并不同意。他認為,在中國沒有“分級制度”的情況下,更重要的是嚴格控制色情信息,“盡可能提高門檻,防止色情信息傷害未成年人。他希望家庭和學校的性教育能不斷改進,家長能更科學地引導孩子的性需求。
今天,隨著人工智能智能產(chǎn)業(yè)在中國的強勁發(fā)展,人工智能必將以更高效的步伐成為網(wǎng)絡安全調(diào)查的先鋒。我們期待艾黃師父在未來每一場掃黃戰(zhàn)斗中為祖國而戰(zhàn)。
1.《36人體藝術 揭秘AI鑒黃師的培養(yǎng) 能酌情處理裸體藝術品》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡信息知識,僅代表作者本人觀點,與本網(wǎng)站無關,侵刪請聯(lián)系頁腳下方聯(lián)系方式。
2.《36人體藝術 揭秘AI鑒黃師的培養(yǎng) 能酌情處理裸體藝術品》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進行證實,對其原創(chuàng)性、真實性、完整性、及時性不作任何保證。
3.文章轉載時請保留本站內(nèi)容來源地址,http://f99ss.com/caijing/629838.html