最近,字節(jié)跳動(dòng)宣布,今年春季招聘將為大學(xué)生開設(shè)6000多個(gè)全職和實(shí)習(xí)生職位。這一招聘數(shù)字超過了此前字節(jié)跳動(dòng)春季的招聘規(guī)模,使字節(jié)跳動(dòng)成為今年互聯(lián)網(wǎng)行業(yè)罕見的“不縮水”企業(yè)。
字節(jié)跳動(dòng)招聘負(fù)責(zé)人表示,2020年,字節(jié)跳動(dòng)將繼續(xù)加大人才培養(yǎng)力度,投入更多平臺(tái)資源,幫助社會(huì)創(chuàng)造更多就業(yè)崗位。字節(jié)跳動(dòng)將為應(yīng)屆畢業(yè)生提供廣闊而穩(wěn)定的發(fā)展機(jī)會(huì),完善的新型人才培養(yǎng)體系,平等開放的工作氛圍,有競爭力的回報(bào)和福利。
此前,2019年美國科學(xué)家聯(lián)盟名單已經(jīng)公布,來自字節(jié)跳動(dòng)人工智能實(shí)驗(yàn)室的科學(xué)家李航入選。前交叉韌帶研究員是對NLP從業(yè)者的最高認(rèn)可。根據(jù)美國公民自由聯(lián)盟官網(wǎng)信息,李航入選是因?yàn)樗谛畔z索方面做出了基礎(chǔ)性的貢獻(xiàn),尤其是在學(xué)習(xí)排序、深度學(xué)習(xí)和對話生成方面做出了突出貢獻(xiàn),推動(dòng)了NLP在中國的發(fā)展和商業(yè)化。
李航在東京大學(xué)獲得了計(jì)算機(jī)科學(xué)博士學(xué)位。曾任微軟亞洲研究院首席研究員,華為諾亞方舟實(shí)驗(yàn)室首席科學(xué)家。2019年5月,李航的機(jī)器學(xué)習(xí)導(dǎo)論“藍(lán)皮書”和“統(tǒng)計(jì)學(xué)習(xí)方法”再版。字節(jié)范邀分享新書內(nèi)容,加盟的經(jīng)歷,年輕技師的成長,機(jī)器學(xué)習(xí)的未來,人工智能的趨勢。
在李航工作是一種怎樣的體驗(yàn)?
字節(jié)跳動(dòng)的一些員工表示,他們當(dāng)然很高興,他們都知道他是行業(yè)內(nèi)的大技術(shù)專家,在微軟亞洲研究院、華為諾亞方舟實(shí)驗(yàn)室等知名機(jī)構(gòu)有豐富的經(jīng)驗(yàn)。也有很多員工說沒那么神秘。他總是穿著襯衫和褲子而不是碼農(nóng)的t恤,拿著紙質(zhì)筆記本記會(huì)議上的事情,習(xí)慣用手表看時(shí)間。他溫文爾雅,看起來像個(gè)大學(xué)教授。
他的另一個(gè)身份是《統(tǒng)計(jì)學(xué)習(xí)方法》的作者,這本書被很多人親切地稱為“藍(lán)皮書”,是很多技術(shù)人員開始機(jī)器學(xué)習(xí)的啟蒙書。出版學(xué)術(shù)專著3部,在國際頂級學(xué)術(shù)會(huì)議和期刊發(fā)表論文數(shù)百篇,擁有美國授權(quán)專利40項(xiàng)。
在接下來的采訪中,李航分享了新書的內(nèi)容,加入字節(jié)跳動(dòng)的經(jīng)歷,年輕技術(shù)人員的成長,機(jī)器學(xué)習(xí)的未來,人工智能的發(fā)展趨勢。
關(guān)于新書
問:統(tǒng)計(jì)學(xué)習(xí)方法第二版相比第一版有哪些更新?
統(tǒng)計(jì)學(xué)習(xí)是機(jī)器學(xué)習(xí),第一版主要介紹監(jiān)督學(xué)習(xí)的算法和模型。第二版主要補(bǔ)充了近六年的八種無監(jiān)督學(xué)習(xí)方法,對第一版的有監(jiān)督學(xué)習(xí)方法做了一些修改。雖然目前90%以上的機(jī)器學(xué)習(xí)都是監(jiān)督學(xué)習(xí),但無監(jiān)督學(xué)習(xí)實(shí)際上是機(jī)器學(xué)習(xí)的重點(diǎn)和難點(diǎn),即讓機(jī)器自己去發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律,這是未來實(shí)現(xiàn)強(qiáng)大人工智能的重要?jiǎng)恿?。以后我?huì)用3-4年的時(shí)間來補(bǔ)充深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。因?yàn)槲以跇I(yè)余時(shí)間寫作,所以花了我很長時(shí)間。
問:很多人把《統(tǒng)計(jì)學(xué)習(xí)方法》稱為藍(lán)皮書,是機(jī)器學(xué)習(xí)入門的啟蒙讀物。然而,一些學(xué)生會(huì)發(fā)現(xiàn)很難閱讀這本書。可以推薦一些入門的方法嗎?
a這本書本身的內(nèi)容是最基礎(chǔ)的,也就是大家在機(jī)器學(xué)習(xí)領(lǐng)域應(yīng)該掌握的東西。從這個(gè)意義上說,確實(shí)是入門書。但是這本書不是我從入門的角度寫的。我反而整理了一些最基本的概念,這也是一個(gè)重新學(xué)習(xí)和思考的過程。你也可以認(rèn)為你是從教材的角度來寫這些內(nèi)容的,所以這本書適合多次閱讀,需要經(jīng)常查看,而不是只看一遍。
這本書適合有一定基礎(chǔ)的讀者,主要是數(shù)學(xué)基礎(chǔ)。特別不適合初學(xué)者,或者對概率論和統(tǒng)計(jì)學(xué)不太了解的初學(xué)者。這些基礎(chǔ)知識可以通過其他課程或課本快速完成。當(dāng)然,讀者也可以在閱讀《統(tǒng)計(jì)學(xué)習(xí)方法》的同時(shí)完成基礎(chǔ)知識,這樣學(xué)習(xí)可能會(huì)更有效率。
當(dāng)然,我希望《統(tǒng)計(jì)學(xué)習(xí)法》不僅僅是教材,還能為行業(yè)內(nèi)的工程師提供一些有用的幫助。
問:能否分享一下你的經(jīng)驗(yàn)和年輕技術(shù)人員是如何成長的?
我認(rèn)為有幾件重要的事情。第一,樹立遠(yuǎn)大的理想和目標(biāo),選擇自己喜歡做什么,擅長什么,能給自己帶來什么好處。設(shè)定有挑戰(zhàn)性的目標(biāo),想想5-10年后你想成為什么樣的人。第二,一旦有了目標(biāo),就要在日常工作中腳踏實(shí)地的去做。沒有捷徑。
此外,當(dāng)我們談?wù)摷夹g(shù)人員的工作時(shí),科學(xué)家和工程師應(yīng)該有不同的想法。工程師的思維方式應(yīng)該是以問題為導(dǎo)向,解決問題,而科學(xué)家的思維方式應(yīng)該是建立普世價(jià)值的理論和方法。對于AI實(shí)驗(yàn)室的同事來說尤其如此,他們需要知道自己目前在做什么樣的工作。理想是不斷培養(yǎng)自己兩方面的能力,但也有側(cè)重點(diǎn)。
關(guān)于加入字節(jié)跳動(dòng)
在問答社區(qū)有一個(gè)問題,“如何評價(jià)李航參與今天的頭條母公司字節(jié)跳動(dòng)?”那你為什么加入字節(jié)跳動(dòng)?到目前為止,感覺如何?
a字節(jié)跳動(dòng)產(chǎn)品好,用戶多,人工智能研究需要大數(shù)據(jù),公司有很多優(yōu)秀人才??傊@里有最好的技術(shù)開發(fā)環(huán)境,有很多有趣的問題可以和大家一起做。事實(shí)證明,這是一個(gè)正確的決定,公司的機(jī)制和文化都很好,大家都很開心,也很高效。
問:越來越多的人工智能領(lǐng)域的專家正在從校園走向行業(yè)。如何看待這種現(xiàn)象?
這取決于你想做什么。學(xué)校適合做研究,行業(yè)更傾向于產(chǎn)品和應(yīng)用。人工智能時(shí)代,需要使用大數(shù)據(jù),學(xué)校很難有這樣的環(huán)境,促使很多老師選擇行業(yè)。在計(jì)算機(jī)科學(xué)領(lǐng)域,和以前有很大的不同。之前很多研究都是大學(xué)在行業(yè)之前進(jìn)行的,現(xiàn)在聯(lián)合推廣,甚至反過來。
我在NEC和微軟的研究部門工作過,比較像傳統(tǒng)行業(yè)的研究部門,不直接負(fù)責(zé)產(chǎn)品開發(fā)。字節(jié)跳動(dòng)是我去過的第四家公司,這里的研究部門是離產(chǎn)品最近的部門,很多東西需要在實(shí)際場景中應(yīng)用,非常接近美國一些互聯(lián)網(wǎng)公司的做法,既有部分產(chǎn)品,也有基礎(chǔ)研究。
問:你喜歡這種平衡嗎?不是摔跤嗎?
a在我個(gè)人看來,理想的情況是70%的精力用于應(yīng)用,30%用于相關(guān)的基礎(chǔ)研究,雖然兩者之間沒有明確的界限。我們需要為未來做好規(guī)劃。這是這個(gè)時(shí)代技術(shù)發(fā)展的必然趨勢。很多東西都需要真實(shí)的數(shù)據(jù)和真實(shí)的場景來驗(yàn)證,機(jī)器學(xué)習(xí)也是這樣的技術(shù)。所以我很享受這種平衡,我覺得這不是摔跤。
Q現(xiàn)在主要解決什么問題?
a做好內(nèi)容平臺(tái)。目前我們主要開發(fā)自然語言處理和機(jī)器學(xué)習(xí)技術(shù),希望開發(fā)更好的智能信息處理技術(shù),幫助人們獲得更好的信息和知識。比如與搜索團(tuán)隊(duì)的精準(zhǔn)問答,就是幫助用戶更精準(zhǔn)地獲取高質(zhì)量的信息。標(biāo)題中還有新聞推薦,利用算法幫助提高內(nèi)容質(zhì)量,壓低低質(zhì)量內(nèi)容,提高高質(zhì)量內(nèi)容。
綜上所述,就是讓每個(gè)用戶在獲取信息的過程中有更好的體驗(yàn),真正得到自己想要的。理想的狀態(tài)是我們每個(gè)人都有一個(gè)智能助手,助手會(huì)給你任何你想要的信息。
問:你一開始學(xué)的是電氣電子工程,為什么最后進(jìn)入機(jī)器學(xué)習(xí)領(lǐng)域?
a,是巧合。我第一次接觸人工智能是在京都大學(xué)人工智能實(shí)驗(yàn)室大一的時(shí)候。80年代末,人工智能非常流行的時(shí)候,看到機(jī)器翻譯和圖像識別是非常有趣的。90年代在日本NEC公司研發(fā)部工作,偶然加入機(jī)器學(xué)習(xí)小組,開始了研究之路。
在這期間,我經(jīng)歷了人工智能的風(fēng)風(fēng)雨雨,但也感受到了整個(gè)領(lǐng)域的巨大發(fā)展。當(dāng)時(shí)只有專家在討論AI,現(xiàn)在已經(jīng)家喻戶曉,大家都可以評論一下。最典型的題目是AlphaGo。我們已經(jīng)使用了許多人工智能技術(shù)的產(chǎn)品,這是一個(gè)質(zhì)的飛躍。不好的是我們覺得有點(diǎn)浮躁,所以我們的研發(fā)應(yīng)該更扎實(shí)。
堅(jiān)持研究的秘密可能是保持年輕的頭腦。感覺腦子和20年前當(dāng)醫(yī)生的時(shí)候沒什么區(qū)別。做研究很痛苦,也很享受。想做出比現(xiàn)有方法更好的方法并不容易,研究過程中也有很多挫折和坎坷。但是當(dāng)你做出真正管用的東西的時(shí)候,你就會(huì)有很大的成就感。可以比作成長和奔跑。你會(huì)在跑步的過程中感到疲憊,但當(dāng)你到達(dá)終點(diǎn)時(shí),你會(huì)享受完成一件事的快樂。大概就是這種感覺。
問:所以你見證了人工智能在中國的發(fā)展。你看好它的發(fā)展趨勢嗎?人工智能的未來是怎樣的?
是的,復(fù)旦大學(xué)在2002年組織了一個(gè)關(guān)于機(jī)器學(xué)習(xí)的研討會(huì)。當(dāng)時(shí)參加研討會(huì)的不到30人,現(xiàn)在是近千人。在不到20年的時(shí)間里,人工智能在中國突飛猛進(jìn),這是意料之外的。
中國市場大,人才多,從業(yè)者辛苦,這是其他國家沒有的優(yōu)勢。但也要注意,我們的創(chuàng)新能力還遠(yuǎn)不如美國,這可能需要幾代人的努力。目前最基本、最核心的概念和方法大多是在美國開發(fā)的,我們的快速發(fā)展更多的體現(xiàn)在產(chǎn)品的落地上。我相信我們很快,但我們?nèi)匀恍枰粩嗯μ岣呶覀兊膭?chuàng)新能力。真正的創(chuàng)新還需要很長時(shí)間。
我們可以把人工智能理解為人類的好工具。不要夸大其詞,至少在未來很長一段時(shí)間內(nèi),就像你的秘書或助理一樣。
關(guān)于機(jī)器學(xué)習(xí)的未來
問:你最近的論文關(guān)注的是腦科學(xué)。有觀點(diǎn)認(rèn)為機(jī)器學(xué)習(xí)的重要內(nèi)容是對人腦的研究,那么腦科學(xué)給人工智能帶來了什么?
a隨著今天科學(xué)的發(fā)展,我們已經(jīng)對外部宇宙有了很多了解,但對我們自己內(nèi)部的“宇宙”——人腦——這是今天最大的未知領(lǐng)域卻了解不夠。腦科學(xué)是研究這個(gè)問題的科學(xué)領(lǐng)域。從計(jì)算機(jī)器的角度來看,人腦是一臺(tái)很棒的計(jì)算機(jī),消耗的能量不到30瓦,可以做這么多復(fù)雜的計(jì)算。
人工智能希望開發(fā)智能工具,這離不開對人腦信息處理機(jī)制的理解。腦科學(xué)的發(fā)展可以啟迪和指導(dǎo)人工智能,尤其是自然語言處理。人工智能有三大應(yīng)用領(lǐng)域——音頻、圖形和文本,即語音、圖像和文本,語言是最難的。前兩者是感知能力,語言是認(rèn)知能力。另外,看東西或者聽東西的時(shí)候,只有一部分大腦在工作,但是使用語言的時(shí)候,整個(gè)大腦都在工作,所以很復(fù)雜。要想讓計(jì)算機(jī)像人類一樣操作和使用語言,就需要對人類的語言處理機(jī)制有更好的了解,重視腦科學(xué)的研究成果,多做跨學(xué)科的研究。
問:機(jī)器學(xué)習(xí)和深度學(xué)習(xí)是如何結(jié)合的?
答:在第一版的統(tǒng)計(jì)學(xué)習(xí)方法中,介紹了很多算法,都是非常基礎(chǔ)和經(jīng)典的機(jī)器學(xué)習(xí)方法。然而,在深度學(xué)習(xí)時(shí)代,我們更多地是根據(jù)經(jīng)驗(yàn)、實(shí)驗(yàn)和啟發(fā)式方法來理解模型,這些經(jīng)典算法受到的關(guān)注較少。與常見的深度學(xué)習(xí)方法和技巧相比,它們不一定具有與傳統(tǒng)方法相同的理論。
其實(shí)傳統(tǒng)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在技術(shù)上是一脈相承的,中間是分不開的。我在面試員工的時(shí)候,也發(fā)現(xiàn)了這樣一個(gè)問題。每個(gè)人都知道很多關(guān)于深度學(xué)習(xí)的知識,但是對于傳統(tǒng)的機(jī)器學(xué)習(xí)卻知之甚少。這種現(xiàn)象不好。比如我們在TensorFlow上實(shí)現(xiàn)了某個(gè)模型,然后直接運(yùn)行實(shí)驗(yàn),所以對很多基本概念了解不夠。理想情況下,我們應(yīng)該對機(jī)器學(xué)習(xí)的概念和理論有更全面的了解,然后進(jìn)行深度學(xué)習(xí)實(shí)踐,也就是說,了解傳統(tǒng)的機(jī)器學(xué)習(xí)將有助于我們更好地掌握深度學(xué)習(xí)技術(shù)。
另外,雖然深度學(xué)習(xí)在很多任務(wù)上有極好的效果,但不能說傳統(tǒng)的機(jī)器學(xué)習(xí)沒有用。例如,在小數(shù)據(jù)集或簡單問題上,SVM或GBDT方法在實(shí)踐中被大量使用。
q有人說機(jī)器學(xué)習(xí)無疑是最有希望實(shí)現(xiàn)突破的方向之一。你怎么看待這個(gè)判斷?你對機(jī)器學(xué)習(xí)的未來有什么期待?
機(jī)器學(xué)習(xí)是人工智能的核心領(lǐng)域。幾乎所有的人工智能技術(shù)實(shí)際上都是機(jī)器學(xué)習(xí)技術(shù)。毫無疑問,機(jī)器學(xué)習(xí)技術(shù)的發(fā)展決定了人工智能的未來。希望機(jī)器學(xué)習(xí)能有更多的突破,推動(dòng)整個(gè)領(lǐng)域的發(fā)展。我認(rèn)為,從長遠(yuǎn)來看,機(jī)器學(xué)習(xí)與推理、知識相結(jié)合,類腦學(xué)習(xí)或類腦計(jì)算將是該領(lǐng)域未來的發(fā)展方向。
問:近年來,各種自然語言對話系統(tǒng)如雨后春筍般涌現(xiàn),那么計(jì)算機(jī)能在多大程度上與人自由對話呢?自然語言對話的挑戰(zhàn)是什么?未來可能會(huì)有哪些突破?
a從功能的角度來說,計(jì)算機(jī)也許可以像人類一樣,用自然語言自由交談,但現(xiàn)在這個(gè)命題無法證明是真的,也無法證偽。原因是人腦的語言理解機(jī)制還不清楚,用計(jì)算機(jī)完全模擬人類的語言理解還是很困難的。然而,我們已經(jīng)看到了一臺(tái)像人類一樣在特定領(lǐng)域和場景中進(jìn)行自然語言對話的計(jì)算機(jī)的實(shí)現(xiàn)。問題是如何以更低的開發(fā)成本,擴(kuò)展覆蓋更多的領(lǐng)域和場景。
語言理解的核心是向內(nèi)部表征的映射。多義性和多樣性是計(jì)算機(jī)語言理解面臨的最大挑戰(zhàn)。為了完成特定的任務(wù),體現(xiàn)計(jì)算機(jī)的智能,定義和使用內(nèi)部表示似乎是不可或缺的?;诜治龅姆椒ㄊ潜夭豢缮俚?,即使在聊天機(jī)器人的場景中也是如此?;跈z索的方法更適合單輪問答場景?;谏傻姆椒ㄖ荒苡糜谔囟ǖ膱鼍?。多輪對話要體現(xiàn)完成任務(wù)的整體邏輯,用有限狀態(tài)機(jī)來表達(dá)。開放式對話意味著動(dòng)態(tài)改變?nèi)蝿?wù),所以在目前的技術(shù)條件下非常困難;在具體領(lǐng)域任務(wù)明確的情況下進(jìn)行對話是現(xiàn)實(shí)可行的。
近年來,深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)在對話中的應(yīng)用取得了很大進(jìn)展。主要體現(xiàn)在表征學(xué)習(xí)和端到端學(xué)習(xí)。事實(shí)上,它需要符號表征和神經(jīng)表征、深度學(xué)習(xí)和符號處理的結(jié)合,這應(yīng)該是未來發(fā)展的一個(gè)重要方向。
最后,分享一部你最喜歡的科幻電影。
AI看的電影不多。印象深刻的AI和斯皮爾伯格的AI有關(guān),讓人思考機(jī)器和人類智能的本質(zhì)區(qū)別。
1.《字節(jié)跳動(dòng)有多難進(jìn) 字節(jié)跳動(dòng)春招開放6000個(gè)崗位,在技術(shù)大牛身邊工作是怎樣的體驗(yàn)?》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識,僅代表作者本人觀點(diǎn),與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。
2.《字節(jié)跳動(dòng)有多難進(jìn) 字節(jié)跳動(dòng)春招開放6000個(gè)崗位,在技術(shù)大牛身邊工作是怎樣的體驗(yàn)?》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進(jìn)行證實(shí),對其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。
3.文章轉(zhuǎn)載時(shí)請保留本站內(nèi)容來源地址,http://f99ss.com/jiaoyu/1306783.html