你消化了今天的知識(shí)嗎?
企業(yè)可以充分利用文本分析和自然語言處理的強(qiáng)大功能,從文本數(shù)據(jù)中提取有價(jià)值的信息。
讓我告訴你它是如何工作的。
文本分析的基礎(chǔ)
文本分析(也稱為文本挖掘或文本數(shù)據(jù)挖掘)是一個(gè)提取和挖掘?qū)居袃r(jià)值的數(shù)據(jù)的過程,可用于從非結(jié)構(gòu)化文本中進(jìn)行分析。
文本分析允許數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析師評估文本內(nèi)容,以確定其與特定主題的相關(guān)性。研究人員通常使用CS開發(fā)的復(fù)雜軟件來挖掘和分析文本。
舉例說明商務(wù)中文本分析的用例;
顧客360。分析客戶電子郵件,調(diào)查呼叫中心日志和社交媒體渠道(如博客、推文、論壇帖子和新聞來源),以更好地了解客戶。
保修分析。深入了解經(jīng)銷商服務(wù)專業(yè)人員、保修索賠、訂單和類似的文本來源。
產(chǎn)品或服務(wù)回顧。分析客戶對產(chǎn)品或服務(wù)的評價(jià),有助于企業(yè)了解客戶的情緒和客戶遇到的常見問題。
*招聘。關(guān)鍵詞分析(比較簡歷和職位描述)有助于簡單列出合適的候選人。
文本分析過程
根據(jù)業(yè)務(wù)需求、數(shù)據(jù)類型和數(shù)據(jù)源,文本分析可以通過多種方式實(shí)現(xiàn)。有四個(gè)關(guān)鍵步驟。
第一
數(shù)據(jù)采集
文本分析的第一步是收集要分析的文本——定義、過濾、獲取和存儲(chǔ)原始數(shù)據(jù)。這些數(shù)據(jù)可以包括文本文檔、網(wǎng)頁(博客、新聞等)。),網(wǎng)上評論等等。數(shù)據(jù)源可以分為內(nèi)部通道和外部通道。
2號
準(zhǔn)備數(shù)據(jù)
獲得數(shù)據(jù)后,企業(yè)必須做好分析準(zhǔn)備。有必要將數(shù)據(jù)以適當(dāng)?shù)男问脚帕?,以便與機(jī)器學(xué)習(xí)模型合作。數(shù)據(jù)準(zhǔn)備分為四個(gè)小階段:
文本清理刪除任何不必要或不必要的信息,如網(wǎng)頁上的廣告。重建文本數(shù)據(jù),以確保數(shù)據(jù)可以在整個(gè)系統(tǒng)中以相同的方式讀取,并提高數(shù)據(jù)的完整性(也稱為“文本規(guī)范化”)。
令牌化將一系列字符串分解成稱為令牌的片段(如單詞、關(guān)鍵詞、短語、符號和其他元素)。語義上有意義的片段(如單詞)將用于分析。
詞性標(biāo)注(也稱為“PoS”)為識(shí)別的標(biāo)簽分配語法類別。眾所周知的語法范疇包括名詞、動(dòng)詞、形容詞和副詞。
解析基于令牌和PoS模型從文本創(chuàng)建語法結(jié)構(gòu)。句法分析算法是一種考慮語法結(jié)構(gòu)的文本語法。意義相同但語法結(jié)構(gòu)不同的句子會(huì)產(chǎn)生不同的句法結(jié)構(gòu)。
3號
數(shù)據(jù)分析
數(shù)據(jù)分析是分析預(yù)處理文本數(shù)據(jù)的過程。機(jī)器學(xué)習(xí)模型可以用來分析龐大的數(shù)據(jù)集,分析結(jié)果通常是以JSON格式或者CSV/Excel文件生成的。數(shù)據(jù)可以多種方式分析;兩種流行的方法是文本提取和文本標(biāo)記。
簡而言之,文本提取是從非結(jié)構(gòu)化文本中識(shí)別結(jié)構(gòu)化信息的過程。文本標(biāo)記是根據(jù)文本數(shù)據(jù)的內(nèi)容和相關(guān)性為其分配標(biāo)記的過程。
文本標(biāo)注的兩種常見模式是“詞包”和“Word2vec”。
“包字”法最容易理解,但已經(jīng)過時(shí),被拋棄。不管位置和上下文如何,這種方法僅用于計(jì)算文本內(nèi)容中的字?jǐn)?shù)。這種技術(shù)的缺點(diǎn)是它沒有提供一種從單詞中理解上下文的方法——單詞數(shù)量越多的內(nèi)容得分越高。
Word2Vec已經(jīng)成為文本標(biāo)注的首選方法。Word2Vec收集的文本將被轉(zhuǎn)換為矢量格式,以提供關(guān)于單詞的相關(guān)信息(包括同義詞)。例如,“男人”和“男孩”這兩個(gè)詞可以是密切相關(guān)的。Word2Vec也理解“幽默”(美式拼寫)和“幽默”(英式拼寫)這兩個(gè)詞應(yīng)該同樣對待。Word2Vec生成一個(gè)相關(guān)單詞的網(wǎng)格。在神經(jīng)網(wǎng)絡(luò)中,單詞之間的距離越近,它們之間的關(guān)系就越緊密。這種神經(jīng)網(wǎng)絡(luò)允許算法更好地理解單詞的上下文,因此數(shù)據(jù)科學(xué)家可以生成更好的內(nèi)容相關(guān)性分析。
4號
數(shù)據(jù)可視化
可視化是將數(shù)據(jù)轉(zhuǎn)化為具有深層價(jià)值的信息,并以圖形、表格等直觀表達(dá)方式表達(dá)數(shù)據(jù)的過程。市場上有各種商業(yè)和開源可視化工具可供企業(yè)使用。
自然語言處理的作用
自然語言處理是文本分析的一個(gè)組成部分。大多數(shù)高級文本分析平臺(tái)和產(chǎn)品使用NLP算法進(jìn)行語言(語言驅(qū)動(dòng))分析,以幫助機(jī)器閱讀文本。NLP分析詞語的關(guān)聯(lián)性,包括應(yīng)該被視為對等的相關(guān)詞語,即使它們的表達(dá)方式不同(例如,“幽默”和“幽默”)。這是步驟2和步驟3不可分割的一部分。
自然語言處理的一個(gè)流行應(yīng)用是為搜索引擎識(shí)別相關(guān)的高質(zhì)量內(nèi)容。比如Google在很多方面使用NLP,最突出的就是搜索引擎組織和分類。
很久以前,站長只有在網(wǎng)頁內(nèi)容中填充關(guān)鍵詞才能在谷歌搜索結(jié)果中獲得更高的排名,所以谷歌修改了其搜索引擎使用眾多算法和NLP處理內(nèi)容的方式。NLP幫助谷歌識(shí)別和分類“垃圾內(nèi)容”。谷歌可能會(huì)對這些內(nèi)容取消索引、進(jìn)行懲罰,或者只是將其排名遠(yuǎn)遠(yuǎn)低于其他內(nèi)容。
NLP也廣泛應(yīng)用于垃圾郵件過濾。垃圾郵件發(fā)送者通過改變單詞、故意拼錯(cuò)單詞或使用同義詞來盡力避免這種過濾器。電子郵件垃圾郵件過濾器使用各種因素來識(shí)別和阻止垃圾郵件、網(wǎng)絡(luò)釣魚和惡意內(nèi)容。比如Gmail的過濾器結(jié)合機(jī)器學(xué)習(xí)和NLP進(jìn)行“情感分析”。如果郵件被定義為“內(nèi)容可能是垃圾郵件”,該郵件將被自動(dòng)發(fā)送到用戶的垃圾文件夾。對于一些敏感內(nèi)容,Gmail會(huì)直接刪除郵件。
回到十年前,NLP的應(yīng)用還是比較難理解的。近年來,基于人工智能的技術(shù)(包括NLP和文本分析)發(fā)生了翻天覆地的變化,企業(yè)可以輕松使用云服務(wù)、商業(yè)產(chǎn)品和開源平臺(tái)。以下是一些開源NLP應(yīng)用程序,供您參考:
Stanford CoreNLP
自然語言工具包
Apache Lucene和Solr
Apache OpenNLP
蓋茨和阿帕奇·UIMA
最后一句話
雖然文本分析不是一個(gè)新概念,但是很多企業(yè)對它還是知之甚少。如果你想看完這篇文章,可以利用API,基于AI的云服務(wù),合理利用開源平臺(tái),在不久的將來,通過更好的了解客戶,提升品牌價(jià)值,獲得競爭優(yōu)勢。
原作者:Dheeraj Nallagatla
孫協(xié)志翻譯
美術(shù)編輯:郭兒
校對和復(fù)習(xí):東東
原文鏈接:https://tdwi . org/articles/2019/06/03/adv-all-introduction-to-use-text-analytics-and-NLP . aspx?頁面=2
1.《文本分析法 一文看懂自然語言處理 NLP 及文本分析 Text Analytics 原理入門》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識(shí),僅代表作者本人觀點(diǎn),與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。
2.《文本分析法 一文看懂自然語言處理 NLP 及文本分析 Text Analytics 原理入門》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進(jìn)行證實(shí),對其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。
3.文章轉(zhuǎn)載時(shí)請保留本站內(nèi)容來源地址,http://f99ss.com/jiaoyu/1250142.html