人妻中文字幕无码av,日韩中文字幕网先锋资源

你消化了今天的知識(shí)嗎？

企業(yè)可以充分利用文本分析和自然語言處理的強(qiáng)大功能，從文本數(shù)據(jù)中提取有價(jià)值的信息。

讓我告訴你它是如何工作的。

文本分析的基礎(chǔ)

文本分析(也稱為文本挖掘或文本數(shù)據(jù)挖掘)是一個(gè)提取和挖掘?qū)居袃r(jià)值的數(shù)據(jù)的過程，可用于從非結(jié)構(gòu)化文本中進(jìn)行分析。

文本分析允許數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析師評估文本內(nèi)容，以確定其與特定主題的相關(guān)性。研究人員通常使用CS開發(fā)的復(fù)雜軟件來挖掘和分析文本。

舉例說明商務(wù)中文本分析的用例；

顧客360。分析客戶電子郵件，調(diào)查呼叫中心日志和社交媒體渠道(如博客、推文、論壇帖子和新聞來源)，以更好地了解客戶。

保修分析。深入了解經(jīng)銷商服務(wù)專業(yè)人員、保修索賠、訂單和類似的文本來源。

產(chǎn)品或服務(wù)回顧。分析客戶對產(chǎn)品或服務(wù)的評價(jià)，有助于企業(yè)了解客戶的情緒和客戶遇到的常見問題。

*招聘。關(guān)鍵詞分析(比較簡歷和職位描述)有助于簡單列出合適的候選人。

文本分析過程

根據(jù)業(yè)務(wù)需求、數(shù)據(jù)類型和數(shù)據(jù)源，文本分析可以通過多種方式實(shí)現(xiàn)。有四個(gè)關(guān)鍵步驟。

第一

數(shù)據(jù)采集

文本分析的第一步是收集要分析的文本——定義、過濾、獲取和存儲(chǔ)原始數(shù)據(jù)。這些數(shù)據(jù)可以包括文本文檔、網(wǎng)頁(博客、新聞等)。)，網(wǎng)上評論等等。數(shù)據(jù)源可以分為內(nèi)部通道和外部通道。

2號

準(zhǔn)備數(shù)據(jù)

獲得數(shù)據(jù)后，企業(yè)必須做好分析準(zhǔn)備。有必要將數(shù)據(jù)以適當(dāng)?shù)男问脚帕?，以便與機(jī)器學(xué)習(xí)模型合作。數(shù)據(jù)準(zhǔn)備分為四個(gè)小階段:

文本清理刪除任何不必要或不必要的信息，如網(wǎng)頁上的廣告。重建文本數(shù)據(jù)，以確保數(shù)據(jù)可以在整個(gè)系統(tǒng)中以相同的方式讀取，并提高數(shù)據(jù)的完整性(也稱為“文本規(guī)范化”)。

令牌化將一系列字符串分解成稱為令牌的片段(如單詞、關(guān)鍵詞、短語、符號和其他元素)。語義上有意義的片段(如單詞)將用于分析。

詞性標(biāo)注(也稱為“PoS”)為識(shí)別的標(biāo)簽分配語法類別。眾所周知的語法范疇包括名詞、動(dòng)詞、形容詞和副詞。

解析基于令牌和PoS模型從文本創(chuàng)建語法結(jié)構(gòu)。句法分析算法是一種考慮語法結(jié)構(gòu)的文本語法。意義相同但語法結(jié)構(gòu)不同的句子會(huì)產(chǎn)生不同的句法結(jié)構(gòu)。

3號

數(shù)據(jù)分析

數(shù)據(jù)分析是分析預(yù)處理文本數(shù)據(jù)的過程。機(jī)器學(xué)習(xí)模型可以用來分析龐大的數(shù)據(jù)集，分析結(jié)果通常是以JSON格式或者CSV/Excel文件生成的。數(shù)據(jù)可以多種方式分析；兩種流行的方法是文本提取和文本標(biāo)記。

簡而言之，文本提取是從非結(jié)構(gòu)化文本中識(shí)別結(jié)構(gòu)化信息的過程。文本標(biāo)記是根據(jù)文本數(shù)據(jù)的內(nèi)容和相關(guān)性為其分配標(biāo)記的過程。

文本標(biāo)注的兩種常見模式是“詞包”和“Word2vec”。

“包字”法最容易理解，但已經(jīng)過時(shí)，被拋棄。不管位置和上下文如何，這種方法僅用于計(jì)算文本內(nèi)容中的字?jǐn)?shù)。這種技術(shù)的缺點(diǎn)是它沒有提供一種從單詞中理解上下文的方法——單詞數(shù)量越多的內(nèi)容得分越高。

Word2Vec已經(jīng)成為文本標(biāo)注的首選方法。Word2Vec收集的文本將被轉(zhuǎn)換為矢量格式，以提供關(guān)于單詞的相關(guān)信息(包括同義詞)。例如，“男人”和“男孩”這兩個(gè)詞可以是密切相關(guān)的。Word2Vec也理解“幽默”(美式拼寫)和“幽默”(英式拼寫)這兩個(gè)詞應(yīng)該同樣對待。Word2Vec生成一個(gè)相關(guān)單詞的網(wǎng)格。在神經(jīng)網(wǎng)絡(luò)中，單詞之間的距離越近，它們之間的關(guān)系就越緊密。這種神經(jīng)網(wǎng)絡(luò)允許算法更好地理解單詞的上下文，因此數(shù)據(jù)科學(xué)家可以生成更好的內(nèi)容相關(guān)性分析。

4號

數(shù)據(jù)可視化

可視化是將數(shù)據(jù)轉(zhuǎn)化為具有深層價(jià)值的信息，并以圖形、表格等直觀表達(dá)方式表達(dá)數(shù)據(jù)的過程。市場上有各種商業(yè)和開源可視化工具可供企業(yè)使用。

自然語言處理的作用

自然語言處理是文本分析的一個(gè)組成部分。大多數(shù)高級文本分析平臺(tái)和產(chǎn)品使用NLP算法進(jìn)行語言(語言驅(qū)動(dòng))分析，以幫助機(jī)器閱讀文本。NLP分析詞語的關(guān)聯(lián)性，包括應(yīng)該被視為對等的相關(guān)詞語，即使它們的表達(dá)方式不同(例如，“幽默”和“幽默”)。這是步驟2和步驟3不可分割的一部分。

自然語言處理的一個(gè)流行應(yīng)用是為搜索引擎識(shí)別相關(guān)的高質(zhì)量內(nèi)容。比如Google在很多方面使用NLP，最突出的就是搜索引擎組織和分類。

很久以前，站長只有在網(wǎng)頁內(nèi)容中填充關(guān)鍵詞才能在谷歌搜索結(jié)果中獲得更高的排名，所以谷歌修改了其搜索引擎使用眾多算法和NLP處理內(nèi)容的方式。NLP幫助谷歌識(shí)別和分類“垃圾內(nèi)容”。谷歌可能會(huì)對這些內(nèi)容取消索引、進(jìn)行懲罰，或者只是將其排名遠(yuǎn)遠(yuǎn)低于其他內(nèi)容。

NLP也廣泛應(yīng)用于垃圾郵件過濾。垃圾郵件發(fā)送者通過改變單詞、故意拼錯(cuò)單詞或使用同義詞來盡力避免這種過濾器。電子郵件垃圾郵件過濾器使用各種因素來識(shí)別和阻止垃圾郵件、網(wǎng)絡(luò)釣魚和惡意內(nèi)容。比如Gmail的過濾器結(jié)合機(jī)器學(xué)習(xí)和NLP進(jìn)行“情感分析”。如果郵件被定義為“內(nèi)容可能是垃圾郵件”，該郵件將被自動(dòng)發(fā)送到用戶的垃圾文件夾。對于一些敏感內(nèi)容，Gmail會(huì)直接刪除郵件。

回到十年前，NLP的應(yīng)用還是比較難理解的。近年來，基于人工智能的技術(shù)(包括NLP和文本分析)發(fā)生了翻天覆地的變化，企業(yè)可以輕松使用云服務(wù)、商業(yè)產(chǎn)品和開源平臺(tái)。以下是一些開源NLP應(yīng)用程序，供您參考:

Stanford CoreNLP

自然語言工具包

Apache Lucene和Solr

Apache OpenNLP

蓋茨和阿帕奇·UIMA

最后一句話

雖然文本分析不是一個(gè)新概念，但是很多企業(yè)對它還是知之甚少。如果你想看完這篇文章，可以利用API，基于AI的云服務(wù)，合理利用開源平臺(tái)，在不久的將來，通過更好的了解客戶，提升品牌價(jià)值，獲得競爭優(yōu)勢。

原作者:Dheeraj Nallagatla

孫協(xié)志翻譯

美術(shù)編輯:郭兒

校對和復(fù)習(xí):東東

原文鏈接:https://tdwi . org/articles/2019/06/03/adv-all-introduction-to-use-text-analytics-and-NLP . aspx？頁面=2

1.《文本分析法一文看懂自然語言處理 NLP 及文本分析 Text Analytics 原理入門》援引自互聯(lián)網(wǎng)，旨在傳遞更多網(wǎng)絡(luò)信息知識(shí)，僅代表作者本人觀點(diǎn)，與本網(wǎng)站無關(guān)，侵刪請聯(lián)系頁腳下方聯(lián)系方式。

2.《文本分析法一文看懂自然語言處理 NLP 及文本分析 Text Analytics 原理入門》僅供讀者參考，本網(wǎng)站未對該內(nèi)容進(jìn)行證實(shí)，對其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。

3.文章轉(zhuǎn)載時(shí)請保留本站內(nèi)容來源地址，http://f99ss.com/jiaoyu/1250142.html

丝袜人妻一区二区三区_少妇福利无码视频_亚洲理论片在线观看_一级毛片国产A级片

文本分析法一文看懂自然語言處理 NLP 及文本分析 Text Analytics 原理入門

頭部按摩器減壓從頭開始——MINI頭部按摩器評測

大立科技最新消息（上市公司人事）大立科技擬聘任姜永峰任副總經(jīng)理

參觀報(bào)告商業(yè)項(xiàng)目考察報(bào)告內(nèi)容，怎么寫？

考察報(bào)告格式商業(yè)項(xiàng)目考察報(bào)告內(nèi)容，怎么寫？

企業(yè)文化宣傳冊內(nèi)容企業(yè)文化宣傳冊意向畫面設(shè)計(jì)欣賞

淮河流域數(shù)據(jù)告訴你：為什么淮河流域容易發(fā)生洪水

深圳門面出租【會(huì)員福利】全國主要城市商鋪?zhàn)赓U數(shù)據(jù)分享丨城市數(shù)據(jù)派

馬拉松多少米跑步步幅多少合適？大數(shù)據(jù)告訴你

荒謬絕倫！所謂涉疆?dāng)?shù)據(jù)庫是造假庫謠言庫偽證庫究竟發(fā)生了什么?

典型相關(guān)分析 R語言典型相關(guān)分析：NBA球員身體素質(zhì)與統(tǒng)計(jì)數(shù)據(jù)關(guān)聯(lián)性

文本分析法 一文看懂自然語言處理 NLP 及文本分析 Text Analytics 原理入門

頭部按摩器 減壓從頭開始——MINI頭部按摩器評測

大立科技最新消息 （上市公司人事）大立科技擬聘任姜永峰任副總經(jīng)理

文本分析法一文看懂自然語言處理 NLP 及文本分析 Text Analytics 原理入門

頭部按摩器減壓從頭開始——MINI頭部按摩器評測

大立科技最新消息（上市公司人事）大立科技擬聘任姜永峰任副總經(jīng)理