丝袜人妻一区二区三区_少妇福利无码视频_亚洲理论片在线观看_一级毛片国产A级片

當(dāng)前位置:首頁 > 教育

文本分析法 一文看懂自然語言處理 NLP 及文本分析 Text Analytics 原理入門

你消化了今天的知識(shí)嗎?

企業(yè)可以充分利用文本分析和自然語言處理的強(qiáng)大功能,從文本數(shù)據(jù)中提取有價(jià)值的信息。

讓我告訴你它是如何工作的。

文本分析的基礎(chǔ)

文本分析(也稱為文本挖掘或文本數(shù)據(jù)挖掘)是一個(gè)提取和挖掘?qū)居袃r(jià)值的數(shù)據(jù)的過程,可用于從非結(jié)構(gòu)化文本中進(jìn)行分析。

文本分析允許數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析師評估文本內(nèi)容,以確定其與特定主題的相關(guān)性。研究人員通常使用CS開發(fā)的復(fù)雜軟件來挖掘和分析文本。

舉例說明商務(wù)中文本分析的用例;

顧客360。分析客戶電子郵件,調(diào)查呼叫中心日志和社交媒體渠道(如博客、推文、論壇帖子和新聞來源),以更好地了解客戶。

保修分析。深入了解經(jīng)銷商服務(wù)專業(yè)人員、保修索賠、訂單和類似的文本來源。

產(chǎn)品或服務(wù)回顧。分析客戶對產(chǎn)品或服務(wù)的評價(jià),有助于企業(yè)了解客戶的情緒和客戶遇到的常見問題。

*招聘。關(guān)鍵詞分析(比較簡歷和職位描述)有助于簡單列出合適的候選人。

文本分析過程

根據(jù)業(yè)務(wù)需求、數(shù)據(jù)類型和數(shù)據(jù)源,文本分析可以通過多種方式實(shí)現(xiàn)。有四個(gè)關(guān)鍵步驟。

第一

數(shù)據(jù)采集

文本分析的第一步是收集要分析的文本——定義、過濾、獲取和存儲(chǔ)原始數(shù)據(jù)。這些數(shù)據(jù)可以包括文本文檔、網(wǎng)頁(博客、新聞等)。),網(wǎng)上評論等等。數(shù)據(jù)源可以分為內(nèi)部通道和外部通道。

2號

準(zhǔn)備數(shù)據(jù)

獲得數(shù)據(jù)后,企業(yè)必須做好分析準(zhǔn)備。有必要將數(shù)據(jù)以適當(dāng)?shù)男问脚帕?,以便與機(jī)器學(xué)習(xí)模型合作。數(shù)據(jù)準(zhǔn)備分為四個(gè)小階段:

文本清理刪除任何不必要或不必要的信息,如網(wǎng)頁上的廣告。重建文本數(shù)據(jù),以確保數(shù)據(jù)可以在整個(gè)系統(tǒng)中以相同的方式讀取,并提高數(shù)據(jù)的完整性(也稱為“文本規(guī)范化”)。

令牌化將一系列字符串分解成稱為令牌的片段(如單詞、關(guān)鍵詞、短語、符號和其他元素)。語義上有意義的片段(如單詞)將用于分析。

詞性標(biāo)注(也稱為“PoS”)為識(shí)別的標(biāo)簽分配語法類別。眾所周知的語法范疇包括名詞、動(dòng)詞、形容詞和副詞。

解析基于令牌和PoS模型從文本創(chuàng)建語法結(jié)構(gòu)。句法分析算法是一種考慮語法結(jié)構(gòu)的文本語法。意義相同但語法結(jié)構(gòu)不同的句子會(huì)產(chǎn)生不同的句法結(jié)構(gòu)。

3號

數(shù)據(jù)分析

數(shù)據(jù)分析是分析預(yù)處理文本數(shù)據(jù)的過程。機(jī)器學(xué)習(xí)模型可以用來分析龐大的數(shù)據(jù)集,分析結(jié)果通常是以JSON格式或者CSV/Excel文件生成的。數(shù)據(jù)可以多種方式分析;兩種流行的方法是文本提取和文本標(biāo)記。

簡而言之,文本提取是從非結(jié)構(gòu)化文本中識(shí)別結(jié)構(gòu)化信息的過程。文本標(biāo)記是根據(jù)文本數(shù)據(jù)的內(nèi)容和相關(guān)性為其分配標(biāo)記的過程。

文本標(biāo)注的兩種常見模式是“詞包”和“Word2vec”。

“包字”法最容易理解,但已經(jīng)過時(shí),被拋棄。不管位置和上下文如何,這種方法僅用于計(jì)算文本內(nèi)容中的字?jǐn)?shù)。這種技術(shù)的缺點(diǎn)是它沒有提供一種從單詞中理解上下文的方法——單詞數(shù)量越多的內(nèi)容得分越高。

Word2Vec已經(jīng)成為文本標(biāo)注的首選方法。Word2Vec收集的文本將被轉(zhuǎn)換為矢量格式,以提供關(guān)于單詞的相關(guān)信息(包括同義詞)。例如,“男人”和“男孩”這兩個(gè)詞可以是密切相關(guān)的。Word2Vec也理解“幽默”(美式拼寫)和“幽默”(英式拼寫)這兩個(gè)詞應(yīng)該同樣對待。Word2Vec生成一個(gè)相關(guān)單詞的網(wǎng)格。在神經(jīng)網(wǎng)絡(luò)中,單詞之間的距離越近,它們之間的關(guān)系就越緊密。這種神經(jīng)網(wǎng)絡(luò)允許算法更好地理解單詞的上下文,因此數(shù)據(jù)科學(xué)家可以生成更好的內(nèi)容相關(guān)性分析。

4號

數(shù)據(jù)可視化

可視化是將數(shù)據(jù)轉(zhuǎn)化為具有深層價(jià)值的信息,并以圖形、表格等直觀表達(dá)方式表達(dá)數(shù)據(jù)的過程。市場上有各種商業(yè)和開源可視化工具可供企業(yè)使用。

自然語言處理的作用

自然語言處理是文本分析的一個(gè)組成部分。大多數(shù)高級文本分析平臺(tái)和產(chǎn)品使用NLP算法進(jìn)行語言(語言驅(qū)動(dòng))分析,以幫助機(jī)器閱讀文本。NLP分析詞語的關(guān)聯(lián)性,包括應(yīng)該被視為對等的相關(guān)詞語,即使它們的表達(dá)方式不同(例如,“幽默”和“幽默”)。這是步驟2和步驟3不可分割的一部分。

自然語言處理的一個(gè)流行應(yīng)用是為搜索引擎識(shí)別相關(guān)的高質(zhì)量內(nèi)容。比如Google在很多方面使用NLP,最突出的就是搜索引擎組織和分類。

很久以前,站長只有在網(wǎng)頁內(nèi)容中填充關(guān)鍵詞才能在谷歌搜索結(jié)果中獲得更高的排名,所以谷歌修改了其搜索引擎使用眾多算法和NLP處理內(nèi)容的方式。NLP幫助谷歌識(shí)別和分類“垃圾內(nèi)容”。谷歌可能會(huì)對這些內(nèi)容取消索引、進(jìn)行懲罰,或者只是將其排名遠(yuǎn)遠(yuǎn)低于其他內(nèi)容。

NLP也廣泛應(yīng)用于垃圾郵件過濾。垃圾郵件發(fā)送者通過改變單詞、故意拼錯(cuò)單詞或使用同義詞來盡力避免這種過濾器。電子郵件垃圾郵件過濾器使用各種因素來識(shí)別和阻止垃圾郵件、網(wǎng)絡(luò)釣魚和惡意內(nèi)容。比如Gmail的過濾器結(jié)合機(jī)器學(xué)習(xí)和NLP進(jìn)行“情感分析”。如果郵件被定義為“內(nèi)容可能是垃圾郵件”,該郵件將被自動(dòng)發(fā)送到用戶的垃圾文件夾。對于一些敏感內(nèi)容,Gmail會(huì)直接刪除郵件。

回到十年前,NLP的應(yīng)用還是比較難理解的。近年來,基于人工智能的技術(shù)(包括NLP和文本分析)發(fā)生了翻天覆地的變化,企業(yè)可以輕松使用云服務(wù)、商業(yè)產(chǎn)品和開源平臺(tái)。以下是一些開源NLP應(yīng)用程序,供您參考:

Stanford CoreNLP

自然語言工具包

Apache Lucene和Solr

Apache OpenNLP

蓋茨和阿帕奇·UIMA

最后一句話

雖然文本分析不是一個(gè)新概念,但是很多企業(yè)對它還是知之甚少。如果你想看完這篇文章,可以利用API,基于AI的云服務(wù),合理利用開源平臺(tái),在不久的將來,通過更好的了解客戶,提升品牌價(jià)值,獲得競爭優(yōu)勢。

原作者:Dheeraj Nallagatla

孫協(xié)志翻譯

美術(shù)編輯:郭兒

校對和復(fù)習(xí):東東

原文鏈接:https://tdwi . org/articles/2019/06/03/adv-all-introduction-to-use-text-analytics-and-NLP . aspx?頁面=2

1.《文本分析法 一文看懂自然語言處理 NLP 及文本分析 Text Analytics 原理入門》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡(luò)信息知識(shí),僅代表作者本人觀點(diǎn),與本網(wǎng)站無關(guān),侵刪請聯(lián)系頁腳下方聯(lián)系方式。

2.《文本分析法 一文看懂自然語言處理 NLP 及文本分析 Text Analytics 原理入門》僅供讀者參考,本網(wǎng)站未對該內(nèi)容進(jìn)行證實(shí),對其原創(chuàng)性、真實(shí)性、完整性、及時(shí)性不作任何保證。

3.文章轉(zhuǎn)載時(shí)請保留本站內(nèi)容來源地址,http://f99ss.com/jiaoyu/1250142.html

上一篇

頭部按摩器 減壓從頭開始——MINI頭部按摩器評測

下一篇

大立科技最新消息 (上市公司人事)大立科技擬聘任姜永峰任副總經(jīng)理

參觀報(bào)告 商業(yè)項(xiàng)目考察報(bào)告內(nèi)容,怎么寫?

參觀報(bào)告 商業(yè)項(xiàng)目考察報(bào)告內(nèi)容,怎么寫?

案例大綱模板  1.上海商業(yè)地產(chǎn)檢驗(yàn)計(jì)劃(參考)一、準(zhǔn)備工作 1.調(diào)查地圖 2.調(diào)查項(xiàng)目 1)梅隴鎮(zhèn)商圈-恒隆廣場 2)南京東路商圈——萊佛士城、歡樂城 3)淮海路商圈——新天地廣場和K11購物藝術(shù)中心 4)小陸家嘴商圈——鄭達(dá)廣場和國際金融中...

考察報(bào)告格式 商業(yè)項(xiàng)目考察報(bào)告內(nèi)容,怎么寫?

考察報(bào)告格式 商業(yè)項(xiàng)目考察報(bào)告內(nèi)容,怎么寫?

案例大綱模板  1.上海商業(yè)地產(chǎn)檢驗(yàn)計(jì)劃(參考)一、準(zhǔn)備工作 1.調(diào)查地圖 2.調(diào)查項(xiàng)目 1)梅隴鎮(zhèn)商圈-恒隆廣場 2)南京東路商圈——萊佛士城、歡樂城 3)淮海路商圈——新天地廣場和K11購物藝術(shù)中心 4)小陸家嘴商圈——鄭達(dá)廣場和國際金融中...

企業(yè)文化宣傳冊內(nèi)容 企業(yè)文化宣傳冊意向畫面設(shè)計(jì)欣賞

  • 企業(yè)文化宣傳冊內(nèi)容 企業(yè)文化宣傳冊意向畫面設(shè)計(jì)欣賞
  • 企業(yè)文化宣傳冊內(nèi)容 企業(yè)文化宣傳冊意向畫面設(shè)計(jì)欣賞
  • 企業(yè)文化宣傳冊內(nèi)容 企業(yè)文化宣傳冊意向畫面設(shè)計(jì)欣賞
淮河流域 數(shù)據(jù)告訴你:為什么淮河流域容易發(fā)生洪水

淮河流域 數(shù)據(jù)告訴你:為什么淮河流域容易發(fā)生洪水

回顧1470-1991年的522年,淮河流域平均每三年經(jīng)歷一次大洪水。淮河流域?yàn)槭裁慈菀装l(fā)洪水?淮河和黃河洪水頻發(fā)有什么深層關(guān)系?王家壩為什么這么重要?中國氣象網(wǎng)讓數(shù)據(jù)告訴你。 主編:宣 七天天氣預(yù)報(bào)看這里?。。?鏈接地址:http://3g....

深圳門面出租 【會(huì)員福利】全國主要城市商鋪?zhàn)赓U數(shù)據(jù)分享丨城市數(shù)據(jù)派

  • 深圳門面出租 【會(huì)員福利】全國主要城市商鋪?zhàn)赓U數(shù)據(jù)分享丨城市數(shù)據(jù)派
  • 深圳門面出租 【會(huì)員福利】全國主要城市商鋪?zhàn)赓U數(shù)據(jù)分享丨城市數(shù)據(jù)派
  • 深圳門面出租 【會(huì)員福利】全國主要城市商鋪?zhàn)赓U數(shù)據(jù)分享丨城市數(shù)據(jù)派

馬拉松多少米 跑步步幅多少合適? 大數(shù)據(jù)告訴你

  • 馬拉松多少米 跑步步幅多少合適? 大數(shù)據(jù)告訴你
  • 馬拉松多少米 跑步步幅多少合適? 大數(shù)據(jù)告訴你
  • 馬拉松多少米 跑步步幅多少合適? 大數(shù)據(jù)告訴你
荒謬絕倫!所謂涉疆?dāng)?shù)據(jù)庫是造假庫謠言庫偽證庫 究竟發(fā)生了什么?

荒謬絕倫!所謂涉疆?dāng)?shù)據(jù)庫是造假庫謠言庫偽證庫 究竟發(fā)生了什么?

一些國家的政府政客、組織、媒體甚至還寡廉鮮恥地將一些“演員”奉為座上賓,頒發(fā)所謂的獎(jiǎng)項(xiàng),給他們涂上“人權(quán)衛(wèi)士”色彩,并據(jù)此給新疆扣上“反人類罪”“種族滅絕”的帽子,簡直是荒謬絕倫。...

典型相關(guān)分析 R語言典型相關(guān)分析:NBA球員身體素質(zhì)與統(tǒng)計(jì)數(shù)據(jù)關(guān)聯(lián)性

數(shù)據(jù)科學(xué)從業(yè)者的研究日記。數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí),R與Python,理論與實(shí)踐并行。個(gè)人微信官方賬號:數(shù)據(jù)科學(xué)家發(fā)展(微信ID: louwill 12) 昨天備受期待的2017年NBA總決賽G1,我相信你們JRs都看過吧?不是騎士不盡力,而是對面有...