久久精品综合日韩久久,久久久99精品免费观看,俄罗斯精品三级在线观看,亚洲国产成人无码影片在线播放,а∨天堂一区中文字幕

行業新聞

當前位置:首頁 > 新聞中心 > 行業新聞 > 正文

文本挖掘到底是什么鬼?

時間:2018-10-19 17:22:00 閱讀:4490 整理:廣州市場調查公司

文本挖掘是從文本數據中獲得價值信息的方法,涵蓋多個學科,也有多種用途。本文介紹了文本挖掘的主要作用、基本操作步驟以及操作工具。

一、什么是文本挖掘

文本挖掘指的是從文本數據中獲取有價值的信息和知識,它是數據挖掘中的一種方法。文本挖掘中最重要最基本的應用是實現文本的分類和聚類,前者是有監督的挖掘算法,后者是無監督的挖掘算法。

文本挖掘是一個多學科混雜的領域,涵蓋了多種技術,包括數據挖掘技術、信息抽取、信息檢索,機器學習、自然語言處理、計算語言學、統計數據分析、線性幾何、概率理論甚至還有圖論。

二、文本挖掘有什么用

1、文本分類

文本分類是一種典型的機器學習方法,一般分為訓練和分類兩個階段。文本分類一般采用統計方法或機器學習來實現。

2、文本聚類

文本聚類是一種典型的無監督式機器學習方法,聚類方法的選擇取決于數據類型。

首先,文檔聚類可以發現與某文檔相似的一批文檔,幫助知識工作者發現相關知識;其次,文檔聚類可以將一類文檔聚類成若干個類,提供一種組織文檔集合的方法;再次,文檔聚類還可以生成分類器以對文檔進行分類。

文本挖掘中的聚類可用于:提供大規模文檔內容總括;識別隱藏的文檔間的相似度;減輕瀏覽相關、相似信息的過程。

3、信息檢索

主要是利用計算機系統的快速計算能力,從海量文檔中尋找用戶需要的相關文檔。

4、信息抽取

信息抽取是把文本里包含的信息進行結構化處理,變成表格一樣的組織形式。輸入信息抽取系統的是原始文本,輸出的是固定格式的信息。

5、自動文摘

利用計算機自動的從原始文檔中提取出文檔的主要內容。互聯網上的文本信息、機構內部的文檔及數據庫的內容都在成指數級的速度增長,用戶在檢索信息的時候,可以得到成千上萬篇的返回結果,其中許多是與其信息需求無關或關系不大的,如果要剔除這些文檔,則必須閱讀完全文,這要求用戶付出很多勞動,而且效果不好。

自動文摘能夠生成簡短的關于文檔內容的指示性信息,將文檔的主要內容呈現給用戶,以決定是否要閱讀文檔的原文,這樣能夠節省大量的瀏覽時間。簡單地說自動文摘就是利用計算機自動地從原始文檔中提取全面準確地反映該文檔中心內容的簡單連貫的短文。

自動文摘具有以下特點:

(1)自動文摘應能將原文的主題思想或中心內容自動提取出來。

(2)文摘應具有概況性、客觀性、可理解性和可讀性。

(3)可適用于任意領域。

按照生成文摘的句子來源,自動文摘方法可以分成兩類,一類是完全使用原文中的句子來生成文摘,另一類是可以自動生成句子來表達文檔的內容。后者的功能更強大,但在實現的時候,自動生成句子是一個比較復雜的問題,經常出現產生的新句子不能被理解的情況,因此目前大多用的是抽取生成法。

6、自動問答

自動問答是指對于用戶提出的問題,計算機可以自動的從相關資料中求解答案并作出相應的回答。自動問答系統一般包括 3 個組成部分:問題分析、信息檢索和答案抽取。

7、機器翻譯

利用計算機將一種源語言轉變為另一種源語言的過程。

8、信息過濾

指計算機系統可以自動的進行過濾操作,將滿足條件的信息保留,將不滿足條件的文檔過濾掉。信息過濾技術主要用于信息安全領域。

9、自動語音識別

自動語音識別就是將輸入計算機的自然語言轉換成文本表示的書面語。

三、文本挖掘操作步驟

1、獲取文本

現有文本數據導入,或者通過如網絡爬蟲等技術獲取網絡文本,主要是獲取網頁HTML的形式。我們要把網絡中的文本獲取文本數據庫(數據集)。編寫爬蟲程序,抓取到網絡中的信息。

2、文本預處理

指剔除噪聲文檔以改進挖掘精度,或者在文檔數量過多時僅選取一部分樣本以提高挖掘效率。

例如網頁中存在很多不必要的信息,比如說一些廣告,導航欄,html、js代碼,注釋等等并不需要的信息,可以刪除掉。如果是需要正文提取,可以利用標簽用途、標簽密度判定、數據挖掘思想、視覺網頁塊分析技術等等策略抽取出正文。

3、文本的語言學處理

(1)分詞

經過上面的步驟,我們會得到比較干凈的素材。文本中起到關鍵作用的是一些詞,甚至主要詞就能起到決定文本取向。比如說一篇文章講的是政治還是經濟,肯定是對文章中的中心詞進行分析得到的結果。 所以接下來的步驟就是分詞。

分詞就是將連續的字序列按照一定的規范重新組合成詞序列的過程。我們知道,在英文的行文中,單詞之間是以空格作為自然分界符的,而中文只是字、句和段能通過明顯的分界符來簡單劃界,唯獨詞沒有一個形式上的分界符,雖然英文也同樣存在短語的劃分問題,不過在詞這一層上,中文比之英文要復雜得多、困難得多。

現在針對中文分詞,出現了很多分詞的算法,有最大匹配法、最優匹配法、機械匹配法、逆向匹配法、雙向匹配法等等。

(2)詞性標注

同時也可以使用詞性標注。通過很多分詞工具分出來的出會出現一個詞,外加該詞的詞性。比如說啊是語氣助詞。

(3)去除停用詞

比如說句號、是、的等詞,沒有什么實際的意義。然而這些詞在所有的文章中都大量存在,并不能反應出文本的意思,可以處理掉。當然針對不同的應用還有很多其他詞性也是可以去掉的,比如形容詞等。

4、文本的數學處理-特征提取

我們希望獲取到的詞匯,既能保留文本的信息,同時又能反映它們的相對重要性。如果對所有詞語都保留,維度會特別高,矩陣將會變得特別稀疏,嚴重影響到挖掘結果。所以這就需要特征提取。

特征選取的方式有4種:

(1)用映射或變換的方法把原始特征變換為較少的新特征;

(2)從原始特征中挑選出一些最具代表性的特征;

(3)根據專家的知識挑選最有影響的特征;

(4)用數學的方法進行選取,找出最具分類信息的特征,這種方法是一種比較精確的方法,人為因素的干擾較少,尤其適合于文本自動分類挖掘系統的應用。

5、分類聚類

經過上面的步驟之后,我們就可以把文本集轉化成一個矩陣。我們能夠利用各種算法進行挖掘,比如說如果要對文本集進行分類,分類常用的方法有:簡單貝葉斯分類法,矩陣變換法、K-最近鄰參照分類算法以及支持向量機分類方法等。

聚類方法通常有:層次聚類法、平面劃分法、簡單貝葉斯聚類法、K-最近鄰聚類法、分級聚類法等。

6、數據可視化

最后一步當然就是數據結構的可視化展示,通過合適的可視化圖形生動形象展示,讓讀者聽眾更容易理解你所要表達的信息。

文本可視化最常用的圖形就是詞云。

四、文本挖掘工具

1、python語言jieba、gensim、sklearn、WordCloud和matplotlib包

2、R語言jieba、tm、tmcn、Rwordseg和wordcloud包

3、SAS text miner

4、SPSS Text Mining

公眾號:華夏經緯數據科技

關注公眾號:
華夏經緯數據科技
更多調研資訊>>

免責聲明:
本站文章內容以及所涉數據、圖片等資料來源于網絡,轉載目的在于傳遞更多信息。版權歸作者所有,文章僅代表作者觀點,不代表華夏經緯立場。 如涉及侵權,請聯系管理員刪除。在法律許可的范圍內,華夏經緯(廣州)數據科技股份有限公司享有最終解釋權。

QQ在線咨詢
給我們留言

咨詢電話

020-84668848

華夏經緯訂閱號

關注訂閱號

華夏經緯視頻號

關注視頻號

電話回撥

成人a大片高清在线观看| 黄色免费三级| 高清一级淫片a级中文字幕| 免费国产在线观看不卡| 日本特黄特黄aaaaa大片| 在线观看成人网| 成人影视在线观看| 成人影院一区二区三区| 欧美另类videosbestsex高清 | 精品视频一区二区| 免费一级片在线观看| 国产网站在线| 国产伦精品一区二区三区在线观看| 国产91丝袜在线播放0| 日韩在线观看视频免费| 四虎影视久久久| 日本伦理黄色大片在线观看网站| 欧美激情在线精品video| 国产原创中文字幕| 美女免费毛片| 高清一级淫片a级中文字幕| 亚洲精品久久玖玖玖玖| 欧美电影免费看大全| 91麻豆精品国产自产在线| 日韩男人天堂| 深夜做爰性大片中文| 久久精品道一区二区三区| 欧美另类videosbestsex视频| 台湾毛片| 久久99欧美| 欧美日本国产| 高清一级毛片一本到免费观看| 国产一级强片在线观看| 韩国毛片基地| 久久精品道一区二区三区| 美国一区二区三区| 韩国毛片| 国产91精品系列在线观看| 欧美夜夜骑 青草视频在线观看完整版 久久精品99无色码中文字幕 欧美日韩一区二区在线观看视频 欧美中文字幕在线视频 www.99精品 香蕉视频久久 | 精品久久久久久综合网| 色综合久久天天综线观看| 亚洲 国产精品 日韩| 国产精品免费久久| 日韩在线观看视频免费| 免费的黄视频| 可以免费在线看黄的网站| 国产不卡高清| 精品视频一区二区三区免费| 韩国三级一区| 国产成+人+综合+亚洲不卡| 一级毛片视频免费| 午夜激情视频在线观看| 国产亚洲精品aaa大片| 亚洲精品久久玖玖玖玖| 久久久久久久久综合影视网| 国产一区免费在线观看| 精品国产一区二区三区精东影业 | 日韩专区亚洲综合久久| 久久福利影视| 日韩在线观看免费| 欧美一级视| 麻豆午夜视频| 日本伦理片网站| 国产精品123| 国产国语在线播放视频| 国产麻豆精品免费视频| 欧美另类videosbestsex久久| 精品国产一区二区三区久久久蜜臀 | 亚洲精品久久玖玖玖玖| 日韩一级黄色大片| 国产高清在线精品一区a| 一 级 黄 中国色 片| 黄色福利片| 免费国产在线视频| 九九九国产| 日韩一级黄色大片| 日韩免费在线观看视频| 高清一级片| 久久精品道一区二区三区| 欧美爱爱网| 色综合久久天天综线观看 | 亚洲精品久久玖玖玖玖| 麻豆午夜视频| 亚欧视频在线| 欧美另类videosbestsex高清| 日韩中文字幕一区二区不卡| 精品在线观看一区| 久久国产影院| 久草免费在线视频| 日本在线www| 成人免费观看视频| 国产视频一区二区在线播放| 香蕉视频亚洲一级| 九九精品在线| 免费国产在线观看| 精品久久久久久综合网| 国产不卡在线看| 亚欧视频在线| 国产激情一区二区三区| 久久精品大片| 欧美一级视频高清片| 日韩欧美一及在线播放| 久久成人综合网| 午夜欧美成人久久久久久| 香蕉视频一级| 国产精品自拍一区| 黄色福利| 精品视频在线观看一区二区| 国产a视频精品免费观看| 免费国产在线观看| 一级毛片视频播放| 国产91精品露脸国语对白| 国产不卡福利| 天天做人人爱夜夜爽2020毛片| 午夜欧美成人香蕉剧场| 九九免费精品视频| 日本在线播放一区| 91麻豆tv| 亚洲 男人 天堂| 成人免费一级毛片在线播放视频| 日韩av东京社区男人的天堂| 欧美激情一区二区三区中文字幕| 国产伦久视频免费观看视频| 黄色短视频网站| 亚洲 欧美 成人日韩| 日本免费乱理伦片在线观看2018| 一 级 黄 中国色 片| 亚洲 国产精品 日韩| 欧美a免费| 日韩在线观看视频免费| 高清一级片| 欧美日本免费| 精品国产亚一区二区三区| 亚洲女人国产香蕉久久精品| 国产91精品系列在线观看| 美女被草网站| 一级女性全黄生活片免费| 九九免费高清在线观看视频| 九九免费高清在线观看视频| 日韩欧美一及在线播放| 四虎论坛| 韩国毛片| 精品国产一区二区三区久久久蜜臀 | 四虎影视久久久| 亚欧成人乱码一区二区| 可以免费在线看黄的网站| 亚洲第一页乱| 精品视频在线观看一区二区| 欧美激情在线精品video| 麻豆系列 在线视频| 精品视频在线观看一区二区| 亚洲爆爽| 欧美爱色| 久久久久久久久综合影视网| 黄视频网站免费观看| 天天做日日爱| 精品久久久久久免费影院| 午夜在线影院| 国产不卡高清| 国产一区二区精品久久91| a级精品九九九大片免费看| 亚洲精品影院| 韩国三级视频在线观看| 午夜久久网| 亚洲wwwwww| 欧美国产日韩在线| 午夜在线亚洲| 久久精品成人一区二区三区| 免费一级生活片| 成人高清视频免费观看| 欧美另类videosbestsex视频| 日本久久久久久久 97久久精品一区二区三区 狠狠色噜噜狠狠狠狠97 日日干综合 五月天婷婷在线观看高清 九色福利视频 | 韩国毛片基地| 成人免费网站久久久| 999久久久免费精品国产牛牛| 欧美大片毛片aaa免费看| 精品国产一区二区三区精东影业| 高清一级毛片一本到免费观看| 国产视频一区二区在线观看 | 欧美18性精品| 九九久久99综合一区二区| 黄视频网站在线观看| 精品国产一区二区三区久| 日本伦理片网站| 国产成人精品综合在线| 精品在线观看一区| 韩国三级一区| 二级片在线观看| 欧美日本免费| a级精品九九九大片免费看| 日本在线www| 一本高清在线| 成人影视在线观看| 日本免费乱理伦片在线观看2018| 欧美日本国产| 精品在线视频播放| 久草免费在线色站| 99热精品一区| 日日夜夜婷婷| 国产网站在线|