|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
購買中國簡體書籍請注意:
1. 因裝幀品質及貨運條件未臻完善,中國簡體書可能有出現磨痕、凹痕、折痕等問題,故簡體字館除封面破損、內頁脫落、缺頁等較嚴重的狀態外,其餘所有商品將正常出貨。
|
|
|
|
|
|
|
|
|
目錄
前言1
第1章洞悉文本資料11
1.1本章內容概要11
1.2探索性資料分析12
1.3資料集簡介13
1.4案例:使用Pandas獲取資料概要14
1.4.1計算列的匯總統計結果15
1.4.2檢查缺少的資料16
1.4.3繪製值的分佈圖17
1.4.4比較各個類別的分佈18
1.4.5視覺化一段時間內的變化19
1.5案例:構建簡單的文本預處理流水線21
1.5.1使用規則運算式分詞21
1.5.2刪除停用詞22
1.5.3通過一行代碼處理流水線24
1.6詞頻分析案例26
1.6.1案例:使用Counter統計單詞個數26
1.6.2案例:創建詞頻圖29
1.6.3案例:創建詞雲30
1.6.4案例:TF-IDF排名32
1.7案例:查找上下文關鍵字35
1.8案例:n元語法分析37
1.9案例:比較不同時間段和類別的詞頻40
1.9.1創建詞頻時間表40
1.9.2創建詞頻熱圖42
1.10小結44
第2章利用API提取文本45
2.1本章內容概要45
2.2應用程式設計發展介面45
2.3案例:使用requests模組通過API提取資料47
2.3.1分頁52
2.3.2速率53
2.4案例:使用Tweepy提取推特資料57
2.4.1獲取憑證58
2.4.2安裝與配置Tweepy59
2.4.3通過SearchAPI提取資料60
2.4.4從使用者的時間線中提取資料64
2.4.5通過流API提取資料66
2.5小結69
第3章網頁抓取與資料提取71
3.1本章內容概要71
3.2抓取網頁與提取資料72
3.3路透社新聞存檔簡介73
3.4URL生成75
3.5案例:下載和解讀robots.txt76
3.6案例:從sitemap.xml中尋找URL77
3.7案例:通過RSS查找URL79
3.8下載數據81
3.9案例:使用Python下載HTML頁面82
3.10案例:利用wget下載HTML頁面83
3.11提取半結構化資料84
3.12案例:通過規則運算式提取資料85
3.13案例:使用HTML解析器提取資料86
3.14案例:爬蟲94
3.14.1案例介紹94
3.14.2錯誤處理與生產級品質的軟體97
3.15基於密度的文本提取98
3.15.1利用Readability讀取路透社的內容98
3.15.2總結基於密度的文本提取100
3.16一體化解決方案100
3.17案例:使用Scrapy抓取路透社的存檔101
3.18爬蟲面臨的難題103
3.19總結和建議104
第4章準備統計和機器學習的文本資料105
4.1本章內容概要105
4.2資料預處理流水線106
4.3資料集介紹:RedditSelf-Posts107
4.3.1將數據載入到Pandas107
4.3.2案例:標準化屬性名稱107
4.3.3保存和載入資料框109
4.4清理文本資料110
4.4.1案例:使用規則運算式識別雜訊111
4.4.2案例:使用規則運算式剔除雜訊113
4.4.3案例:使用textacy規範化字元115
4.4.4案例:使用textacy根據模式遮擋資料116
4.5分詞118
4.5.1案例:使用規則運算式分詞118
4.5.2NLTK分詞120
4.5.3分詞建議120
4.6spaCy的語言處理121
4.6.1產生實體流水線122
4.6.2處理文本123
…… |
|
|
|
|
|
|
|
|
|
|
|