Python文本分析 - 城邦阅读花园






	購買中國簡體書籍請注意： 1. 因裝幀品質及貨運條件未臻完善，中國簡體書可能有出現磨痕、凹痕、折痕等問題，故簡體字館除封面破損、內頁脫落、缺頁等較嚴重的狀態外，其餘所有商品將正常出貨。


	目錄前言1 第1章洞悉文本資料11 1.1本章內容概要11 1.2探索性資料分析12 1.3資料集簡介13 1.4案例：使用Pandas獲取資料概要14 1.4.1計算列的匯總統計結果15 1.4.2檢查缺少的資料16 1.4.3繪製值的分佈圖17 1.4.4比較各個類別的分佈18 1.4.5視覺化一段時間內的變化19 1.5案例：構建簡單的文本預處理流水線21 1.5.1使用規則運算式分詞21 1.5.2刪除停用詞22 1.5.3通過一行代碼處理流水線24 1.6詞頻分析案例26 1.6.1案例：使用Counter統計單詞個數26 1.6.2案例：創建詞頻圖29 1.6.3案例：創建詞雲30 1.6.4案例：TF-IDF排名32 1.7案例：查找上下文關鍵字35 1.8案例：n元語法分析37 1.9案例：比較不同時間段和類別的詞頻40 1.9.1創建詞頻時間表40 1.9.2創建詞頻熱圖42 1.10小結44 第2章利用API提取文本45 2.1本章內容概要45 2.2應用程式設計發展介面45 2.3案例：使用requests模組通過API提取資料47 2.3.1分頁52 2.3.2速率53 2.4案例：使用Tweepy提取推特資料57 2.4.1獲取憑證58 2.4.2安裝與配置Tweepy59 2.4.3通過SearchAPI提取資料60 2.4.4從使用者的時間線中提取資料64 2.4.5通過流API提取資料66 2.5小結69 第3章網頁抓取與資料提取71 3.1本章內容概要71 3.2抓取網頁與提取資料72 3.3路透社新聞存檔簡介73 3.4URL生成75 3.5案例：下載和解讀robots.txt76 3.6案例：從sitemap.xml中尋找URL77 3.7案例：通過RSS查找URL79 3.8下載數據81 3.9案例：使用Python下載HTML頁面82 3.10案例：利用wget下載HTML頁面83 3.11提取半結構化資料84 3.12案例：通過規則運算式提取資料85 3.13案例：使用HTML解析器提取資料86 3.14案例：爬蟲94 3.14.1案例介紹94 3.14.2錯誤處理與生產級品質的軟體97 3.15基於密度的文本提取98 3.15.1利用Readability讀取路透社的內容98 3.15.2總結基於密度的文本提取100 3.16一體化解決方案100 3.17案例：使用Scrapy抓取路透社的存檔101 3.18爬蟲面臨的難題103 3.19總結和建議104 第4章準備統計和機器學習的文本資料105 4.1本章內容概要105 4.2資料預處理流水線106 4.3資料集介紹：RedditSelf-Posts107 4.3.1將數據載入到Pandas107 4.3.2案例：標準化屬性名稱107 4.3.3保存和載入資料框109 4.4清理文本資料110 4.4.1案例：使用規則運算式識別雜訊111 4.4.2案例：使用規則運算式剔除雜訊113 4.4.3案例：使用textacy規範化字元115 4.4.4案例：使用textacy根據模式遮擋資料116 4.5分詞118 4.5.1案例：使用規則運算式分詞118 4.5.2NLTK分詞120 4.5.3分詞建議120 4.6spaCy的語言處理121 4.6.1產生實體流水線122 4.6.2處理文本123 ……