预购商品
书目分类
特别推荐
前言1 第1章洞悉文本資料11 1.1本章內容概要11 1.2探索性資料分析12 1.3資料集簡介13 1.4案例:使用Pandas獲取資料概要14 1.4.1計算列的匯總統計結果15 1.4.2檢查缺少的資料16 1.4.3繪製值的分佈圖17 1.4.4比較各個類別的分佈18 1.4.5視覺化一段時間內的變化19 1.5案例:構建簡單的文本預處理流水線21 1.5.1使用規則運算式分詞21 1.5.2刪除停用詞22 1.5.3通過一行代碼處理流水線24 1.6詞頻分析案例26 1.6.1案例:使用Counter統計單詞個數26 1.6.2案例:創建詞頻圖29 1.6.3案例:創建詞雲30 1.6.4案例:TF-IDF排名32 1.7案例:查找上下文關鍵字35 1.8案例:n元語法分析37 1.9案例:比較不同時間段和類別的詞頻40 1.9.1創建詞頻時間表40 1.9.2創建詞頻熱圖42 1.10小結44 第2章利用API提取文本45 2.1本章內容概要45 2.2應用程式設計發展介面45 2.3案例:使用requests模組通過API提取資料47 2.3.1分頁52 2.3.2速率53 2.4案例:使用Tweepy提取推特資料57 2.4.1獲取憑證58 2.4.2安裝與配置Tweepy59 2.4.3通過SearchAPI提取資料60 2.4.4從使用者的時間線中提取資料64 2.4.5通過流API提取資料66 2.5小結69 第3章網頁抓取與資料提取71 3.1本章內容概要71 3.2抓取網頁與提取資料72 3.3路透社新聞存檔簡介73 3.4URL生成75 3.5案例:下載和解讀robots.txt76 3.6案例:從sitemap.xml中尋找URL77 3.7案例:通過RSS查找URL79 3.8下載數據81 3.9案例:使用Python下載HTML頁面82 3.10案例:利用wget下載HTML頁面83 3.11提取半結構化資料84 3.12案例:通過規則運算式提取資料85 3.13案例:使用HTML解析器提取資料86 3.14案例:爬蟲94 3.14.1案例介紹94 3.14.2錯誤處理與生產級品質的軟體97 3.15基於密度的文本提取98 3.15.1利用Readability讀取路透社的內容98 3.15.2總結基於密度的文本提取100 3.16一體化解決方案100 3.17案例:使用Scrapy抓取路透社的存檔101 3.18爬蟲面臨的難題103 3.19總結和建議104 第4章準備統計和機器學習的文本資料105 4.1本章內容概要105 4.2資料預處理流水線106 4.3資料集介紹:RedditSelf-Posts107 4.3.1將數據載入到Pandas107 4.3.2案例:標準化屬性名稱107 4.3.3保存和載入資料框109 4.4清理文本資料110 4.4.1案例:使用規則運算式識別雜訊111 4.4.2案例:使用規則運算式剔除雜訊113 4.4.3案例:使用textacy規範化字元115 4.4.4案例:使用textacy根據模式遮擋資料116 4.5分詞118 4.5.1案例:使用規則運算式分詞118 4.5.2NLTK分詞120 4.5.3分詞建議120 4.6spaCy的語言處理121 4.6.1產生實體流水線122 4.6.2處理文本123 ……
客服公告
热门活动
订阅电子报