预购商品
书目分类
特别推荐
文字探勘,離我們一點都不遙遠。 小至今天吃什麼,大至國際動態趨勢, 想知道風往哪吹熱度怎麼蹭,就是派它上場的時刻! ✦每位渴望突破的程式設計新手都應該閱讀的一本書✦ 隨書附贈光碟:內含範例程式資料檔、習題解答程式檔。從做中學,效果加倍! 翻開程式工具書就頭昏眼花的症頭 ✔口語化的親切教學,不怕你嫌生硬只怕你嫌囉嗦 埋頭學習卻經常找不到方向的迷航學子 ✔範例導引式編排,附習題,示範編碼、驗收成果。 不甘於紙上談兵的實用主義者 ✔豐富多元的探勘實作,PChome 24h、Google 學術、PTT八卦版 到達純文字極限,數位學習上癮的科技人 ✔QRcode影音課程畫龍點睛,針對部份操作重點,加強吸收力度。 ▶▶▶ 大數據時代,網路的電子化文本恆河沙數,新聞、google、PTT、部落格、購物網、Facebook、Twitter,無一不是非結構化資料。偏偏在0和1的世界,要想馴服它們,就必須「轉換」為電腦可判讀的結構化資料。 這個「轉換」的過程,就是文字探勘的研究領域,具有高度商業價值。 本書給魚也給竿,帶領我們駕馭這項新興技術。 攜手踏入網路爬蟲的場域,無論你是—— ●程式設計零基礎,想在網路進行資料探勘的初心者 ●統計學一知半解,卻需要時刻關注最新動態的社群小編 ●需要快速調查、統合資源的市調顧問、行銷企劃工作者 ●正好缺乏質性文本分析數據的社會科學研究者 使用最新版本的Python3,易讀、易學且擴展性強的語法特點。 ●從零開始,由安裝教起,快速習得10大基本技巧、萃取有用資訊。 ●現學現賣,5大實戰演練,精進探勘能力:PChome 24h-商品資料、Google學術-論文資料、PTT 八卦版-PO文資料、誠品金石堂-書籍比價系統、PTT 政黑版-文字雲和長條圖。 ▶▶▶ 按部就班,嗅得先機。 你,也可以是全新領域的開拓者!
自 序 Chapter 01 Python 簡介 1-1 何謂程式設計 1-2 Python 程式設計的特點 1-3 選擇 Python 作為第一種程式語言的理由 1-4 安裝Python 與環境設定 1-5 安裝編輯器:Visual Studio Code 1-6 建置Anaconda 開發環境 Chapter 02 資料型態 2-1 Python 處理的資料類型 2-2 數值型態 2-3 字串型態 2-4 變數 2-5 數值和字串間型態的轉換 Chapter 03 流程控制 3-1 流程控制的構成要素 3-2 條件分岐 3-3 input 函式 3-4 條件運算式的組成 3-5 多向的條件分岐 Chapter 04 串列與迴圈 4-1 串列的意義與操作 4-2 for 迴圈 4-3 for 迴圈和if 敘述的組合運用 4-4 range() 函式 4-5 亂數的運用 4-6 break 及continue 命令 4-7 while 迴圈 4-8 進階串列操作 Chapter 05 元組、字典與集合 5-1 元組 5-2 字典 5-3 集合 Chapter 06 函式 6-1 函式的意義 6-2 函式的參數 6-3 函式與變數的作用範圍 Chapter 07 錯誤與例外 7-1 錯誤的型態 7-2 例外 7-3 例外處理 7-4 錯誤的種類 Chapter 08 網頁爬蟲的簡單範例 8-1 網頁爬蟲(Web Scraping) 8-2 網路爬蟲的執行步驟 8-3 向網路伺服器發送請求服務的訊息 8-4 解析網頁資訊 8-5 BeautifulSoup 的運用:於自由時報電子報網站進行爬蟲 Chapter 09 向伺服器發送請求的方式 9-1 網頁爬蟲的基本步驟 9-2 送出簡單的GET 請求 9-3 送出帶有參數的GET 請求 9-4 送出帶有參數的GET 請求至Ajax 網頁 9-5 送出帶有Cookie 的GET 請求 9-6 送出帶有Headers 的GET 請求 9-7 以form 形式發送POST 請求 9-8 送出帶有登入Cookie 的POST 請求 9-9 模擬登入 Chapter 10 萃取有用資訊 10-1 網頁萃取的工作內容 10-2 本章所使用的範例網頁 10-3 走訪DOM 文件樹 10-4 搜尋DOM 文件樹 10-5 CSS 選擇器 Chapter 11 爬取「PChome 24h 購物」的商品資料 11-1 PChome 24h 購物網站 11-2 確認標的網站的URL 網址 11-3 送出 HTTP 請求,取得頁面資料(JSON 格式) 11-4 解析結果頁面資料,獲取商品資訊 11-5 將商品詳細資料,存入Excel 檔案中 11-6 建立主程式 Chapter 12 爬取「Google 學術搜尋」的論文資料 12-1 確認標的網站的URL 網址 12-2 送出HTTP 請求,取得搜尋結果頁面資料 12-3 取得各分頁的連結url 12-4 解析分頁資料,獲取分頁內的論文資料 12-5 彙總所有分頁的論文資料 12-6 將論文詳細資料,存入Excel 檔案中 12-7 建立主程式 12-8 執行爬蟲程式 12-9 使用平行處理技術 12-10 有關爬取Google 學術搜尋的結語 Chapter 13 爬取「PTT 八卦版」的PO 文資料 13-1 確認標的網站的URL 網址 13-2 送出HTTP 請求,取得頁面資料 13-3 取得八卦版目前總頁數 13-4 取得各分頁的連結url 13-5 取得各分頁中的PO 文標題 13-6 彙總所有分頁的PO 文標題 13-7 取得每篇PO 文之發言內容 13-8 彙整所有PO 文的相關資訊 13-9 將PO 文的詳細資料,存入Excel 檔案中 13-10 建立主程式 Chapter 14 書籍比價爬蟲 14-1 確認標的網站的URL 網址 14-2 送出HTTP 請求,取得頁面資料 14-3 取得搜尋結果的總頁數 14-4 取得各分頁的連結 14-5 取得每本書的詳細資料 14-6 取得每本書於誠品、金石堂的價格 14-7 取得分頁中各書籍的其它基本資料與比價資料 14-8 彙整所有書籍資料 14-9 將書籍比價資料,存入Excel 檔案中 14-10 建立主程式 Chapter 15 製作文字雲 15-1 簡介 15-2 建立主程式 15-3 取得所有PO 文的發言內容 15-4 繪製文字雲 15-5 繪製長條圖
作者簡介 陳寬裕 現職 屏東科技大學 休閒運動健康系 教授 學歷 台灣大學 大氣科學系 學士 清華大學 工業工程研究所 碩士 長榮大學 經營管理研究所 博士 嘉義大學 觀光休閒研究所 博士班 Email pf.kuan.yu.chen@gmail.com
客服公告
热门活动
订阅电子报