预购商品
书目分类
特别推荐
八年前,“數學之美”系列文章原刊載于穀歌黑板報,獲得上百萬次點擊,得到讀者高度評價。讀者說,讀了“數學之美”,才發現大學時學的數學知識,比如瑪律可夫鏈、矩陣計算,甚至余弦函數原來都如此親切,並且栩栩如生,才發現自然語言和資訊處理這麼有趣。 在紙本書的創作中,作者幾乎把所有文章都重寫了一遍,為的是把高深的數學原理講得更加通俗易懂,讓非專業讀者也能領略數學的魅力。讀者通過具體的例子學到的是思考問題的方式——如何化繁為簡,如何用數學去解決工程問題,如何跳出固有思維不斷去思考創新。本書*版榮獲國家圖書館第八屆文津圖書獎。第二版增加了針對大資料和機器學習的內容。第三版增加了三章新內容,分別介紹當今非常熱門的三個主題:區塊鏈的數學基礎,量子通信的原理,以及人工智慧的數學極限。
I 第二版序言 III 第一版序言 VI 第三版前言 1 第1章 文字和語言 vs 數位和資訊 文字和語言與數學,從產生起原本就有相通性,雖然它們的發展一度分道揚鑣,但是最終還是能走到一起。 1 信息 2 文字和數位 3 文字和語言背後的數學 15 第2章 自然語言處理——從規則到統計 人類對機器理解自然語言的認識走了一條大彎路。早期的研究集中採用基於規則的方法,雖然解決了一些簡單的問題,但是無法從根本上將自然語言理解實用化。直到20多年後,人們開始嘗試用基於統計的方法進行自然語言處理,才有了突破性進展和實用的產品。 1 機器智慧 2 從規則到統計 27 第3章 統計語言模型 統計語言模型是自然語言處理的基礎,並且被廣泛應用於機器翻譯、語音辨識、印刷體,或手寫體識別、拼寫糾錯、漢字輸入和文獻查詢。 1 用數學的方法描述語言規律 2 延伸閱讀:統計語言模型的工程訣竅 41 第4章 談談分詞 中文分詞是中文資訊處理的基礎,它同樣走過了一段彎路,目前依靠統計語言模型已經基本解決了這個問題。 1 中文分詞方法的演變 2 延伸閱讀:如何衡量分詞的結果 50 第5章 隱瑪律可夫模型 隱瑪律可夫模型最初應用於通信領域,繼而推廣到語音和語言處理中,成為連接自然語言處理和通信的橋樑。同時,隱瑪律可夫模型也是機器學習的主要工具之一。 1 通信模型 2 隱瑪律可夫模型 3 延伸閱讀:隱瑪律可夫模型的訓練 60 第6章 資訊的度量和作用 資訊是可以量化度量的。資訊熵不僅是對資訊的量化度量,也是整個資訊理論的基礎。它對於通信、資料壓縮、自然語言處理都有很強的指導意義。 1 信息熵 2 資訊的作用 3 互信息 4 延伸閱讀:相對熵 72 第7章 賈裡尼克和現代語言處理 作為現代自然語言處理的奠基者,賈裡尼克教授成功地將數學原理應用于自然語言處理領域中,他的一生富於傳奇色彩。 1 早年生活 2 從水門事件到莫妮卡·萊溫斯基 3 一位老人的奇跡 82 第8章 簡單之美——布林代數和搜尋引擎 布林代數雖然非常簡單,卻是電腦科學的基礎,它不僅把邏輯和數學合二為一,而且給了我們一個全新的視角看待世界,開創了數位化時代。 1 布林代數 2 索引 89 第9章 圖論和網路爬蟲 互聯網搜尋引擎在建立索引前需要用一個程式自動地將所有的網頁下載到伺服器上,這個程式稱為網路爬蟲,它的編寫是基於離散數學中圖論的原理。 1 圖論 2 網路爬蟲 3 延伸閱讀:圖論的兩點補充說明 98 第10章 PageRank——Google的民主表決式網頁排名技術 網頁排名技術PageRank是早期Google的殺手鐧,它的出現使得網頁搜索的品質上了一個大的臺階。它背後的原理是圖論和線性代數的矩陣運算。 1 PageRank演算法的原理 2 延伸閱讀:PageRank的計算方法 104 第11章 如何確定網頁和查詢的相關性 確定網頁和查詢的相關性是網頁搜索的根本問題,其中確定查詢中每個關鍵字的重要性有多高是關鍵。TF-IDF是目前通用的關鍵字重要性的度量,其背後的原理是資訊理論。 1 搜索關鍵字權重的科學度量TF-IDF 2 延伸閱讀:TF-IDF 的資訊理論依據 111 第12章 有限狀態機和動態規劃——地圖與本地搜索的核心技術 地圖與本地搜索中要用到有限狀態機和動態規劃技術。這兩項技術是機器智慧和機器學習的工具,它們的應用非常廣泛,還包括語音辨識、拼寫和語法糾錯、拼音輸入法、工業控制和生物的序列分析等。 1 位址分析和有限狀態機 2 全球導航和動態規劃 3 延伸閱讀:有限狀態感測器 121 第13章 Google AK-47的設計者——阿米特·辛格博士 在所有輕武器中最有名的是AK-47衝鋒槍,因為它從不卡殼,不易損壞,可在任何環境下使用,可靠性好,殺傷力大並且操作簡單。Google的產品就是按照上述原則設計的。 127 第14章 余弦定理和新聞的分類 電腦雖然讀不懂新聞,卻可以準確地對新聞進行分類。其數學工具是看似毫不相干的余弦定理。 1 新聞的特徵向量 2 向量距離的度量 3 延伸閱讀:計算向量余弦的技巧 136 第15章 矩陣運算和文本處理中的兩個分類問題 無論是詞彙的聚類還是文本的分類,都可以通過線性代數中矩陣的奇異值分解來進行。這樣一來,自然語言處理的問題就變成了一個數學問題。 1 文本和詞彙的矩陣 2 延伸閱讀:奇異值分解的方法和應用場景 142 第16章 資訊指紋及其應用 世間萬物都有一個唯一標識的特徵,資訊也是如此。每一條資訊都有它特定的指紋,通過這個指紋可以區別不同的資訊。 1 信息指紋 2 信息指紋的用途 3 延伸閱讀:資訊指紋的重複性和相似雜湊 153 第17章 由電視劇《暗算》所想到的——談談密碼學的數學原理 密碼學的根本是資訊理論和數學。沒有資訊理論指導的密碼是非常容易被破解的。只有在資訊理論被廣泛應用於密碼學後,密碼才真正變得安全。 1 密碼學的自發時代 2 資訊理論時代的密碼學 162 第18章 閃光的不一定是金子——談談搜尋引擎反作弊問題和搜索結果的權威性問題 閃光的不一定是金子,搜尋引擎中排名靠前的網頁也未必是有用的網頁。消除這些作弊網頁的原理和通信中過濾雜訊的原理相同。這說明資訊處理和通信的很多原理是相通的。 1 搜尋引擎的反作弊 2 搜索結果的權威性 171 第19章 談談數學模型的重要性 正確的數學模型在科學和工程中至關重要,而發現正確模型的途徑常常是曲折的。正確的模型在形式上通常是簡單的。 179 第20章 不要把雞蛋放到一個籃子裡——談談最大熵模型 最大熵模型是一個完美的數學模型。它可以將各種資訊整合到一個統一的模型中,在資訊處理和機器學習中有著廣泛的應用。它在形式上非常簡單、優美,而在實現時需要有精深的數學基礎和高超的技巧。 1 最大熵原理和最大熵模型 2 延伸閱讀:最大熵模型的訓練 186 第21章 拼音輸入法的數學原理 漢字的輸入過程本身就是人和電腦之間的通信。好的輸入法會自覺或不自覺地遵循通信的數學模型。當然要做出最有效的輸入法,應當自覺使用資訊理論做指導。 1 輸入法與編碼 2 輸入一個漢字需要敲多少個鍵——談談香農第一定理 3 拼音轉漢字的演算法 4 延伸閱讀:個性化的語言模型 197 第22章 自然語言處理的教父馬庫斯和他的優秀弟子們 將自然語言處理從基於規則的研究方法轉到基於統計的研究方法上,賓夕法尼亞大學的教授米奇·馬庫斯功不可沒。他創立了今天在學術界廣泛使用的LCD語料庫,同時培養了一大批精英人物。 1 教父馬庫斯 2 從賓夕法尼亞大學走出的精英們 204 第23章 布隆篩檢程式 日常生活中,經常要判斷一個元素是否在一個集合中。布隆篩檢程式是電腦工程中解決這個問題最好的數學 工具。 1 布隆篩檢程式的原理 2 延伸閱讀:布隆篩檢程式的誤識別問題 209 第24章 瑪律可夫鏈的擴展——貝葉斯網路 貝葉斯網路是一個加權的有向圖,是瑪律可夫鏈的擴展。而從認識論的層面看:貝葉斯網路克服了瑪律可夫鏈那種機械的線性約束,它可以把任何有關聯的事件統一到它的框架下面。它在生物統計、影像處理、決策支援系統和博弈論中都有廣泛的使用。 1 貝葉斯網路 2 貝葉斯網路在詞分類中的應用 3 延伸閱讀:貝葉斯網路的訓練 217 第25章 條件隨機場、文法分析及其他 條件隨機場是計算聯合概率分佈的有效模型,而句子的文法分析似乎是英文課上英語老師教的東西,這兩者有什麼聯繫呢? 1 文法分析——電腦演算法的演變 2 條件隨機場 3 條件隨機場在其他領域的應用 227 第26章 維特比和他的維特比演算法 維特比演算法是現代數位通信中使用最頻繁的演算法,也是很多自然語言處理採用的解碼演算法。可以毫不誇張地 講,維特比是對我們今天的生活影響力最大的科學家之一,因為基於CDMA的3G移動通信標準主要就是他和厄文·雅各創辦的高通公司制定的。 1 維特比演算法 2 CDMA技術——3G移動通信的基礎 238 第27章 上帝的演算法——期望最大化演算法 只要有一些訓練資料,再定義一個最大化函數,採用EM演算法,利用電腦經過若干次反覆運算,就可以得到所需要的模型。這實在是太美妙了,這也許是造物主刻意安排的,所以我把它稱作上帝的演算法。 1 文本的自收斂分類 2 延伸閱讀:期望最大化和收斂的必然性 244 第28章 邏輯回歸和搜索廣告 邏輯回歸模型是一種將影響概率的不同因素結合在一起的指數模型,它不僅在搜索廣告中起著重要的作用,而且被廣泛應用於資訊處理和生物統計中。 1 搜索廣告的發展 2 邏輯回歸模型 249 第29章 各個擊破演算法和Google雲計算的基礎 Google頗為神秘的雲計算中最重要的MapReduce工具,其原理就是電腦演算法中常用的“各個擊破”演算法,它的原理原來這麼簡單——將複雜的大問題分解成很多小問題分別求解,然後再把小問題的解合併成原始問題的解。由此可見,在生活中大量用到的、真正有用的方法常常都是簡單樸實的。 1 分治演算法的原理 2 從分治演算法到MapReduce 254 第30章 Google大腦和人工神經網路 Google大腦並不是一個什麼都能思考的大腦,而是一個很能計算的人工神經網路。因此,與其說Google大腦很聰明,不如說它很能算。不過,換個角度來說,隨著計算能力的不斷提高,計算量大但簡單的數學方法有時能夠解決很複雜的問題。 1 人工神經網路 2 訓練人工神經網路 3 人工神經網路與貝葉斯網路的關係 4 延伸閱讀:Google大腦 274 第31章 區塊鏈的數學基礎——橢圓曲線加密原理 希爾伯特講,“我們直到能夠把一門自然科學的數學內核剝出並完全地揭示出來,才能夠掌握它。”以比特幣為代表的加密貨幣的基礎是數學的演算法,只有搞清楚加密貨幣的數學內核,我們才能瞭解它的本質。 1 不對稱、不透明之美 2 橢圓曲線加密的原理 282 第32章 大資料的威力——談談資料的重要性 如果說在過去的40年裡,主導全球IT產業發展的是摩爾定律,那麼在今後的20年裡,主導IT行業繼續發展的動力則將來自於資料。 1 資料的重要性 2 資料的統計和資訊技術 3 為什麼需要大資料 304 第33章 隨機性帶來的好處——量子金鑰分發的數學原理 人們總是喜歡確定性而不喜歡隨機性。但是從對確定性規律的把握上升到對隨機性規律的把握,恰恰是近代數學進步的標誌。量子通信就是建立在把握了有關隨機性規律的基礎之上。 1 用(鐳射)量子的偏振方向傳遞資訊 2 利用隨機性保證資訊安全 312 第34章 數學的極限——希爾伯特第十問題和機器智慧的極限 世界上只有一小部分問題是數學問題,而數學問題中又只有極小的一部分問題有解。在這些問題中,今天已經找到相應演算法的少之又少。因此,數學不是萬能的,我們需要瞭解數學的邊界在哪裡。 1 圖靈劃定電腦可計算問題的邊界 2 希爾伯特劃定有解數學問題的邊界 3 延伸閱讀:關於圖靈機 323 附錄 計算複雜度 327 第三版後記 333 索引
吳軍 學者,投資人,人工智慧、語音辨識和互聯網搜索專家。畢業於清華大學和美國約翰·霍普金斯大學,現任豐元資本創始合夥人、上海交通大學客座教授、約翰·霍普金斯大學工學院董事等職。 吳軍博士曾作為資深研究員和副總裁分別任職于Google公司和騰訊公司。在Google公司,他和同事一同開創了搜索反作弊研究領域,成立了中、日、韓文產品部門,設計了Google中、日、韓文搜索演算法,領導了Google自然語言處理和自動問答等研究型項目,擁有近20項美國發明專利。在騰訊公司,他負責了搜索、搜索廣告和街景地圖等項目。作為風險投資人,他成功地投資了150家矽谷和中國的高科技企業。吳軍博士對科技產業有深入的研究,是當今矽谷地區解讀IT產業的專家。 吳軍博士著有《數學之美》《大學之路》《文明之光》《智慧時代》《見識》《態度》和《全球科技通史》等多部暢銷書,並多次獲得包括文津獎、中國好書獎、中華優秀出版物在內的圖書大獎。
客服公告
热门活动
订阅电子报