预购商品
书目分类
特别推荐
第 1 部分 基礎技術 第 1 章 緒論 2 1.1 自然語言處理的基本概念 2 1.1.1 自然語言處理簡史 2 1.1.2 自然語言處理的主要研究內容 5 1.1.3 自然語言處理的主要難點 7 1.2 自然語言處理的基本範式 10 1.2.1 基於規則的方法 11 1.2.2 基於機器學習的方法 12 1.2.3 基於深度學習的方法 14 1.2.4 基於大模型的方法 15 1.3 本書內容安排 16 第 2 章 詞彙分析 18 2.1 語言中的詞彙 18 2.1.1 詞的形態學 18 2.1.2 詞的詞性 19 2.2 詞語規範化 23 2.2.1 詞語切分 23 2.2.2 詞形還原 24 2.2.3 詞幹提取 24 2.3 中文分詞 25 2.3.1 中文分詞概述 25 2.3.2 基於優選匹配的中文分詞演算法 28 2.3.3 基於線性鏈條件隨機場的中文分詞演算法 29 2.3.4 基於感知器的中文分詞演算法 31 2.3.5 基於雙向長短期記憶網路的中文分詞演算法 34 2.3.6 中文分詞評測方法 36 2.3.7 中文分詞語料庫 37 2.4 詞性標注 38 2.4.1 基於規則的詞性標注 39 2.4.2 基於隱瑪律可夫模型的詞性標注 40 2.4.3 基於卷積神經網路的詞性標注 42 2.4.4 詞性標注評測方法 44 2.4.5 詞性標注語料庫 45 2.5 延伸閱讀 46 2.6 習題 47 第 3 章 句法分析 48 3.1 句法概述 48 3.1.1 成分語法理論概述 49 3.1.2 依存語法理論概述 51 3.2 成分句法分析 53 3.2.1 基於上下文無關語法的成分句法分析 54 3.2.2 基於概率上下文無關語法的成分句法分析 59 3.2.3 成分句法分析評測方法 67 3.3 依存句法分析 69 3.3.1 基於圖的依存句法分析 70 3.3.2 基於神經網路的圖依存句法分析 74 3.3.3 基於轉移的依存句法分析 79 3.3.4 基於神經網路的轉移依存句法分析 82 3.3.5 依存句法分析評測方法 85 3.4 句法分析語料庫 86 3.5 延伸閱讀 89 3.6 習題 90 第 4 章 語義分析 91 4.1 語義學概述 91 4.1.1 詞彙語義學 92 4.1.2 句子語義學 96 4.2 語義表示 98 4.2.1 謂詞邏輯表示 99 4.2.2 框架表示 100 4.2.3 語義網路表示 102 4.3 分散式表示 103 4.3.1 詞分散式表示 104 4.3.2 句子分散式表示 114 4.3.3 篇章分散式表示 117 4.4 詞義消歧 119 4.4.1 基於目標詞上下文的詞義消歧演算法 119 4.4.2 基於詞義釋義匹配的詞義消歧演算法 122 4.4.3 基於詞義知識增強預訓練的詞義消歧演算法 126 4.4.4 詞義消歧評測方法 128 4.4.5 詞義消歧語料庫 128 4.5 語義角色標注 132 4.5.1 基於句法樹的語義角色標注演算法 132 4.5.2 基於深度神經網路的語義角色標注演算法 135 4.5.3 語義角色標注評測方法 140 4.5.4 語義角色標注語料庫和語義角色標注評測 140 4.6 延伸閱讀 143 4.7 習題 144 第 5 章 篇章分析 145 5.1 篇章理論概述 145 5.1.1 篇章的銜接 146 5.1.2 篇章的連貫 148 5.1.3 篇章的結構 149 5.2 話語分割 153 5.2.1 基於詞彙句法樹的統計話語分割演算法 154 5.2.2 基於迴圈神經網路的話語分割演算法 155 5.3 篇章結構分析 157 5.3.1 修辭結構篇章分析 157 5.3.2 淺層篇章分析 161 5.4 指代消解 167 5.4.1 基於表述對的指代消解演算法 168 5.4.2 基於表述排序的指代消解演算法 170 5.4.3 基於實體的指代消解演算法 175 5.5 延伸閱讀 179 5.6 習題 180 第 6 章 語言模型 181 6.1 語言模型概述 181 6.2 n 元語言模型 182 6.2.1 加法平滑 184 6.2.2 古德-圖靈估計法 184 6.2.3 Katz 平滑 185 6.2.4 平滑方法總結 187 6.3 神經網路語言模型 188 6.3.1 前饋神經網路語言模型 188 6.3.2 迴圈神經網路語言模型 189 6.4 預訓練語言模型 191 6.4.1 動態詞向量演算法 ELMo 191 6.4.2 生成式預訓練語言模型 GPT 193 6.4.3 遮罩預訓練語言模型 BERT 195 6.4.4 序列到序列的預訓練語言模型 BART 199 6.4.5 預訓練語言模型的應用 201 6.5 大規模語言模型 203 6.5.1 基礎大模型訓練 205 6.5.2 指令微調 207 6.5.3 人類回饋 209 6.6 語言模型評測方法 210 6.7 延伸閱讀 210 6.8 習題 212 第 2 部分 核心技術 第 7 章 信息抽取 214 7.1 信息抽取概述 214 7.2 命名實體識別 216 7.2.1 非嵌套命名實體識別 217 7.2.2 嵌套命名實體識別 225 7.2.3 多規範命名實體識別 230 7.2.4 命名實體識別評測方法 233 7.2.5 命名實體識別語料庫 233 7.3 關係抽取 235 7.3.1 有監督關係抽取 236 7.3.2 遠端監督關係抽取 240 7.3.3 開放關係抽取 245 7.3.4 關係抽取評測方法 249 7.3.5 關係抽取語料庫 250 7.4 事件抽取 251 7.4.1 限定域事件抽取 251 7.4.2 開放域事件抽取 255 7.4.3 事件抽取評測方法 260 7.4.4 事件抽取語料庫 260 7.5 延伸閱讀 261 7.6 習題 262 第 8 章 機器翻譯.263 8.1 機器翻譯概述 263 8.1.1 機器翻譯的發展歷程 264 8.1.2 機器翻譯的現狀與挑戰 265 8.2 基於統計的機器翻譯方法 266 8.2.1 任務定義與基本問題 266 8.2.2 IBM 模型Ⅰ 270 8.2.3 IBM 模型Ⅱ 274 8.2.4 IBM 模型Ⅲ 275 8.2.5 IBM 模型Ⅳ 276 8.2.6 IBM 模型Ⅴ 277 8.3 基於神經網路的機器翻譯方法 278 8.3.1 迴圈神經網路翻譯模型 279 8.3.2 卷積神經網路翻譯模型 281 8.3.3 自注意力神經網路翻譯模型 284 8.4 機器翻譯語料庫 288 8.5 延伸閱讀 290 8.6 習題 291 第 9 章 情感分析 292 9.1 情感分析概述 292 9.1.1 情感模型 293 9.1.2 情感分析的主要任務 297 9.2 篇章級情感分析 300 9.2.1 基於支持向量機的篇章級情感分析 301 9.2.2 基於層次結構的篇章級情感分析 303 9.2.3 篇章級情感分析語料庫 305 9.3 句子級情感分析 307 9.3.1 基於詞典的句子級情感分析 308 9.3.2 基於遞迴神經張量網路的句子級情感分析 309 9.3.3 基於情感知識增強預訓練的句子級情感分析 310 9.3.4 句子級情感分析語料庫 312 9.4 屬性級情感分析 313 9.4.1 情感資訊抽取 313 9.4.2 屬性級情感分類 319 9.4.3 屬性級情感分析語料庫 329 9.5 延伸閱讀 331 9.6 習題 331 第 10 章 智能問答 332 10.1 智能問答概述 332 10.1.1 智慧問答的發展歷程 333 10.1.2 智慧問答的主要類型 334 10.2 閱讀理解 336 10.2.1 基於特徵的閱讀理解演算法 337 10.2.2 基於深度神經網路的閱讀理解演算法 340 10.2.3 閱讀理解語料庫 346 10.3 表格問答 347 10.3.1 基於特徵的表格問答方法 348 10.3.2 基於深度學習的表格問答模型 349 10.3.3 表格問答語料庫 350 10.4 社區問答 351 10.4.1 基於特徵的語義匹配演算法 352 10.4.2 基於深度學習的語義匹配演算法 353 10.4.3 社區問答語料庫 356 10.5 開放領域問答 357 10.5.1 基於檢索-閱讀理解架構的開放領域問答模型 358 10.5.2 基於端到端架構的開放領域問答模型 360 10.5.3 開放領域問答語料庫 362 10.6 延伸閱讀 363 10.7 習題 364 第 11 章 文本摘要 365 11.1 文本摘要概述 365 11.1.1 文本摘要的發展歷程 365 11.1.2 文本摘要的主要任務 367 11.2 抽取式文本摘要 368 11.2.1 基於排序的方法 368 11.2.2 基於序列標注的方法 373 11.3 生成式文本摘要 377 11.3.1 序列到序列生成式文本摘要 378 11.3.2 抽取與生成結合式文本摘要 384 11.4 文本摘要評測 388 11.4.1 人工評測 389 11.4.2 自動評測 390 11.5 文本摘要語料庫 393 11.5.1 單文檔摘要語料庫 393 11.5.2 多文檔摘要語料庫 393 11.5.3 對話摘要語料庫 393 11.5.4 多模態文本摘要語料庫 394 11.5.5 跨語言文本摘要語料庫 394 11.6 延伸閱讀 394 11.7 習題 395 第 12 章 知識圖譜 396 12.1 知識圖譜概述 396 12.1.1 知識圖譜的發展歷程 398 12.1.2 知識圖譜的研究內容 399 12.2 知識圖譜的表示與存儲 400 12.2.1 知識圖譜的符號表示 401 12.2.2 知識圖譜的向量表示 404 12.2.3 基於表的知識圖譜存儲 407 12.2.4 基於圖的知識圖譜存儲 410 12.3 知識圖譜的獲取與構建 413 12.3.1 屬性補全 415 12.3.2 實體連結 417 12.3.3 實體對齊 421 12.4 知識圖譜推理 426 12.4.1 基於符號邏輯的知識圖譜推理 427 12.4.2 基於表示學習的知識圖譜推理 430 12.5 知識圖譜問答 434 12.5.1 基於語義解析的知識圖譜問答 435 12.5.2 基於資訊檢索的知識圖譜問答 437 12.5.3 基於深度學習的知識圖譜問答 441 12.5.4 知識圖譜問答語料庫 445 12.6 延伸閱讀 446 12.7 習題 447 第 3 部分 模型分析 第 13 章 模型穩健性 449 13.1 穩健性概述 449 13.1.1 穩健性的基本概念 450 13.1.2 穩健性的主要研究內容 451 13.2 數據偏差消除 452 13.3 文本對抗攻擊方法 454 13.3.1 字元級別的攻擊方法 455 13.3.2 詞級別的攻擊方法 456 13.3.3 句子級別的攻擊方法 458 13.3.4 後門攻擊 459 13.4 文本對抗防禦方法 463 13.4.1 基於對抗訓練的文本對抗防禦方法 463 13.4.2 基於表示壓縮的文本對抗防禦方法 465 13.4.3 基於數據增強的文本對抗防禦方法 466 13.4.4 對抗樣本檢測 468 13.5 模型穩健性評測基準 469 13.5.1 特定任務穩健性評測基準 469 13.5.2 模型穩健性通用評測基準 472 13.6 延伸閱讀 477 13.7 習題 478 第 14 章 模型可解釋性 479 14.1 可解釋性概述 479 14.1.1 可解釋性的分類 480 14.1.2 解釋方法評估 481 14.2 解釋性分析方法 483 14.2.1 局部分析方法 483 14.2.2 全域分析方法 489 14.3 自然語言處理演算法的解釋性分析方法 492 14.3.1 模型解釋性分析方法 492 14.3.2 數據解釋性分析方法 496 14.3.3 可解釋評估 498 14.4 延伸閱讀 500 14.5 習題 500 參考文獻 501 索引 564
張奇,復旦大學計算科學技術學院教授、博士生導師。主要研究方向是自然語言處理和資訊檢索,聚焦自然語言表示、資訊抽取、魯棒性和解釋性分析等任務。兼任中國中文資訊學會理事、中國中文資訊學會資訊檢索專委會常務委員、中國人工智慧青年工作委員會常務委員、SIGIR Beijing Chapter組織委員會委員等。多次擔任ACL、EMNLP、COLING、全國資訊檢索大會等重要國際、國內會議的程式委員會主席、領域主席、講習班主席等。近年來,承擔了國家重點研發計畫課題、國家自然科學基金、上海市科委等多個專案,在國際重要學術刊物和會議上發表論文150餘篇,獲得美國授權專利4項,作為第二譯者翻譯專著《現代資訊檢索》。獲得WSDM 2014很好論文提名獎、COLING 2018 領域獎、NLPCC 2019傑出論文獎、COLING 2022傑出論文獎。獲得上海市“晨光計畫”人才計畫、復旦大學“很好2025”人才培育計畫等支持,獲得錢偉長中文資訊處理科學技術一等獎、漢王青年創新一等獎、上海市科技進步二等獎、教育部科技進步二等獎、ACM上海新星提名獎、IBM Faculty Award等獎項。 桂韜,復旦大學自然語言處理實驗室副研究員、碩士生導師。研究領域為預訓練模型、資訊抽取和魯棒模型。在高水準國際學術期刊和會議上發表論文40餘篇,主持國家自然科學基金、計算機學會、人工智慧學會的多個基金項目。獲錢偉長中文資訊處理科學技術獎一等獎(2/5)、中國中文資訊學會優秀博士論文獎、COLING 2018 很好論文提名獎、NLPCC 2019 傑出論文獎,入選第七屆“中國科協青年人才托舉工程”、上海市啟明星計畫。 黃萱菁,復旦大學計算機學院教授、博士生導師。主要從事人工智慧、自然語言處理和資訊檢索研究。兼任中國中文資訊學會理事,中國計算機學會自然語言處理專委會副主任,中國人工智慧學會女科技工作者委員會副主任,計算語言學學會亞太分會副主席,亞太資訊檢索學會指導委員會委員。近年來,承擔了國家重點研發計畫課題、國家自然科學基金等多個專案,在國際重要學術刊物和會議上發表論文150餘篇。獲錢偉長中文資訊處理科學技術獎、上海市育才獎、人工智慧全球女性學者、福布斯中國科技女性等多項榮譽。
客服公告
热门活动
订阅电子报