GPT5新時代：多模態深度學習精實操練


	本書包括四大部分，第一部分包括第1、2章，第1章介紹多模態資訊的基本概念、難點、使用深度學習方法的動機、多模態資訊處理的基礎技術，以及這些技術的發展歷史，第2章介紹主流多模態研究任務。第二部分包括第3、4章，分別介紹多模態深度學習模型中常用的文本表示和圖像表示技術。第三部分包括第 5∼8 章，分別介紹針對特定任務，以深度學習為基礎的多模態表示、對齊、融合和轉換這 4 種技術，且每章都提供了一個可運行的、完整的實戰案例。第四部分即第9章，介紹綜合使用上述基礎技術，並以學習通用多模態表示或同時完成多個多模態任務為目標的多模態預訓練技術，在現今AI技術範式轉換的時代，將會是你精通人工智慧的重要參考資料。


	目錄第 1 章緒論 1.1 多模態資訊處理的概念 1.2 多模態資訊處理的困難 1.3 使用深度學習技術的動機 1.4 多模態資訊處理的基礎技術 1.5 多模態深度學習技術的發展歷史 1.6 小結 1.7 習題第 2 章多模態任務 2.1 圖文跨模態檢索 2.2 影像描述 2.3 視覺問答 2.4 文字生成影像 2.5 指代表達 2.6 小結 2.7 習題第 3 章文字表示 3.1 基於詞嵌入的靜態詞表示 3.2 基於循環神經網路的動態詞表示 3.3 基於注意力的預訓練語言模型表示 3.4 小結 3.5 習題第 4 章影像表示 4.1 基於卷積神經網路的整體表示和網格表示 4.2 基於物件辨識模型的區域表示 4.3 基於視覺 transformer 的整體表示和區塊表示 4.4 基於自編碼器的壓縮表示 4.5 小結 4.6 習題第 5 章多模態表示 5.1 共用表示 5.2 對應表示 5.3 實戰案例：基於對應表示的跨模態檢索 5.4 小結 5.5 習題第 6 章多模態對齊 6.1 基於注意力的方法 6.2 基於圖神經網路的方法 6.3 實戰案例：基於交叉注意力的跨模態檢索 6.4 小結 6.5 習題第 7 章多模態融合 7.1 基於雙線性融合的方法 7.2 基於注意力的方法 7.3 實戰案例：基於 MFB 的視覺問答 7.4 小結 7.5 習題第 8 章多模態轉換 8.1 基於編解碼框架的方法 8.2 基於生成對抗網路的方法 8.3 實戰案例：基於注意力的影像描述 8.4 小結 8.5 習題第 9 章多模態預訓練 9.1 整體框架 9.2 預訓練資料集 9.3 模型結構 9.4 預訓練任務 9.5 下游任務 9.6 典型模型 9.7 小結 9.8 習題參考文獻