超強NLP思維導(dǎo)圖，知識點全面覆蓋：從基礎(chǔ)概念到最佳模型，萌新成長必備資源

作者：栗子時間：2019-09-29 來源：量子位

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

本文經(jīng)AI新媒體量子位（公眾號 ID: QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

本文引用地址：http://2s4d.com/article/201909/405420.htm

一只萌新，想把自己修煉成一個成熟的NLP研究人員，要經(jīng)過一條怎樣的路？

有個名叫Tae-Hwan Jung的韓國小伙伴，做了一份完整的思維導(dǎo)圖，從基礎(chǔ)概念開始，到NLP的常用方法和著名算法，知識點全面覆蓋。

可以說，從0到1，你需要的都在這里了：

這份精致的資源剛剛上線，不到一天Reddit熱度就超過400，獲得了連篇的贊美和謝意：

“肥腸感謝?！薄拔倚枰木褪沁@個！”“哇，真好??！”

所以，這套豐盛的思維導(dǎo)圖，都包含了哪些內(nèi)容？

四大版塊

就算你從前什么都不知道，也可以從第一個版塊開始入門：

1 概率&統(tǒng)計

從中間的灰色方塊，發(fā)散出5個方面：

基礎(chǔ) (Basic) ，采樣 (Sampling) 、信息理論 (Information Theory) 、模型 (Model) ，以及貝葉斯 (Baysian) 。

每個方面，都有許多知識點和方法，需要你去掌握。

畢竟，有了概率統(tǒng)計的基礎(chǔ)，才能昂首挺胸進入第二個板塊。

2 機器學(xué)習(xí)

這個版塊，一共有7個分支：

線性回歸 (Linear Regression) 、邏輯回歸 (Logistic Regression) 、正則化 (Regularization) 、非概率 (Non-Probabilistic) 、聚類 (Clustering) 、降維 (Dimensionality Reduction) ，以及訓(xùn)練 (Training) 。

掌握了機器學(xué)習(xí)的基礎(chǔ)知識和常用方法，再正式向NLP進發(fā)。

3 文本挖掘

文本挖掘，是用來從文本里獲得高質(zhì)量信息的方法。

圖上有6個分支：

基本流程 (Basic Procedure) 、圖 (Graph) 、文檔 (Document) 、詞嵌入 (Word Embedding)、序列標(biāo)注 (Sequential Labeling) ，以及NLP基本假設(shè) (NLP Basic Hypothesis)。

匯集了NLP路上的各種必備工具。

4 自然語言處理

裝備齊了，就該實踐了。這也是最后一張圖的中心思想：

雖然只有4個分支，但內(nèi)容豐盛。

一是基礎(chǔ) (Basic) ，詳細梳理了NLP常用的幾類網(wǎng)絡(luò)：循環(huán)模型、卷積模型和遞歸模型。

二是語言模型 (Language Model) ，包含了編碼器-解碼器模型，以及詞表征到上下文表征 (Word Representation to Contextual Representation) 這兩部分。許多著名模型，比如BERT和XLNet，都是在這里得到了充分拆解，也是你需要努力學(xué)習(xí)的內(nèi)容。

三是分布式表征 (Distributed Representation) ，許多常用的詞嵌入方法都在這里，包括GloVe和Word2Vec，它們會一個個變成你的好朋友。

四是任務(wù) (Task) ，機器翻譯、問答、閱讀理解、情緒分析……你已經(jīng)是合格的NLP研究人員了，有什么需求，就調(diào)教AI做些什么吧。

看完腦圖，有人問了：是不是要把各種技術(shù)都實現(xiàn)一下？

韓國少年說：“不不，你不用把這些全實現(xiàn)一遍。找一些感覺有趣的，實現(xiàn)一波就好了?！?/span>