自然语言处理_西湖大学_中国大学MOOC(慕课)

播放

认证学习

自然语言处理

开课时间： 2025年03月03日 ~ 2025年06月06日

学时安排： 3-5小时每周

进行至第9周，共14周已有 795 人参加

认证学习

认证成绩和证书

智能问答和解析

视频学习辅助

立即参加

课程详情

课程评价(31)

spContent=西湖大学张岳教授的自然语言处理课程上线中国大学慕课！自然语言处理(NLP)是人工智能的一个重要分支，研究算法如何自动的理解和生成人类语言。本课程以机器学习理论和模型算法为核心，介绍自然语言处理技术基础。本课程适合高年级的相关专业本科生，和从事相关方向研究的硕士生和博士生。学习本课程之后，学生可以掌握自然语言处理领域的关键数学基础，轻松阅读前沿科技文献，具备深入模型设计和创新的基本条件。张岳，西湖大学长聘教授。2003年毕业于清华大学计算机科学专业，获得学士学位；2006年毕业于牛津大学计算机科学专业，获得硕士学位；2009年毕业于牛津大学计算机科学专业，获得博士学位。2010年3月-2012年6月在剑桥大学计算机科学专业从事博士后研究。2012年7月-2018年8月在新加坡科技与设计大学担任助理教授。2017年3月起担任新加坡国立大学商学院荣誉研究员。2018年9月全职加入西湖大学工学院。目前谷歌学术引用量超过1.6万次，H因子68。

西湖大学张岳教授的自然语言处理课程上线中国大学慕课！自然语言处理(NLP)是人工智能的一个重要分支，研究算法如何自动的理解和生成人类语言。本课程以机器学习理论和模型算法为核心，介绍自然语言处理技术基础。本课程适合高年级的相关专业本科生，和从事相关方向研究的硕士生和博士生。学习本课程之后，学生可以掌握自然语言处理领域的关键数学基础，轻松阅读前沿科技文献，具备深入模型设计和创新的基本条件。张岳，西湖大学长聘教授。2003年毕业于清华大学计算机科学专业，获得学士学位；2006年毕业于牛津大学计算机科学专业，获得硕士学位；2009年毕业于牛津大学计算机科学专业，获得博士学位。2010年3月-2012年6月在剑桥大学计算机科学专业从事博士后研究。2012年7月-2018年8月在新加坡科技与设计大学担任助理教授。2017年3月起担任新加坡国立大学商学院荣誉研究员。2018年9月全职加入西湖大学工学院。目前谷歌学术引用量超过1.6万次，H因子68。

—— 课程团队

课程概述

自然语言处理(natural language processing, NLP)是人工智能的一个重要分支，研究算法如何自动的理解和生成人类语言。近些年，自然语言处理受到了越来越多的关注，从智能检索到智能翻译、智能音箱、GPT等模型的影响十分广泛。

自然语言处理背后的基本技术是机器学习，自然语言的特性使得自然语言处理领域的机器学习技术具有自身的重要特点，而这些特点，也为整个机器学习领域的发展提供了重要贡献。理解自然语言处理背后的机器学习基础，为深入理解语言处理技术，灵活应用相关模型工具，进行研究和技术创新提供必要条件。

本课程以机器学习理论和模型算法为核心，介绍自然语言处理技术基础。本课程适合高年级的相关专业本科生，和从事相关方向研究的硕士生和博士生。学习本课程之后，学生可以掌握自然语言处理领域的关键数学基础，轻松阅读前沿科技文献，具备深入模型设计和创新的基本条件。

授课目标

掌握基础自然语言处理数学模型，深入理解领域前沿技术，具备阅读自然语言处理领域最新论文的必要知识，具备调整模型和技术创新的基础知识。

课程大纲

自然语言处理领域介绍（Introduction）

课时目标：第一课(教材第一章)自然语言处理领域介绍，发展历史，主要任务，以及为什么需要从机器学习视角进行探讨。

1.1、自然语言处理领域介绍及其发展历史(NLP)

1.2、基础NLP任务介绍-句法分析任务

1.3、基础NLP任务介绍-语义分析任务

1.4、基础NLP任务介绍-信息抽取任务

1.5、基础NLP任务介绍-文本生成任务及其他任务介绍

1.6、使用机器学习视角学习自然语言处理的必要性

概率模型（Counting Relative Frequency）

课时目标：第二课(教材第二章)数学模型的概念和基础，概率模型基础，生成式模型的概念，以及两个实例：N元语言模型，朴素贝叶斯模型。

2.1､最大似然估算和词概率模型

2.2、概率模型理论总结

2.3、一元语言模型（Unigram LM）

2.4、贝叶斯公式推导（复习）

2.5、二元语言模型（Bigram LM）

2.6、三元语言模型和生成模型

2.7、Knessay-Ney Smoothing

2.8、Good-Turing Smoothing

2.9、朴素贝叶斯文本分类

向量数学模型（Feature Vectors）

课时目标：第三课(教材第三章)向量数学模型的基础，文档的向量表示，基于向量的文档聚类和分类问题对比，K均值聚类，感知机，支持向量机，特征的概念，判别模型与生成模型的对比。

3.1、特征向量和如何将文档映射到向量空间中

3.2、聚类（Clustering）

3.3、文本分类-支持向量机（SVM）

3.4、文本分类-感知机（Perceptron）

3.5、多分类问题

3.6、多分类支持向量机和感知机

3.7、判别式模型和特征

3.8、判别、生成与线性模型讨论

3.9、可分性、泛化性以及线性不可分问题

对数线性模型（Discriminative Linear Classifiers）

课时目标：第四课(教材第四章)概率模型与判别模型的统一，对数线性模型，随机梯度下降训练方法，三种判别式分类模型的统一，通用感知机(单层神经网络)，模型的拟合与泛化，模型的集成融合。

4.1、对数线性模型

4.2、对数线性模型的训练

4.3、多分类对数线性模型的训练

4.4、对数线性模型小结

4.5、利用随机梯度下降的支持向量机训练

4.6、支持向量机与感知机模型

4.7、判别式分类模型总结

4.8、多模型的比较和融合

4.9、多模型堆叠

信息论（Using Information Theory）

课时目标：第五课(教材第五章)信息论中的基本概念和自然语言处理模型的关系，信息熵、交叉熵、困惑度、互信息、条件熵、KL散度，最大熵模型原理，最大熵与最大似然估算的内在联系。

5.1、自然语言处理中的信息论

5.2、最大熵模型

5.3、KL散度、交叉熵与困惑度

5.4、互信息

5.5、点互信息

5.6、词的向量表示

隐变量（Hidden Variables）

课时目标：第六课(教材第六章)隐变量的定义和概念，期望最大算法的理论推导和证明、使用期望最大算法解决聚类问题、IBM翻译模型、probabilistic latent semantic allocation。

6.1、隐变量

6.2、期望最大算法（Hard EM）

6.3、标准期望最大算法

6.4、EM算法应用- IBM model 1

6.5、EM算法应用-概率潜在语义分析

6.6、EM算法的推导

生成式序列标注（Generative Sequence Labeling）

课时目标：第七课(教材第七章)结构预测模型的概念，序列标注问题，生成式序列标注模型，隐马尔可夫模型，维特比算法，边缘概率计算，期望最大训练。

7.1、序列标注任务

7.2、隐马尔可夫模型

7.3、隐马尔可夫模型的解码

7.4、计算边缘概率

7.5、无监督的隐马尔可夫模型

7.6、Precision，Recall和F1-score

判别式序列标注（Discriminative Sequence Labeling）

课时目标：第八课(教材第八章)判别式序列标注模型，最大熵马尔可夫模型，感知机、支持向量机和对数线性模型，对于结构预测问题的扩展，条件随机场，边缘概率计算。

8.1、判别式序列标注

8.2、局部的判别式序列标注模型

8.3、最大熵马尔可夫模型的解码

8.4、标签偏置问题

8.5、条件随机场（CRF）

8.6、CRF解码问题

8.7、CRF对边缘概率的计算

8.8、CRF的训练

8.9、用于结构预测问题的感知机模型

8.10、用于结构预测问题的支持向量机模型

序列切分（Sequence Segmentation）

课时目标：第九课(教材第九章，可选)序列切分问题，判别式序列切分建模，感知机、条件随机场、对数线性模型对序列切分问题的扩展，半马尔可夫条件随机场模型，边缘概率计算，机器学习引导的柱搜索算法。

9.1、序列切分问题

9.2、序列切分问题的序列标注方法

9.3、对序列切分任务直接建模

9.4、序列切分中的解码问题

9.5、半马尔可夫条件随机场

9.6、半马尔可夫条件随机场的训练

9.7、最大边缘模型

9.8、感知机模型和柱搜索

9.9、柱搜索和感知机模型的训练

贝叶斯网络（Bayesian Network）

课时目标：第十课(教材第十二章，可选) 本章介绍概率图模型，也叫做贝叶斯网络（Bayesian Network）。贝叶斯网络是生成式模型的一种泛化形式，它既可以适用于生成式任务，也可以用于分类任务。

10.1、贝叶斯网络（Bayesian Network）

10.2、贝叶斯网络的训练和最大似然估算

10.3、最大后验的训练方式（Maximum a Posteriori）

10.4、共轭先验（Conjugate Priors）

10.5、贝叶斯估算（Bayesian Estimation）

10.6、贝叶斯一元语言模型（Bayesian Unigram LM）

10.7、模型推断（Inference）

10.8、LDA主题模型

10.9、贝叶斯IBM Model 1

神经网络（Neural Networks）

课时目标：第十一课(教材第十三章)神经网络基础，单层感知机到多层感知机的扩展，神经网络的随机梯度下降训练，反向传播，词嵌入，池化、卷积神经网络，基于神经网络的文本分类，随机梯度下降的优化技巧。

11.1、深度学习介绍及多层感知机模型（MLP）

11.2、使用多层感知机（MLP）进行文本分类

11.3、多层感知机（MLP）的训练

11.4、MLP的训练-反向传播（Back-Propagation）和推导

11.5、基于神经网络的文本分类器

11.6、序列编码（Sequence Encoding）-池化和卷积

11.7、神经网络的输出层和模型训练

11.8、如何更好地训练神经网络

11.9、改进SGD来更好地训练神经网络

表示学习（Representative Learning）

课时目标：第十二课(教材第十四章)表示学习基础，序列表示模型，长短期记忆网络，自注意力机制网络，树状结构的神经网络表示，图状结构的神经网络表示，网络表示分析，随机梯度下降的改进方法，Adagrad，RMSProp，ADAM。

12.1、表示学习

12.2、循环神经网络（RNN）

12.3、长短期记忆网络（LSTM）

12.4、LSTM的扩展（Bi-LSTM）、简化（GRU）和堆叠，注意力机制（Attention Mechanism）

12.5、QKV attention和自注意力网络

12.6、树状结构的表示（Representing Tree）以及树状LSTM

12.7、图的表示（Representing Graph）以及图神经网络（GNN）

12.8、神经网络隐藏层表示的分析

12.9、神经网络的训练技巧

基于神经网络的结构预测（Neural Structured Prediction）

课时目标：第十三课(教材第十五章；根据第九章的选修，部分内容可选)基于神经网络的结构预测方法，基于图的局部模型，基于转移的局部模型，基于图的全局模型，Neural CRF，基于转移的全局模型。

13.1、神经结构预测问题

13.2、神经序列标注

13.3、神经依存句法分析

13.4、神经成分句法分析

13.5、局部的基于转移的模型和模型1

13.6、局部的基于转移的模型2和模型3

13.7、全局的结构模型

13.8、全局模型与基于转移的神经网络模型的结合

序列到序列的神经网络（Working with Two Texts）

课时目标：第十四课(教材第十六章)序列到序列的神经网络，transformer，文本匹配模型，卵生网络，记忆网络模型。

14.1、如何处理两个文本和Seq2Seq模型

14.2、使用注意力机制的LSTM序列到序列模型

14.3、如何从源端拷贝文本

14.4、BPE（Byte-Pair Encoding）编码

14.5、Transformer

14.6、文本匹配（Text Matching）

14.7、基于Attention的文本匹配模型

14.8、非对称的文本匹配

14.9、多步推理任务和记忆网络

预训练（Pre-training）

课时目标：第十五课(教材第十七章)预训练的概念，词嵌入的预训练，基于上下文的预训练，神经语言模型，word2vec，GloVe，BERT，BART，GPT，迁移学习，多任务学习，对抗训练。

15.1、迁移学习和预训练

15.2、Noisy Contrastive Estimation

15.3、从结构上优化预训练语言模型

15.4、预训练词嵌入表示

15.5、GloVe词嵌入

15.6、词嵌入的评估

15.7、词嵌入模型中的OOV问题

15.8、ELMo，GPT，BERT和BART

15.9、迁移学习

深度隐变量模型（Deep Latent Variable Models）

课时目标：第十六课(教材第十八章，可选)本章将从三个方面讨论深度隐变量模型（Deep Latent Variable Models）：1）隐变量与神经网络的关系2）离散隐变量、结构隐变量以及连续隐变量与神经网络的结合3）离散隐变量与神经网络的应用

16.1、隐变量与神经网络的关系

16.2、离散隐变量神经网络模型-具有隐变量的词袋模型

16.3、离散隐变量神经网络模型-具有隐变量的RNN模型

16.4、引入结构化的隐变量-序列标注

16.5、引入结构化的隐变量-句子切分

16.6、引入结构化的隐变量-成分句法

16.7、引入连续的隐变量

16.8、变分自编码器

16.9、变分自编码器—Gumbel-max方法

16.10、VAE的应用—主题模型

16.11、VAE的应用—语言建模

展开全部

预备知识

预备知识：线性代数、微积分、概率论、算法基础。如果了解数值分析(第3章、第13章、第14章)、泛函分析(第4章)、信息论(第5章)，会使相关章节部分内容的学习更加轻松。

参考资料

张岳，滕志扬，《Natural Language Processing - A Machine Learning Perspective》，剑桥大学出版社，2021年，ISBN-10 1108420214
Jurafsky, D., Martin, J. (2020) Speech and Language Processing, 3rd Edition.

常见问题

Q : 本课程的考试方式是怎样的？

A : 本课程不设期末考试，通过习题和编程两种方式进行积分，以累计分数为最终评价标准。

Q : 我在学习课程的过程中是否需要编程？

A : 本课程以讲授数学建模知识为主，可以通过课后习题或者编程的方式通过考核。因此纯理论学习也可以优秀地通过本课程，但强烈建议有条件的同学进行相应编程。

Q : 我需要怎样的电脑才能完成课程的相应编程练习？

A : 一个具有基本配置的个人电脑即可完成自然语言处理课程的大部分编程练习，推荐：

处理器：推荐具有i5或以上配置；
内存：推荐8GB或以上；
硬盘：推荐有256GB的存储空间；
显卡：若需要使用GPU加速，请选择Nvidia GPU；
操作系统：推荐使用Windows 10或Ubuntu 20.04及以上版本；
开发环境：请安装Anaconda，以及相关的Python库，如NumPy，Pandas，Matplotlib，PyTorch等。

Q : 本课程的内容对我来说比较多，能否选择其中的一部分重点学习？

A : 根据时间和精力，本课程的第9章，第12章，第18章，以及第15章对应第9章的内容可以作为选修部分。完成这些部分的同学可以得到额外分数。

Q : 是否必须阅读英文版教材？

A : 不必须。幻灯片讲义里包含了尽可能多的细节。同学们可以根据讲授内容自己做笔记。本书中文版尚未推出。

1 位授课老师

张岳

教授

张岳

友情链接

关注我们

关于我们

张岳

推荐课程

【DeepSeek适用】小白玩转AI大模型应用开发

林粒粒

小白玩转 Python 数据分析

林粒粒

友情链接

关注我们

关于我们