Artificial Intelligence Self-study

Traditional AI (Symbolic AI)

基于：符号表示 + 数理逻辑 + 搜索 - 有明确规则，依靠算力。
Appliance ：数学难题(Heuristic Algorithm)，棋牌对抗(围棋)，专家系统(输入病症，输出可能疾病)
Related Algorithm：深搜(DFS) -> 广搜(BFS) -> Greedy Algorithm -> A* Algorithm -> Minimax(#棋)

the data structure of frontier in DFS is Stack.

the data structure of frontier in BFS is Queue.

Greedy algorithm add a weight in every node as an evidence to judge the current best choice.

A* Algorithm adds the cost of reaching this code to the weight of everynode to improve the efficiency of Greedy algorithm.

All of those algorithm is about how to find a best solution.

Machine Learning

推动: 现实的uncertainty 和传统AI中规则边界难以划定
种类
- 分类和回归
  - 回归问题(Regression)：结果是数值。
  - 分类问题(Classification)：结果是类别(标签)。
  - 聚类问题(Clustering)：群组划分。
- 监督和无监督
  - 监督学习：训练时提供完成的(x,y)
  - 无监督学习(Unsupervised learning): 训练时仅提供(x)，一般应用于集簇情况。但是，无监督学习生成的规则比监督学习生成的规则要更全面。，可能考虑到新的信息。并且极大扩充样本量
  - 半监督学习：有部分完成的(x，y)，部分仅有(x)。可以先进行无监督学习，在用完整部分进行验证修改。
  - 强化学习
  - 迁移学习
Library: Scikit-Learn, know as Sklearn (针对机器学习，不支持深度学习和强化学习)

基本逻辑

函数（模型）-> 模型类型
参数（参数与超参数）: 参数通过训练的得出，超参数一般为人为设定(有技术也可训练得出)
特征（输入 x）
目标（输出 y）
数据（训练数据）
学习率：在学习过程中，每一次调整参数的幅度。

给定模型，使用数据训练得出最优参数，从而损失函数最小。模型训练也就是损失函数优化。其中数据不一定都是对的，还可能存在反例(负样本)

训练流程

训练数据 -> 测试数据(保留30%训练数据来验证) -> 调整数据 -> 推理数据(应用)

回归分析(Regression Analysis)

根据数据，找出影响因素和结果之间的定量关系。
分类
- 一元回归（一个影响因素）和多元回归（多个影响因素）-> 变量数
- 线性回归（一条 y= ax + b 的直线）和非线形回归（抛物线等） -> 函数关系

线性回归

属于监督学习。把所有样本放在坐标系(不一定几维)里，耦合出一个函数公式。
函数表达式：y = ax + b 等
为了寻找到损失函数的最小值(最优a、b)，常会使用梯度下降法

梯度下降法：一种寻找最小值的方法。最优解也就是最符合规则的那条线，过多或过少都会导致损失函数的数值增大，所以是个二元一次方程（针对一元线性回归）。

操作：通过向函数上当前点对应的梯度的反方向按照相同步长(学习率) 距离点进行迭代搜索，直到在最小点收敛(导数为0)。

缺点：不一定找到全局最低点，往往找到的是局部最低点

效果评估

损失函数(Loss Function)：用于测量结果与实际之间的差距。越小越好。

J = 1 2 m ∑ i = 1 m ( y i , − y i ) 2

均方误差(MSE)：越小越好。

M S E = 1 m ∑ i = 1 m ( y i , − y i ) 2

R方值：越接近1越好

R 2 = 1 − ∑ i = 1 m ( y i , − y i ) 2 ∑ i = 1 m ( y i − y i ¯ ) 2 = 1 − M S E 方差

逻辑回归

用于解决二分类问题的逻辑回归方程：Sigmoid方程

Y = 1 1 + e − x

复杂问题的逻辑方程：

Y = 1 1 + e − g ( x )

其中，g(x)为划分边界(Decision Boundary)的边界函数。例如一条直线：

g ( x ) = Θ 0 + Θ 1 X 1 + Θ 2 X 2

其中，Θ ₀也称之为Bias。后面也表示为Θ ₀X₀。

效果评估

分类问题，标签和结果都是离散的点，所以无法使用线性回归的损失函数。所以，在逻辑回归中，损失函数变为：

J = − 1 m [ ∑ i = 1 m ( y i log ⁡ ( P ( x i ) ) + ( 1 − y i ) log ⁡ ( 1 − P ( x i ) ) ) ]

过拟合(Overfitting)和欠拟合(underfitting)

造成原因：模型复杂度与问题不匹配。或者，训练过度依赖于特定数据，不具有一般性。
判断过拟合方法：学习曲线（Learning Curve)，混淆矩阵（Confusion Matrix）。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

从混淆矩阵得到分类指标

样例总数 = TP + FP + TN + FN。

Accuracy(精确率) = (TP+TN)/(TP+FN+FP+TN)

Precision(正确率) = TP/(TP+FP)

Recall(召回率) = TP/(TP+FN)

FDR(负正类率) = FP/(TN+FP)

Specificity(特异性) = 1 - FPR

Confusion Matrix

解决过拟合部分方法
- 模型选择：减少影响参数 -> 把相关数据变为一个
- 特征选择：降低数据维度->用一维坐标表示二维带状分布
- 大数据：增大样本量
- 模型聚合及其变形
- 正则化(regularization): 也就是给损失函数后面加一个正则项。例如：线性回归的最小损失函数为：
J = 1 2 m ∑ i = 1 m ( y i , − y i ) 2 = 1 2 m ∑ i = 1 m ( g ( Θ , x i ) − y i ) 2

添加正则项后，损失函数变为：

J = 1 2 m ∑ i = 1 m ( g ( θ , x i ) − y i ) 2 + λ 2 m ∑ j = 1 n θ j 2

或

J = 1 2 m ∑ i = 1 m ( g ( θ , x i ) − y i ) 2 + λ 2 m ∑ j = 1 n | θ j |

当 λ取值大的情况下，可约束θ取值，从而有效控制各个属性数据的影响。

上方二次方的正则称之为岭回归-L2正则化

下方绝对值的正则称之为 Lasso回归-L1正则化

聚类问题

聚类分析：也成群分析，根据对象有些属性的相似性，将其自动划分为不同的类别。

常见聚类算法

KMeans算法（K均值聚类）

以空间中K个点为中心进行聚类，对最靠近他们的对象进行归类。

流程
- 根据数据与中心点的距离划分类别。
- 基于类别数据更新中心点。
- 重复过程直至收敛。
特点
- 实现简单，速度快。
- 但是，需要指定类别数量

Meanshift（均值偏移）

流程
- 在中心点一定区域检索数据
- 更新中心
- 重复过程直至收敛
特点
- 自动发现类别数量，不需要人工选择
- 需要给定区域半径

DBSCAN算法（基于密度的空间聚类算法）

流程
- 基于区域点密度筛选有效数据。
- 基于有效数据向周边扩张，直至没有新点加入。
特点
- 过滤噪声数据。
- 不需要人为选择类别数据。
- 数据密度不同时，影响结果。

决策树

决策树有点像if语句，这种机械学习算法可解释性强。

Deep Learning

神经网络（多层感知器，前馈神经网络）

优势：在不增加高次项的情况下，轻易解决非线性分类问题。

逻辑回归也能解决神经网络的问题。但是当X(影响参数)增加的情况下，逻辑表达式g(x)里会显著增加高次项如 X²和Xⁿ，或 X_nX_n+1的个数。增大计算难度。

感知器

模仿人类神经元。对不同的输入因子乘以对应权重相加，随后将结果二项化，输出。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中上图中的 f, 类似于Sigmoid函数，将结果落在 [0,1]。该函数称之为激活函数。

一个神经元，其实就是一个逻辑回归模型。

激活函数(Activation Function)

Sigmoid 函数

表达式：

Y = 1 1 + e − x

优点
- 贴近物理意义上神经元
- 求导容易
缺点
- 由于软饱和性，易产生梯度消失 (在两侧贴近极值) ，导致训练出问题
- 其输出不是以0为中心。[0,1]
图形：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Tanh函数（双曲正切，双曲函数之一）

表达式：

Y = 1 − e − 2 x 1 + e − 2 x

优点
- 比Sigmoid函数收敛更快
- 以0为输出中心
缺点
- 易产生梯度消失 (在两侧贴近极值) ，导致训练出问题
图形：

tanh

ReLU函数（Rectified Linear Unit，整流线性单位函数）

用于隐层神经元输出。

表达式：

Y = max ( 0 , x )

优点
- 由于线性、非饱和形式，可以快速收敛
- 有效缓解梯度消失问题
- 提供神经网络的稀疏表达能力
缺点
- 随着训练的进行，可能会出现神经元死亡，权重无法更新。那么流经神经元的梯度永远是0。也就是ReLU神经元在训练中不可逆的死亡了。
图形：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

多层感知器

左侧叫输入神经元(Input Layer, 输入层)，中间的叫隐含神经元(Hiden Layer, 隐藏层)，右侧叫输出神经元(Output Layer, 输出层)。

如果要增加多分类预测，则增加输出神经元个数即可。神经网络本质上就是函数嵌套。隐藏层的每一层都是对上一层的抽象与归纳。

每一个神经元都与下一层的所有神经元连接，称之为全连接。

反向传播：由于神经网络很难通过一个函数表示，所以无法用线性回归或逻辑回归的Loss Function来修正。神经网络本质上就是函数嵌套，从后往前，将每一层每个节点进行梯度计算，最终确定偏差点来源，然后更新。这个过程叫反向传播。
为什么需要更深的网络？更深的网络可以减少模型参数；可形成语义结构层次；更容易训练。

Dropout (“dropout” regularization)

我们每一次训练时，随机删除部分神经元，这样可以有效避免一个神经网络过拟合。

Dropout

批规范化(Batch Normalization)

其本质上是在训练过程加入噪音 , 从而让模型得到更好的鲁棒性 , 其特性令超深神经网络可以更好的训练。如果使用ReLU，其取值是[0,正无穷]。批规范化就是将结果规约到[0,1]。

数据增强

作用：增加样本量，增加泛化能力。
方法：
- 旋转
- 翻转
- 缩放
- 加入噪声
- 截取
- 加入弹性畸变

CNN（卷积神经网络）

主要用于空间相关性模型。

为什么全连接神经网络不能处理图像相关问题？

因为参数输入会非常非常大。如果一个100*100的图像去学习。那么参数就有100*100*3个参数。

并不是每个像素我们都需要，所以全连接没有必要。

全连接把拓扑结构破坏了。二维变成了一维。而CNN接受的输入是图像。

结构：输入层 -> 卷积层(提取特征)-> 池化(压缩特征) -> 全连接层 -> 输出层

卷积层

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

上面演示的卷积，是保持图片尺寸的卷积。如果我们仅对有像素的位置进行卷积，就可以缩小图片尺寸。

对于图像的卷积，操作方式是图像的RGB分量分别进行卷积进行相加，最后还要添加bias。最终得到的图片叫特征图(Feature Map)

步长：每次向右移动的个数。影响特征图的尺寸。
卷积核尺寸：Fliter的尺寸。
边缘填充：弥补边缘数据使用不充分的问题。一般进行0填充。
卷积核个数：需要得到几个特征图，就要有多少卷积核。
卷积核尺寸计算公式: S是步长，P是边缘填充个数。

H r = H 1 − F H + 2 P S + 1

每个卷积层后面一定要接一个激活函数。

池化层(Pooling)

池化层其实就是对特征图进行筛选。保留重要信息的基础上，对图片的尺寸进行缩减。跟卷积相似，其中也有步长。

如下图，就是步幅为2，池化窗口为2×2的最大池化层
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

AlexNet

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

VGGNet

ResNet

随着层数增加，反向传播的难度便会增加，使得模型调优变得困难。并且如果有一层学习效果不好，后续学习过程将会变成无用。ResNet解决了该问题。

ResNet

如果发现一部分层学习效果不好。就把参数做成0，相当于把一部分层drop了。

RNN（循环神经网络）

RNN

关系式：

a ( T x ) = g a ( θ a a a ( T x − 1 ) + θ a x x ( T x ) + θ a )

y ( T x ) = g y ( θ y a a ( T x − 1 ) + θ y x x ( T x ) + θ y )

为什么需要循环神经网络？

在部分场景中，每个单元并不是独立依存的，而是有前后联系的。

例如：自动寻找语句中的人名。(多输入-多输出模型)

The courses are taught by Flare Zhou and David Chen.

例如：情绪识别 (多输入-单输出模型)

I feel happy watching TV. -> Positive.

例如：序列数据生成- 音乐, 文章。(单输入-多输出模型)

例如：语言翻译 (多输入-多输出模型，input != output)

What is artificial intelligence？ -> 什么是人工智能？