常见的机器算法原理及优缺点

算法	基础原理	优点	缺点	应用场景
线性回归	最小二乘法	思想简单，实现容易，建模迅速，对于小数据量、简单的关系更有效线性回归模型十分容易理解，结果具有很好的可解释性，有利于决策分桥	对于非线性数据或者数据特征间具有相关性多因子模型项式回归难以建模难以很好地表达高度复杂的数据	因子模型ARIMAGARCH
Logistic Regression	线性回归+Sigmoid函数(非线形)映射	实现简单分类时计算量非常小，速度很快，存储资源低便利的观测样本概率分数结合正则化允许多重共线性计算代价不高，易于理解和实现	当特征空间很大时，逻辑回归的性能一般容易欠拟合，一般准确度不太高不能很好地处理大量多类特征或变量只能处理两分类问题，且必须线性可分对于非线性为征，需要进行X换	信用评估预测收益风险事件预测经济预测
朴素贝叶斯	培合先验概率和后验概率，假设目标值互相独立	数学基础强，分类效率稳定对超大规模的训练集速度较快对小规模的数据表现很好，能个处理多分类任务，适合增量式训练对缺失数据不太敏感，算法较简单朴素贝叶斯对结果解轻较容易	需要计算先验概率对输入数据的形式敏感样本属性有关联时效果不好	文本分类文本情感分桥
KNN	釆用向量空间模型分类，输入包含特征空间(Feature Space)中的k个最接近的训练样本	理论成熟，思想简单，既可以用来做分类也可以用来做回归可用于非线性分类对数据没看假设，准确度高，对奇异值不敏感新数据可以直按加入数据集而不必进行至新训练	样本不平衡问题效果差；对于样本容量大的数据集计算量比较大，需要大量内存样本不平衡时，预测偏差比较大KNN每一次分类都会至新进行一次全局运算 k值大小的选择没看理论选择最优	文本分类模式识别聚类分析多分类问题
SVM	对数据进行二元分类的广义线性分类器，其决策边界是对学习样本求解的最大边距超平面（maximum-marginhyperplane)	可以解决高维问题解决小样本下机器学习问题能够处理非线性为征的相互作用无局部极小值问题无需依赖整个数据集泛化能力较强	当观测样本很多时，效率不高対非线性问题没有通用解决方案，找到一个合适的核函数较难对于核函数的高维映射解释力不强，尤其是径向基函数常规SVM具支持二分类对缺失数据敏感	涨跌分类违约分类
决策树	一颗由多个判断节点组成的树，在树的每个节点做参数判断，进而存树的最末枝(叶结点)能够所关心变量的取值作出最佳判断	决策树易于理解和解轻，可以可视化分析，容易提取出规则可以同时处理标称型和数值型数据比较适合处理有缺失属性的样本能培处理不相关的特征测试数据集时，运行速度比较快在相对短的时间内能够对大型数据源做出可行且效果良好的结果	容易发生过拟合容易忽路数据集中属性的相互关联对于那些各类别样本数量不一致的数据，在决策树中，进行属性划分时，不同的判定准则会带来不同的属性选择倾向 ID3算法计算信息增益时结果偏向数值比较多的特征	投资决策公司信用判断
随机森林	随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个体树输出的类别的众数而定	随机森林具有防止过拟合能力，精度比大多数单个算法要好随机森林分类器可以处理缺失值在训练过程中，能够检测到特征间的互相影响，计算特征的重要性每棵树可以独立、同时生成，容易并行化具有一定的特征选择能力	随机森林己经被证明在某些噪音较大的分类或回归问题上会过拟合对于看不同取值的属性的数据，取值划分较多的属性会对随机森林产生更大的影响，所以随机森林存这种数据上产出的属性权值不可信	信用分类问题收益率预测
Adaboosting	Adaboost是模型为加法模型，学习算法为前向分步学习算法，损失函数为指数函数的算法	高精度的分类器可以使用各种方法构建子分类器，Adaboost算法提供的是枢架当使用简单分类器时，计算出的结果是可以理解的弱分类器的构造简单不用做特征筛选不易发生过拟合	对outlier比较敏感 AdaBoost迭代次数不好设定，可以使用交叉验证来进行确定数据不平衡导致分类精度下降训练比较耗时，每次重新选择当前分类器最好切分点	市场模式识别收益率预测
GBDT	每一次建立模型是在之前建立模型损失函数的梯度下降方向弱学习器限定具能使用CART回归树模型	GBDT属于强分类器，一般情况下比逻辑回归和决策树预测精度要高 GBDT可以自己选择损失函数，当损失函数为指数函数时，GBDT变为Adaboost算法 GBDT可以做特征组合，往往在此基础上和具他分类器进行配合	弱学习器之间存在依赖关系，难以并行训练数据和其他树模型一样，不适合高维稀疏特征	小特征空间收益率预测
XGBoost	对梯度提升算法的改进，求解损失函数极值时使用了牛顿法，将损失函数泰勒展开到二阶，损失函数中加入了正则化项	对为征值进行提钱排序，实现一定程度的并行运算，提升运算速度	只适合处理结构化数据，不适合处理超高维特征数据	小特征空间收益率预测
LightGBM	基于GBDT算法的框架，支持高效率的并行训练，并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据	更快的训练速度和更高的效率更低的内存占用由于存训练时间上的缩减，具有处理大数据的能力支持并行学习	可能会长出比较深的决策树，产生过拟合由于LightGBM是基于偏差的算法，所以会对噪点较为敏感在寻找最优解时，依据的是最优切分变量，没有将最优解是全部特征的综合这一可能考虑进去	大特征空间信用基差预测收益率预测
神经网络	模仿了生物神经元信号相互传递的方式，人工神经网络(ANN)由节点层蛆成，包含一个输入层，一个或多个隐蔽层和一个输出层	分类的准确度高并行分布处理能力强，分布存储及学习能力强对噪声神经有较强的鲁棒性和容错能力具备联想记忆的功能，能充分逼近复杂的非线性关系	神经网络需要大量的参数，如网络拓扑结构、权值和阈值的初始值黑盒过程，不能观察之间的学习过程，输出结果难以解释，影响到结果的可信度学习时间过长，容易过拟合而且易陷入局部最优	信用违约自然语言处理衍生品定价
CNN	由一个或多个卷枳层和顶端的全连接层(对应和池化层经典的神经网络)组成，同时也包括关联权重和池化层(pooling layer)，这一结构使得卷枳神经网络能够利用输入数据的二维结构	重共享策略减少了需要训练得参数，相同得权值可以让滤波器不受信号位置的影响来检测信号的特性，使得训练出来的模型的泛化能力更强池化运算可以降低网络的空间分辨率，从而消除信号的微小偏移和扭曲，从而对输入数据的平移不变性要求不高	容易出现梯度消散	图像处理检测分类目标检测
RNN	基于神经网络，其中节点之间的连按形成一个有向图沿着序列，允许展示时间序列的时间动态行为	模型是时间维度上的深度模型，可以对序列内容建模	需要训练的参数多，容易造成梯度消散或梯度爆炸问题不具看特征学习能力长时依赖问题(Long-TermDependencies)	自然语言处理语音识别
LSTM	基于RNN，通过遗忘门和输出门忘记部分信息来解决梯度消失的问题	通过遗忘门和输出门忘记部分信息来解决梯度消失的问题	信息在过远的距离中损失很大无法很好地并行	大数据量时间序列
K-Means	基于欧式距离的聚类算法，其认为两个目标的距离越近，相似度越大	算法简单，容易实现，速度很快对处理大数据集，该算法是相对可伸缩的和高效率的，因为它的复杂度大约是O(nkt)，其中n是所有对象的数目，k是簇的数目，t是迭代的次数，通常k«n，这个算法通常局部收敛当簇是密集的，球状或团状的，且簇与簇之间区别明量时，聚类效果较好	对数据类型要求较高，适合数值型数据可能收敛到局部最小值，在大规模数据上收敛较慢分组的数目k是一个输入参数，不合话的k可能返回较差的结果对初值的簇心值敏感，对于不同的初始值，可能会导致不同的聚类结果不适合于发现非凸面形状的簇，或者大小差别很大的簇对于“噪声”和孤立点数据敏感，少量的该类数据能够对平均值产生极大影响	无标记的文本分类
EM最大期望算法	渔过迭代进行极大似然估计(Maximum Likelihood Estimation，MLE)的优化算法，通常作为牛顿迭代法(Newton-Raphson method)的替代用于对包含隐变量或缺失数据的概率模型进行参数估计	比K-means算法计算结果稳定、准确	比K-means算法计算复杂，收敛也较慢不适于大规模数据集和高维数据	低维特征空间小规模数据聚类
密度聚类	假设聚类结构能通过样本分布的紧密程度确定。通常情形下，密度聚类算法从样本密度的角度来考察样本之间的可连接性，并基于可连接样本不断扩展聚类簇以获得最终的聚类结果	可以对任意形状的稠密数据集进行聚类，相对的K均值之类的聚类算法一般具适用于凸数据集可以在聚类的同时发现异常点，对数据集中的异常点不敏感初始值对聚类结果影响不大	如果样本集的密度不均匀，聚类间距差相差很大时，聚类质量较差如果样本集较大时，聚类收敛时间较长，此时可以对搜索最近邻时建立的KD树或球树进行规模限制来改进调参相对于传统的K-Means之类的聚类算法稍复杂，不同的参数组合对最后的聚类效果有较大影响	文本数据分类
层次聚类	通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树、存聚类树中，不同类别的原始数据点是树的最低层，树的顶层是一个聚类的根节点	距离和规则的相似度容易定义，限制少不需要预先制定聚类数可以发现类的层次关系可以聚类成其它形状	计算复杂度太高对奇异值敏感算法很可能聚类成链状	产业链聚类
GRU	基于RNN，取消了LSTM中的cellstate，在使用了hiddenstate，并且使用更新门来替换LSTM中的输入门和遗忘门，取消了LSTM中的输出门，新增了重置门	GRU的参数量少，减少过拟合的风险	学习效率不高	小数据量时间序列
RBM	一种无向图，属于生成式随机双层神经网络，该网络由可见单元和隐蔽单元构成，可见变量和隐蔽变量都是二元变量	能辂处理缺失/不规则数据不需要数据的标签信息	计算时间长对抽样噪音敏感	降维分类特征学习主题建模
GAN	一种生成模型，模型包括生成器(Generator)和判别器(Discriminator)两个网络，训练的过程用到了二人零和博弈的思想	能更好建模数据分布理论上，GANs能训练任何一种生成器网络。其他的框架需要生成器网络和一些特定的函数形式，比如输出层是高斯的无需利用马尔科夫链反复釆样，无需在学习过程中进行推断	难训练，不稳定，生成器和判别器之间需要很好的同步，但是存实际训练中很容易D收敛，G发散 GANs的学习过程可能出现模式缺失，生成器开始退化，重复生成同样的样本点，无法继续学习	自动提取特征自动判断和优化
自编码器	一种利用反向传播算法使得输出值等于输入值的神经网络，它先将输入压缩成潜在空间表征，然后同过这种表征来重构输出	泛化性强无斐督不需要数据标注训练速度快	需要大量清洁数据信息损失较大	异常监测数据去噪数据降维
强化学习	描述和解决智能体(agent)在与环境的交互过程中通过学习策路以达成回报最大化或实现特定目标的问题	不需要带标签的输入输出对无需对非最优解的精输地纠正擅长实现长期目标	缺乏可扩展性需要大量数据计算资源需求大	化

MaXiaoTiao

常见的机器算法原理及优缺点

常见的机器算法原理及优缺点