机器学习常见模型优缺点对比
1. 支持向量机与LR
1.1 支持向量机优点分析
- 有着完备的数学统计基础
- 决策超平面只与支持向量有关,且得到的决策超平面是最大化间隔实现的,鲁棒性较高
1.2 支持向量机缺点分析
- 当数据量较大维度较高时,训练缓慢
- 面对多分类问题,支持向量机不能够很好的处理
1.3 LR优点分析
- 易于训练
1.4 LR缺点分析
- 只能处理非线性数据
- 对多重共线性数据效果较差
2. k均值聚类与DBSCAN
2.1 k均值聚类的优缺点分析
优点:
- 直观简单,易于实现
- 收敛速度较快
缺点:
- 容易受到异常值影响
- 最终聚类结果容易受到初始聚类中心的选择的影响
- K的选择需要不断尝试
- 最终只能收敛到局部最优值
- 只适用于球状(凸集)数据
2.2 DBSCAN优缺点分析
优点:
- 对异常值不敏感
- 可以发现任意形状的类簇
- 无需指定k的数量
缺点:
- 当类与类之间的间隔较大或密度不均匀的时候,效果不太好
- 当数据较大时,时间复杂度较高
3. 随机森林与决策树
3.1 随机森林的优点
- 对于大部分的数据,它的分类效果比较好。
- 能处理高维特征,并且不用做特征选择,不容易产生过拟合
- 容易实现并行化计算
- 对数据集的适应能力强:既能处理离散型数据,也能处理连续型数据,数据集无需规范化。
- 即使有很大部分数据遗失,仍可以维持高准确度
3.2 随机森林的缺点
- 训练相比决策树而言慢
- 在某些噪音比较大的样本集上,RF的模型容易陷入过拟合
- 对于许多统计建模者来说,随机森林给人的感觉就像一个黑盒子,你无法控制模型内部的运行。只能在不同的参数和随机种子之间进行尝试。