算法对比

算法分类

监督学习(输入征值+目标值。输出可以是一个连接的值(称为回归)或是有限离散值(分类)

分类<模型评估用查准率,查全率,精度,错误率>

k-近邻(kneighbors)、贝叶斯(naive_bayes)分类、决策树与随机森林(randomForestClassifier)、逻辑回归(LogisticRegression)、神经网络

回归<模型评估用局方误差>

线性回归(LinearRegression)、岭回归(Ridge)

标注 隐马尔可夫模型

无监督学习(输入特征值推测新的结果)

 聚类 k-means


算法优缺点对比

k-近邻(小数据场景,几千~几万样本)

采用欧式距离公式计算亮点之间的距离

  • 优点
      简单,易于理解,易于实现,无需估计参数,无需训练
  • 缺点
      1. 测试样本计算量打,内存开销大

      2. 必须指定k值,k值选择不当则分类精度不能保证

朴素贝叶斯分类(MultinomiaLNB)

  • 优点:

      1.有稳定的分类效率
      2.对确实数据不太敏感,算法也比较简单,常用于文本分类。
      3.分类准确度高,速度快。
  • 缺点:
       需要知道先验概率P(F1,F2…|C).因此在某些时候会犹豫假设的先验模型的原因导致预测效果不佳。

kmeans

  • 特点分析:采用迭代式算法,直观易懂并且非常实用。

  • 缺点:容易收敛到局部最优解(多次聚类)

      需要预先设定簇的数量(k-means++解决)


随机森林(大数据集)

  1. 在当前所有算法中,具有极好的准确率。

  2. 能够有效的运行在大数据集上。

  3. 能够处理高维特征,不需要降维。

  4. 能够评估各个特征在分类问题上的重要性。

  5. 对于缺省值问题也能够活得很好的结果。

版权声明:本文为博主原创,如若转载请标明出处https://dword.top/算法对比.html

-------------end-------------
0%