算法分类
监督学习(输入征值+目标值。输出可以是一个连接的值(称为回归)或是有限离散值(分类)
分类<模型评估用查准率,查全率,精度,错误率>
k-近邻(kneighbors)、贝叶斯(naive_bayes)分类、决策树与随机森林(randomForestClassifier)、逻辑回归(LogisticRegression)、神经网络
回归<模型评估用局方误差>
线性回归(LinearRegression)、岭回归(Ridge)
标注 隐马尔可夫模型
无监督学习(输入特征值推测新的结果)
聚类 k-means
算法优缺点对比
k-近邻(小数据场景,几千~几万样本)
采用欧式距离公式计算亮点之间的距离
- 优点
简单,易于理解,易于实现,无需估计参数,无需训练 - 缺点
1. 测试样本计算量打,内存开销大
2. 必须指定k值,k值选择不当则分类精度不能保证
朴素贝叶斯分类(MultinomiaLNB)
- 优点:
1.有稳定的分类效率
2.对确实数据不太敏感,算法也比较简单,常用于文本分类。
3.分类准确度高,速度快。 - 缺点:
需要知道先验概率P(F1,F2…|C).因此在某些时候会犹豫假设的先验模型的原因导致预测效果不佳。
kmeans
特点分析:采用迭代式算法,直观易懂并且非常实用。
缺点:容易收敛到局部最优解(多次聚类)
需要预先设定簇的数量(k-means++解决)
随机森林(大数据集)
1. 在当前所有算法中,具有极好的准确率。
2. 能够有效的运行在大数据集上。
3. 能够处理高维特征,不需要降维。
4. 能够评估各个特征在分类问题上的重要性。
5. 对于缺省值问题也能够活得很好的结果。