机器学习(Machine Learning)

机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

Machine Learning: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.
它能够针对某个任务T和某个性能指标P,从经验E中学习。这种学习的特点是,它在T上的被P所衡量的性能,会随着经验E的增加而提高。

机器学习分类
1.根据是否需要和环境交互获得经验:监督学习(supervised learning)、强化学习(reinforcement learning)
2.按照训练数据是否存在标签将监督学习分类:传统监督学习、非监督学习(没有标签的机器学习)、半监督学习
传统监督学习:支持向量机(SVM)、人工智能网联(NN)、深度神经网络(DNN)
非监督学习:聚类(clustering)、EM算法(Expectation-Maximization)、主成分分析
半监督学习:少量的标注数据和大量的未标注数据共同训练一个算法。

3.根据标签的固有属性将机器学习分为:

分类(classification):标签是离散的值。例如人脸识别。课程主要内容是利用机器学习解决分类问题。
回归(regression):标签是连续的值。例如预测房价、股市预测、温度预测

机器学习算法的过程

  1. 特征提取(Feature EXtraction):通过训练样本获得的,对机器学习任务有所帮助的多维度数据。这不是机器学习的重点,但却是整个系统的重点,提取了好的特征,也能获得不错的性能。提取的特征和方式根据不同的任务而定。
    机器学习的重点是假设在提取好特征的前提下,如何构造算法获得更好的性能。
  2. 特征选择(Feature Selection):对提取的特征进行取舍。最后所选择的特征集构成一个特征空间。
  3. 基于选择的特征来构建机器学习算法是机器学习的重点*。

维度和标准。维度:特征空间的维度,相当于提取的特征的个数。标准:不同的算法对特征空间做不同的划分,获得不同的结果。

没有免费午餐定理:如果某种学习算法在某些方面比另一种学习算法更优,则肯定会在其它某些方面弱于另一种学习算法。也就是说,对于任何一个学习问题,没有最优的算法,只有最合适的算法。
机器学习的本质:通过有限的已知数据,在复杂的高维特征空间中预测未知的样本。

MP模型

0 条评论

发表评论

邮箱地址不会被公开。