第六章 //分类(1)

<p>制作者:上海金融</p>

分类

分类是一种重要的数据挖掘技术。
● 分类的目的是根据数据集的特点构造一个 分类函数或分类模型(也常称作分类器),该模型能把未知类别的样本映射到给 定的类别中。
● 分类方法是解决分类问题的方法,是数据挖掘、机器学习和模式识别中一个重要 的研究领域。
● 分类算法通过对已知类别训练集的分析,从中发现分类规则,以此预测 新数据的类别。
● 在量化投资 领域,分类技术应用的场景也比较广泛,比如可以建立分类模型,将股票分为易涨股 票和易跌股票两大类,这样就可以选择属于易涨的那类股票买入。

分类的概念

● 对现有的数据进行学习,得到一个目标函数或规则,把每个属性集X映射到一个 預先定义的类标号y。

● 目标函数或规则也称为分类模型,分类模型有两个主要作 用:一是描述性建模,即作为解释性的工具,用于区分不同类中的对象;二是预测性 建模,即用于预测未知记录的类标号。

分类的原理

● 分类方法是一种根据输入数据集建立分类模型的系统方法,这些方法都使用一种 学习算法来确定分类模型,使该模型能够很好地拟合输入数据 中类标号和属性集之间的联系。学习算法得到的模型不仅要很好地拟合输入数据,还 要能够正确地预测未知样本的类标号。因此,训练算法的主要目标就是建立具有很好 的泛化能力的模型,即建立能够准确地预测未知样本类标号的模型。

原始示意图

过程

● 构造模型的过程一般分为训练和测试两个阶段。
● 在构造模型之前,要求将数据集 随机地分为训练数据集和测试数据集。
● 在训练阶段,使用训练数据集,通过分析由属 性描述的数据库元组来构造模型,假定每个元组属于一个预定义的类,由一个称作类 标号属性的属性来确定。
● 在测试阶段,使用测试数据集来评估模型的分类准确率,如果认为模 型的准确率可以接受,就可以用该模型对其他数据元组进行分类。一般来说,测试阶 段的代价远远低于训练阶段。

分类方法

KNN

● 算法是一种基于实例的分类方法是一种非参数的分类技术。

● 通过计算每个训练样例到待分类样品的距离,取和待分类样品距 离最近的X个训练样例,X个样品中哪个类别的训练样例占多数,则待分类元组就属 于哪个类别。

KNN

KNN算法

具体步骤如下:
(1)初始化距离为最大值。
(2)计算未知样本和每个训练样本的距离dist。
(3)得到目前K个最邻近样本中的最大距离maxdist。
(4 )如果dist小于maxdist,则将该训练样本作为K-最近邻样本。
(5) 重复步骤(2)、(3)、(4),直到未知样本和所有训练样本的距离都算完。
(6) 统计K个最近邻样本中每个类别出现的次数。
(7) 选择出现频率最大的类别作为未知样本的类别

KNN算法

根据KNN算法的原理和步骤可以看出,KNN算法对k值的依赖较高,所以k值的选择非常重要。如果k太小,预测目标容易产生变动性;相反,如果k太大,最近邻分类器可能会误分类测试样例,因为最近邻列表中可能包含远离其近邻的数据点 (见图7-5)。推定k值的有益途径是通过有效参数的数目这个概念,有效参数的数目是和k值相关的,大致等于n/K,其中,n是这个训练数据集中实例的数目。在实践中往往通过若干次实验来确定k值,取分类误差率最小的k值。

K较大时的K最近邻分类

特点

● 在类别决策时,只与极少量的相邻样本有关,因此,采用这种方法可以 较好地避免样本的不平衡问题。另外,由于—方法主要靠周围有限的邻近的样本, 而不是靠判别类域的方法来确定所属类别,因此对于类域的交叉或重叠较多的待分样 本集来说,方法较其他方法更为适合。

改进方法

KNN算法
对于计算量大的问题目前常用的解决方法是事先对已知样本点进行剪辑,事 先去除对分类作用不大的样本。这样可以挑选出对分类计算有效的样本,使样本总数 合理地减少,以同时达到减少计算量、减少存储量的双重效果。该算法比较适用于样 本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易 产生误分。
对样本进行组织与整理,分群分层,尽可能将计算压缩到在接近测试样本领 域的小范围内,避免盲目地与训练样本集中的每个样本进行距离计算。

贝叶斯分类原理

贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为 贝叶斯分类。

贝叶斯定理

(Bayes’theorem)
是概率论中的一个结果,它跟随机变量的条件概率 以及边缘概率分布有关。在有些关于概率的解说中,贝叶斯定理能够告知分析人员如何利用新证据修改已有的看法。通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者有确定的关系,贝叶斯定理就是这种关系的陈述。

公式

朴素贝叶斯分类

朴素贝叶斯分类是一种十分简单的分类算法,顾名思义,这种方法的思想真的很 朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条 件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。打个比方, 你在街上看到一个黑人,你会十有八九猜他来自非洲。为什么呢?因为黑人中非洲人 的比率最高,当然他也可能是美洲人或亚洲人,但在没有其他可用信息下,我们会选 择条件概率最大的类别,这就是朴素贝叶斯的思想基础。

朴素贝叶斯分类的正式步骤

朴素贝叶斯算法分类流程图

整个朴素贝叶斯分类

分为三个阶段

第一阶段:

准备工作阶段

这个阶段的任务是为朴素贝叶斯分类作必要的准备, 主要工作是根据具体情况确定特征属性,并对每个特征属性进行适当划分,然后由人 工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数 据,输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完 成的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由特征属性、 特征属性划分及训练样本质量决定。

第二阶段

分类器训练阶段
这个阶段的任务就是生成分类器,主要工作是计算 每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计, 并将结果记录。其输入是特征属性和训练样本,输出是分类器。这一阶段是机械性阶 段,根据前面讨论的公式可以由程序自动计算完成。

第三阶段

应用阶段
这个阶段的任务是使用分类器对待分类项进行分类,其输 入是分类器和待分类项,输出是待分类项与类别的映射关系。这一阶段也是机械性阶段,由程序完成。

一个简单的例子

大学的时候,某男生经常去图书室晚自习,发现他喜欢的那个女生也常去那个自习室,心中窃喜,于是每天买点好吃点在那个自习室蹲点等她来,可是人家女生不一定每天都来,眼看天气渐渐炎热,图书馆又不开空调,如果那个女生没有去自修室,该男生也就不去,每次男生鼓足勇气说:“嘿,你明天还来不?”,“啊,不知道,看情况”。然后该男生每天就把她去自习室与否以及一些其他情况做一下记录,用Y表示该女生是否去自习室,即Y={去,不去},X是跟去自修室有关联的一系列条件,比如当天上了哪门主课,蹲点统计了一段时间后,该男生打算今天不再蹲点,而是先预测一下她会不会去,现在已经知道了今天上了常微分方法这么主课,于是计算P(Y=去|常微分方程)与P(Y=不去|常微分方程),看哪个概率大,如果P(Y=去|常微分方程) >P(Y=不去|常微分方程),那这个男生不管多热都屁颠屁颠去自习室了,否则不就去自习室受罪了。P(Y=去|常微分方程)的计算可以转为计算以前她去的情况下,那天主课是常微分的概率P(常微分方程|Y=去),注意公式右边的分母对每个类别(去/不去)都是一样的,所以计算的时候忽略掉分母,这样虽然得到的概率值已经不再是0~1之间,但是其大小还是能选择类别。

一个简单的例子

ANN

人工神经网络是一种应用类似子大脑神经突触联接的结构进行信息处理的数学模 型。在这种模型中,大量的节点(或称“神经元”,或“单元”)之间相互联接构成网络,即“神经网络”,以达到处理信息的目的。神经网络通常需要进行训练,训练的 过程就是网络进行学习的过程。训练改变了网络节点的连接权的值使其其有分类的功 能,经过训练的网络就可用于对象的识别。

优势

● 可以任意精度 逼近任意函数。

● 神经网络方法本身属于非线性模型,能够适应各种复杂的数据关系。

● 神经网路具备很强的学习能力,使它能比很多分类算法更好地适应数据空间 的变化。

● 神经网络借鉴人脑的物理结构和机理,能够模拟人脑的某些功能,具备 “智能”的特点。

结论

感知器包含两种结点:几个输入结点,用来表示输入属性;一个输出结点,用来提供模型输出。
神经网络结构中 的结点通常叫作神经元或单元。在感知器中,每个输入结点都通过一个加权的链连接 到输出结点。这个加权的链用来模拟神经元间神经键连接的强度。像生物神经系统一 样,训练一个感知器模型就相当于不断调整链的权值,直到能拟合训练数据的输入、 输出关系为止。

感知器结构示意图

公式

公式2

谢谢观看

上海金融学院

您好,您当前打开的这个微课,可以控制当前其他设备打开的所有这个编号的微课

您好!
您当前打开的这个微课是受控的,您不能做任何操作和快进翻页!

对不起!
本课目前受到控制,您不能做任何操作和快进翻页!

您好!
教学模式已经关闭,您可以自由翻页!

您好,当前的教学模式已经关闭,您可以恢复控制当前其他设备打开的所有这个编号的微课

收藏和分享,点击这里

+ 1

配音权限码

录音中

00:00

评论“第六章 //分类(1)”

输入您想回复的内容吧!

第六章 //分类(1)

长按二维码保存或发生给朋友吧!

第六章 //分类(1)

来自:上海金融
+1

请先输入你就读的学校,
才能再选择你就读的专业哦!