Task02:西瓜书第3章线性模型 by吴迪

  • 3.1基本形式
    图片

  • 3.2线性回归
    一、输入属性的数目只有一个
    离散属性的处理:若有“序”则连续化,否则,转化为K维向量。
    图片
    均方差是回归任务中最常用的性能度量
    即:找到均方差最小时 w,b
    基于均方差最小化来进行模型求解的方法称为“最小二乘法”。在线性回归中,最小二乘法就是试图找到一条直线 ,使得所有样本到直线 的欧氏距离之和最小。
    图片
    为0,求得
    图片
    图片
    二、样本是由d个属性描述(多元线性回归)
    图片
    数据集D表示为一个m*(d+1)大小的矩阵,图片
    图片
    图片
    令上式为零,求出w最优解的闭式解。
    图片
    更多的是利用广义线性模型:参数估计计算通过加权最小二乘法或极大似然法进行。

  • 3.2对数几率回归
    从线性回归问题到分类问题,找一个单调可微,将分类任务的真实标识y与线性回归模型的预测值联系起来。
    图片
    取自然对数可得
    图片
    用线性回归模型的预测结果去逼近真实标记的对数几率,这个模型叫估对数几率回归(逻辑斯谛回归)。

后面主要是求解:
图片
显然有
图片

利用极大似然求解(比较麻烦,看不太懂)

图片
图片
图片

  • 3.4线性判别分析
    给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。如下图。
    图片

即最大化目标:
图片
利用拉格朗日乘子法,得到
图片

图片

同时可以推广到多分类问题中。
图片

  • 3.5多分类学习
    用二分类方法解决多分类问题。
    拆解法:将多分类任务拆为若干个二分类任务求解。
    最经典的拆分策略有三种:1一对一。2一对其余。3多对多
    (有部分内容还是不太懂,回头用上了,再来看看)
    *3.6类别不平衡问题
    分类任务中不同类别的训练样例数目差别很大的情况。基本策略–再缩放:
    1.欠采样:去除一些反例使得正、反例数目接近,然后再进行学习。
    2.过采样:增加一些正例使得正、反例数目接近,然后再进行学习。
    3.阈值移动:直接基于原始训练集进行学习,但在用训练好的分类器进行预测时,对预测值进行调整。
    图片
浙ICP备19012682号