- 3.2 线性回归
一、输入属性的数目只有一个
离散属性的处理:若有“序”则连续化,否则,转化为K维向量。
均方差是回归任务中最常用的性能度量 即:找到均方差最小时 w,b
基于均方差最小化来进行模型求解的方法称为“最小二乘法”。在线性回归中,最小二乘法就是试图找到一条直线 ,使得所有样本到直线 的欧氏距离之和最小。
二、样本是由d个属性描述(多元线性回归)
更多的是利用广义线性模型:参数估计计算通过加权最小二乘法或极大似然法进行。
-
3.2 对数几率回归
从线性回归问题到分类问题,找一个单调可微,将分类任务的真实标识y与线性回归模型的预测值联系起来。先取自然对数,然后再用线性回归模型的预测结果去逼近真实标记的对数几率,这个模型叫估对数几率回归(也叫作逻辑斯谛回归)。 -
3.4 线性判别分析
给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。同时可以推广到多分类问题中。 -
3.5 多分类学习
用二分类方法解决多分类问题。
拆解法:将多分类任务拆为若干个二分类任务求解。
最经典的拆分策略有三种:
1、一对一;2、一对其余;3、多对多。
*3.6 类别不平衡问题
分类任务中不同类别的训练样例数目差别很大的情况。基本策略–再缩放:
1.欠采样:去除一些反例使得正、反例数目接近,然后再进行学习。
2.过采样:增加一些正例使得正、反例数目接近,然后再进行学习。
3.阈值移动:直接基于原始训练集进行学习,但在用训练好的分类器进行预测时,对预测值进行调整。