《机器学习》练习题及答案 1.小刚应聘一家互联网公司的算法工程师职位。 面试官问他“回归和分类有什么异同?” 他发表以下言论。 请一一判断是否准确。 1)回归和分类都是监督学习问题【单选题】【必答题】○对○错参考答案:对。 分析:这道题只有一名同学做错了。 这个问题考察了监督学习的概念。 监督学习是从标记的训练数据集中推断函数的机器学习任务。 监督学习和无监督学习的区别在于:机器学习算法的图如下:在回归问题中,标签是连续值; 在分类问题中,标签是离散值。 具体区别请看周志华《机器学习》书中的例子。 你一看就明白: 2、背景与上一个问题相同。 请判断 2)回归问题和分类问题都可能出现过拟合【单选题】【必答】○对○错答案:正确分析:这道题有两个同学答错了。 过拟合的英文名称是Over-(过拟合)。 为了澄清“过”拟合,我们先来谈谈“拟合”【拟合的几何意义】:从几何意义上讲,拟合就是给定空间中的一些点,找到未知参数的已知形式。 连续曲线或曲面以最大化这些点的近似值。 一个直观的例子是下面的电阻和温度示例。 我们知道,在物理学中,电阻和温度是线性相关的,即R=at+b。 现在我们有一系列“温度”和“电阻”的测量。 最简单的想法就是取两组测量值,求解一个线性方程组,求出系数a和b! 但理想很丰满,现实却很残酷! 由于测量误差等的存在,我们每次测量的温度值和电阻值都有误差! 因此,为了提高测量精度,我们会多次测量,获得多组数值,相当于获得二维平面上的多个点。 我们的目标是找到一条直线,并使这条直线尽可能接近每个点。 被测点。
拟合的数学意义:从数学意义上来说,所谓拟合(fit)是指已知函数的多个离散函数值{f1,f2,...,fn}(不一定都是精确值) ,有的可能是近似值甚至误差值),通过调整函数中的几个待定系数f(λ1,λ2,...,λn)来最小化函数与已知点集的差异(最小二乘的意思)。 【谈合身】古人云“过犹不及”。 所谓“过”拟合,顾名思义,就是在学习集(即训练集)上拟合得很好,但是有点太多了。 这是什么意思? 它可以对它学到的数据做出非常准确的判断,但是如果你扔给它一系列它以前没有学过的新数据,它的判断就会很差! 比如,在古代,有一位老师教小明写数字。 “一”字为一横行,“二”字为两横行,“三”字为三横行。 然后,小明说:老师,你不用教我写数字,我都能写。 老师非常惊讶。 “万”字怎么写? 小明在纸上写下了无数“横”字。 。 用台大老师林玄天的话说,过拟合是“书呆子”和“明星”。 如果你使用过于复杂的模型来描述一个简单的问题,你可能会得到“太聪明”的结果。 例如,下面的问题预测房子的价格和面积之间的关系(来自ppt)。 通过五组数据,我们可以用肉眼直观地判断出,房子的价格和面积之间是一个二次函数的关系。 ,就是中间图拟合的情况。
右图中,我巧妙地使用了四次函数来拟合这五组数据。 虽然已知的5个数据都是100%准确的,但我得出的结论是“当房子的面积大于一定的面积时,房子的价格会随着面积的增加而越来越低”,这是一个荒谬的结论房子增加了。” 这是过度拟合。 左边是用直线拟合的,但是拟合误差大得令人难以置信。 这称为“欠拟合”。 周志华先生的书中,给出的例子是这样的:你发现了吗? 周志华老师以“这是一片叶子吗?”这样的分类问题为例。 以及“房价与房屋面积的关系”等回归问题。 这表明分类和回归都可能过度拟合。 3、背景与上题相同。 请判断 3)一般来说,分类问题中不使用回归,但也有特殊情况。 例如,回归可以用来解决0/1分类问题【单选题】【必答题】○对○错答案:对分析:回归是一个非常高效的分类器。 它不仅可以预测样本的类别,还可以计算分类的概率信息。 广泛应用于一线互联网公司,比如CTR估算等问题。 这里我们不会详细解释其原理,但会在后续课程中介绍。 很多人会对它的名字产生疑问。 它冒充“回归”,销售“分类”肉类,令人尴尬和困惑。 其实,我们不必担心是“回归”还是“分类”。 我们必须选择两者之一。 你可以参考百度百科关于“回归”的词条,其中举例说明了富士康员工中“自杀日期”与“累计自杀人数”之间的关系,并用回归分析来拟合一条曲线。
这说明回归本身也具有一定的解决“回归”问题的能力,只不过业界用它来解决分类问题。 4.背景与上题相同。 请判断 4)评价回归问题和分类问题最常用的指标是准确率和召回率【单选题】【必答题】○对○错答案:错分析:本题有四位同学选错了答案。 这个问题的目的是提醒大家,回归问题的评价指标通常不是准确率和召回率。 从“预测房价与房屋面积关系”的例子来看,一个已知的数据点距离预测的曲线有多远可以判断为“准确”,多远可以判断为“不准确” “? 没有办法区分。 准确度实际上并不适合衡量回归问题的性能。 回归问题的误差一般用“误差”来评价,比如RMSE。 滴滴大数据大赛使用的指标显然不是以“准确率”来评价的。 5. 背景与上述问题相同。 请判断 5)输出变量为有限个离散变量的预测问题是回归问题; 输出变量为连续变量的预测问题是分类问题; 【单选题】 【必答题】 ○ 对 ○ 错 答案:错 分析:说相反 6. 向量 x=[1,2,3,4,-9,0] 的 L1 范数是多少 【单选题] [必答题]○1○19○6○sqrt(111) 答案:19 分析:这道题有 3 位同学做错了。 其实很简单。 请记住:L0 范数是指向量中非零元素的数量。 L1范数是指向量中每个元素的绝对值之和。 它也被称为“稀疏规则运算符”()。
L2范数是向量每个元素的平方和,然后开平方根。 7、小明参加了一家公司的大数据竞赛。 他的成绩原本在比赛排名中是前二十名的。 后来,他保持特征不变,调整了原来模型的参数一天,把他的模型放在自己本地测试集上的准确率提高了5%,然后他自信地更新了新模型的预测结果至大赛官方网站。 结果,他很恼火地发现自己的新模型出错了。 小芳:从机器学习理论的角度来看,这种情况不应该发生。 请到大赛组委会反馈。 小刚:你的情况可能是过拟合造成的。 小月:我早就告诉过你了。 只需使用默认参数即可。 ,参数调整不太可能盈利。 □小平:可以考虑用交叉验证的方式来验证是否出现了过拟合。 答案:选择第二项和第四项。 分析:大家都认为第二项是过拟合的。 装修造成的。 设置第四项的目的是提醒大家,可以通过交叉验证来防止模型过于复杂导致的过拟合。 交叉验证到底是什么,敬请期待后续课程。 8. 关于L1 正则性和L2 正则性,下列说法正确的是: [选择题] [必答题] □ L2 范数可以防止过拟合,提高模型的泛化能力。 但 L1 正则化不能做到这一点。 L2正则化识别每个参数的平方和的平方根值。 □L2正则化有一个名字叫“” □L1范数会让权值变得稀疏 答案:第二项和第四项 分析:同问题6 9.判断这个说法是否正确:给定n个数据点,如果使用其中的一半用于训练,另一半用于测试。 训练误差和测试误差之间的差异会随着 n 的增加而减小 [单选题] [必答题] ○ 对 ○ 错 答案:对 分析:训练 数据越多,拟合度越好,两者之间的距离越小训练误差和测试误差。 闲话:各位朋友,这个题曾经出现在《百度2016年研发工程师笔试题》中。
我们班有四个同学犯了错误。 10..?[单选题][必答题]○,○,raw,○,raw○答案:B 解析:本题来源于林玄天的《机器学习基石》课件,为在线选择特征形象广告系统。 ,,/ 我们先大致了解一下这几类特征。 犯错的同学请看林玄天老师的视频 11.【附加题】考虑回归到一个正则化回归问题。 下图将惩罚函数显示为二次正则函数。 当正则化参数C取不同值时,显示训练集和测试集上的对数似然(-)。请判断这个说法是否正确:随着C的增加,图中训练集上的对数似然永远不会增加 [单选题] [必答题] ○ 对 ○ 错