机器学习练习问题与解答

2024-01-15 01:02:50 阅读 0

《机器学习》练习题及答案 1.小刚应聘一家互联网公司的算法工程师职位。面试官问他“回归和分类有什么异同？” 他发表以下言论。请一一判断是否准确。 1）回归和分类都是监督学习问题【单选题】【必答题】○对○错参考答案：对。分析：这道题只有一名同学做错了。这个问题考察了监督学习的概念。监督学习是从标记的训练数据集中推断函数的机器学习任务。监督学习和无监督学习的区别在于：机器学习算法的图如下：在回归问题中，标签是连续值；在分类问题中，标签是离散值。具体区别请看周志华《机器学习》书中的例子。你一看就明白： 2、背景与上一个问题相同。请判断 2）回归问题和分类问题都可能出现过拟合【单选题】【必答】○对○错答案：正确分析：这道题有两个同学答错了。过拟合的英文名称是Over-（过拟合）。为了澄清“过”拟合，我们先来谈谈“拟合”【拟合的几何意义】：从几何意义上讲，拟合就是给定空间中的一些点，找到未知参数的已知形式。连续曲线或曲面以最大化这些点的近似值。一个直观的例子是下面的电阻和温度示例。我们知道，在物理学中，电阻和温度是线性相关的，即R=at+b。现在我们有一系列“温度”和“电阻”的测量。最简单的想法就是取两组测量值，求解一个线性方程组，求出系数a和b！但理想很丰满，现实却很残酷！由于测量误差等的存在，我们每次测量的温度值和电阻值都有误差！因此，为了提高测量精度，我们会多次测量，获得多组数值，相当于获得二维平面上的多个点。我们的目标是找到一条直线，并使这条直线尽可能接近每个点。被测点。

拟合的数学意义：从数学意义上来说，所谓拟合（fit）是指已知函数的多个离散函数值{f1,f2,...,fn}（不一定都是精确值），有的可能是近似值甚至误差值），通过调整函数中的几个待定系数f（λ1，λ2，...，λn）来最小化函数与已知点集的差异（最小二乘的意思）。【谈合身】古人云“过犹不及”。所谓“过”拟合，顾名思义，就是在学习集（即训练集）上拟合得很好，但是有点太多了。这是什么意思？它可以对它学到的数据做出非常准确的判断，但是如果你扔给它一系列它以前没有学过的新数据，它的判断就会很差！比如，在古代，有一位老师教小明写数字。 “一”字为一横行，“二”字为两横行，“三”字为三横行。然后，小明说：老师，你不用教我写数字，我都能写。老师非常惊讶。 “万”字怎么写？小明在纸上写下了无数“横”字。。用台大老师林玄天的话说，过拟合是“书呆子”和“明星”。如果你使用过于复杂的模型来描述一个简单的问题，你可能会得到“太聪明”的结果。例如，下面的问题预测房子的价格和面积之间的关系（来自ppt）。通过五组数据，我们可以用肉眼直观地判断出，房子的价格和面积之间是一个二次函数的关系。，就是中间图拟合的情况。

惩罚函数法的基本原理_惩罚函数是什么意思_惩罚函数的构成

右图中，我巧妙地使用了四次函数来拟合这五组数据。虽然已知的5个数据都是100%准确的，但我得出的结论是“当房子的面积大于一定的面积时，房子的价格会随着面积的增加而越来越低”，这是一个荒谬的结论房子增加了。” 这是过度拟合。左边是用直线拟合的，但是拟合误差大得令人难以置信。这称为“欠拟合”。周志华先生的书中，给出的例子是这样的：你发现了吗？周志华老师以“这是一片叶子吗？”这样的分类问题为例。以及“房价与房屋面积的关系”等回归问题。这表明分类和回归都可能过度拟合。 3、背景与上题相同。请判断 3）一般来说，分类问题中不使用回归，但也有特殊情况。例如，回归可以用来解决0/1分类问题【单选题】【必答题】○对○错答案：对分析：回归是一个非常高效的分类器。它不仅可以预测样本的类别，还可以计算分类的概率信息。广泛应用于一线互联网公司，比如CTR估算等问题。这里我们不会详细解释其原理，但会在后续课程中介绍。很多人会对它的名字产生疑问。它冒充“回归”，销售“分类”肉类，令人尴尬和困惑。其实，我们不必担心是“回归”还是“分类”。我们必须选择两者之一。你可以参考百度百科关于“回归”的词条，其中举例说明了富士康员工中“自杀日期”与“累计自杀人数”之间的关系，并用回归分析来拟合一条曲线。

惩罚函数法的基本原理_惩罚函数是什么意思_惩罚函数的构成

这说明回归本身也具有一定的解决“回归”问题的能力，只不过业界用它来解决分类问题。 4.背景与上题相同。请判断 4）评价回归问题和分类问题最常用的指标是准确率和召回率【单选题】【必答题】○对○错答案：错分析：本题有四位同学选错了答案。这个问题的目的是提醒大家，回归问题的评价指标通常不是准确率和召回率。从“预测房价与房屋面积关系”的例子来看，一个已知的数据点距离预测的曲线有多远可以判断为“准确”，多远可以判断为“不准确” “？没有办法区分。准确度实际上并不适合衡量回归问题的性能。回归问题的误差一般用“误差”来评价，比如RMSE。滴滴大数据大赛使用的指标显然不是以“准确率”来评价的。 5. 背景与上述问题相同。请判断 5）输出变量为有限个离散变量的预测问题是回归问题；输出变量为连续变量的预测问题是分类问题；【单选题】【必答题】 ○ 对 ○ 错答案：错分析：说相反 6. 向量 x=[1,2,3,4,-9,0] 的 L1 范数是多少【单选题] [必答题]○1○19○6○sqrt(111) 答案：19 分析：这道题有 3 位同学做错了。其实很简单。请记住：L0 范数是指向量中非零元素的数量。 L1范数是指向量中每个元素的绝对值之和。它也被称为“稀疏规则运算符”（）。

惩罚函数的构成_惩罚函数法的基本原理_惩罚函数是什么意思

L2范数是向量每个元素的平方和，然后开平方根。 7、小明参加了一家公司的大数据竞赛。他的成绩原本在比赛排名中是前二十名的。后来，他保持特征不变，调整了原来模型的参数一天，把他的模型放在自己本地测试集上的准确率提高了5%，然后他自信地更新了新模型的预测结果至大赛官方网站。结果，他很恼火地发现自己的新模型出错了。小芳：从机器学习理论的角度来看，这种情况不应该发生。请到大赛组委会反馈。小刚：你的情况可能是过拟合造成的。小月：我早就告诉过你了。只需使用默认参数即可。，参数调整不太可能盈利。 □小平：可以考虑用交叉验证的方式来验证是否出现了过拟合。答案：选择第二项和第四项。分析：大家都认为第二项是过拟合的。装修造成的。设置第四项的目的是提醒大家，可以通过交叉验证来防止模型过于复杂导致的过拟合。交叉验证到底是什么，敬请期待后续课程。 8. 关于L1 正则性和L2 正则性，下列说法正确的是： [选择题] [必答题] □ L2 范数可以防止过拟合，提高模型的泛化能力。但 L1 正则化不能做到这一点。 L2正则化识别每个参数的平方和的平方根值。 □L2正则化有一个名字叫“” □L1范数会让权值变得稀疏答案：第二项和第四项分析：同问题6 9.判断这个说法是否正确：给定n个数据点，如果使用其中的一半用于训练，另一半用于测试。训练误差和测试误差之间的差异会随着 n 的增加而减小 [单选题] [必答题] ○ 对 ○ 错答案：对分析：训练数据越多，拟合度越好，两者之间的距离越小训练误差和测试误差。闲话：各位朋友，这个题曾经出现在《百度2016年研发工程师笔试题》中。

我们班有四个同学犯了错误。 10..?[单选题][必答题]○,○,raw,○,raw○答案：B 解析：本题来源于林玄天的《机器学习基石》课件，为在线选择特征形象广告系统。 ,,/ 我们先大致了解一下这几类特征。犯错的同学请看林玄天老师的视频 11.【附加题】考虑回归到一个正则化回归问题。下图将惩罚函数显示为二次正则函数。当正则化参数C取不同值时，显示训练集和测试集上的对数似然（-）。请判断这个说法是否正确：随着C的增加，图中训练集上的对数似然永远不会增加 [单选题] [必答题] ○ 对 ○ 错

上一篇：比较excel表格两列中的数据，找出两列中重复的数据并标记出来

下一篇： jquery的append()方法和html()方法的区别及使用介绍

标签：机器学习数据拟合线性拟合

排行榜

259℃1hustoj比赛作业里面的时间是什么含义，OI排名跟普通排名有何区别？
214℃2Ubuntu18.04搭建LAMP环境完成帝国CMS安装
212℃3LAMP环境如何搭建多站点
210℃4 linux 下基本文件操作
197℃5hustoj脚本把OJ装在哪里了？可以卸载么？
187℃6hustoj如何限制未登录用户访问？
170℃7hustoj比赛后题目看不见了怎么弄？
160℃8Apache如何做301重定向

图文教程

技术标签