加入收藏 | 设为首页 | 会员中心 | 我要投稿 南通站长网 (https://www.0513zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 评论 > 正文

必须了解的数据科学面试问题

发布时间:2021-03-07 14:47:05 所属栏目:评论 来源:互联网
导读:中p为第i个节点上类k的实例与总的训练实例的比例。这是什么意思??我们通过下面的例子来理解。图一显示了深度为2的Iris决策树的简单可视化。顶层是根节点。将训练集划分为决策集的概念在算法中相当简单。例如,在这里,iris数据集根据根节点上一个称为 petal
中“p”为第i个节点上类k的实例与总的训练实例的比例。这是什么意思??我们通过下面的例子来理解。图一显示了深度为2的Iris决策树的简单可视化。顶层是根节点。将训练集划分为决策集的概念在算法中相当简单。例如,在这里,iris数据集根据根节点上一个称为“ petal width”的单一特征被分成两个子集。如果petal width小于或等于0.8,则算法进入深度1(左)。如果不是,就进入深度1的右边。它根据“petal width”的附加特征进一步划分实例。在深度1上,右节点有100个实例的样本,将0个实例应用于Iris-Setosa, 50个实例应用于Iris-Versicolor,其余50个应用于Iris-Virginica。

似地,在深度1(左节点)处,Gini不纯度为0,因为所有的训练实例都应用于同一个类。节点本质上是“纯”的。

现在我们已经理解了什么是Gini不纯度,让我们进入问题的实质。决策树使用分类和回归树(CART)算法进行训练,基于一个简单的概念,即使用单个特征(k)和阈值(t)将数据集分成两个子集。iris数据集的特征为“petal width”,阈值为0.8。它是如何选择k和t的?它搜索产生最纯子集的对(k, t)。因此,算法试图最小化的代价函数如下式所示:




 

问题2:共线性会对模型有影响吗?

答案: 共线性是指两个或多个预测变量之间关系密切。下面的图2显示了共线变量的例子。变量2严格遵循变量1,Pearson相关系数为1。所以很明显,当这些变量被输入到机器学习模型中时,它们中的一个会表现得像噪音一样。

(编辑:南通站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读