必须了解的数据科学面试问题

发布时间：2021-03-07 14:47:05 所属栏目：评论来源：互联网

导读：中p为第i个节点上类k的实例与总的训练实例的比例。这是什么意思??我们通过下面的例子来理解。图一显示了深度为2的Iris决策树的简单可视化。顶层是根节点。将训练集划分为决策集的概念在算法中相当简单。例如，在这里，iris数据集根据根节点上一个称为 petal

中“p”为第i个节点上类k的实例与总的训练实例的比例。这是什么意思??我们通过下面的例子来理解。图一显示了深度为2的Iris决策树的简单可视化。顶层是根节点。将训练集划分为决策集的概念在算法中相当简单。例如，在这里，iris数据集根据根节点上一个称为“ petal width”的单一特征被分成两个子集。如果petal width小于或等于0.8，则算法进入深度1(左)。如果不是，就进入深度1的右边。它根据“petal width”的附加特征进一步划分实例。在深度1上，右节点有100个实例的样本，将0个实例应用于Iris-Setosa, 50个实例应用于Iris-Versicolor，其余50个应用于Iris-Virginica。

似地，在深度1(左节点)处，Gini不纯度为0，因为所有的训练实例都应用于同一个类。节点本质上是“纯”的。

现在我们已经理解了什么是Gini不纯度，让我们进入问题的实质。决策树使用分类和回归树(CART)算法进行训练，基于一个简单的概念，即使用单个特征(k)和阈值(t)将数据集分成两个子集。iris数据集的特征为“petal width”，阈值为0.8。它是如何选择k和t的?它搜索产生最纯子集的对(k, t)。因此，算法试图最小化的代价函数如下式所示：

问题2：共线性会对模型有影响吗?

答案: 共线性是指两个或多个预测变量之间关系密切。下面的图2显示了共线变量的例子。变量2严格遵循变量1,Pearson相关系数为1。所以很明显，当这些变量被输入到机器学习模型中时，它们中的一个会表现得像噪音一样。

（编辑：南通站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

携程梁建章要让元宇宙	全球首座漂浮城市选
酷派新机对比红米Note	小米12或下个月底公布