5G将影响下一个网络时代
您可能会注意到,这七个技能中的任何一个都与机器学习或深度学习无关,这不是一个错误。当前,对在建模前和建模后阶段使用的技能有更高的要求。因此,最受推荐的七种学习技能实际上与数据分析师,软件工程师和数据工程师的技能重叠。 我写了一篇文章,专门介绍了为什么不应该首先学习机器学习的原因-您可以在下面查看: SQL SQL是数据世界中的通用语言。无论你是数据科学家、数据工程师还是数据分析师,你都需要了解SQL。 SQL用于从数据库中提取数据,处理数据和创建数据管道。本质上,这对于数据生命周期中几乎每个预分析/预建模阶段都很重要。 开发强大的SQL技能将使您能够将分析,可视化和建模提高到一个新的水平,因为您将能够以高级方式提取和操作数据。 而且,对于使用PB级数据的公司而言,编写高效且可扩展的查询变得越来越重要。 数据可视化 如果您认为创建数据可视化和讲故事特定于数据分析师的角色,那么请往下看。 数据可视化只是指以视觉方式呈现的数据-它可以采用图表的形式,但也可以采用非常规的方式进行呈现。 数据叙事使数据可视化更上一层楼-数据叙事是指"如何"传达见解。 可以把它想像成一本图画书。 一本好的图画书具有良好的视觉效果,但也具有将视觉效果联系起来的引人入胜且功能强大的叙述。 开发数据可视化和讲故事的技能至关重要,因为您始终以数据科学家的身份出售自己的想法和模型。 与其他不懂技术的人交流时,这一点尤其重要。 Python 从我的交流来看,Python似乎是学习首选编程语言。这并不意味着如果你使用R,你就不能成为一名数据科学家,但这只是意味着你将在一种不同于大多数人使用的语言中工作。 学习Python语法很容易,但您应该能够编写高效的脚本,并利用Python提供的大量库和包。Python编程是一个应用程序的构建块,如操作数据,构建机器学习模型,编写DAG文件等等… PANDAS 可以说,用Python中最重要的库是Pandas,它是一个用于数据处理和分析的程序包。 作为数据科学家,无论您要清理数据,浏览数据还是处理数据,您都将一直使用此软件包。 Pandas之所以成为如此流行的软件包,不仅因为它具有功能性,而且因为DataFrames已成为机器学习模型的标准数据结构。 Git /版本控制 Git是技术社区中使用的主要版本控制系统。
如果那没有意义,请考虑以下示例。 在高中或大学中,如果您不得不写一篇论文,则在进行过程中可能会保存不同版本的论文。 例如: (编辑:南通站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |