您现在的位置是:主页 > 深度智能 >

数据科学教程——从零开始学习数据科学!

2022-01-17 18:12:39深度智能 1461人已围观

想以数据科学家的身份开始您的职业生涯,但不知道从哪里开始?恭喜你,你来到了正确的地方!让我们看看我们今天要学习的内容:

  1. 为什么选择数据科学?
  2. 什么是数据科学?
  3. 需要数据科学
  4. 谁是数据科学家?
  5. 工作趋势
  6. 数据科学工作的类型
  7. 数据科学与数据分析
  8. 数据科学与商业智能
  9. 数据科学的先决条件
  10. 如何解决数据科学中的问题?
  11. 数据科学过程
  12. 数据科学组件
  13. 数据科学家的工作角色

为什么选择数据科学?

有人说数据科学家是“21世纪最性感的工作”。为什么?因为在过去的几年里,公司一直在存储他们的数据。每家公司都在这样做,它突然导致数据爆炸。数据已经成为当今最丰富的东西。

但是,您将如何处理这些数据?让我们用一个例子来理解这一点:

比如说,你有一家生产手机的公司。你发布了你的第一个产品,它大受欢迎。每项技术都有生命,对吧?所以,现在是时候想出一些新的东西了。但是您不知道应该创新什么,以满足用户的期望,他们正在热切地等待您的下一个版本?

在您的公司中,有人提出了使用用户生成的反馈并选择我们认为用户在下一个版本中期望的东西的想法。

在数据科学中,您应用各种数据挖掘技术,如情感分析等,并获得所需的结果。

不仅如此,您可以做出更好的决策,您可以通过高效的方式降低生产成本,并为您的客户提供他们真正想要的东西!

有了这个,数据科学可以带来无数的好处,因此你的公司绝对有必要拥有一个数据科学团队。 像这样的要求导致今天“数据科学”成为一门学科,因此我们正在为您写这篇关于数据科学教程的博客。:)

数据科学教程:什么是数据科学?

随着数理统计和数据分析的发展,最近出现了数据科学一词。这段旅程令人惊叹,我们今天在数据科学领域取得了如此多的成就。

在接下来的几年里,我们将能够像麻省理工学院的研究人员所声称的那样预测未来。凭借出色的研究,他们已经在预测未来方面达到了一个里程碑。他们现在可以用他们的机器预测电影的下一个场景会发生什么!如何?好吧,到目前为止,您理解起来可能有点复杂,但是不要担心,在本博客结束时,您也会有答案。

回过头来,我们谈论的是数据科学,它也被称为数据驱动科学,它利用科学的方法、过程和系统从各种形式的数据中提取知识或见解,即结构化或非结构化。

这些方法和过程是什么,这是我们今天要在本数据科学教程中讨论的内容。

展望未来,谁在进行所有这些头脑风暴,或者谁在实践数据科学?数据科学家

需要数据科学

  • 关于我们拥有多少数据,我们生成多少数据的事实
    • 《福布斯》报道,从 2010 年到 2020 年,全球创建、复制、捕获和吸收的数据总量从 1.2 万亿 GB 增加到 59 万亿 GB,几乎增长了 5,000%。
  • 关于公司如何从数据科学中获利的事实
    • 数据科学正在蓬勃发展。有大量的公司在做数据转换(将他们旧的 IT 基础设施转变为支持数据科学的基础设施),到处都有数据训练营等等。当然,这样做的原因很简单:数据科学提供了有意义的见解。
    • 一群高管凭直觉做出本能决定来推动公司发展的时代即将结束。他们正在被应用数据驱动决策的组织所超越。例如,让我们看看福特组织在 2006 年面临 126 亿美元的亏损。失败后,他们聘请了一位首席数据科学家来领导转型,并进行了为期三年的大修。这最终导致售出超过 230 万辆汽车,并在 2009 年结束时实现了盈利。
  • 数据科学家的需求和平均工资
  • 据《今日印度》报道,印度正在见证企业和服务的快速数字化,使其成为世界第二大数据科学中心。分析人士预测,到 2026 年,该国将有超过 1100 万个职位空缺。事实上,自 2019 年以来,数据科学行业的招聘人数实际上增加了 46%。
  • 尽管如此,截至 2020 年 8 月,印度仍有大约 93,000 个数据科学职位空缺。这些空缺中有 70% 是经验不足 5 年的职位。
  • 雇佣工程师的时间是 6 到 8 周,而雇佣数据科学家的时间是 11 到 12 周。供应缺口巨大和招聘时间长的原因可以追溯到现有的技能缺口。
  • 数据科学和机器学习有一个陡峭的学习曲线。尽管印度每年都有大量数据科学家涌入,但仍然很少有人具备所需的技能和专业知识。因此,对具有专业数据技能的专业人员的需求很高。
  • 根据 Glassdoor:
    • 印度数据科学家的平均工资: INR 10L/yr
    • 美国数据科学家的平均工资:1L/yr USD

谁是数据科学家?

正如您在图片中看到的,数据科学家是所有行业的大师!他应该精通数学,他应该在商业领域取得领先,并且还应该具有出色的计算机科学技能。害怕的?不要这样。虽然你需要在所有这些领域都表现出色,但即使你不是,你并不孤单!没有“完整的数据科学家”这样的东西。如果我们谈论在企业环境中工作,工作是分布在团队之间的,每个团队都有自己的专长。但问题是,你应该至少精通其中一个领域。此外,即使这些技能对您来说是新技能,也要冷静!这可能需要时间,但这些技能是可以培养的,相信我,花时间投资是值得的。为什么?好吧,让我们看看就业趋势。

数据科学家工作趋势

好吧,图表说明了一切,数据科学家不仅有很多职位空缺,而且这些职位的薪水也很高!不,我们的博客不会涵盖工资数据,去谷歌吧!

好吧,我们现在知道,学习数据科学实际上是有道理的,不仅因为它非常有用,而且你在不久的将来也会有一个伟大的职业生涯。

让我们现在开始我们学习数据科学的旅程,首先,

数据科学工作的类型

  • 数据科学家——数据科学家知道如何从数据中提取有意义的模式和推断,也知道如何解释数据,这需要统计学和机器学习的工具和方法。
  • 数据分析师——数据分析师提取、清理和解释数据集以回答问题或解决业务问题。他们可以在许多行业工作,包括金融、商业、刑事司法、科学、医疗保健和政府。
  • 业务分析师—— 业务分析师负责使用数据分析来评估流程、确定需求并提供数据驱动的建议以及向高管和利益相关者报告,从而缩小业务与 IT 之间的差距。

业务分析师与业务领导者和用户互动,以了解数据驱动的流程、服务、产品、软件和硬件变更如何提高效率并增加价值。BA 必须阐明这些想法,但也要平衡它们与技术上可行、功能上和财务上的合理性。

  • 数据工程师——数据工程师在不同的环境中工作,以构建管理、收集原始数据并将其转换为可用信息的系统,以供数据科学家和业务分析师解释。他们的最终目标是使数据可访问,以便组织可以使用它来优化和评估其绩效。
  • 商业智能分析师 -商业智能分析师或 BI 分析师将数据转化为推动业务价值的洞察力。通过使用数据可视化、数据分析和数据建模技术和技巧,BI 分析师可以识别趋势,帮助其他部门、高管和经理做出业务决策,以改进和现代化组织中的流程。
  • 机器学习工程师 - 机器学习工程师是计算机程序员,但他们的重点超出了专门对机器进行编程以执行特定任务。他们创建的程序将使机器能够采取行动,而无需专门指示执行这些任务。
  • 统计学家——在高层次上,统计学家是将统计方法和建模技术应用于现实世界问题的专业人士。他们收集、解释和分析数据以帮助许多业务决策过程。统计学家是各行各业的宝贵雇员,经常在商业、医疗保健、政府、环境科学和物理科学等领域寻求职位。

数据科学家的职责

  1. 通过探索性研究和构建开放式行业问题来解决业务问题
  2. 收集大量非结构化和结构化数据。他们必须使用 SQL 等编程语言从关系数据库中查询结构化数据。他们还通过 API、网络抓取和调查收集非结构化数据。
  3. 采用完善的分析方法、统计和机器学习方法来准备可用于预测和规范建模的数据。
  4. 严格清理数据以丢弃不相关的信息,并为建模和预处理准备数据。
  5. 进行探索性数据分析 (EDA) 以了解如何处理缺失数据并寻找趋势和/或机会。
  6. 发现新算法来解决复杂问题并构建程序以自动化重复性工作。
  7. 通过有效的报告和数据可视化将发现和预测传达给管理和 IT 部门。
  8. 建议对现有程序和策略进行具有成本效益的更改

数据科学的先决条件:

  • 技术的

    • 数学建模:需要数学建模来根据可用数据进行快速数学计算和预测。数据科学所需的主要数学概念是统计、概率和线性代数。
    • 对编程的理解:对于数据科学,至少需要一种编程语言的知识。Python、R Spark 是数据科学所需的一些计算机编程语言。
    • 数据可视化:它是在视觉环境中翻译和交流数据和信息的过程,通常使用图表、图形、条形或其他视觉辅助工具。可视化还利用图像来传达不同数据集之间的关系。
    • 机器学习:要了解数据科学,还需要了解机器学习的概念,因为数据科学使用机器学习的算法来解决各种问题。
    • 深度学习:它可以被认为是机器学习的一个子集。它是一个基于通过检查计算机算法进行自我学习和改进的领域。虽然机器学习使用更简单的概念,但深度学习与人工神经网络 (ANN) 一起工作,人工神经网络 (ANN) 旨在模仿人类的思考和学习方式。直到最近,神经网络还受到计算能力的限制,因此复杂性受到限制。然而,大数据分析的进步已经允许更大、更先进的神经网络,使计算机能够比人类更快地观察、学习和对复杂情况做出反应。深度学习有助于图像分类、语音识别和语言翻译。它可用于解决任何模式识别问题,无需人工干预。
    • 数据库理解:对数据库设计和数据库(如 SQL)的深入理解对于数据科学获取数据和处理数据至关重要。
  • 非技术

    • 业务问题解决:现实世界的业务问题很少得到很好的定义。数据科学家有责任理解开放式业务问题并将其转换为数据科学问题。此外,了解每种模型在特定业务场景中的优缺点也很重要。
    • 批判性思维:这是数据科学家的必备要求,以便可以找到多种新方法来有效和高效地解决问题。
    • 沟通技巧:沟通技巧对于数据科学家来说是最重要的,因为在解决了业务问题之后,您还需要与团队进行沟通。

数据科学与数据分析

特征 数据科学 数据分析
定义 数据科学使用科学方法、算法、流程和系统从结构化和非结构化数据中提取洞察力和知识,并将算法和可操作的洞察力从数据中应用到广泛的应用领域。 数据分析是一个检查、清理、探索、转换和建模数据的过程,其目标是发现有用的信息和模式,提供结论并支持决策制定。
在职的 数据分析师和数据科学家之间的主要区别在于数据科学家需要熟练掌握的繁重编码。

数据科学家可以同时使用多种工具排列未定义的数据集,并构建自己的自动化系统和框架。

数据分析师,使用一系列不同的工具来分析定义明确的数据集,以满足大量的业务需求

例如,为什么某个地区的销售额下降,为什么某个季度的营销活动表现更好,某些内部功能如何影响收入。

主要领域 机器学习、人工智能、特征工程、企业分析、统计建模。 具有即时数据需求的医疗保健、游戏、旅游、工业、电子商务
技能 机器学习、深度学习、NLP、软件开发、Hadoop、统计学、数据挖掘/数据仓库、数据分析、Python。 数据挖掘/数据仓库、数据建模、R 或 SAS、SQL、统计分析、数据可视化、数据库管理和报告以及数据分析。
角色和职责 数据科学家的任务是设计数据建模流程,以及创建机器学习算法和预测模型,以提取和组织组织解决复杂业务问题所需的信息。 数据分析师负责设计和维护数据系统和数据库,使用统计工具解释数据集,并根据相关发现准备有效传达趋势、模式和预测的报告。
工作任务 数据清理、模式识别、使用机器学习技术从数据中提取有意义的洞察力和业务洞察力 数据处理、数据清理、探索性数据分析、模式识别、数据库设计、开发可视化和 KPI。

数据科学与商业智能

特征 数据科学 商业智能
定义 数据科学使用科学的方法、流程、算法和系统从结构化和非结构化数据中提取知识和洞察力,并将算法和可操作的洞察力从数据中应用到广泛的应用领域。 商业智能包括组织用于对商业信息进行数据分析的策略和技术。BI 技术提供业务运营的历史、当前和预测视图。
数据 它处理结构化和非结构化数据。 它主要处理结构化数据。
方法 这是一种科学的方法。 它是一种分析方法。
复杂 M高度复杂 比较简单
灵活的 数据科学更加灵活,因为可以根据需要添加数据源。 它不太灵活,因为在商业智能的情况下需要预先规划数据源。


如何解决数据科学中的问题?

所以现在,让我们讨论一个人应该如何处理一个问题并用数据科学解决它。使用算法解决数据科学中的问题。但是,最重要的判断是使用哪种算法以及何时使用它?

基本上,您在数据科学中可能会遇到 5 种问题。

让我们一一解决这些问题和相关的算法:

这是A还是B?

对于这个问题,我们指的是具有明确答案的问题,例如在具有固定解决方案的问题中,答案可以是是或否、1 或 0、感兴趣、可能或不感兴趣。

例如:

问:你要什么,茶还是咖啡?

在这里,你不能说你想要可乐!由于该问题仅提供茶或咖啡,因此您只能回答其中之一。

当我们只有两种类型的答案,即是或否、1 或 0 时,称为 2 – 类别分类。有两个以上的选项,称为多类分类。

最后,当你遇到问题时,答案是分类的,在数据科学中,你将使用分类算法来解决这些问题。

这个数据科学教程中的下一个问题,你可能会遇到,可能是这样的,

这很奇怪吗?

此类问题涉及模式,可以使用异常检测算法来解决。

例如:

尝试将问题联系起来“这很奇怪吗?” 到这个图,

上面的模式有什么奇怪的?红人不行吗?

每当模式出现中断时,算法都会标记该特定事件以供我们查看。该算法的实际应用已由信用卡公司实施,其中,用户的任何异常交易都会被标记以供审查。从而实现安全并减少人类的监视工作。

让我们看看这个数据科学教程中的下一个问题,不要害怕,处理数学!

多少或多少?

不喜欢数学的小伙伴们放心吧!回归算法来了!

因此,每当有可能需要数字或数值的问题时,我们都会使用回归算法来解决它。

例如:

明天的温度是多少?

由于我们期望在对这个问题的响应中有一个数值,因此我们将使用回归算法来解决它。

在这个数据科学教程中继续前进,让我们讨论下一个算法,

这是如何组织的?

假设您有一些数据,现在您不知道如何从这些数据中理解。因此,问题是,这是如何组织的?

好吧,您可以使用聚类算法来解决它。他们如何解决这些问题?让我们来看看:

聚类算法根据常见的特征对数据进行分组。例如在上图中,点是根据颜色组织的。同样,无论是任何数据,聚类算法都试图理解它们之间的共同点,从而将它们“聚类”在一起。

您可能会遇到本数据科学教程中的下一个也是最后一个问题,

接下来我该怎么办?

每当您遇到问题时,您的计算机必须根据您对其进行的训练做出决定,这涉及到强化算法。

例如:

您的温度控制系统,当它必须决定是降低房间温度还是提高房间温度时。

这些算法是如何工作的?

这些算法基于人类心理学。我们喜欢被欣赏对吧?计算机实现这些算法,并期望在接受训练时受到赞赏。如何?让我们来看看。

与其教计算机做什么,不如让它决定做什么,在动作结束时,你给出正面或负面的反馈。因此,与其定义系统中什么是对什么是错,不如让系统“决定”做什么,并最终给出反馈。

这就像训练你的狗一样。你无法控制你的狗做什么,对吧?但是当他做错事时,你可以责骂他。同样,当他做预期的事情时,也许会拍拍他的背。

让我们把这个理解应用到上面的例子中,假设你正在训练温度控制系统,所以只要不是。房间里的人数增加,系统必须采取行动。要么降低温度,要么提高温度。由于我们的系统什么都不理解,它需要一个随机的决定,假设它会增加温度。因此,您给出了负面反馈。有了这个,计算机就会知道房间里的人数增加时,永远不会增加温度。

同样对于其他操作,您应提供反馈。对于每个反馈,您的系统都在学习,因此在下一个决策中变得更加准确,这种类型的学习称为强化学习。

现在,我们在本数据科学教程中学习的算法涉及一个常见的“学习实践”。我们正在让机器学习对吗?

什么是机器学习?

它是一种人工智能,使计算机能够自行学习,即无需明确编程。通过机器学习,机器可以在遇到新情况时更新自己的代码。

在本数据科学教程的总结中,我们现在知道数据科学得到了机器学习及其分析算法的支持。我们如何进行分析,我们在哪里进行分析。数据科学还有一些组件可以帮助我们解决所有这些问题。

在此之前,让我回答一下麻省理工学院如何预测未来,因为我认为你们现在可能能够将其联系起来。因此,麻省理工学院的研究人员用电影训练了他们的模型,计算机学习了人类的反应,或者他们在采取行动之前如何行动。

例如,当你要与某人握手时,你会把手从口袋里拿出来,或者靠在对方身上。基本上,我们所做的每一件事都有一个“预先行动”。计算机在电影的帮助下接受了这些“预动作”的训练。通过观察越来越多的电影,他们的计算机能够预测角色的下一步行动。

容易不是吗?让我再向您提出一个问题,然后在本数据科学教程中!他们必须在其中实现了哪种机器学习算法?

数据科学过程:

  • 数据提取——数据提取是从各种来源收集或检索不同类型数据的过程,其中许多数据可能组织不良或完全非结构化。数据提取使处理、合并和细化数据成为可能,以便可以将其存储在集中位置以便进行修改。这些位置可能是基于云的、现场的或两者的混合。
    数据提取是 ELT(提取、加载、转换)和 ETL(提取、转换、加载)任务中最初始的步骤。ETL/ELT 本身就是绝对数据集成策略的一部分。
  • 数据准备——一旦数据被提取出来,它就进入了数据准备阶段。数据准备,通常称为“预处理”,是为数据处理的下一个阶段清理和组织原始数据的阶段。在准备过程中,会严格检查原始数据是否存在任何错误。此步骤的目的是消除不良数据(冗余、不完整或不正确的数据),并开始为最佳商业智能创建优质数据。
  • 探索性数据分析 (EDA) –它是指对数据进行初步调查以发现有意义的模式、检测异常、检验假设并在图形表示和汇总统计的支持下检查假设的审查过程。良好的做法是首先了解数据并尝试从中收集尽可能多的有意义的见解。EDA 就是要在手头的数据被玷污之前弄清它们的意义。
  • 预测分析——它查看历史和当前数据模式以确定这些模式是否可能再次出现。这使投资者和企业可以调整他们使用资源的地方,以利用未来可能发生的事件。预测分析还可用于降低风险和提高运营效率。预测分析是一种独特的技术,可以对未来的某些未知因素进行预测。它利用一系列技术来做出这些决定,包括人工智能 (AI)、数据挖掘、机器学习、建模和统计。
  • 模型构建——在这一步中,模型构建过程实际上开始了。在这里,数据科学家分发数据集以进行训练和测试。回归、分类和聚类等技术应用于训练数据集。当模型准备好时,它会针对“测试”数据集进行测试。以下是一些常见的模型构建工具:
  • SAS Enterprise Miner
  • MATLAB
  • BigML
  • WEKA
  • Apache Spark
  • SPCS Modeler
  • 模型部署:在模型部署中,模型以所需的渠道和格式进行部署。经过仔细评估和修改,数据模型将准备好实时提供结果。
  • 结果沟通:在这个阶段,我们将检查我们是否达到了我们在初始阶段设定的目标。然后,我们将与业务团队沟通调查结果和最终结果。


数据科学组件

1. 数据集

你会分析什么?数据,对吧?您需要大量可以分析的数据,这些数据将提供给您的算法或分析工具。您从过去进行的各种研究中获得这些数据。

2. R Studio

R 是由 R 基金会支持的用于统计计算和图形的开源编程语言和软件环境。R 语言用于称为 R Studio 的 IDE。

为什么使用它?

  • 编程和统计语言

    • 除了用作统计语言之外,它还可以用作用于分析目的的编程语言。


  • 数据分析和可视化

    • 除了作为最主要的分析工具之一之外,R 还是用于数据可视化的最流行的工具之一。


  • 简单易学

    • R 是一个简单易学、易读、易写的



  • 免费和开源
    • R 是 FLOSS(自由/自由和开源软件)的一个示例,这意味着人们可以自由分发该软件的副本、阅读它的源代码、修改它等。


R Studio 足以进行分析,直到我们的数据集变得庞大,同时也是非结构化的。这种类型的数据被称为大数据。

3. 大数据

大数据是数据集的集合的术语,这些数据集如此庞大和复杂,以至于使用现有的数据库管理工具或传统的数据处理应用程序变得难以处理。

现在要驯服这些数据,我们必须想出一个工具,因为没有传统的软件可以处理这种数据,因此我们想出了 Hadoop。

4. Hadoop

Hadoop 是一个框架,可帮助我们以分布式方式并行存储处理大型数据集。

让我们关注 Hadoop 的存储和处理部分。

存储

Hadoop中的存储部分由HDFS(即Hadoop分布式文件系统)处理。它在分布式生态系统中提供高可用性。它的运作方式是这样的,它将传入的信息分解成块,并将它们分发到集群中的不同节点,从而实现分布式存储。

过程

MapReduce 是 Hadoop 处理的核心。这些算法完成了两个重要的任务,map 和 reduce。映射器将任务分解为并行处理的较小任务。一次,所有映射器都完成了各自的工作,他们汇总了结果,然后这些结果通过 Reduce 过程简化为更简单的值。

如果我们在数据科学中使用 Hadoop 作为我们的存储,那么使用 R Studio 处理输入变得很困难,因为它无法在分布式环境中很好地执行,因此我们有了 Spark R。

5.Spark R

它是一个 R 包,提供了一种将 Apache Spark 与 R 结合使用的轻量级方式。为什么要使用它而不是传统的 R 应用程序?因为,它提供了一个分布式数据框架实现,支持选择、过滤、聚合等操作,但在大型数据集上。

现在喘口气!我们已经完成了本数据科学教程中的技术部分,现在让我们从您的工作角度来看它。我想你现在已经在谷歌上搜索了数据科学家的薪水,但是,让我们讨论一下你作为数据科学家可以从事的工作角色。

数据科学家的工作角色

一些著名的数据科学家职位是:

  • 数据科学家
  • 数据工程师
  • 数据架构师
  • 数据管理员
  • 数据分析师
  • 业务分析师
  • 数据/分析经理
  • 商业智能经理

下面这个图表显示了按技能划分的数据科学家的平均工资。


提高数据科学和大数据分析技能的时机已经成熟,可以利用您的数据科学职业机会。这将我们带到数据科学教程博客的结尾。我希望这个博客能为您提供信息并增加价值。现在是进入数据科学世界并成为一名成功的数据科学家的时候了。

站点信息

  • 文章统计 3573 篇文章
  • 微信公众号:扫描二维码,关注我们