您现在的位置是：主页 > 深度智能 >

什么是数据科学？数据科学初学者指南

2022-02-17 18:03:48深度智能 5556人已围观

随着世界进入大数据时代，对其存储的需求也在增长。在 2010 年之前，这是企业行业面临的主要挑战和关注点。主要关注点是构建存储数据的框架和解决方案。现在当 Hadoop 等框架成功解决了存储问题后，重点转移到了对这些数据的处理上。数据科学就是这里的关键，你在好莱坞科幻电影中看到的所有想法实际上都可以通过数据科学变成现实。数据科学是人工智能的未来。因此，了解什么是数据科学以及它如何为您的业务增加价值非常重要。

在本文中，我将介绍以下主题。

什么是数据科学？
为什么选择数据科学？
谁是数据科学家？
- 数据科学家做什么的？
它与商业智能 (BI) 和数据科学有何不同？
在用例的帮助下数据科学的生命周期

在本文结束时，您将能够了解什么是数据科学以及它在从我们周围的复杂和大型数据集中提取有意义的见解方面的作用。

什么是数据科学？

数据科学融合了各种工具、算法和机器学习原理，旨在从原始数据中发现隐藏的模式。但这与统计学家多年来一直在做的事情有什么不同呢？

答案在于解释和预测之间的区别。

从上图中可以看出，数据分析师通常通过处理数据的历史来解释发生了什么。另一方面，数据科学家不仅进行探索性分析以从中发现见解，而且还使用各种先进的机器学习算法来识别未来特定事件的发生。数据科学家将从多个角度查看数据，有时是以前不知道的角度。

因此，数据科学主要用于利用预测因果分析、规范分析（预测加决策科学）和机器学习来做出决策和预测。

预测因果分析——如果您想要一个可以预测未来特定事件可能性的模型，您需要应用预测因果分析。比如说，如果您以赊账方式提供资金，那么客户未来按时支付赊账的可能性是您关心的问题。在这里，您可以构建一个模型，该模型可以对客户的付款历史进行预测分析，以预测未来的付款是否准时。

规范性分析：如果您想要一个具有自行决策智能并能够使用动态参数对其进行修改的模型，那么您当然需要对其进行规范性分析。这个相对较新的领域就是提供建议。换句话说，它不仅预测而且建议一系列规定的行动和相关结果。
最好的例子就是我之前讨论过的谷歌的自动驾驶汽车。车辆收集的数据可用于训练自动驾驶汽车。您可以在这些数据上运行算法，为其带来智能。这将使您的汽车能够做出诸如何时转弯、走哪条路径、何时减速或加速等决定。

机器学习进行预测——如果你有金融公司的交易数据，并且需要建立一个模型来确定未来的趋势，那么机器学习算法是最好的选择。这属于监督学习的范式。它被称为监督，因为您已经拥有可以训练机器的数据。例如，可以使用欺诈性购买的历史记录来训练欺诈检测模型。

用于模式发现的机器学习——如果您没有可以进行预测的参数，那么您需要找出数据集中的隐藏模式才能做出有意义的预测。这只不过是无监督模型，因为您没有任何预定义的分组标签。用于模式发现的最常用算法是聚类。
假设您在一家电话公司工作，您需要通过在某个区域放置塔来建立网络。然后，您可以使用聚类技术找到那些可以确保所有用户接收到最佳信号强度的信号塔位置。

让我们看看上述方法在数据分析和数据科学中所占的比例有何不同。如下图所示，数据分析在一定程度上包括描述性分析和预测。另一方面，数据科学更多地是关于预测因果分析和机器学习。

既然您知道数据科学到底是什么，现在让我们首先找出需要它的原因。

为什么选择数据科学？

传统上，我们拥有的数据大多是结构化的且规模较小，可以使用简单的 BI 工具进行分析。与传统系统中的数据大多是结构化的不同，今天大多数数据是非结构化或半结构化的。让我们看一下下图中的数据趋势，它表明到 2020 年，超过 80% 的数据将是非结构化的。

这些数据来自不同的来源，如财务日志、文本文件、多媒体表格、传感器和仪器。简单的 BI 工具无法处理如此庞大数量和种类繁多的数据。这就是为什么我们需要更复杂和先进的分析工具和算法来处理、分析和从中得出有意义的见解。

这并不是数据科学如此受欢迎的唯一原因。让我们更深入地了解数据科学是如何在各个领域中使用的。

如果您可以从现有数据中了解客户的精确需求，例如客户过去的浏览历史、购买历史、年龄和收入，怎么样？毫无疑问，您之前也拥有所有这些数据，但现在有了海量和多样化的数据，您可以更有效地训练模型并更准确地向客户推荐产品。这会不会很神奇，因为它会为您的组织带来更多业务？

让我们用不同的场景来理解数据科学在决策中的作用。如果你的车有智能开车送你回家怎么样？自动驾驶汽车从传感器（包括雷达、摄像头和激光）收集实时数据，以创建其周围环境的地图。根据这些数据，它会利用先进的机器学习算法来决定何时加速、何时减速、何时超车、在哪里转弯。
让我们看看如何在预测分析中使用数据科学。让我们以天气预报为例。可以收集和分析来自船舶、飞机、雷达、卫星的数据以构建模型。这些模型不仅可以预测天气，还有助于预测任何自然灾害的发生。它将帮助您提前采取适当的措施并挽救许多宝贵的生命。

让我们看一下下面的信息图，以了解数据科学正在创造印象的所有领域。

谁是数据科学家？

数据科学家有几种定义。简单来说，数据科学家就是实践数据科学艺术的人。“数据科学家”这个词在考虑到数据科学家从科学领域和应用程序（无论是统计学还是数学）中获取大量信息这一事实之后创造出来。

数据科学家做什么的？

数据科学家是那些凭借其在某些科学学科中的强大专业知识来破解复杂数据问题的人。他们使用与数学、统计学、计算机科学等相关的几个元素（尽管他们可能不是所有这些领域的专家）。他们大量使用最新技术来寻找解决方案并得出对组织的成长和发展至关重要的结论。与结构化和非结构化形式的原始数据相比，数据科学家以更有用的形式呈现数据。

更进一步，现在让我们讨论 BI。我相信您也可能听说过商业智能 (BI)。数据科学经常与 BI 混淆。我会说一些简洁明了的两者之间的对比将帮助您更好地理解。我们来看一下。

商业智能 (BI) 与数据科学

商业智能 (BI) 基本上是分析以前的数据，以寻找后见之明和洞察力来描述业务趋势。在这里，BI 使您能够从外部和内部来源获取数据、准备数据、对其运行查询并创建仪表板来回答季度收入分析或业务问题等问题。BI 可以在不久的将来评估某些事件的影响。

数据科学是一种更具前瞻性的方法，一种探索性的方法，重点是分析过去或当前的数据，并预测未来的结果，目的是做出明智的决策。它回答了关于“什么”和“如何”事件发生的开放式问题。

让我们看一些对比鲜明的特征。

特征	商业智能 (BI)	数据科学
数据源	结构化（通常是 SQL，通常是数据仓库）	结构化和非结构化（日志、云数据、SQL、NoSQL、文本）
方法	统计和可视化	统计学、机器学习、图分析、神经语言编程 (NLP)
重点	过去和现在	现在和未来
工具	Pentaho、微软商业智能、 QlikView、R	RapidMiner、BigML、Weka、R

探索课程

这就是关于什么是数据科学的全部内容，现在让我们了解数据科学的生命周期。

数据科学项目中的一个常见错误是匆忙进行数据收集和分析，而没有了解需求，甚至没有正确地构建业务问题。因此，您必须遵循数据科学整个生命周期的所有阶段，以确保项目的顺利运行。

数据科学的生命周期

以下是数据科学生命周期主要阶段的简要概述：

第 1 阶段——发现： 在开始项目之前，了解各种规格、要求、优先级和所需预算非常重要。你必须具备提出正确问题的能力。在这里，您评估您是否拥有支持项目所需的人员、技术、时间和数据资源。在此阶段，您还需要构建业务问题并制定初始假设 (IH) 以进行测试。

第 2 阶段 - 数据准备： 在此阶段，您需要分析沙箱，您可以在其中执行整个项目期间的分析。您需要在建模之前探索、预处理和调节数据。此外，您将执行 ETLT（提取、转换、加载和转换）以将数据放入沙箱。让我们看一下下面的统计分析流程。

您可以使用 R 进行数据清理、转换和可视化。这将帮助您发现异常值并建立变量之间的关系。清理并准备好数据后，就可以对其进行探索性分析了。让我们看看如何实现这一目标。

第 3 阶段 - 模型规划：

在这里，您将确定绘制变量之间关系的方法和技术。这些关系将为您将在下一阶段实施的算法奠定基础。您将使用各种统计公式和可视化工具应用探索性数据分析 (EDA)。

让我们看看各种模型规划工具。

R拥有一套完整的建模能力，并为构建解释模型提供了良好的环境。
SQL 分析服务可以使用通用数据挖掘功能和基本预测模型执行数据库内分析。
SAS/ACCESS 可用于访问来自 Hadoop 的数据，并用于创建可重复和可重用的模型流程图。

尽管市场上有许多工具，但 R 是最常用的工具。

现在您已经深入了解了数据的性质并决定了要使用的算法。在下一阶段，您将应用算法并建立模型。

第 4 阶段 - 模型构建：在此阶段，您将开发用于训练和测试目的的数据集。在这里，您需要考虑您现有的工具是否足以运行模型，或者是否需要更健壮的环境（如快速和并行处理）。您将分析各种学习技术，如分类、关联和聚类来构建模型。

您可以通过以下工具实现模型构建。

第 5 阶段 - 操作：

在此阶段，您交付最终报告、简报、代码和技术文档。此外，有时还会在实时生产环境中实施试点项目。这将使您在全面部署之前对小规模的性能和其他相关限制有一个清晰的了解。

第 6 阶段 - 传达结果： 现在重要的是评估您是否能够实现您在第一阶段计划的目标。因此，在最后阶段，您确定所有关键发现，与利益相关者沟通并确定结果是否根据第一阶段制定的标准，项目的成功或失败。

现在，我将通过一个案例研究向您解释上述各个阶段。

案例研究：糖尿病预防

如果我们可以预测糖尿病的发生并提前采取适当的措施来预防呢？
在这个用例中，我们将利用我们之前讨论的整个生命周期来预测糖尿病的发生。让我们来看看各个步骤。

步骤1：

首先，我们将根据第一阶段讨论的患者病史收集数据。您可以参考下面的示例数据。

如您所见，我们具有如下所述的各种属性。

属性：

npreg - 怀孕的次数
葡萄糖 - 血浆葡萄糖浓度
bp - 血压
皮肤——三头肌皮褶厚度
bmi - 体重指数
ped——糖尿病谱系函数
年龄 - 年龄
收入——收入

第2步：

现在，一旦我们有了数据，我们就需要清理和准备数据以进行数据分析。
这些数据有很多不一致的地方，如缺失值、空白列、突然的值和不正确的数据格式，需要清理。
在这里，我们将数据组织到不同属性下的单个表中——使其看起来更有条理。
让我们看一下下面的示例数据。

这个数据有很多不一致的地方。

在npreg列中，“one”是用单词写的，而它应该是像 1 这样的数字形式。
在bp列中，其中一个值是 6600，这是不可能的（至少对人类而言），因为 bp 无法达到如此巨大的值。
如您所见，收入列是空白的，在预测糖尿病方面也没有任何意义。因此，将它放在这里是多余的，应该从表中删除。

因此，我们将通过删除异常值、填充空值和规范化数据类型来清理和预处理这些数据。如果您还记得，这是我们的第二阶段，即数据预处理。
最后，我们得到如下所示的干净数据，可用于分析。

第 3 步：

现在让我们按照前面第 3 阶段的讨论进行一些分析。

首先，我们将数据加载到分析沙箱中，并对其应用各种统计功能。例如，R 具有诸如describe之类的函数，它为我们提供缺失值和唯一值的数量。我们还可以使用汇总函数，它可以为我们提供统计信息，例如平均值、中值、范围、最小值和最大值。
然后，我们使用直方图、折线图、箱线图等可视化技术来大致了解数据的分布。

步骤4：

现在，根据上一步得出的见解，最适合此类问题的是决策树。让我们看看如何？

由于我们已经有了npreg、bmi等主要的分析属性，所以我们将在这里使用监督学习技术来构建模型。
此外，我们特别使用了决策树，因为它一次性考虑了所有属性，例如具有线性关系的属性以及具有非线性关系的属性。在我们的例子中，我们在npreg和age 之间存在线性关系，而在npreg和ped之间存在非线性关系。
决策树模型也非常健壮，因为我们可以使用不同的属性组合来制作各种树，然后最终实现效率最高的树。

让我们看看我们的决策树。