您现在的位置是：主页 > 深度智能 >

5 个数据科学项目——实践数据科学项目

2022-02-25 14:57:00深度智能 5280人已围观

免费预览：

随着人工智能的指数级爆发，公司急切地希望聘请熟练的数据科学家来发展他们的业务。除了获得数据科学认证之外，在你的简历中加入几个数据科学项目总是好的。有理论知识是永远不够的。因此，在本博客中，您将学习如何实际使用数据科学方法来解决实际问题。

以下是本文将涵盖的主题列表博客：

数据科学项目生命周期

有了正确的数据，数据科学可用于解决从欺诈检测和智能农业到预测气候变化和心脏病等问题。话虽如此，数据不足以解决问题，您需要一种可以为您提供最准确结果的方法或方法。这给我们带来了一个问题：

您如何解决数据科学问题？

数据科学中的问题陈述可以通过以下步骤来解决：

定义问题陈述/业务需求
数据采集
数据清洗
数据探索与分析
数据建模
部署与优化

数据科学项目生命周期 – 数据科学项目

让我们详细看看这些步骤中的每一个：

第 1 步：定义问题陈述

在你开始一个数据科学项目之前，你必须定义你要解决的问题。在这个阶段，您应该清楚项目的目标。

第 2 步：数据收集

顾名思义，在这个阶段，您必须获取解决问题所需的所有数据。收集数据并不是一件容易的事，因为大多数时候您不会在数据库中找到等待您的数据。相反，你必须出去，做一些研究并收集数据或从互联网上抓取数据。

第三步：数据清理

如果你问数据科学家，他们最不喜欢数据科学的过程是什么，他们很可能会告诉你这是数据清洗。数据清洗是删除冗余、丢失、重复和不必要数据的过程。这个阶段被认为是数据科学中最耗时的阶段之一。然而，为了防止错误的预测，消除数据中的任何不一致是很重要的。

第 4 步：数据分析和探索

清理完数据后，就该拿出内在的福尔摩斯了。在数据科学生命周期的这个阶段，您必须检测数据中的模式和趋势。您可以在此处检索有用的见解并研究数据的行为。在这个阶段结束时，您必须开始对您的数据和您正在解决的问题形成假设。

第 5 步：数据建模

这个阶段就是建立一个最能解决您的问题的模型。模型可以是使用数据进行训练和测试的机器学习算法。这个阶段总是从一个称为数据拼接的过程开始，在这个过程中，您将整个数据集分成两个比例。一个用于训练模型（训练数据集），另一个用于测试模型的效率（测试数据集）。

接下来是使用训练数据集构建模型，最后使用测试数据集评估模型。

第 6 步：优化和部署：

这是数据科学生命周期的最后阶段。在这个阶段，你必须尝试提高数据模型的效率，使其能够做出更准确的预测。最终目标是将模型部署到生产或类似生产的环境中，以供最终用户接受。用户必须验证模型的性能，如果模型有任何问题，则必须在此阶段进行修复。

既然你知道一个问题是如何使用数据科学来解决，让我们进入有趣的部分。在接下来的部分中，我将为您提供五个高级数据科学项目，这些项目可以让您在顶级 IT 公司中获得聘用。

R中的数据科学

在我们开始编码之前，这里有一个简短的免责声明：

我将使用 R 语言来运行整个数据科学工作流程，因为R 是一种统计语言，它有超过 8000 个包，可以让我们的生活更轻松。

1994 年人口普查收入数据的分类

问题陈述：建立一个模型，该模型将根据有关该个人的可用数据预测美国任何个人的收入是否大于或小于 50,000 美元。

数据集描述：该人口普查收入数据集由 Barry Becker 于 1994 年收集并提供给公共网站http://archive.ics.uci.edu/ml/datasets/Census+Income。该数据集将帮助您了解一个人的收入如何因教育背景、职业、婚姻状况、地理、年龄、每周工作小时数等各种因素而变化。

以下是用于预测个人收入是否超过 50,000 美元的自变量或预测变量列表：

年龄
工薪阶层
最终重量
教育
Education-num（受教育年限）
婚姻状况
职业
关系
种族
性别
资本收益
资本损失
每周几小时
祖国

因变量是代表收入水平的“收入水平”。这是一个分类变量，因此它只能取两个值：

<=50k
>=50k

现在我们已经定义了目标并收集了数据，是时候开始分析了。

第 1 步：导入数据

幸运的是，我们在网上找到了一个数据集，所以我们所要做的就是将数据集导入我们的 R 环境，如下所示：

#Downloading train and test data

trainFile = "adult.data"; testFile = "adult.test"

if (!file.exists (trainFile))

download.file (url = "http://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data",

destfile = trainFile)

if (!file.exists (testFile))

download.file (url = "http://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.test",

destfile = testFile)

在上面的代码片段中，我们下载了训练数据集和测试数据集。

如果您查看训练数据，您会注意到预测变量没有标记。因此，在下面的代码片段中，我为每个预测变量分配了变量名，并且为了使数据更具可读性，我去掉了不必要的空格。

#Assigning column names

colNames = c ("age", "workclass", "fnlwgt", "education",

"educationnum", "maritalstatus", "occupation",

"relationship", "race", "sex", "capitalgain",

"capitalloss", "hoursperweek", "nativecountry",

"incomelevel")

#Reading training data

training = read.table (trainFile, header = FALSE, sep = ",",

strip.white = TRUE, col.names = colNames,

na.strings = "?", stringsAsFactors = TRUE)

现在为了研究我们的数据集的结构，我们调用 str() 方法。这为我们提供了数据集中存在的所有预测变量的描述性摘要：

#Display structure of the data

str (training)

> str (training)

'data.fr ame': 32561 obs. of 15 variables:

$ age : int 39 50 38 53 28 37 49 52 31 42 ...

$ workclass : Factor w/ 8 levels "Federal-gov",..: 7 6 4 4 4 4 4 6 4 4 ...

$ fnlwgt : int 77516 83311 215646 234721 338409 284582 160187 209642 45781 159449 ...

$ education : Factor w/ 16 levels "10th","11th",..: 10 10 12 2 10 13 7 12 13 10 ...

$ educationnum : int 13 13 9 7 13 14 5 9 14 13 ...

$ maritalstatus: Factor w/ 7 levels "Divorced","Married-AF-spouse",..: 5 3 1 3 3 3 4 3 5 3 ...

$ occupation : Factor w/ 14 levels "Adm-clerical",..: 1 4 6 6 10 4 8 4 10 4 ...

$ relationship : Factor w/ 6 levels "Husband","Not-in-family",..: 2 1 2 1 6 6 2 1 2 1 ...

$ race : Factor w/ 5 levels "Amer-Indian-Eskimo",..: 5 5 5 3 3 5 3 5 5 5 ...

$ sex : Factor w/ 2 levels "Female","Male": 2 2 2 2 1 1 1 2 1 2 ...

$ capitalgain : int 2174 0 0 0 0 0 0 0 14084 5178 ...

$ capitalloss : int 0 0 0 0 0 0 0 0 0 0 ...

$ hoursperweek : int 40 13 40 40 40 40 16 45 50 40 ...

$ nativecountry: Factor w/ 41 levels "Cambodia","Canada",..: 39 39 39 39 5 39 23 39 39 39 ...

$ incomelevel : Factor w/ 2 levels "<=50K",">50K": 1 1 1 1 1 1 1 2 2 2 ...

因此，在导入数据并将其转换为可读格式之后，我们将进入数据处理的下一个关键步骤，即数据清洗。

第 2 步：数据清理

数据清理阶段被认为是数据科学中最耗时的任务之一。此阶段包括删除 NA 值、删除冗余变量和数据中的任何不一致。

我们将通过检查我们的数据观察是否有任何缺失值来开始数据清理：

> table (complete.cases (training))

FALSE TRUE

2399 30162

上面的代码片段表明 2399 个样本案例具有 NA 值。为了解决这个问题，让我们看一下我们所有变量的摘要，并分析哪些变量的空值数量最多。我们必须摆脱 NA 值的原因是它们会导致错误的预测，从而降低我们模型的准确性。

> summary (training [!complete.cases(training),])

age workclass fnlwgt education educationnum

Min. :17.00 Private : 410 Min. : 12285 HS-grad :661 Min. : 1.00

1st Qu.:22.00 Self-emp-inc : 42 1st Qu.:121804 Some-college:613 1st Qu.: 9.00

Median :36.00 Self-emp-not-inc: 42 Median :177906 Bachelors :311 Median :10.00

Mean :40.39 Local-gov : 26 Mean :189584 11th :127 Mean : 9.57

3rd Qu.:58.00 State-gov : 19 3rd Qu.:232669 10th :113 3rd Qu.:11.00

Max. :90.00 (Other) : 24 Max. :981628 Masters : 96 Max. :16.00

NA's :1836 (Other) :478

maritalstatus occupation relationship race

Divorced :229 Prof-specialty : 102 Husband :730 Amer-Indian-Eskimo: 25

Married-AF-spouse : 2 Other-service : 83 Not-in-family :579 Asian-Pac-Islander: 144

Married-civ-spouse :911 Exec-managerial: 74 Other-relative: 92 Black : 307

Married-spouse-absent: 48 Craft-repair : 69 Own-child :602 Other : 40

Never-married :957 Sales : 66 Unmarried :234 White :1883

Separated : 86 (Other) : 162 Wife :162

Widowed :166 NA's :1843

sex capitalgain capitalloss hoursperweek nativecountry

Female: 989 Min. : 0.0 Min. : 0.00 Min. : 1.00 United-States

Median : 0.0 Median : 0.00 Median :40.00 Canada

Mean : 897.1 Mean : 73.87 Mean :34.23 Philippines

3rd Qu.: 0.0 3rd Qu.: 0.00 3rd Qu.:40.00 Germany

Max. :99999.0 Max. :4356.00 Max. :99.00 (Other)

NA's : 583

从上面的总结可以看出，三个变量具有大量的 NA 值：

工人阶级 – 1836
职业 – 1843
本国 – 583

这三个变量必须清除，因为它们是预测个人收入水平的重要变量。

#Removing NAs

TrainSet = training [!is.na (training$workclass) & !is.na (training$occupation), ]

TrainSet = TrainSet [!is.na (TrainSet$nativecountry), ]

一旦我们摆脱了 NA 值，我们的下一步就是摆脱任何对预测结果不是必需的不必要变量。摆脱这些变量很重要，因为它们只会增加模型的复杂性而不会提高其效率。

一个这样的变量是“fnlwgt”变量，它表示通过计算人口的任何特定社会经济特征的“加权统计”从 CPS 得出的人口总数。

该变量已从我们的数据集中删除，因为它无助于预测我们的结果变量：

#Removing unnecessary variables

TrainSet$fnlwgt = NULL

这就是数据清洗的全部内容，我们的下一步是数据探索。

第三步：数据探索

数据探索涉及分析每个特征变量以检查变量是否对构建模型很重要。

探索年龄变量

#Data Exploration

#Exploring the age variable

> summary (TrainSet$age)

Min. 1st Qu. Median Mean 3rd Qu. Max.

17.00 28.00 37.00 38.44 47.00 90.00

#Boxplot for age variable

boxplot (age ~ incomelevel, data = TrainSet,

main = "Income levels based on the Age of an individual",

xlab = "Income Level", ylab = "Age", col = "salmon")

箱线图 – 数据科学项目

#Histogram for age variable

incomeBelow50K = (TrainSet$incomelevel == "<=50K")

xlimit = c (min (TrainSet$age), max (TrainSet$age))

ylimit = c (0, 1600)

hist1 = qplot (age, data = TrainSet[incomeBelow50K,], margins = TRUE,

binwidth = 2, xlim = xlimit, ylim = ylimit, colour = incomelevel)

hist2 = qplot (age, data = TrainSet[!incomeBelow50K,], margins = TRUE,

binwidth = 2, xlim = xlimit, ylim = ylimit, colour = incomelevel)

grid.arrange (hist1, hist2, nrow = 2)

直方图 – 数据科学项目

上图表明年龄变量随收入水平而变化，因此它是一个强有力的预测变量。

探索“educationnum”变量

该变量表示个人的受教育年限。让我们看看 'educationnum' 变量如何随收入水平变化：

> summary (TrainSet$educationnum)

Min. 1st Qu. Median Mean 3rd Qu. Max.

1.00 9.00 10.00 10.12 13.00 16.00

#Boxplot for education-num variable

boxplot (educationnum ~ incomelevel, data = TrainSet,

main = "Years of Education distribution for different income levels",

xlab = "Income Levels", ylab = "Years of Education", col = "green")

数据探索 (educationnum) – 数据科学项目

上图描述了 'educationnum' 变量随着收入水平 <=50k 和 >50k 的变化而变化，因此证明它是预测结果的重要变量。

探索资本收益和资本损失变量

在研究了每个收入水平的资本收益和资本损失变量的汇总后，很明显它们的均值差异很大，因此表明它们是预测个人收入水平的合适变量。

> summary (TrainSet[ TrainSet$incomelevel == "<=50K",

+ c("capitalgain", "capitalloss")])

capitalgain capitalloss

Min. : 0.0 Min. : 0.00

1st Qu.: 0.0 1st Qu.: 0.00

Median : 0.0 Median : 0.00

Mean : 148.9 Mean : 53.45

3rd Qu.: 0.0 3rd Qu.: 0.00

Max. :41310.0 Max. :4356.00

探索小时/周变量

同样，评估“hoursperweek”变量以检查它是否是一个重要的预测变量。

#Evaluate hours/week variable

> summary (TrainSet$hoursperweek)

Min. 1st Qu. Median Mean 3rd Qu. Max.

1.00 40.00 40.00 40.93 45.00 99.00

boxplot (hoursperweek ~ incomelevel, data = TrainSet,

main = "Hours Per Week distribution for different income levels",

xlab = "Income Levels", ylab = "Hours Per Week", col = "salmon")

数据探索（每周小时数） – 数据科学项目

箱线图显示了不同收入水平的明显变化，这使其成为预测结果的重要变量。

同样，我们也将评估分类变量。在下面的部分中，我为每个变量创建了 qplots，在评估了这些图之后，很明显这些变量对于预测个人的收入水平至关重要。

探索工作类变量

1 2	#Evaluating work-class variable qplot (incomelevel, data = TrainSet, fill = workclass) + facet_grid (. ~ workclass)

数据探索 (workclass) – 数据科学项目

1 2	#Evaluating occupation variable qplot (incomelevel, data = TrainSet, fill = occupation) + facet_grid (. ~ occupation)

数据探索（职业） – 数据科学项目

1 2	#Evaluating marital-status variable qplot (incomelevel, data = TrainSet, fill = maritalstatus) + facet_grid (. ~ maritalstatus)

数据探索 (martialstatus) – 数据科学项目

1 2	#Evaluating relationship variable qplot (incomelevel, data = TrainSet, fill = relationship) + facet_grid (. ~ relationship)

数据探索（关系） – 数据科学项目

所有这些图表都表明，这些预测变量集对于构建我们的预测模型非常重要。

第 4 步：建立模型

扫码免登录支付

本文章为付费文章，是否支付1宇宙币后完整阅读？
如果您已购买过该文章，[登录帐号]后即可查看

转载：感谢您对网站平台的认可，以及对我们原创作品以及文章的青睐，非常欢迎各位朋友分享到个人站长或者朋友圈，但转载请说明文章出处“来源记忆研究 http://www.irudder.me”。

上一篇：农业领域农业机器人

下一篇：每个人都应该知道的 8 大数据科学工具

相关文章

深度机器学习的未来
智慧城市大脑3.0时代：人工智能城市发展的五大趋势?
5 个数据科学项目——实践数据科学项目
如何在人工智能中实现专家系统？
什么是数据科学？数据科学初学者指南
初学者机器学习教程
15 大热门人工智能技术
使用机器学习预测 COVID-19 大流行的爆发
数据科学教程——从零开始学习数据科学！
所有你需要知道的关于统计和概率的知识都在这里了

随机图文

北大教授林坚:大数据可对国土空间规划实施监管
热潮来得快，去得更快。今年，共享单车就进入了寒冬。去年还大把烧钱的共享单车，转眼就凉凉了。但印度的创业者似乎有不同想法。从2017年开始，有近十年共享单车公司陆续出现，并先后拿到融资。印度的共享单车市场正生机勃勃。 Amit Gupta是印度第一家独角兽Inmobi的联合创始人。在他创业十年、担任总裁级别职务的时候，他选择了急流勇退，创办

深度机器学习的未来
我之所以分享这些预测，并不是因为我希望它们将来能被证明是完全正确的，而是因为它们在当前很有趣并且可以付诸实践。从高层次看，我看到希望的主要方向是：比通用计算机程序更接近的模型，是建立在比我们当前的可区分层更丰富的基元之上的，这就是我们将如何推理和抽象的方法，这是当前模型的根本缺陷。使上述一切成为可能的新型学习形式-允许模型摆脱可区

短视频的彷徨与退让：积蓄力量，正待春暖花开
内容加密

长沙开老年人维权绿色通道:六成律所成立工作站
内容加密

本栏排行

深度机器学习的未来

智慧城市大脑3.0时代：人工智能城市发展的五大趋势?
5 个数据科学项目——实践数据科学项目
如何在人工智能中实现专家系统？
什么是数据科学？数据科学初学者指南
初学者机器学习教程
15 大热门人工智能技术
使用机器学习预测 COVID-19 大流行的爆发
数据科学教程——从零开始学习数据科学！

本栏推荐

深度机器学习的未来

智慧城市大脑3.0时代：人工智能城市发展的五大趋势?

5 个数据科学项目——实践数据科学项目

如何在人工智能中实现专家系统？

什么是数据科学？数据科学初学者指南

初学者机器学习教程

15 大热门人工智能技术

使用机器学习预测 COVID-19 大流行的爆发

数据科学教程——从零开始学习数据科学！

猜你喜欢

AE+PR模板-700组视频调色光效转场预设 700 Video Creation Suite V2 –
新西兰火山再度喷发可能性仍高当局暂缓善后工作
冒充公检法实施电信诈骗 28名境外嫌疑人押解回国
新疆开行首趟至乌克兰中欧班列预计运行15天
游戏智能音效领域通过AI技术生成逼真的游戏音效，增强游戏的沉浸感
微星终于用RTX 3080更新了其游戏PC系列
掌握AI绘画：从基础到应用的全面指南 - midjourney实操干货
AIGC+金融领域下智能投研-提供智能选股、智能资讯等服务

站点信息

文章统计： 442 篇文章

微信公众号：扫描二维码，关注我们