博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
R语言NYPD纽约市警察局劫持者数据分析
阅读量:6606 次
发布时间:2019-06-24

本文共 1148 字,大约阅读时间需要 3 分钟。

NYPD提供有关数据字典的止损和风险的数据,位于。这些数据从2003年到2014年不等,包含450多万 的信息。包括 人的年龄,性别和种族等几个变量。

我写了一些R代码来清理并将数据编译成单个.RData文件。 这篇文章的目的只是为了让这些干净的编译数据集可供其他人与他们自己的数据集结合使用,并得出有趣/有意义的结论。

以下是一些初步(未经调整)的描述性统计数据:

 

数据显示了一些有趣的趋势:

  • 从2003年到2012年,停站一直在稳步增长,但自2012年以来一直在下降。
  • 被黑人被劫持的百分比一直比白人被劫持者的百分比高3.5-6.5倍。请注意,对于居住在该地区的黑人/白人的比例,这一切都未经调整。也许这可以通过将stop和frisk数据与人口普查数据相结合来实现。
  • 数据显示官员是否向停止的人解释停止的原因。数据显示警方在98-99%的时间内给出了解释。当然,这涉及一定程度的信任,因为数据本身是由警方记录的。这种统计数据在种族和性别方面没有差异。
  • 被劫持者的年龄中位数为24岁。不同种族和性别的分布大致相同。

关于数据的几点说明:

  • 原始数据保存为CSV文件,每年一个文件。但是,每年都不会跟踪相同的变量。Github上的.RData文件只包含选择变量。
  • 导入和清洁代码大约需要15分钟才能运行。
  • 所有年份的所有站点都有坐标标记停靠位置,但我仍然无法理解它们。我打算发表另一篇文章,进行一些空间分析。

编码对此特别有意思,因为我从未使用过R来从网上下载ZIP文件。我复制了以下代码的这部分内容。它从2013年到2014年每年生成一个数据集。

for(i in 2013:2014){ temp <- tempfile() url<-paste("http://www.nyc.gov/html/nypd/downloads/zip/analysis_and_planning/",i,"_sqf_csv.zip",sep='') download.file(url,temp) assign(paste("d",i,sep=''),read.csv(unz(temp, paste(i,".csv",sep=''))))}unlink(temp)

还有问题吗?联系我们!

 

-中国专业的第三方数据服务提供商,提供定制化的一站式数据挖掘和统计分析咨询服务

统计分析和数据挖掘咨询服务:(咨询服务请联系)

​QQ:3025393450

【服务场景】  

科研项目; 公司项目外包;线上线下一对一培训;数据采集;学术研究;报告撰写;市场调查。

【大数据部落】提供定制化的一站式数据挖掘和统计分析咨询服务

转载于:https://www.cnblogs.com/tecdat/p/10751610.html

你可能感兴趣的文章
2016阿里巴巴73款开源产品全向图
查看>>
Glibc 和 uClibc
查看>>
VMware 虚拟机的虚拟磁盘编程知识点扫盲之二
查看>>
vs2012中自带IIS如何让其他电脑访问
查看>>
关于termux在手机上搭载Linux系统,python,ssh
查看>>
Redux:异步操作
查看>>
Mysql学习第三课-分析二进制日志进行增量备份和还原
查看>>
2-11
查看>>
Appium IOS
查看>>
xhprof安装记录
查看>>
POJ1961 Period [KMP应用]
查看>>
CSS hack
查看>>
IT项目管理工具探讨之_项目群管理
查看>>
如何在 Android 手机上安装 Ubuntu 13.04
查看>>
HDU 6073 - Matching In Multiplication | 2017 Multi-University Training Contest 4
查看>>
编程面试过程中常见的10大算法(转)
查看>>
尝试记录自己的工作学习
查看>>
centos6.5 安装nginx
查看>>
生成若干个不重复的随机数数组
查看>>
topcoder srm 465 div1
查看>>