NYPD提供有关数据字典的止损和风险的数据,位于。这些数据从2003年到2014年不等,包含450多万 的信息。包括 人的年龄,性别和种族等几个变量。
我写了一些R代码来清理并将数据编译成单个.RData文件。 这篇文章的目的只是为了让这些干净的编译数据集可供其他人与他们自己的数据集结合使用,并得出有趣/有意义的结论。
以下是一些初步(未经调整)的描述性统计数据:
数据显示了一些有趣的趋势:
- 从2003年到2012年,停站一直在稳步增长,但自2012年以来一直在下降。
- 被黑人被劫持的百分比一直比白人被劫持者的百分比高3.5-6.5倍。请注意,对于居住在该地区的黑人/白人的比例,这一切都未经调整。也许这可以通过将stop和frisk数据与人口普查数据相结合来实现。
- 数据显示官员是否向停止的人解释停止的原因。数据显示警方在98-99%的时间内给出了解释。当然,这涉及一定程度的信任,因为数据本身是由警方记录的。这种统计数据在种族和性别方面没有差异。
- 被劫持者的年龄中位数为24岁。不同种族和性别的分布大致相同。
关于数据的几点说明:
- 原始数据保存为CSV文件,每年一个文件。但是,每年都不会跟踪相同的变量。Github上的.RData文件只包含选择变量。
- 导入和清洁代码大约需要15分钟才能运行。
- 所有年份的所有站点都有坐标标记停靠位置,但我仍然无法理解它们。我打算发表另一篇文章,进行一些空间分析。
编码对此特别有意思,因为我从未使用过R来从网上下载ZIP文件。我复制了以下代码的这部分内容。它从2013年到2014年每年生成一个数据集。
还有问题吗?联系我们!
-中国专业的第三方数据服务提供商,提供定制化的一站式数据挖掘和统计分析咨询服务
统计分析和数据挖掘咨询服务:(咨询服务请联系)
【服务场景】
科研项目; 公司项目外包;线上线下一对一培训;数据采集;学术研究;报告撰写;市场调查。
【大数据部落】提供定制化的一站式数据挖掘和统计分析咨询服务