Python 数据的累加与统计的示例代码

站长资源 2024/10/5 佚名

2 0 1

黑松山资源网 Design By www.paidiu.com

问题

你需要处理一个很大的数据集并需要计算数据总和或其他统计量。

解决方案

对于任何涉及到统计、时间序列以及其他相关技术的数据分析问题，都可以考虑使用 Pandas库。

为了让你先体验下，下面是一个使用Pandas来分析芝加哥城市的老鼠和啮齿类动物数据库的例子。在我写这篇文章的时候，这个数据库是一个拥有大概74,000行数据的CSV文件。

> import pandas

> # Read a CSV file, skipping last line
> rats = pandas.read_csv('rats.csv', skip_footer=1)
> rats
<class 'pandas.core.frame.DataFrame'>
Int64Index: 74055 entries, 0 to 74054
Data columns:
Creation Date 74055 non-null values
Status 74055 non-null values
Completion Date 72154 non-null values
Service Request Number 74055 non-null values
Type of Service Request 74055 non-null values
Number of Premises Baited 65804 non-null values
Number of Premises with Garbage 65600 non-null values
Number of Premises with Rats 65752 non-null values
Current Activity 66041 non-null values
Most Recent Action 66023 non-null values
Street Address 74055 non-null values
ZIP Code 73584 non-null values
X Coordinate 74043 non-null values
Y Coordinate 74043 non-null values
Ward 74044 non-null values
Police District 74044 non-null values
Community Area 74044 non-null values
Latitude 74043 non-null values
Longitude 74043 non-null values
Location 74043 non-null values
dtypes: float64(11), object(9)

> # Investigate range of values for a certain field
> rats['Current Activity'].unique()
array([nan, Dispatch Crew, Request Sanitation Inspector], dtype=object)
> # Filter the data
> crew_dispatched = rats[rats['Current Activity'] == 'Dispatch Crew']
> len(crew_dispatched)
65676
>

> # Find 10 most rat-infested ZIP codes in Chicago
> crew_dispatched['ZIP Code'].value_counts()[:10]
60647 3837
60618 3530
60614 3284
60629 3251
60636 2801
60657 2465
60641 2238
60609 2206
60651 2152
60632 2071
>

> # Group by completion date
> dates = crew_dispatched.groupby('Completion Date')
<pandas.core.groupby.DataFrameGroupBy object at 0x10d0a2a10>
> len(dates)
472
>

> # Determine counts on each day
> date_counts = dates.size()
> date_counts[0:10]
Completion Date
01/03/2011 4
01/03/2012 125
01/04/2011 54
01/04/2012 38
01/05/2011 78
01/05/2012 100
01/06/2011 100
01/06/2012 58
01/07/2011 1
01/09/2012 12
>

> # Sort the counts
> date_counts.sort()
> date_counts[-10:]
Completion Date
10/12/2012 313
10/21/2011 314
09/20/2011 316
10/26/2011 319
02/22/2011 325
10/26/2012 333
03/17/2011 336
10/13/2011 378
10/14/2011 391
10/07/2011 457
>

嗯，看样子2011年10月7日对老鼠们来说是个很忙碌的日子啊！^_^

讨论

Pandas是一个拥有很多特性的大型函数库，我在这里不可能介绍完。但是只要你需要去分析大型数据集合、对数据分组、计算各种统计量或其他类似任务的话，这个函数库真的值得你去看一看。

以上就是Python 数据的累加与统计的方法的详细内容，更多关于Python 数据的累加与统计的资料请关注其它相关文章！

Python,数据累加,Python,数据统计

黑松山资源网 Design By www.paidiu.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

黑松山资源网 Design By www.paidiu.com

评论“Python 数据的累加与统计的示例代码”

暂无评论...

www.paidiu.com 黑松山资源网

39,976影音资源

44,792技术资源

21,817软件资源

651,128站长资源

最新文章

何洛洛.2024-别叫醒我（EP）【光羽】【FLAC分

2024/10/5

林忆莲.1996-爱莲说2CD【华纳】【WAV+CUE】

2024/10/5

黄妃.2005-红【亚律】【WAV+CUE】

2024/10/5

刘美麟《同生》[FLAC/分轨][161.95MB]

2024/10/5

群星《前途海量电影原声专辑》[320K/MP3][

2024/10/5

一句话新闻

苹果官宣WWDC 2024！预计会有大批AI功能 - 2024/10/5

3月27日消息，苹果宣布2024年全球开发者大会（WWDC）将于6月10日至6月14日举行，巧合的是，这次大会与端午假期重合。

苹果官方表示：

在线参加 Apple 每年规模最大的开发者盛会。亲眼见证 Apple 最新平台、技术和工具的发布。了解如何创建和改进你的 App 和游戏。与 Apple 设计师和工程师互动交流，与全球开发者社区建立联系。以上活动均免费在线举行。

探索各种新的工具、框架和功能，助力你打造出理想的 App 和游戏。通过视频讲座学习新技能，与 Apple 专家进行一对一会面，以推进你的项目，完善你的构思。

Swift Student Challenge 旨在支持和鼓舞下一代开发者、创作者和企业家。太平洋时间 3 月 28 日，我们将公布今年的获奖者名单。获奖者将有资格参加在 Apple Park 举办的特别活动。我们还会选出 50 名杰出获胜者，他们将受邀前往库比提诺，获得为期三天的非凡体验，包括参加 Apple Park 的特别活动。

Python 数据的累加与统计的示例代码

Python pexpect模块及shell脚本except原理解析

python爬虫使用正则爬取网站的实现

评论“Python 数据的累加与统计的示例代码”

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

Python 数据的累加与统计的示例代码

Python pexpect模块及shell脚本except原理解析

python爬虫使用正则爬取网站的实现

评论“Python 数据的累加与统计的示例代码”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存