黑松山资源网 Design By www.paidiu.com
本文研究的主要是Python编程通过pandas将数据分割成时间跨度相等的数据块的相关内容,具体如下。
先上数据,有如下dataframe格式的数据,列名分别为date、ip,我需要统计每5s内出现的ip,以及这些ip出现的频数。
ip date 0 127.0.0.21 15/Jul/2017:18:22:16 1 127.0.0.13 15/Jul/2017:18:22:16 2 127.0.0.11 15/Jul/2017:18:22:17 3 127.0.0.11 15/Jul/2017:18:22:20 4 127.0.0.21 15/Jul/2017:18:22:21 5 127.0.0.13 15/Jul/2017:18:22:22 6 127.0.0.14 15/Jul/2017:18:26:36 7 127.0.0.16 15/Jul/2017:18:32:15 8 127.0.0.11 15/Jul/2017:18:36:03
在网上找了很久但是没看到python的相关答案,但在stackoverflow找到了R语言的解法,有兴趣可以看看。
受它的启发,我用不太优雅的方式实现了我的需求,有更好解决方法的请不吝赐教:
step1: 将数据中日期格式变为标准格式
#date_ip为我的dataframe数据 date_ip['date'] = pd.to_datetime(date_ip['date'], format='%d/%b/%Y:%H:%M:%S')
step2: 将数据的开始时间、结束时间,按5s分割(由于时间段可能不是恰好是5s的倍数,为避免最后一个时间丢失,因此在最后加上5s)
frequency = 5 time_range = pd.date_range(date_ip['date'][0], date_ip['date'][date_ip.shape[0]-1] +frequency*Second(), freq='%sS'%frequency)
step3: 将date变为索引
date_ip = date_ip.set_index('date')
step4: 对每个时间段内的数据进行频数计算(由于通过标签切片时会包含头、尾数据,为避免重复计算,因此在尾部减1s)
for i in xrange(0,len(time_range)-1): print get_frequency(date_ip.loc[time_range[i]:time_range[i+1]-1*Second()])
完整的代码
import pandas as pd from pandas.tseries.offsets import Second def get_frequency(date_ip): ip_frequency = {} for i in xrange(0,date_ip.shape[0]): ip_frequency[date_ip['ip'][i]] = ip_frequency.get(date_ip['ip'][i], 0) + 1 return ip_frequency,date_ip.shape[0] if __name__ == '__main__': date_ip['date'] = pd.to_datetime(date_ip['date'], format='%d/%b/%Y:%H:%M:%S') frequency = 5 time_range = pd.date_range(date_ip['date'][0], date_ip['date'][date_ip.shape[0]-1] +frequency*Second(), freq='%sS'%frequency) date_ip = date_ip.set_index('date') for i in xrange(0, len(time_range) - 1): print get_frequency(date_ip.loc[time_range[i]:time_range[i + 1]-1*Second()])
文章开头数据运行结果:
({'127.0.0.21' : 1, '127.0.0.13' : 1, '127.0.0.11' : 2}, 4) ({'127.0.0.21': 1, '127.0.0.13': 1}, 2) ({'127.0.0.14': 1}, 1) ({'127.0.0.16': 1}, 1) ({'127.0.0.11': 1}, 1)
总结
以上就是本文关于python使用pandas实现数据分割实例代码的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站其他相关专题,如有不足之处,欢迎留言指出。感谢朋友们对本站的支持!
黑松山资源网 Design By www.paidiu.com
广告合作:本站广告合作请联系QQ:858582 申请时备注:广告合作(否则不回)
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
免责声明:本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除!
黑松山资源网 Design By www.paidiu.com
暂无评论...
稳了!魔兽国服回归的3条重磅消息!官宣时间再确认!
昨天有一位朋友在大神群里分享,自己亚服账号被封号之后居然弹出了国服的封号信息对话框。
这里面让他访问的是一个国服的战网网址,com.cn和后面的zh都非常明白地表明这就是国服战网。
而他在复制这个网址并且进行登录之后,确实是网易的网址,也就是我们熟悉的停服之后国服发布的暴雪游戏产品运营到期开放退款的说明。这是一件比较奇怪的事情,因为以前都没有出现这样的情况,现在突然提示跳转到国服战网的网址,是不是说明了简体中文客户端已经开始进行更新了呢?
更新日志
2024年10月08日
2024年10月08日
- 【原神】V5.0攻略 | 林尼攻略一图流
- 李翊君.1993-相思的烈酒【上华】【WAV+CUE】
- 古巨基.1998-LEO.KU(国)【千禧年代】【WAV+CUE】
- 郭子.2001-原来你什么都不想要创作集丫滚石】【WAV+CUE】
- 《使命召唤:黑色行动6》新预告公布!10月25日发售
- Atlus《暗喻幻想》媒体评分汇总:高分好评如潮!
- 2024金摇杆奖提名揭晓 《黑神话》角逐最佳视觉设计!
- 群星《新说唱2024 第3期 (上)》[320K/MP3][32.76MB]
- 群星《新说唱2024 第3期 (上)》[FLAC/分轨][95.38MB]
- 群星《新说唱2024 第3期 (下)》[320K/MP3][31.36MB]
- 幻兽帕鲁手游什么时候正式上线 最新消息一览
- 西普大陆BOSS位置盘点 解锁天启纪元玩法
- 西普大陆精灵进阶培养攻略 精灵养成指南
- dnf手游法控法系职业哪个强 dnf手游法控法系职业强度排行
- 魔兽世界血藤护目镜图纸在哪买 wlk血藤护目镜图纸购买位置介绍