在此记录自己学习python数据分析过程中学到的一些数据处理的小技巧。
1.数据的读取
#导入numpy库和pandas库 import numpy as np import pandas as pd #读取待处理的数据 #file_path为文件路径名,sheet_name为需要读取的excel数据页 data=pd.read_excel(file_path,sheet_name) #显示数据前5行 data.head()
数据读取的结果:
由读取结果可以看出,时间序列数据并不规范,需要做进一步的处理。接下来将'/‘转化为'-',并只保留时间到秒,并将时间转化为timestamp格式。
2.时间数据处理以及转化为timestamp格式
#将'/'替换为'-' data["时间"]=data["时间"].str.replace("/","-").str[0:19] #将时间格式化为timestamp格式 data["时间"]=pd.to_datetime(data["时间"],format='%Y-%m-%d %H:%M:%S') # 将时间设置为索引 data.set_index('时间',inplace=True) data.head()
处理结果:
由上图可知,我们的时间序列数据已经处理好了,并且已经转化为timestamp格式,对于后续的数据处理与分析提供便利。