原文 http://www.cnblogs.com/wansq/p/15781104.html
這裡所說的 pandas 並不是大熊貓,而是Python的第三方庫。這個庫能幹嘛呢?它在Python資料分析領域可是無人不知、無人不曉的。可以說是Python世界中的Excel。
pandas庫 處理資料相比於Excel,有一個極大的優點: 資料 和 處理邏輯 是分離的 。基於這一點,便可以實現Excel資料處理的自動化,對於重複繁瑣的資料分析, pandas 一次編寫指令碼便“終身受益”。反觀Excel,遇到重複的任務還得一遍一遍地輸入公式、拖動填充柄。
pandas處理Excel資料的基本流程
pandas處理Excel資料的基本流程
從基本流程來看,這個資料處理過程,就是對原資料進行加工,生成新資料的過程。 原始Excel檔案 就像是 原材料 , 生成Excel檔案 就像是 新產品 。而pandas中就是這個加工廠,加工廠的處理邏輯就是根據具體需求來編寫的程式碼。可以從下面的例項中來理解這過程。
例項演示
例項需求描述:
pandas中的常用方法簡介
一、讀取Excel檔案
import pandas as pd
df = pd.read_excel(io,header=0)
常用引數介紹:
- io :需要傳入Excel檔案的路徑。該引數沒有預設值,不能為空
- header :可以指定從Excel中的哪一行開始讀取資料。預設為0,從第一行開始。
read_excel()演示
二、資料處理
DataFrame型別
DataFrame 是 pandas 庫中的重要資料型別,可以叫做:資料框,好比放資料的架子,由行和列組成。其實跟Excel工作的表很類似,都是二維的。
DataFrame結構示意圖
實際DataFrames資料表
篩選
簡單的資料篩選,只需要輸入列名,也叫“鍵”
資料篩選
計算
計算演示
按照年齡分類:cut()函式
按年齡分類
三、寫入Excel檔案
df.to_excel("./生成的Excel檔名.xlsx")
- 第一個引數:生成的Excel檔案路徑。
- index :生成的Excel檔案中是否需要index列,預設為 True+Pandas