-
排序: sort_values df.sort_values(['query_count'],ascending=False)[:20] # 根据query_count列排序,降序
-
删除一行,一列:drop df.drop([1504369],inplace=True) # 删除第1504369行元素,inplace=True:不生成新的dataframe
df.drop(df.columns[-1],axis=1,inplace=True) # 删除最后一列
-
定位到具体行列: loc df.loc[:20,df.columns[2:20]] # 前20行,2-20列
-
查看两列关系 train[['Title', 'Survived']].groupby(['Title'], as_index=False).mean()
-
离散值一一对应做转换:map dataset['Sex'] = dataset['Sex'].map( {'female': 0, 'male': 1} ).astype(int)
-
连续之离散化 dataset.loc[(dataset['Fare'] > 7.91) & (dataset['Fare'] <= 14.454), 'Fare'] = 1
-
连续值离散化: cut ser = Series(np.random.randint(1,10,6)) bins = [0,3,6,9] cats = pd.cut(ser,bins,labels=['small','middle','large'])