3.Pandas常见函数与数据处理

3.1 缺失值操作

Pandas-6

Pandas-7

赋值操作
- df.loc[] = values
- df.loc[] = df.apply(func, axis)
  - df.apply 返回 Series
- df.loc[] = df.applymap(func)
  - 针对 DataFrame 每个元素进行函数操作
- df.assign(col_name=func)
  - 返回新的包含更新的 col_name 的 DataFrame
- 尽量使用 df.loc[]，避免使用 df[] 赋值
SettingWithCopyWarning
- 尝试修改一个从 DataFrame 选择出来的引用对象 view
- df[condition][column] = values df.loc[condition, column] = values

sort_index(axis, level)
sort_values(by, ascending)
- 依据哪些维度进行升序或降序排序
- by 可以是多个列，ascending 对应每一列升降，不同列可以指定不同的顺序
- 类比 SQL 的 order by col1 asc, col2 desc

pandas.concat(dfs, axis, join, ignore_index)
- 一般用做数据点拼接，行方向数据拼接
- 列拼接时需要 index 对齐
- join 默认 outer join，inner/outer
- ignore_index True 重设 index 0, …, k，否则按照原 index 拼接
pandas.append（将废弃）
- 按行方向的 concat，等价于 concat(axis=0)
pandas.merge
- 一般用做特征拼接，列方向拼接

Pandas-8

Pandas-9

pandas.merge( left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, suffixes=('_x','_y') )
left, right，两个需要拼接的 DataFrame 或 Series
how，以何种方式拼接，left/right/outer/inner/cross
on，以哪一列为基准对齐拼接，需 left 和 right 均包含该列
left_on, right_on，左侧 DataFrame 以 left_on 为基，右侧以 right_on 为基
left_index, right_index，左侧 DataFrame 以 left_index 为基，右侧以 right_index 为基
left_index 可与 right_on 配对，反之亦然
suffixes，若 DataFrame 重名，则添加后缀

df.groupby(列名)
- 返回 pandas.core.groupby.generic.DataFrameGroupBy
- 可遍历得到每组 DataFrame，for key, group_df in df.groupby()
  - 其中 key 为分组值，group_df 为分组值对应数据
- 可聚合统计
- 可多个列同时分组
- 可以对 DataFrameGroupBy 进行取值操作 df.groupby()[列名]
agg(func[s]) == aggregate(func[s])
- 聚合 DataFrameGroupBy 对象
- 若是 DataFrame 则聚合全部数据
- 类比 sql sum 等聚合函数
- 若多个聚合函数，列索引将多一级聚合函数的索引

案例：100 个日报 csv 文件合并，见 notebook