Home

记录下那些有趣的珠子...

19 Mar 2018

数据处理在先

上个礼拜看了看Kaggle, 并且玩了下Kaggle里面的入门热身比赛,Titanic。更加深刻的体会到,对于机器学习,前面的数据处理是非常重要,重要的有时比后面的算法选择/调试还重要。

Titanic的训练数据中有个年龄数据(Age). 整个训练集一共800来条数据,就有100多条里面在这个字段缺值。但是’Age’这个参数又在后面机器学习中分量很重,所以到底该怎么来处理是个有趣的问题。有人试图得到训练集中的年龄中位值,然后用这个中位值来填空; 有人试图取得训练集中的年龄分布,然后基于这个分布来填;我甚至试过干脆删除这100多条记录(看是不是反而会减少noise),等等,但好像没哪个更有说服力些。 这个小例子给我的印象就是数据处理不好搞 :) .


Pandas 是比较流行的一个帮助处理数据的一个库,尤其擅长处理DataFrame模式的数据,简单讲就是表格数据。

  1. 看数据: 总看,分看, 看统计,看局部,etc.
  2. 修改数据,增/减 行/列, 数据对齐, 处理无效数据(比如上面那个‘Age’例子, 等等。

这里有个博客对于Pandas的基本用法写的挺好 page 1; page 2; page 3

Nice day!,
FZ at 03/19/18,16:00

scribble