记录下那些有趣的珠子...

上个礼拜看了看Kaggle, 并且玩了下Kaggle里面的入门热身比赛，Titanic。更加深刻的体会到，对于机器学习，前面的数据处理是非常重要，重要的有时比后面的算法选择/调试还重要。

Titanic的训练数据中有个年龄数据（Age). 整个训练集一共800来条数据，就有100多条里面在这个字段缺值。但是’Age’这个参数又在后面机器学习中分量很重，所以到底该怎么来处理是个有趣的问题。有人试图得到训练集中的年龄中位值，然后用这个中位值来填空；有人试图取得训练集中的年龄分布，然后基于这个分布来填；我甚至试过干脆删除这100多条记录（看是不是反而会减少noise），等等，但好像没哪个更有说服力些。这个小例子给我的印象就是数据处理不好搞 :) .

Pandas 是比较流行的一个帮助处理数据的一个库，尤其擅长处理DataFrame模式的数据，简单讲就是表格数据。

看数据: 总看，分看, 看统计，看局部，etc.
修改数据，增/减行/列，数据对齐，处理无效数据（比如上面那个‘Age’例子，等等。

这里有个博客对于Pandas的基本用法写的挺好 page 1; page 2; page 3

数据处理在先