这次导数据,有所得,也有所失。
1. 如果可能的话,尽量使用文件处理;
a. 因为我对业务没有足够的了解,没有使用文件处理
b. 因为数据不太干净,没敢使用文件处理
2. 本来只处理正查表就够了,由于我对业务的不熟悉,使得处理时间翻倍了
3. sql语句总是可以优化的:
a. 把select * 修改为指定的需要的某个或某几个字段,而且尽量让这几个字段出现在使用的索引里,这样本次查询就不需要访问数据文件了
b. 大数据量的分批查询有两种方法: 根据某字段做hash; 根据某字段排序,注意order by where limit
4. 着实领教了文件系统的cache对mysql的影响。