数据同步
1、靠记录中本身的时间戳来增量更新分页获取必须排序(时间戳), 排序后也会出错(会出现记录跳过的情况),中途脚本停止更是会出错
非分页的会出问题,脚本中断更会出问题(时间戳不能保证是从低到高) 解决方法:1、分页条数为1、并排序但效率不高
2、分页采用每次获取比当前时间戳大的的limit条数,再不断变化时间戳(会有问题) 3、数据一次性全部取出来排序处理(适用于小数据量情况)
2、时间戳存在缓存中,等全部处理完再更新时间戳
普通分页仍旧会出现记录跳过的情况 非分页的则不会出现问题(因为时间戳是最后才更新),脚本中断也不会出问题。
总结:
1、时间戳存在缓存中 1、减少计算 2、最后更新时间戳更不容易出问题,顶多会重复处理2、每次运行 取缓存中的时间(>=)和脚本当时的时间(<)数据,运行完成后设置当前时间到缓存
历史数据的增量同步(不会更改的数据)
1、用自增主键是最完美的,因为主键不会重复
where id>x order by id asc limit xx
2、时间戳
错误的示范:where insert_time>lastmax_timestamp order by timestamp asc limit xx
错误1:> 应该是>=, 但是如果用>=,会一直可以取出数据,陷入无限循环中
错误2: 由于用了limit,limit中的可能有相同时间戳数据,并且前面用的>会丢失数据
正确:where insert_time>lastmax_timestamp and insert_time<=current_timestamp order by timestamp asc limit xx
不断调整 lastmax_timestamp ,可以每次运行完就把 lastmax_timestamp 存储redis
对于中间数据会变的,一定不能用 offset,limit(建议放弃这种方式)
之所以需要 insert_time<=current_timestamp 是因为时间戳可以相同,但主键不会重复
注意:该方式同样适用于时间戳变化中的方式
对于分表的可以在取到为空的时候,可以重新设定时间进行跨表操作