博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
时间戳实现增量数据同步
阅读量:5827 次
发布时间:2019-06-18

本文共 983 字,大约阅读时间需要 3 分钟。

数据同步

1、靠记录中本身的时间戳来增量更新

  分页获取必须排序(时间戳), 排序后也会出错(会出现记录跳过的情况),中途脚本停止更是会出错

  非分页的会出问题,脚本中断更会出问题(时间戳不能保证是从低到高)
  解决方法:

    1、分页条数为1、并排序但效率不高

    2、分页采用每次获取比当前时间戳大的的limit条数,再不断变化时间戳(会有问题)
    3、数据一次性全部取出来排序处理(适用于小数据量情况)

 

2、时间戳存在缓存中,等全部处理完再更新时间戳

  普通分页仍旧会出现记录跳过的情况
  非分页的则不会出现问题(因为时间戳是最后才更新),脚本中断也不会出问题。

 

总结:

1、时间戳存在缓存中
  1、减少计算
  2、最后更新时间戳更不容易出问题,顶多会重复处理
2、每次运行 取缓存中的时间(>=)和脚本当时的时间(<)数据,运行完成后设置当前时间到缓存

 

 


 

 

历史数据的增量同步(不会更改的数据)

1、用自增主键是最完美的,因为主键不会重复

  where id>x order by id asc limit xx

2、时间戳

  错误的示范:where insert_time>lastmax_timestamp order by timestamp  asc limit xx 

  错误1:> 应该是>=, 但是如果用>=,会一直可以取出数据,陷入无限循环中

   错误2: 由于用了limit,limit中的可能有相同时间戳数据,并且前面用的>会丢失数据

 

  正确:where insert_time>lastmax_timestamp and insert_time<=current_timestamp  order by timestamp  asc limit xx 

     不断调整 lastmax_timestamp ,可以每次运行完就把 lastmax_timestamp  存储redis

    对于中间数据会变的,一定不能用  offset,limit(建议放弃这种方式) 

    

    之所以需要 insert_time<=current_timestamp 是因为时间戳可以相同,但主键不会重复

 

    注意:该方式同样适用于时间戳变化中的方式

 

  对于分表的可以在取到为空的时候,可以重新设定时间进行跨表操作

 

转载地址:http://mpadx.baihongyu.com/

你可能感兴趣的文章
mysql root密码重置
查看>>
33蛇形填数
查看>>
Windows API一日一练(66)CreateWaitableTimer和SetWaitableTimer函数
查看>>
中秋节
查看>>
选择排序
查看>>
wpf datagrid 遍历行
查看>>
SQL Server 数据库的数据和日志空间信息
查看>>
Go语言的for循环
查看>>
前端基础之JavaScript
查看>>
ThreadLocal
查看>>
自己动手做个智能小车(6)
查看>>
2018.7.9练习
查看>>
自己遇到的,曾未知道的知识点
查看>>
P1382 楼房 set用法小结
查看>>
分类器性能度量
查看>>
windows 环境下切换 python2 与 pythone3 以及常用命令
查看>>
docker 基础
查看>>
C++中STRING转为INT (转)
查看>>
ASP.NET上传多个文件
查看>>
学习:UTF-8和GBK的区别
查看>>