破解谷堆悖论：轻松搞定RDSMySQL到Redshift的数据同步-大数据的专栏

破解谷堆悖论：轻松搞定RDSMySQL到Redshift的数据同步

2017-04-11 20:33:13栏目：默认栏目 IP属地：IP未知

来源：AWS

作者：余骏

希腊有一个著名的谷堆悖论：

“如果１粒谷子落地不能形成谷堆，２粒谷子落地不能形成谷堆，３粒谷子落地也不能形成谷堆，依此类推，无论多少粒谷子落地都不能形成谷堆。但是，事实并非如此。”

这个悖论说的，就是告诉我们量变产生质变，需要一个明显的分割线。如果说，量是一个量化的数据，质是一个结论的话，那么，数据分析做的，就是要分析量，从而引向“定性”、”定质”。定量的了解历史的规律（“质”），从而预测未来。

近几年，大数据风靡全球，越来越多的企业利用MapReduce、Hive、Spark等计算框架和工具来为自身的业务提供帮助。在AWS上，我们也提供了诸多的服务，帮助用户能够快速地构建起适合自身需求的大数据分析架构。其中，Amazon Redshift是性能优异并且完全托管的PB级别数据仓库服务，提供了标准SQL数据库访问接口，并且可以十分方便地与现有的主流商业智能数据分析工具整合，构建企业级数据仓库。

然而，大部分企业的核心数据都存储在关系型数据库中，如何能够有效地将这部分存量数据以及后续的增量数据导入Redshift中呢？本文介绍一种使用开源的Apache Sqoop工具，帮助我们轻松实现这一过程。配置步骤如下：

第一步准备工作

1.1 修改MySQL中的表结构

为了能够实现增量同步，需要在MySQL表中增加一列时间戳，该列能够自动记录行被插入更新的时间。

为了能够实现同步删除操作，需要在MySQL表中增加一列删除记号列，应用对数据库的删除通过标记该列完成，而不是通过传统的delete语句，因为通常对于曾经存在过的数据，也有分析的意义。

本例需要同步的表为country，orders，user，其中country表为Mycat中的全局表，在两台RDS mysql1和mysql2中都有全部信息，orders和user表为Mycat中的分片表，信息分布在RDS mysql1和mysql2中。

mycat_sequence表是用于记录其他表自增字段信息的功能表，无需同步到Redshift中分析。