datax info

datax[https://github.com/alibaba/DataX/wiki/DataX-Introduction]

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等),HDFS,Hive,MaxCompute(原ODPS),HBase,FTP等各种异构数据源之间稳定高效的数据同步功能

设计理念:
为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源.当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步

datax框架设计:
例如:
Mysql => | ReadPlugin => FrameWork => HDFSWriter | => HDFS

DataX本身作为离线数据同步框架,采用"Framework + plugin"架构构建.
将数据源读取和写入抽象成为Reader/Writer插件,纳入到整个同步框架中:
1.Reader:
Reader为数据采集模块,负责采集数据源的数据,将数据发送给Framework
2.Writer:
Writer为数据写入模块,负责不断向Framework取数据,并将数据写入到目的端
3.Framework:
Framework用于连接reader和writer,作为两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题


DataX 3.0 开源版本支持单机多线程模式完成同步作业运行:
1.DataX完成单个数据同步的作业,我们称之为Job,DataX接受到一个Job之后,将启动一个进程来完成整个作业同步过程.DataX Job模块是单个作业的中枢管理节点,承担了数据清理,子任务切分(将单一作业计算转化为多个子Task),TaskGroup管理等功能

2.DataXJob启动后,会根据不同的源端切分策略,将Job切分成多个小的Task(子任务),以便于并发执行.Task便是DataX作业的最小单元,每一个Task都会负责一部分数据的同步工作.

3.切分多个Task之后,DataX Job会调用Scheduler模块,根据配置的并发数据量,将拆分成的Task重新组合,组装成TaskGroup(任务组).每一个TaskGroup负责以一定的并发运行完毕分配好的所有Task,默认单个任务组的并发数量为5

4.每一个Task都由TaskGroup负责启动,Task启动后,会固定启动Reader—>Channel—>Writer的线程来完成任务同步工作

5.DataX作业运行起来之后,Job监控并等待多个TaskGroup模块任务完成,等待所有TaskGroup任务完成后Job成功退出.否则,异常退出,进程退出值非0

例如:
用户提交了一个DataX作业,并且配置了20个并发,目的是将一个100张分表的mysql数据同步到odps里面.
DataX的调度决策思路是:
1.DataXJob根据分库分表切分成了100个Task。
2.根据20个并发,DataX计算共需要分配4个TaskGroup
3.4个TaskGroup平分切分好的100个Task,每一个TaskGroup负责以5个并发共计运行25个Task。

datax windows乱码解决问题[https://github.com/alibaba/DataX/wiki/windows-error-encoding]