最近在使用sqoop把oracle中的数据导入到hbase中, 表中的数据每个小时导入一次,使用oozie定时促发。
hadoop版本:hadoop-2.0.0-cdh4.3.0
oozie版本:oozie-3.3.2-cdh4.3.0
sqoop版本:sqoop-1.4.3-cdh4.3.0
相应的配置如下:
coordinator.xml
<coordinator-app name="cfg_check_formula-coord" frequency="${coord:hours(1)}" start="${start}" end="${end}" timezone="UTC"
xmlns="uri:oozie:coordinator:0.2">
<controls>
<concurrency>1</concurrency>
</controls>
<action>
<workflow>
<app-path>${nameNode}/user/${coord:user()}/${tescommRoot}/apps/sqoop/cfg_check_formula</app-path>
</workflow>
</action>
</coordinator-app>
workflow.xml
<workflow-app xmlns="uri:oozie:workflow:0.2" name="sqoop-cfg_check_formula-wf">
<start to="sqoop-node"/>
<action name="sqoop-node">
<sqoop xmlns="uri:oozie:sqoop-action:0.2">
<job-tracker>${jobTracker}</job-tracker>
<name-node>${nameNode}</name-node>
<!-- <prepare>
<delete path="${nameNode}/user/${wf:user()}/${examplesRoot}/output-data/sqoop"/>
<mkdir path="${nameNode}/user/${wf:user()}/${examplesRoot}/output-data"/>
</prepare>
-->
<configuration>
<property>
<name>mapred.job.queue.name</name>
<value>${queueName}</value>
</property>
</configuration>
<arg>import</arg>
<arg>--connect</arg>
<arg>jdbc:oracle:thin:@127.0.0.1:1523:TEST</arg>
<arg>--username</arg>
<arg>ora</arg>
<arg>--password</arg>
<arg>111</arg>
<arg>--m</arg>
<arg>1</arg>
<arg>--query</arg>
<arg>SELECT ROWID, a.* FROM cfg_check_formula a WHERE $CONDITIONS</arg>
<arg>--map-column-java</arg>
<arg>ROWID=String</arg>
<arg>--hbase-table</arg>
<arg>cfg_check_formula</arg>
<arg>--hbase-row-key</arg>
<arg>ROWID</arg>
<arg>--column-family</arg>
<arg>f_cfg_check_formula</arg>
</sqoop>
<ok to="end"/>
<error to="fail"/>
</action>
<kill name="fail">
<message>Sqoop import cfg_check_formula failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message>
</kill>
<end name="end"/>
</workflow-app>
job.properties
nameNode=hdfs://master:8020
jobTracker=master:8032
queueName=default
testRoot=test
oozie.use.system.libpath=true
oozie.coord.application.path=${nameNode}/user/${user.name}/${testRoot}/apps/sqoop/cfg_check_formula
#start=2013-08-29T10:00Z
#end=2013-08-29T12:00Z
start=2013-09-04T11:00+0800
end=2013-09-04T12:00+0800
上述配置完后,在workflow目录下创建lib目录,把sqoop lib下的jar拷贝至这个目录下。这样我们就可以通过oozie定时启动这个导入任务。
分享到:
相关推荐
尚硅谷 大数据 hive oozie sqoop kalfa flume zk hbase Hadoop
oozie-sqoop2 可以作为oozie的java action中调用,调用sqoop2的api进行sqoop2的管理,properties文件记录了配置
oozie调用hive介绍,在华为大数据平台下通过oozie调用hive,并解决认证问题
hue平台oozie工作流操作sqoop,把mysql数据传输到hdfs上
使用Oozie进行资源的可视化调度,统一调度hadoop系统中常见的mr任务启动、hdfs操作、shell调度、hive操作等使得复杂的依赖关系、时间触发、事件触发使用xml语言进行表达,开发效率提高一组任务使用一个DAG来表示,...
从零开始讲解大数据调度系统构成,集成大数据计算任务构建大数据工作流,基于Oozie构建实现企业级自动化任务开发 课程亮点 1,知识体系完备,从小白到大神各阶段读者均能学有所获。 2,生动形象,化繁为简,讲解...
mapreduce方式入库hbase hive hdfs,速度很快,里面详细讲述了代码的编写过程,值得下载
1.02_02_01_06 使用Sqoop导入数据到HDFS及本质分析 网页.mp4 1.02_02_01_07 Sqoop导入数据设置数据存储格式parquet 网页.mp4 .. 第3章 任务调度框架Oozie 3.02_02_03_01 工作流调度框架Oozie功能初步认识 网页.mp4 ...
分享一下Hadoop、HBase、Hive、Pig、Zookeeper相关资料。
《大数据框架Sqoop+Flume+Oozie+Hue视频教程》Sqoop+Flume+Oozie+Hue整合大数据视频教程 经典之作 值得珍藏的大数据视频教程。
OozieWeb的js组件,有需下载,有需要的拿去,网上找的好烦
OOZIE 配置和调度流程(1).doc
目标:使用Oozie调度Shell脚本 分步实现: 1)解压官方案例模板 [atguigu@hadoop102 oozie-4.0.0-cdh5.3.6]$ tar -zxvf oozie-examples.tar.gz 2)创建工作目录 [atguigu@hadoop102 oozie-4.0.0-cdh5.3.6]$ mkdir ...
大数据框架Sqoop+Flume+Oozie+Hue视频教程(59讲) 内含百度云地址
集群运维搭建,搭建hdfs,hadoop,hbase,spark,oozie,sqoop,MR,zookeeper,hive
目录 Oozie 部署 1 1、Maven 安装 1 3、整合Oozie和Hadoop 8 Oozie提交MapReduce任务事例 8 1上传lib和wf到hdfs上 8 2修改job.properties文件 8 ...Oozie任务定时调度 15 配置方式 15 oozie 客户端常用命令 18
1、内容概要:Hadoop+Spark+Hive+HBase+Oozie+Kafka+Flume+Flink+Elasticsearch+Redash等大数据集群及组件搭建指南(详细搭建步骤+实践过程问题总结)。 2、适合人群:大数据运维、大数据相关技术及组件初学者。 3、...
介绍了常见的集中调度器Azkaban&Oozie&Airflow的GUI设计
文章目录1.Oozie调度shell脚本1.1解压官方案例模板1.2创建工作目录1.3拷贝任务模板到oozie-apps1.4编写脚本p1.sh1.5修改配置文件1.5.1job.properties1.5.2workflow.xml1.6上传任务到hdfs1.7执行任务2.Oozie逻辑调度...
oozie工具使用