3. sqoop数据迁移
3.1 概述
sqoop是apache旗下一款“Hadoop体系和关系数据库服务器之间传送数据”的工具。
导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统;
导出数据:从Hadoop的文件系统中导出数据到关系数据库;
3.2 工作机制
将导入或导出命令翻译成mapreduce程序来实现,在翻译出的mapreduce中主要是对inputformat和
outputformat进行定制
Sqoop的原理其实就是将导入导出命令转化为mapreduce程序来执行,sqoop在接收到命令后,都要
生成mapreduce程序
3.3 sqoop安装
1.安装sqoop的前提是已经具备java和hadoop的环境
2.下载并解压:最新版下载地址:
3.修改配置文件:
$ cd $SQOOP_HOME/conf$ mv sqoop-env-template.sh sqoop-env.sh打开sqoop-env.sh并编辑下面几行:export HADOOP_COMMON_HOME=/usr/local/src/hadoop-2.6.4/export HADOOP_MAPRED_HOME=/usr/local/src/hadoop-2.6.4/export HIVE_HOME=/usr/local/src/hive-1.2.1/
4.加入mysql的jdbc驱动包
cp /usr/local/src/hive-1.2.1/lib/mysql-connector-java-5.1.28.jar /usr/local/src/sqoop/lib/
5.验证启动:cd $SQOOP_HOME/bin