博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
sqoop的数据抽取过程记录
阅读量:7033 次
发布时间:2019-06-28

本文共 260 字,大约阅读时间需要 1 分钟。

今天公司抽取了4千万的表大概十几G 用sqoop抽取是30--40分钟 开了两个map。模型是oracle----hdfs(hive)。以前只抽过几十万级别,所以千万级别感觉还是spilt做好切分和定好切分字段。尽量避免木桶效应。才能把sqoop时间缩到最短。另外。hdfs load到hive 加了overwirte就是覆盖,没加这个关键字默认是追加。每次追加hdfs的文件会被转移到hive的 hdfs目录下。

转载于:https://www.cnblogs.com/yaohaitao/p/6833389.html

你可能感兴趣的文章
af3.0学习使用和理解
查看>>
Linux vmstat命令实战详解
查看>>
输入字符串,输出字符串所有组合
查看>>
Python中 字典排序、列表排序
查看>>
ubuntu12.04 安装vnc
查看>>
我的友情链接
查看>>
前嗅ForeSpider脚本教程:基础对象(三)
查看>>
MongoDB的数据复制和数据切片
查看>>
IDEA安装FindBugs插件
查看>>
Thinking in Java之深入Collection源码学习
查看>>
Ceph:一个 Linux PB 级分布式文件系统
查看>>
Red Hat Enterprise 6.3手动安装Thunderbird
查看>>
linux邮件服务器配置过程
查看>>
Mac OS X 启动和终止Redis, Mac常用命令,ssh免密
查看>>
h3c s5820交换机_简单配置
查看>>
Nagios开发邮件报警程序
查看>>
memcached 和 mysql 结合使用的两种实现选择?
查看>>
Blog被“挂广告”的来龙去脉——家用路由器的安全问题
查看>>
Flex调用WebService的方法
查看>>
如何把FTP用户帐号存放进MariaDB数据库中
查看>>