开源ETL工具kettle系列之常见问题

发布时间：2021-02-06 02:17:01 所属栏目：大数据来源：网络整理

导读：副标题#e# 摘要本文主要介绍使用kettle设计一些ETL任务时一些常见问题，这些问题大部分都不在官方FAQ上，你可以在kettle的论坛上找到一些问题的答案问题 Join 我得到A 数据流（不管是基于文件或数据库），A包含field1,field2,field3 字段，然后我还有一个

执行update table 操作是比较慢的，它会一条一条基于compare key 对比数据，然后决定是不是要执行update sql,如果你知道你要怎么更新数据尽可能的使用execute sql script 操作，在里面手写update sql （注意源数据库和目标数据库在哪），这种多行执行方式（update sql）肯定比单行执行方式（update table 操作）快的多。
另一个区别是execute sql script 操作是可以接受参数的输入的。它前面可以是一个跟它完全不关的表一个sql :
select field1,field2 field3 from tableA
后面执行另一个表的更新操作：
update tableB set field4 = ? where field5=? And field6=?
然后选中execute sql script 的execute for each row .注意参数是一一对应的.(field4 对应field1 的值，
field5 对应field2 的值， field6 对应field3 的值)

kettle的性能

kettle本身的性能绝对是能够应对大型应用的，一般的基于平均行长150的一条记录，假设源数据库，目标数据库以及kettle都分别在几台机器上（最常见的桌面工作模式，双核，1G内存），速度大概都可以到5000 行每秒左右，如果把硬件提高一些，性能还可以提升,但是ETL 过程中难免遇到性能问题，下面一些通用的步骤也许能给你一些帮助.
尽量使用数据库连接池
尽量提高批处理的commit size
尽量使用缓存，缓存尽量大一些（主要是文本文件和数据流）
Kettle 是Java 做的，尽量用大一点的内存参数启动Kettle.
可以使用sql 来做的一些操作尽量用sql
Group,merge,stream lookup,split field 这些操作都是比较慢的，想办法避免他们.，能用sql 就用sql
插入大量数据的时候尽量把索引删掉
尽量避免使用update,delete 操作，尤其是update,如果可以把update 变成先delete,后insert .
能使用truncate table 的时候，就不要使用delete all row 这种类似sql
合理的分区
如果删除操作是基于某一个分区的，就不要使用delete row 这种方式（不管是delete sql 还是delete 步骤）,直接把分区drop 掉，再重新创建
尽量缩小输入的数据集的大小（增量更新也是为了这个目的）
尽量使用数据库原生的方式装载文本文件(Oracle 的sqlloader,MySQL 的bulk loader 步骤)
尽量不要用kettle 的calculate 计算步骤，能用数据库本身的sql 就用sql,不能用sql 就尽量想办法用procedure,实在不行才是calculate 步骤.
要知道你的性能瓶颈在哪，可能有时候你使用了不恰当的方式，导致整个操作都变慢，观察kettle log 生成的方式来了解你的ETL操作最慢的地方。
远程数据库用文件+FTP 的方式来传数据，文件要压缩。（只要不是局域网都可以认为是远程连接）

描述物理环境

（编辑：PHP编程网 - 湛江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/4

首页

尾页

Flink CDC + Hudi 海量	不良数据会造成更严重
大规模分布式计算学习	几款日常的开源无代码