-
开源ETL工具kettle系列之常见问题
所属栏目:[大数据] 日期:2021-02-06 热度:78
副标题#e# 摘要 本文主要介绍使用kettle设计一些ETL任务时一些常见问题,这些问题大部分都不在官方FAQ上,你可以在kettle的论坛上找到一些问题的答案 问题 Join 我得到A 数据流(不管是基于文件或数据库),A包含field1,field2,field3 字段,然后我还有一个[详细]
-
开源ETL工具kettle系列之在应用程序中集成
所属栏目:[大数据] 日期:2021-02-06 热度:77
副标题#e# 摘要 本文主要讨论如何在你自己的Java应用程序中集成Kettle 集成 如果你需要在自己的Java应用程序中集成Kettle,一般来说有两种应用需求,一种是通过纯设计器来设计ETL转换任务,然后保存成某种格式,比如xml或者在数据库中都可以,然后自己调用程[详细]
-
开源ETL工具kettle系列之增量更新设计
所属栏目:[大数据] 日期:2021-02-06 热度:94
副标题#e# 前言 ETL中增量更新是一个比较依赖与工具和设计方法的过程,Kettle中主要提供Insert / Update 步骤,Delete 步骤和Database Lookup 步骤来支持增量更新,增量更新的设计方法也是根据应用场景来选取的,虽然本文讨论的是Kettle的实现方式,但也许[详细]
-
开源ETL工具kettle系列之动态转换
所属栏目:[大数据] 日期:2021-02-06 热度:139
副标题#e# 摘要 本文主要讨论使用Kettle来设计一些较为复杂和动态的转换可能使用到的一些技巧,这些技巧可能会让你在使用Kettle的时候更加容易的设计更强大的ETL任务。 动态参数的传递 Kettle 在处理运行时输入参数可以使用JavaScript 来实现,大部分工作只[详细]
-
开源ETL工具kettle系列之建立缓慢增长维
所属栏目:[大数据] 日期:2021-02-06 热度:118
副标题#e# 摘要 本文主要介绍使用kettle 来建立一个Type 2的Slowly Changing Dimension 以及其中一些细节问题 Kettle 简介 Kettle 是一个强大的,元数据驱动的ETL工具被设计用来填补商业和IT之前的差距,将你公司的数据变成可增长的利润. 我们先来看看Kettl[详细]
-
互联网金融之量化投资深度文本挖掘——附源码文档
所属栏目:[大数据] 日期:2021-02-06 热度:58
副标题#e# ?? 【重!磅!干!货[详细]
-
hdu1042 N!(大数)
所属栏目:[大数据] 日期:2021-02-06 热度:187
N! Time Limit: 10000/5000 MS (Java/Others)????Memory Limit: 262144/262144 K (Java/Others) Total Submission(s): 75069????Accepted Submission(s): 21870 Problem Description Given an integer N(0 ≤ N ≤ 10000),your task is to calculate N! ?[详细]
-
桑文锋:深入浅出大数据分析(PPT)
所属栏目:[大数据] 日期:2021-02-05 热度:72
导读 在DTCC 2016中国数据库技术大会“大数据创业”专场,Sensors Data CEO 桑文锋分享了主题为《深入浅出大数据分析》的演讲,作为一名资深大数据牛人,从大数据思维讲起,深入浅出剖析数据驱动的理念,常用的数据分析方法,推荐的思路,多维数据分析技术[详细]
-
文本相识度算法(余弦相似性、简单共有词、编辑距离、SimHash、
所属栏目:[大数据] 日期:2021-02-05 热度:186
文本相似度计算在信息检索、数据挖掘、机器翻译、文档复制检测等领域有着广泛的应用。 比如舆论控制,我们假设你开发了一个微博网站,并且已经把世界上骂人的句子都已经收录进了数据库,那么当一个用户发微博时会先跟骂人句子的数据库进行比较,如果符合里[详细]
-
余弦计算相似度度量
所属栏目:[大数据] 日期:2021-02-05 热度:64
余弦计算相似度度量 相似度度量(Similarity),即计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,相似度的值越大说明个体差异越大。 对于多个不同的文本或者短文本对话消息要来计算他们之间的相似度如何,一个好的做法就是将这些文本[详细]
-
大数运算和大数类
所属栏目:[大数据] 日期:2021-02-05 热度:188
1、首先看一个小问题: 整型数组、字符型数组、vector在未初始化的情况下: int main(){int data[5];char c[5];vectorint v(5);vectorchar v1(5);vectorint v2;cout "int[]:";for (int i = 0; i 5; i++){cout data[i] " ";}cout endl endl;cout "char[]:";[详细]
-
数据处理之——plyr
所属栏目:[大数据] 日期:2021-02-05 热度:59
本文主要介绍如何利用R中的plyr包对数据进行处理。plyr是R中做数据处理和加工的包,它可以用来做类似EXCEL数据透视表的操作。 split-apply-combine split-apply-combine是plyr包的基本思想,首先把大的数据集按照一定的规则对数据进行拆分(split),然后对每[详细]
-
金融行业的BI应用分析
所属栏目:[大数据] 日期:2021-02-05 热度:63
商业智能是一种提高企业智能化的手段,它可以满足企业发展的需要、提高企业的竞争力。同时,对于提高金融行业的风险管理、提升对外服务的质量都能够起到关键性的作用。 在市场竞争和银行业务转型期间,商业智能对于业务以及内部管理水平的提升起到了重要的[详细]
-
HDOJ -- 1002 大数A+B
所属栏目:[大数据] 日期:2021-02-05 热度:83
A + B Problem II Time Limit: 2000/1000 MS (Java/Others)????Memory Limit: 65536/32768 K (Java/Others) Problem Description I have a very simple problem for you. Given two integers A and B,your job is to calculate the Sum of A + B. ? Input[详细]
-
HDU 1402及51 nod1028 大数乘法 V2(FFT 快速傅里叶变换)
所属栏目:[大数据] 日期:2021-02-05 热度:88
1028?大数乘法?V2 基准时间限制:2?秒 空间限制:131072?KB 分值:?80? 难度:5级算法题 ?收藏 ?关注 给出2个大整数A,B,计算A*B的结果。 Input 第1行:大数A第2行:大数B(A,B的长度?=?100000,A,B?=?0) Output 输出A?*?B Input示例 123456234567 Output示[详细]
-
白帽笔记 | 我的“一日一洞”高效漏洞挖掘之旅
所属栏目:[大数据] 日期:2021-02-05 热度:110
作者:Shubham Shah,澳大利亚安全研究人员,专注于程序开发、渗透测试和黑客技术。2016年初被安全媒体评为10大著名“漏洞赏金猎人”之一。本文原名《高效漏洞挖掘:120天120个漏洞》 2016年初,我就给自己设定了一个目标:在这一年中,平均每天挖掘出一个[详细]
-
Disucz 插件漏洞挖掘
所属栏目:[大数据] 日期:2021-02-04 热度:175
副标题#e# 前言 Discuz 是北京康盛新创科技有限责任公司推出的一套通用的社区论坛软件系统。自2001年6月面世以来,Discuz!已拥有15年以上的应用历史和200多万网站用户案例,是全球成熟度最高、覆盖率最大的论坛软件系统之一。 来自第三方漏洞平台Discuz的查[详细]
-
技术分享 | 从白盒审计角度挖掘逻辑漏洞
所属栏目:[大数据] 日期:2021-02-04 热度:129
0x01 背景 ? ? ? 通常来讲,扫描器难以发现逻辑类漏洞,所以企业和安全研究者都比较重视这方面的漏洞。 ? ? ? 最近国外漏洞披露平台hackerone上,一位白帽子发现Uber一修改任意账户密码的逻辑漏洞,获得了$10000美元的奖励。 ? ? ? 所以如何通过代码审计来[详细]
-
实战:图片信息挖掘与解析-1
所属栏目:[大数据] 日期:2021-02-04 热度:53
因著作权限制,请大家点击左下角“阅读原文”进行查阅。[详细]
-
实战:图片信息挖掘与解析-2
所属栏目:[大数据] 日期:2021-02-04 热度:113
因著作权限制,请大家点击左下角“阅读原文”进行查阅。[详细]
-
6个用于大数据处理分析的最好工具
所属栏目:[大数据] 日期:2021-02-04 热度:123
副标题#e# 大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大[详细]
-
hdu 1002 大数相加
所属栏目:[大数据] 日期:2021-02-04 热度:87
Problem Description I have a very simple problem for you. Given two integers A and B,your job is to calculate the Sum of A + B. ? Input The first line of the input contains an integer T(1=T=20) which means the number of test cases. Then[详细]
-
大数相加算法
所属栏目:[大数据] 日期:2021-02-04 热度:140
public static String add(String str1,String str2){int m=str1.length();int n=str2.length();if(m!=n){byte[] buff=new byte[mn?m-n:n-m];for(int k=0;kbuff.length;k++){buff[k]='0';}String buf=new String(buff);if(mn)str2=buf+str2;elsestr1=buf+s[详细]
-
白帽笔记:我的“一日一洞”高效漏洞挖掘之旅 20160811
所属栏目:[大数据] 日期:2021-02-04 热度:63
作者:Shubham Shah,澳大利亚安全研究人员,专注于程序开发、渗透测试和黑客技术。2016年初被安全媒体评为10大著名“漏洞赏金猎人”之一。本文原名《高效漏洞挖掘:120天120个漏洞》 2016年初,我就给自己设定了一个目标:在这一年中,平均每天挖掘出一个[详细]
-
一些数据的处理
所属栏目:[大数据] 日期:2021-02-04 热度:176
关于一些取点,数组下标等等的处理 数组下标 来源于STL的代码思考 2点技术: x ? !!X ?这个可以让 不是0 的数全返回 1 【8 ? 16 ?24 32 ?数组分段是这样的话】 X (X+7)/8-1 ?这个可以找到对应的下标值 X 二进制编码相关 ? ? ?128 64 32 16 ? 8 ?4 2 1? (~[详细]

浙公网安备 33038102330483号