加入收藏 | 设为首页 | 会员中心 | 我要投稿 PHP编程网 - 湛江站长网 (https://www.0759zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

访问日志的大数据分析应用

发布时间:2021-01-22 18:09:52 所属栏目:大数据 来源:网络整理
导读:副标题#e# 本文整理自APMCon 2016中国应用性能管理大会CDN加速专场又拍云CTO黄慧攀题为《访问日志的大数据分析应用》的演讲,现场解读了在海量访问日志中提炼多个性能指标,对日志分析系统查询需求进行分析,对访问特点进行分析,并基于性能考虑对系统架构

访问日志的大数据分析应用

这个章节特意标成黑色,主要像说明这一章是非常重要的。这个章节跟其它都不一样的原因是,需要跟大家强调的是我们日志里面的价值你怎么去做二次提炼,因为你不去提炼这些日志的话,其实它是几乎没意义的东西。我们刚才一开始就说到了,通过IP是可以得到一些归属地的信息,甚至还可以通过这个IP得到一些经纬度的信息,这样的话就可以知道我的访问群体到底在全国、全世界的分布状态是怎么样的。第二个就是CDN会用到的性能必要的节点信息,还有缓存命中率,因为在刚才我们的日志里面就已经有标记了,我当前这次的请求到底是在本地缓存hits还是miss,这样就可以做缓存命中率统计。还有我们的服务状态和客户关系,因为域名对应的就是客户,今天说要去查看一下客户的带宽使用情况,下载速度怎么样,这时候是需要域名的。所以这是我们今天所讲的最重要的观点,这些日志它的价值需要我们再次提炼一下,然后存进来才有后面我们将要讲到的这些数据会产生什么样的价值。


一条简单的日志经过我们刚才的合并计算,还有数据价值的提炼,你可以得到后面的这些成果。这里是我在我们平台里截出来的数据,有很多是模糊的,没有准确的数值。


1、全网汇总信息

访问日志的大数据分析应用

第一个我们可以看到全网的带宽,在左下角可以看到全网平均的下载速度,平均下载里面其实有两个状态,绿色的是缓存命中的情况下,蓝色的是miss的情况下。中间的图是我们下载速度在某一个区间的比例是多少,因为我们发现如果你纯粹去看平均速度的话,其实这个数字的价值还不够。我更希望能够知道的是,我是不是有90%的用户他的下载速度是在500k,或者说在1M左右,而不是说我有50%是在1500k,但是有50%是在几十k以下,产生了两个极端。所以说中间的下载速度区间的分布也是非常有价值的数据体现。


(编辑:PHP编程网 - 湛江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!