推荐 :从大数据中挖掘什么
|
决定从数据中挖掘什么,首先需要对数据有深入的了解,需要对数据进行认真细致地观察。只有对数据有深刻的认识,才有可能从中挖掘出深层的知识。AOL隐私泄露事件是一个著名的“人肉数据挖掘”成功事例,说明只要细致观察与推理,我们可以从数据中发现许多事情。 ? ? ? ? 2006年AOL公司,为了促进研究,发布了搜索查询数据集,包括65万用户三个月中在AOL搜索提交的2千多万查询。为了保护用户隐私,AOL将用户的个人信息删除,对每个用户赋予了一个ID。纽约时报的一个记者对AOL数据进行了观察、分析,利用电话号码簿,很快确定出ID为4417749的用户是居住在佐治亚州的60岁的单身妇女Thelma Arnold[3]。具体地,这位用户提交了“landscapers in Lilburn,Ga”的查询,从此可以推断此人大概住在佐治亚州Lilburn。该用户又提交了多个含有Arnold的人名查询,可以揣测此人大概姓Arnold。该用户又搜了“60 single men”,可以猜想此人可能是60岁左右的妇女,等等。 ? ? ? ? AOL事件说明了数据挖掘中保护用户隐私问题的重要性(本文不讨论隐私保护问题),同时也说明了认真观察数据,可以挖掘到许多深层的信息。 3.大数据挖掘事例 互联网搜索引擎,索引几十亿以上的网页,每天有几十亿次查询,收集几十TB的日志数据。这些数据是典型的大数据。 ? ?? 下面介绍一个互联网搜索日志数据挖掘例子:查询副主题挖掘。这是与微软前同事等的工作[4]。互联网搜索中的查询,或者表示多个语义,或者表示事物的多个侧面,统称为副主题(subtopic)。前者的例子,如图2所示, 查询“harry shum”意味着用户可能要搜索微软的副总裁,也可能是搜索美国的演员。后者的例子,如查询“xbox”意味着用户可能想找游戏攻略,也可能想购买游戏机。如果能判断查询的副主题,那么可以将该搜索结果进行聚类,把同一个副主题的网页放在一起,帮助用户迅速找到想要找的所有信息。根据副主题对搜索结果聚类是一个热门研究课题。传统的方法根据搜索结果中网页摘要的相似度对网页进行聚类,效果并不理想。我们提出的方法事先从搜索日志数据中挖掘出查询的副主题,用户搜索时,根据挖掘好的副主题,对查询结果进行聚类,效果提升显著。副主题挖掘利用了用户搜索的两个现象。
图2.查询“harry shum”有两个副主题(subtopic) (编辑:PHP编程网 - 湛江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |


