推荐：从大数据中挖掘什么

发布时间：2021-01-17 06:25:03 所属栏目：大数据来源：网络整理

导读：副标题#e# 概要：大数据挖掘中最重要的是决定挖掘什么样的知识，这是在数据的收集、处理、挖掘的整个过程中都需要认真考虑的问题。本文首先提出大数据挖掘的几项策略，即尽量设想挖掘的场景，尽量多方面收集数据，尽量将数据整合，悉心观察数据特征。之后结

决定从数据中挖掘什么，首先需要对数据有深入的了解，需要对数据进行认真细致地观察。只有对数据有深刻的认识，才有可能从中挖掘出深层的知识。AOL隐私泄露事件是一个著名的“人肉数据挖掘”成功事例，说明只要细致观察与推理，我们可以从数据中发现许多事情。

? ? ? ?

2006年AOL公司，为了促进研究，发布了搜索查询数据集，包括65万用户三个月中在AOL搜索提交的2千多万查询。为了保护用户隐私，AOL将用户的个人信息删除，对每个用户赋予了一个ID。纽约时报的一个记者对AOL数据进行了观察、分析，利用电话号码簿，很快确定出ID为4417749的用户是居住在佐治亚州的60岁的单身妇女Thelma Arnold[3]。具体地，这位用户提交了“landscapers in Lilburn,Ga”的查询，从此可以推断此人大概住在佐治亚州Lilburn。该用户又提交了多个含有Arnold的人名查询，可以揣测此人大概姓Arnold。该用户又搜了“60 single men”，可以猜想此人可能是60岁左右的妇女，等等。

? ? ? ?

AOL事件说明了数据挖掘中保护用户隐私问题的重要性（本文不讨论隐私保护问题），同时也说明了认真观察数据，可以挖掘到许多深层的信息。

3．大数据挖掘事例

互联网搜索引擎，索引几十亿以上的网页，每天有几十亿次查询，收集几十TB的日志数据。这些数据是典型的大数据。

? ??

下面介绍一个互联网搜索日志数据挖掘例子：查询副主题挖掘。这是与微软前同事等的工作[4]。互联网搜索中的查询，或者表示多个语义，或者表示事物的多个侧面，统称为副主题（subtopic）。前者的例子，如图2所示，查询“harry shum”意味着用户可能要搜索微软的副总裁，也可能是搜索美国的演员。后者的例子，如查询“xbox”意味着用户可能想找游戏攻略，也可能想购买游戏机。如果能判断查询的副主题，那么可以将该搜索结果进行聚类，把同一个副主题的网页放在一起，帮助用户迅速找到想要找的所有信息。根据副主题对搜索结果聚类是一个热门研究课题。传统的方法根据搜索结果中网页摘要的相似度对网页进行聚类，效果并不理想。我们提出的方法事先从搜索日志数据中挖掘出查询的副主题，用户搜索时，根据挖掘好的副主题，对查询结果进行聚类，效果提升显著。副主题挖掘利用了用户搜索的两个现象。

Flink CDC + Hudi 海量	不良数据会造成更严重
大规模分布式计算学习	几款日常的开源无代码

推荐 ：从大数据中挖掘什么

推荐：从大数据中挖掘什么