推荐 :从大数据中挖掘什么
|
我们观察到的第一个现象是“同一查询同一副主题(one subtopic per search)”。用户每次进行查询时,往往只考虑一个副主题,要搜副总裁的Harry Shum,就不会搜演员的Harry Shum,反之亦然。这一点会反映在用户的日志点击数据上。在同一次搜索中,用户点击的多个网页链接往往集中在同一个副主题上。将某一查询的大量的点击数据汇集起来,根据链接是否常在同一次搜索中被共同点击,可以将它们聚类,就可以挖掘到该查询的副主题,这时,链接的每个类对应一个副主题。 ? ?? 第二个现象是“加关键词明确副主题(Subtopic Clarification by Additional Keyword)”,也可以用于副主题挖掘。用户在查询时,会主动明确副主题,在主查询词的后面(或前面)加上关键词,如“harry shum microsoft”,“harry shum jr”。属于同一副主题的网页链接往往在被加同样关键词的查询中点击,根据链接是否在加同样关键词查询中被点击,可以将它们聚类,得到的类也对应于副主题。 ? ?? 我们的方法能够根据以上两个现象挖掘出查询的每个副主题,副主题由网页链接、以及附加关键词表示。利用特殊的数据结构,可以将Bing的三个月日志数据在一天内进行一次高效的挖掘。对于高频查询,可以得到非常精准的挖掘结果(详见[4])。可以看出,大数据确实能够发挥巨大作用。 ? ?? (编辑:PHP编程网 - 湛江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |

