算法架构师曹欢欢:给你看下,被调教得很成熟的今日头条 app 长什么样
|
第二个维度情景维度环境特征。你在办公室,还是在家,是休息日还是工作日,是早晨还是晚上,还是说去了一个你从来没有去过的地方,你可能在出差还是旅游,这对于找到你当时兴趣都是有帮助的,这一类我们归为情景维度。 第三类维度是打分器的输入,最重要是内容维度。推荐给你的内容候选,它讲的是什么,主题是什么?热度怎么样?哪些人群比较受欢迎,是财新网发的,还是 21 世纪经济报道发的,这些都是有用的。这三种数据进去最后输出一个数,你喜欢这个内容的概率。这个最简单的函数,这个函数的工程实现非常复杂,但是它的逻辑可以很简单用这样一个函数概括,有这样一个函数任何人来了我们知道他的情景信息,我们可以把几百万的内容库看一遍,哪些分比较高,分高的就给你,机器逻辑非常简单。
我们有这样一个打分器,输入怎么来,人的内容怎么来?假设我们了解一个内容的语义标签,这个人经常看这类东西,这个标签就有分;你老给他推荐,他不看,这个分就是负分。这是快速的工程实现,稳定性,数据积累的速度。 但是这个基石其实是内容标签怎么来?我们分别讲一下怎么用人工算法帮助我们提取内容的标签,这块分成文本内容的分析和图片的分析,文本内容也是函数,你给它一串字符串,机器你就是一串字符串,来了之后第一个提取关键词,第二个把它分类,分类在大的内容推荐引擎里面,内容分类很复杂,可能有几百个、上千个,一层一层的。顶层可能是科技、财经,在财经里面有股票、宏观经济,在股票里面有美股、港股。我们还要抽取实体,这个实体对推荐人很重要。
(编辑:PHP编程网 - 湛江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |





