推荐系统技术之文本相似性计算（三）

发布时间：2021-03-09 17:12:53 所属栏目：大数据来源：网络整理

导读：副标题#e# 今天这篇也比较长，但中间有部分是代码，7，8，9最后三节的信息我认为较为有用。前面说了两篇了，推荐系统技术之文本相似性计算（一）和推荐系统技术 --- 文本相似性计算（二）分别介绍了 TFIDF 和向量空间的相关东西，然后介绍了主题模型，这

如果多的话，那只能先调一调主题个数，然后LDA里面有些个参数可以调调（算法工程师的价值所在啊）

还有一条路子就是把输入的数据尽可能的清洗干净，把无用的杂质去掉（算法工程师必备技能耐心和细心）

所以，不同的模型对于不同的场景是很重要的，根据你的场景选择合适的模型才能达到合适的效果。8. 写在后面的话这篇文章只是一个文本相似性的最最基本的文章，可以最直观的了解一下TFIDF模型和LDA模型，同时，也使用了目前最热的机器学习技术哦。其实，像LDA，以及word2vec这种模型，已经是被数学抽象得很强的模型了，和实际场景基本上已经脱离了，已经完全数学化了，所以其实不一定要用在文本处理上，在流量分析，用户行为分析上一样有用，这就是算法工程师要想的事情，一个好的算法如何用在现有的场景中。试想一下，如果我们想给我们的用户分个类，看看哪些用户兴趣比较相似。我们其实可以这么来做：

首先，如果我们有一堆用户的浏览行为数据，每一条数据记录了用户点击某个链接，或者点击了某个按钮。

（编辑：PHP编程网 - 湛江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

7/9

首页

尾页

Flink CDC + Hudi 海量	不良数据会造成更严重
大规模分布式计算学习	几款日常的开源无代码