白城seo告诉您在网站中的用户标签有什么作用?

白城 窜天猴SEO平台 发布时间:2019-03-13 浏览:28 次

  在网站中的推荐系统有两大基石他们分别是用户标签和内容分析。在内容分析中会涉及到一些有关机器学习的方面,两者相较而言,用户标签这一项目的难度更大。

  在今日头条的网站中我们常用到的用户标签主要有用户比较想知道的主题亦或是极为重要的关键词等等。对于用户的性别信息我们可以从第三方社交账号中得到。而用户的年龄信息主要是从模型中预测,主要是根据用户阅读的时间和机型来预测。经常访问的地点主要是由用户自己授权网站访问得到的

  当然在网站中最简单最基础的用户标签就是用户浏览过后的内容标签。主要分为三个方面:第一方面就是能够过滤噪音,网站通过用户停留的时间的长短来过滤标题党。第二方面就是热点惩罚,对于网站中一些极受用户欢迎的文章,用户会在上面留言,但不乏一些不好的留言,而这样就会遭到惩罚。譬如降权处理等等。第三方面就是时间衰减,随着年龄的增长,用户的兴趣也会发生一些改变,所以网站的策略就更偏向于新的用户。现在随着用户动作的增加时间久的一些权重影响力就会降低。第四方面就是惩罚展现,如果有那么一篇文章是推荐给用户的但却没有人点击,那么与之相关的权重就会遭受惩罚。

  要知道用户标签找出的大都是一些简单的关键词,例如今日头条它的用户标签第一版就是批量计算框架,在这个系统中它的流程相较其他而言就更简单些。

  但问题在于,随着用户高速增长,兴趣模型种类和其他批量处理任务都在增加,涉及到的计算量太大。2014年,批量处理任务几百万用户标签更新的Hadoop任务,当天完成已经开始勉强。集群计算资源紧张很容易影响其它工作,集中写入分布式存储系统的压力也开始增大,并且用户兴趣标签更新延迟越来越高。

  面对这些挑战。2014年底今日头条上线了用户标签Storm集群流式计算系统。改成流式之后,只要有用户动作更新就更新标签,CPU代价比较小,可以节省80%的CPU时间,大大降低了计算资源开销。同时,只需几十台机器就可以支撑每天数千万用户的兴趣模型更新,并且特征更新速度非常快,基本可以做到准实时。这套系统从上线一直使用至今。

  当然,我们也发现并非所有用户标签都需要流式系统。像用户的性别、年龄、常驻地点这些信息,不需要实时重复计算,就仍然保留daily更新。

  四、评估分析

  上面介绍了推荐系统的整体架构,那么如何评估推荐效果好不好?

  有一句我认为非常有智慧的话,“一个事情没法评估就没法优化”。对推荐系统也是一样。

  事实上,很多因素都会影响推荐效果。比如侯选集合变化,召回模块的改进或增加,推荐特征的增加,模型架构的改进在,算法参数的优化等等,不一一举例。评估的意义就在于,很多优化最终可能是负向效果,并不是优化上线后效果就会改进。

  全面的评估推荐系统,需要完备的评估体系、强大的实验平台以及易用的经验分析工具。所谓完备的体系就是并非单一指标衡量,不能只看点击率或者停留时长等,需要综合评估。过去几年我们一直在尝试,能不能综合尽可能多的指标合成唯一的评估指标,但仍在探索中。目前,我们上线还是要由各业务比较资深的同学组成评审委员会深入讨论后决定。

  很多公司算法做的不好,并非是工程师能力不够,而是需要一个强大的实验平台,还有便捷的实验分析工具,可以智能分析数据指标的置信度。

相关推荐
    无相关信息
窜天猴SEO优化平台,专业的百度SEO优化平台,百度关键词优化首选品牌!做百度SEO排名,百度快速排名就上窜天猴!Copyright © 2009-2018 窜天猴 版权所有 Power by 窜天猴 粤ICP备17130595号-3
在线客服
热线电话

微信客服