青刺果身体乳，青刺果身体乳的功效和作用-鹊肤霖去鸡皮肤方法

编辑导语：推荐的目的主要在于依据用户行为偏好，为用户推荐可能喜欢的事物；而搜索则是用户出于一定目的举行检索，前者为被动获取，后者为自动获取。详细而言，推荐系统与搜索系统有何差异？本篇文章里，作者从整体逻辑层面临推荐系统与搜索系统的区别举行了总结，一起来看一下。

凭证我平时接触的推荐和搜索营业，简朴地将2个营业的流程举行梳理以及知识点扩展，便于需要的同砚能够快速地相识 2个系统的基本逻辑。

一、推荐系统逻辑

推荐的本质就是为相识决信息过载造成的“选择难题症”，便于用户能够在自己选物之前，系统已经帮用户筛选到了最想要的信息。

以下是我凭证用户打开APP进入推荐页面时，推荐系统返回给该用户推荐列表的整体流程：

整个流程的重点逻辑主要在召回、排序、重排三层，这一节专门讲这一块，至于AB实验平台上的逻辑，后面会有专门的一节举行 AB实验的详解。

1. 召回

什么是召回？大多数人都市很快诠释：召回是从物料库中获取一小部门物料，这一小部门物料会在后续的环节被模子用来举行打分排序。

这里我们再直白一点明确吧，召回就是捞，给用户推荐的时间，不行能把平台上所有的item都拿出来走模子排序，这样的话盘算时间会很长，且资源消耗很大、不合理。这个时间就需要去平台内容库里把最适适用户的item捞出来，这就是我们说的召回。

通常都是从亿万级数据或万万级数据中捞出千百级此外item。召回这一步主要是处置赏罚数据量大，需要步骤速率够快、模子不能太重大且使用特征相对排序少。

虽然，召回也是决议个性化推荐的基础，现在来看，召回多数是多路召回（这里可以明确为通过差异限制条件去捞）。

多路召回的利益：

提高召回率和准确率，这里差池这2个名词作诠释，可以找相关文章自行查询；个性化推荐的基础，用户多样性兴趣探索，多元化召回；保证线上事故发生时尚有存余召回兜底，阻止推荐接口没有返回的数据；贴近营业，各营业需求纷歧样，需要举行融合（广告召回、强插、item冷启动等）。

常见的召回路径（战略都是需要数据支持且与场景强相关的）：

1）协同过滤

基于用户的协同过滤，基于item的协同过滤；简朴来说就是喜欢A内容的用户，还喜欢B游戏（这种召回方式较量老，现在很少有公司会用）。

协同过滤和用户及游戏都有关，矩阵，玩过就是1，没玩就是0，没玩过的游戏许多，许多都是0，以是会做矩阵剖析：用户矩阵和商品矩阵，每一列就是用户向量或商品向量。

2）word2vec（词向量）

（最早用于NLP中）需要拿到用户的玩游戏序列，每个游戏做one-hot编码，会有一个神经网络模子，输入是A→B→？→D→E，输出是C，或A→B→C→D去展望 E。

模子中央的隐藏层就叫词向量，和游戏有关，和用户没关，拿数据的时间和用户有关（向量用法：用户和游戏算相似度：用户A和游戏B向量做相似度盘算；用户和用户、游戏和游戏）。

3）内容匹配召回

这一块主要和标签（种别）召回有关，好比：用户玩了王者荣耀，那么可以实验召回推荐类似王者荣耀的吃鸡游戏，这是基于内容标签的召回；又或者用户玩了植物大战僵尸1，那么也可以实验推荐植物大战僵尸2/3等，这是基于知识储蓄的匹配。

4）高热召回（热门召回）

这一起召回主要是新用户用的较量多，新用户刚来APP，拿不到过多的用户信息且没有行为，这种情形下，平台高热召回就起了大作用，用来做新用户冷启动；用户冷启动这里不做过多竣事，后面会有专门的一节做先容。

5）基于上下文的召回

这个和用户在APP发生行为的时间、所在等场景有关系，例如游戏推荐在白昼碎片休息时间推荐小游戏，在晚上休息时间推荐大游戏、游戏时长较长的游戏等；在其他垂类上体现的话，就像打车垂类对于用户位置信息的敏感，用户刷新闻的时间等等。

6）级联召回

一样平常的召回是用户点击做正样本，级联是用精排排在前面的游戏做正样本，排在后面的做负样本，做召回模子的正负样本。

7）其他召回

凭证营业需求，还会有其他召回，且每路召回的数目也有差异，例如为了让新用户快速留下来，新用户高热召回占较量大，但老用户的话，为了挖掘用户兴趣多样化，高热召回占比会相对小一点。

召回层也是有模子的，尤其是做电商营业，召回的模子会更重大。

2. 排序——粗排/精排

粗排和精排，都是排序，一个需要快速排序只管去掉错误召回，一个需要贴适用户和营业需求细腻准确排序。

粗排在召回和精排之间，一样平常需求从召回回来的万/千级别item荟萃中选择出千/百级别更切合营业需求的item送到精排层。平台内容少时，险些很少会做粗排这一步，由于粗排最大的作用就是快速盘算并截断召回量，使召回数据更准更适合推给用户，一样平常粗排需要在20ms内完成打分。

若是没有粗排模子，也可以在召回层和精排层用一些战略举行数目截断进精排，也是一种粗排手段，例如用点击转化率举行截断。

精排处置赏罚数据量少，需要模子做到更准确，通常会上一些重大模子以及使用较多特征。

粗排和精排层可以是一个模子打分，也可以是多个模子打分融合再举行排序，多数营业需讨情形下多数都是多个模子，凭证营业需求，模子的目的纷歧样，但基本上都市有点击模子（ctr）。

下面就单独就点击模子来讲一下模子是怎么打分排序的，讲排序之前需要先知道2个看法——label和features，这2个数据，是ctr模子的主要训练数据。

label：用ctr模子举例，每个模子都有label（模子的展望目的），ctr模子的label就是用户对当下曝光的item有没有点击行为，有曝光点击就为正样本，label=1，有曝光无点击则为负样本，label=0。

features：就是特征。特征主要分为3类：用户特征、item特征、用户和item的交织特征。

用户特征：用户自己的特征，例如年岁、性别、地理位置等、登录装备（iOS/Android）；item特征：item自己的特征，例如标签、物品ID、天级点击次数、谈论量、热门排名等；用户特征和item的交织特征：例如item天级的点击次数、周级点击人数、天级曝光次数等。

可以看出，features是我们在推荐系统都能够网络到的数据，其中有离散型特征（例如男女、分类、整数等），也有一连型特征（例如点击率、自然数）。

在盘算机只能处置赏罚数字编码的条件下，将这些信息举行编码转化，大多数推荐系统对于离散型特征多使用one-hot或embedding，对于一连性特征可以不用处置赏罚，或者先分段离散化，再使用one-hot编码。

（大多数公司使用离散型特征的较多，一连型特征使用较少，有时一连型特征也会做分桶处置赏罚 ——分段，着实就是变相地处置赏罚成离散型数据。）

*注，one-hot编码会将特征处置赏罚为[0 0 0 0 1]，embedding会将特征处置赏罚为[0.2 0.4 0.6 0.8]

在明确了 features 和 label 的界说之后，会结构对应的训练样本：

负样本 (曝光不点击)：([**0,0,0,1,0,0,**0.12,0.13,0.05, …, ], 0）正样本 (曝光点击)：(**[0,0,1,0,0,0,**0.02,0.08,0.13, …, ], 1）

以是训练时 CTR 模子输入即为：特征向量和其对应的 0、 1 标签。

展望时，输入只有特征向量，模子输出一个 0~1 之间的数字，代表预估的 CTR 值，可以用来做排序。以是，建模之后，本质上 CTR 预估问题是一个二分类问题。

这就是其中一个模子的打分逻辑，有多模子打分融合的精排层，会将多个模子的分数举行打分，每个模子的主要性纷歧样，因此分数都市有权重，将每个模子的分数举行权重盘算后相乘在一起，就是这个item的排序分数，每个item凭证分数举行从高到底排序，就会获得精排打排列表。

3. 重排（混排/rerank）

这一步是推荐的最后一步，每个公司的叫法可能存在差异，有的叫重排，有的叫混排，学术一点叫rerank；虽然也是排序，但重排和粗排或精排最大的区别照旧在于这一步更贴近营业需求，产物司理施展的空间也相对多一些。

做一些强插营业的时间，需要召回配合重排层做，例如做新内容冷启动时，需要给到没有数据的内容一个曝光的时机，这个时间就需要用到重排强插；或者做一些打散逻辑时，例如一连的7个内容中不能有相似内容，或一连的10个内容中最多有2个相似内容等等。

二、搜索系统逻辑

当你在搜索框中输入一串搜索词后，页面展示出你想要的效果，但其中的逻辑却是很重大，这里我以为搜索是比推荐相对重大的营业：

整个流程的重点逻辑也包罗了召回、排序、重排，但更为主要的是query处置赏罚部门，由于上面详细讲了召回——排序——重排部门，因此这里不外多解说，只将重点放在query处置赏罚上。

query主要由query预处置赏罚、意图识别、query分词、query改写4个部门组成，各公司会遵照搜索营业的重大水平举行部门简化；（query：用户搜索词，例如用户在搜索框输入“秋冬连衣裙女”并点击搜索，那么用户query就是“秋冬连衣裙女”）。

1）query预处置赏罚

这一步主要是针对用户在搜索框中输入的搜索词，举行数据洗濯。

搜索词基本上都市有长度限制，一种是输入框限制搜索词长度，一种是query预处置赏罚的时间举行搜索词截断，例如凌驾20个字长度的搜索词只截取前20个字。

由于用户输入搜索词的不规范，且差异的用户对统一种诉求的表达往往会存在地域、文化水平以及清晰度的差异，因此会对搜索词举行转化：巨细写转换，例如“太空狼人杀3d版”转换为“太空狼人杀3D版”；简繁体转换，例如“太空狼人殺”转换为“太空狼人杀”；尚有全半角转换，这里就不再睁开过多说明。

query预处置赏罚这一步都是凭证用户自动输入的搜索词，举行高频query查询检索出的常见问题，针对问题举行本诘责题本质解。

2）意图识别

意图识此外本质就是分类问题，主要是凭证营业需求举行用户意图分类，分为几个大类，网络每种意图种别下的常用词举行模子训练，模子准确率越高，意图识别效果越好。意图识别在搜索系统中是必不行少的，意图识别在很洪流平上决议了用户搜索质量的优劣。

*意图识此外难点：

输入不规范；就像上面提到的，差异用户对统一个内容的认知存在差异，输入的搜索词也会存在不小的差异；数据冷启动，用户行为较少数据较少，意图获取会相对没那么准；多意图识别，无法定位精准意图，例如用户搜索“车”，无法知道是想要玩具车照旧四轮真车，或者是摩托车；业界没有牢靠的评价尺度，只有差异营业直接自己划分的分类举行的模子分类准确率盘算，而一些营业指标例如ctr、cvr、pv等指标，都是评价整个搜索系统的，详细到意图识别上的量化指标却没有。

3）query分词

query分词主要是对用户搜索词举行切分，凭证切分的词去举行改写以及后续的召回逻辑，差异营业的切词方式及自由切词库是有差异的。

4）query改写

这一步主要是针对用户搜索词举行纠错、以及同义词扩展召回等。需要做纠错词表或纠错模子，例如将“火秀士”纠错为“洋火人”，将“超级猫丽奥”纠错为“超级马里奥”，将“校园”扩展为“学校”、“先生 ”、“课堂 ”、“同桌”等等，同义词扩展内里会存在一些滋扰词，需要凭证现实营业对头部搜索词的同义词举行自界说切词表或自界说同义词表等。

三、推荐和搜索的区别

从上述对推荐系统和搜索系统的整体流程的讲述可以看出，推荐和搜索既有细密联系，又有不小的差异。

1. 行为自动或被动

本诘责题本质解，搜索和推荐都是为相识决信息过载问题，都是获守信息的方式之一，一个自动获取——搜索，一个被动获取——推荐：推荐行为是被动的，需求不是很明确，个性化和多样性会多一些，而搜索的需求是自动和相对明确的，且查询规模相对较小。

2. 使用场景目的

推荐的本质是需要留住用户在APP中，让用户使用的时间变长，而且第二天也能留住用户，逐渐发生广告收益和其他收益，让用户消耗更多，需要通太过析用户的历史行为以及当前的实时行为场景等，推荐系统自觉天生查询条件快速给出推荐列表的行为，是一种无声的搜索。

而搜索更像张小龙早期口中的微信，需要用完即走，搜索的本质是协助用户快速找到自己需要的效果并完成转化脱离。我明确，好的搜索算法需要做的是让用户快速使用，高效查询而且停留时间更短。

3. 是相互成就

从流程来看，搜索就是限制了条件的推荐，推荐就是自觉的自动搜索；从用户query中可以网络到大量个性化推荐的需求，推荐数据可以推荐用户搜索内容的相似内容，举行数据融合，而当用户搜索目的不明确时使用好的推荐，团结意图识别和推荐模子，实现类目下的更精准推荐，是提升用户体验的手段。

以上就是我对推荐和搜索场景在现实项目中的逻辑梳理，若是有感兴趣的同砚，接待私聊。

加油，打工人！

本文由 @王九蛋原创宣布于人人都是产物司理，未经作者允许，榨取转载。

题图来自Unsplash，基于CC0协议。