当前位置:首页 > SEO算法 > 附子SEO:独家分析搜索引擎如何通过语义主题模型识别内容相关性!

附子SEO:独家分析搜索引擎如何通过语义主题模型识别内容相关性!

附子头像
创始人 附子
2018-05-10 阅读 1193 专题:

      谈到搜索,不禁让我想起了最近几年比较火的东西,也就是人工智能。如果谈到人工智能,就不得不提到搜索引擎算法当中的语义分析系统。在附子SEO培训当中有很多关于涉及算法的一些问题思考,尤其是真正操盘一些大型网站架构优化的时候,这些东西是解决流量的核心基石。首先,搜索引擎可以很直接的通过语义分析模型来进行页面之间的关系度计算。本篇文章附子将通过百度搜索研发部的一篇文章叫做浅谈语义主题计算来进行深度分析搜索引擎针对网页当中的内容相关性识别以及纬度计算,并且提出有效的实战和SEO参考价值性技术思考在里面。

      在搜索引擎当中,有一个东西叫做自然语言处理,而这个自然语言包括而不局限于文字,图形,文档,结构数据等多类型内容的展示。而本文附子单纯从文字上去阐述搜索引擎针对一个页面如果来识别这个语义分析主题模型的,下面附子举个最简单的例子来进行阐述。

      1、搜索词(Query)A:附子SEO价格

      2、搜索词(Query)B:附子价格

      首先我们来看这个两个搜索词,如下图所示:

      上图是两个搜索词当中的不同搜索结果,何为语义分析,搜索引擎针对词会优先拆分进行。比如第一个搜索词叫做附子SEO价格,很显然,这个用户的一个需求状态是了解附子SEO培训的费用,而后者就是想了解附子这个中药的价格。我们先进行分词,然后如下图所示:

 

      上图是中文分词以后得到的两个查询词的分词信息结果,我们对比一下可以发现一个问题。第一个搜索结果偏向于SEO,而第二个搜索结果更加偏向于附子。为什么会产生这种观点?尽管作为用户来说,一看这两个搜索词都知道前者是和SEO有关,而后者是和中药有关,那么搜索引擎是如何知道这个东西是偏向SEO居多呢还是偏向中药居多呢?这也是本文附子需要给大家探讨的一个核心话题所在。

      一、什么是网页主题模型

      附子在SEO培训课程当中,都会运用一些比较好的思路和思维方式来进行授课,这也是为什么学员案例层出不穷的核心因素所在。首先要认识一个东西,然后去深度理解,最终再来进行实战运用。比如什么是网页主题模型?简单来说,搜索引擎有多个网页建模框架,我们可以理解为房子的最外部构造一样。当一个网页信息与另外一个网页信息产生一定的对比关联性以后,那么这个网页主题就会被搜索引擎认为具备一定的相似度(百度如何识别内容原创也就是这么识别的,通过相似度网页计算来进行识别,最开始搜索引擎就有网页去重算法来进行)。但是,如果多个网页当中,提炼的关键词与一个主题高度对应的话,那么这个主题与这个词将产生非常高的关联度,如下图所示:

      上图是搜索附子SEO和兵马SEO,我们可以看到,搜索结果当中附子SEO出现的是11万的相关搜索,意味着有11万的网页文档当中包括了附子+SEO这个词的关联度。而后者的兵马SEO达到了30w,但是真正来说,附子SEO的一个影响力要远远高于兵马SEO,本质上兵马SEO是附子随便搜索的一个词,它是属于不存在的,这也是搜索引擎当中TF-IDF算法的硬伤所在。很多时候我们在通过分词的过程当中,匹配行为要高于分词结果,比如后者的搜索结果分词以后虽然包括的页面量级比前者多,但是真正来说并没有任何价值。

      二、网页主题模型的原理

      既然中文分词和TF-IDF算法都解决不了这些搜索引擎结果排序的缺陷,那么网页主题模型正好可以解决搜索引擎针对搜索结果的质量问题。我们先来了解下关于网页主题模型的一个原理架构,如下图所示:

 

      这张图看不懂没事,重点是理解一些核心的细节所在。很显然,搜索引擎的结果排序都是由N个文档构成,而文档之间都有所谓的主题(怎么确定,一般都是由标题来确定网页文档的主题),比如标题当中包括了附子SEO,页面当中出现的所有附子SEO关联词都与之确立这种关联性,比如兵马SEO没有一个网页标题有这个东西,很显然即使33w结果当中有兵马+SEO这两个词的关联信息也是不成立的,这也是搜索引擎的奥秘所在。搜索引擎可以通过标题与网页内容进行一个主题建模,然后通过这个建模关系在去爬行所有大数据页面当中有多少包含了这种。那么自然而然就知道了这个附子和SEO之间有没有比较重要的关系。

      三、主题模型在SEO当中的运用

      回到最终的一个话题,就是关于运用,其实运用的方式也很简单。我们思考这样一个问题,假设X词属于新词(包括点击算法里面也会运用这种新词刷排名的算法细节),这个新词是不存在的一个词,比如叫做附子SEO(这个词也许在两年前根本不存在),通过时间的积累(准确的说其实就是大量的网页信息标题包括了附子SEO)得到一个网页主题,然后形成一个关系度,这个关系度一旦形成。尤其做大型网站优化的,可以通过这个主题模型(可以一层接一层的去挖掘相关搜索词来进行主题确定)然后无限制往下延伸词库,然后提取大数据内容进行采集,最终进行词库积累和内容输出,这样出来的网页是一顶一的页面内容优质。

      如果是对于一些小站来说的话,这种主题模型也有一定的实战运用,比如我们经常在更新网页内容的时候,不妨也去把相关搜索的结果一层接一层的进行信息深度挖掘,然后更新的内容都是围绕这个信息做内容处理,让网页主题形成了100%的需求信息图谱(也可以用百度指数需求图谱进行挖掘)。这样我们构建的用户需求是真正的相关性需求,很多时候,做SEO的朋友更新文章都是堆砌关键词,但是并不懂得去好好利用这类主题关系模型来处理一些设置更新文章的技巧,如果这个东西把控到位,那么大家更新的内容将价值更加有用,更加符合搜索引擎优化。

      本文由附子SEO原创,未经允许,严禁转载,联系附子SEO微信号:q1013240126

预约SEO专家添加微信号:1013240126 领取免费VIP内部课程
© 著作权归作者所有
附子简介
附子 创始人
8年SEO实战经验,深度研究搜索引擎算法,熟悉大型网站SEO优化。
曾操作某大型门户网站日IP达100万(纯SEO流量),拥有上千网站提供SEO友情链接资源(参加培训免费赠送100个单向友情链接),免费赠送附子SEO内部VIP课程,2018年新版实战课程介绍:查看详情
网友评论
 昵称:
 验证码:
5  条评论
新手头像
新手
2018-05-10

实在

四川刚子头像
四川刚子
2018-05-10

实实在在的干货!学习了,感谢附子

杭州网络公司头像
杭州网络公司
2018-05-10

好文章,又学了一招,谢谢附子

王贝头像
王贝
2018-05-10

看的似懂非懂,看来新手的高度还是没有达到这种水平。

型长头像
型长
2018-05-10

文章非常有深度,在seo这块很难得看到从搜索引擎角度分析这种内容的了

相关seo方法推荐 >