邓煌生seo:百度核心算法整理

- 编辑:admin -

排名规则在百度中是很繁琐的一个环节,繁琐的算法才能保证给用户最好的信息。但是 数据的处理往往占用了很大的计算资源,所以百度不断完善排名的相关规则。在16年7月 会上线的全新计算规则将会大大降低计算的部分,而是通过简单的规则判断给予排名。流程 如下:

数据预处理-检索处理-索引处理-系数处理-数据包处理-行为处理


算法价值:百度核心算法,内部流出


分享此算法到5个QQ群,或好友,领取完整版算法 注意:由于本算法过于给力,请尽快领取,随时可能删除
邓煌生 seo QQ: 2962980933
邓煌生微信
seo
注意:[1] (1T 约=15天)     [2]本文没有做手机展示处理,为了更好的阅读本文,请在电脑端打开。


一.数据预处理

前面的要通过站内更新和站外链接实现,在现在的环境中,百度对站内看的比较重,在 爬虫爬取的同时,就会对当前页面给予一个基础分值,低于基础分值的,不收录。只有过了 基础分值的才会建立词库索引。关于百度对网站判定,在不同时期有不同的参数参与其中。


第一周期 (1T)    

状态:  新站期    

备注: 
       新站期,其实只有十五天, 在这十五天中,网站收录的 时候开始计算,这五天中最 重要的参考数值是文章数量 的増加。其次是对文章内容 的判定(新増部分属于绿萝) as初始值一般都为0,也就是 说这个时期的网站,完全靠 文章増长数量取胜。Ut为文 章质量判断参数,具体评断 相关内容不详,没有相关算法。

参考值:
企业站:5 Cms: 20 论坛:150 图片站:3 博客:1-3 商城:200 新闻站:50 其他:2


参数:
As+ut=3.2
 
As+ut=3.6
 
As+ut=0.7
 
As+ut=0.3
 
As+ut=4.5
 
As+ut=9
 
As+ut=5.5(0.1)
 
标记新闻源强制 ut值为0.1



第二周期(3T)

状态:观察期

备注:网站这段时间是最容易被百度过滤的,这段时候除了收录的増加,还开始对网站加入了初值赋予。并在这段时间进行减法运算,当初始分值扣光之后,就会降权该网站,并送入沙盒中(百度没有沙盒一说,但是有相应的机制,叫鬼上身)


参考值:初始值r=30      链接作弊: -1     锚文字密度:-5     外 链 作 弊 : -10(买卖)   文章收录:不増长-1    友链作弊:-2    代码作弊:-1


参数:As= ( 100+r) /(50+R)+3.2 这个公式是说初始权重的变动。初始权重=as+utUt为文章质量,直接调用第一周期的数据。


第三周期(4T)
状态:増长期

备注:这段时期开始,百度运算加分法则,这个时期的加分都是双倍加分,是给予能过观察期的网站的一定的扶持。百度希望出现优质的网站。这段时间是最好做很多词的那种大型网站的时机

参考值:
优质文章收录:1
网站版面优化:1
网站交互改进:3
网站规模増长:10

参数:
这个周期的公式都是集合式的,计算麻烦,as增长的效果远远不如ut増长的效果,就是说这个时期,还是网站文章质量重要。
 


第四周期(9T)

状态:
平稳期

备注:这个时期开始,百度对网站进入正常的平稳期关注,对于网站出现的作弊行为,会进行减分,对好的方面会加分。平稳期最重要的会有网站分类,不同的分类中给予不同的推荐度。相当于百度允许 这样的网站拥有合法的,有 效的投票权。
 
这个时期,会渐渐降低作弊 处罚力度。除非是格外严重 的作弊,会被人工审核到, 有作弊行为,被发现会立即 被百度处理,即为排名下降, 流量下降。


参数值:工业行业:5
It科技行业:3
文字行业: 1
个人网站:1
政府网站:5 (有时候会为 0)
门户网站,新闻源:0
垃圾站:1 (百度 对于垃圾站本身 并不封杀,原因 是站长圈的反 击。但是对于垃 圾站,百度更多 的会人工过滤)


参数:推荐度相关,缺乏最精确的相关资料,只大致知道,推荐值为1,2,3,具体数值代表的意思不详。但是推荐值本身不参与到排 名计算中。



第五周期 (20T)

状态:信任期

备注:进入新任期的时间提前了一 倍,这个时期的网站会允许 作弊行为的存在。作弊行为 不会减分,但是总分值减到 临界值,会一下子清算。


参数值:信任值:每1T 増加 1 信任值信 任值M参数计 算很复杂大致公 式

参数:M=(as当前周其月 -as上一周期)/ut 变化值。这个公 式不对,大致这 样,集合式公式 打出来很麻烦。




数据预处理中,百度会根据不同时期的网站执行不同的预处理手段,当然会比整理的详 细复杂的多,但是元素都包含进去了。绿萝算法中提到网站文章的排版问题,还是通过代码 和爱思码来的。

检索处理和索引处理,为核心的东西,原理倒是都公开的,实际计算也不难,完全靠数 据说话的。这两样处理只是为了给倒排索引列表服务,对排名没有任何干涉。其中有新増加 的词库匹配,会在下一批算法中过来,作用暂时不详。检索不只是包含了词库,还有时间, 格式等等,是为高级索引服务的。索引过程中,有个站内索引,是为职业搜索服务的,带来 的体验分值是想当的高。




二.系数处理(初始值R、推荐度、信任值)

1.预处理中的系数,涉及到初始值,这个每个网站都一样,只是在后面的减分中会产生差距。 所以,前45天的认真程度,会很长时间关系到这个网站在百度中的好坏。


2.百度是有权重的,分值为20个档。0-19,只是这个权重不参与排名计算。这个权重值影 响其他系数的变动。推荐值,信任值。比如,权重19的网站信任值积累速度肯定比权重18 的快。赋予的信任值衰减度也肯定低一些。百度考虑放出权重值供大家查询,应该在七月份 之后。

 
3.推荐度:推荐度的理解,就是以前老版本的权重。换链接的时候,都会考虑这个链接会不 会传递权重,其实这个东西就是推荐度。具体数值为1,2,3,具体数值代表的意义不详,只 知道是类别的区分。公式为周期衰减型的微积分公式,简单的表格统计几次计算(单位传递 值1000,只统计小数点后四位):


默认为第一周期    第一次传递      第二次传递   第三次传递    第四次传递    第五次传递
第一层级                 1000              812.6346       656.3659         421.8284     250.1924
第二层级               971.8478         528.4953      593.1643       532.4725        461.2718
第三层级               571.4172         342.4583       380.1594       220.2625       181.4575
第四层级              332.1684            252.2173      231.4254       238.2546       109.1571
第五层级               1.0000                1.0000             1.0000            1.0000            1.0000



为了计算方便,传递值默认为一千,实际每次传递值默认数值都不一样,和权重有最直 接的关系,最高和最低相差悬殊几百倍都有可能,公式为著名的金字塔模型公式(也叫能量 金字塔)。我就不去计算了,百度没有做任何修改,或者有修改没公开出来。


所以,根据滞留算法中相关所得,做外链,做第二层级的外链性价比最高。一个外链, 最多传递五个层级下去,当然,这里计算的是每个层级中的网站,都只有一个对外链接,就 是说,第二层级,只有一个第三层级的链接。如果有五个,那么推荐值要平均除以5的。 第二周期大致为第一周期的百分之三十,第三周期大致为第一周期的百分之五。
 
周期为两种(自然天数四十五天,就是说,第一周期45天结束之后,自动进入第二周 期)



前一周期推荐值溢出,自动进入第二周期。具体推荐值多少溢出,和网站权重有关,权 重越高,推荐值上限越高,就跟游戏等级的当前经验值。只不过,推荐度满了不会升级。推 荐值溢出之后剩余多少进入下个周期计算,和信任度有关
 
前一周期结束,当前积累的推荐值计算之后,会并入第二周期中计算。这个公式有五个, 太难算,且没有实际应用价值,就没有去算。这个每次并非递减,而是递増了。
 
推荐度激活:也叫外链激活,百度识别链接之后,再统计处理。