美鲸SEO中网页反作弊技术思路和方法探讨
一、网页反作弊的背景在商业利益的驱动下,很多站长会分析搜索引擎的排名,并采取一些措施来提高排名。这种行为可以理解。很多优化行为符合搜索引擎的排名规则,但同时也有很多恶意优化行为。所以网页反作弊也是所有商业搜索引擎需要解决的一个重要难点。今天vx:seokuaipai快派美国鲸会讲一些常见的互联网网页作弊方法,反作弊的整体思路,淘宝搜索反作弊机制与传统网页搜索反作弊的异同。网络反作弊二、网页作弊的类型内容作弊:从广义的分类来看,主要的作弊方式包括:内容作弊、链接作弊、隐藏作弊和近年来出现的web2.0作弊方式。笔者认为,内容作弊与当前的商业密切相关,因此本文将重点研究这种类型及相关的反作弊思路。内容欺骗的目的是通过对网页内容的精心更改或规范,使网页在搜索引擎排名中获得不成比例的高排名。常见的作弊手段包括:关键词重复、无关查询词作弊、图片alt标签文本作弊、网页标题作弊、网页重要标签作弊、网页元信息作弊。通过这些常见的作弊手段,作弊者的作弊意图无非如下:1.增加目标作弊词的出现频率以影响排名;2.增加与主题无关的内容或热门查询来吸引流量;3.关键位置插入作弊词影响排名。谷歌在2011年2月宣布,将调整低质量网页的排名算法。据悉,该算法影响了约11.8%的网页排名,而此次调整措施专门针对DemandMedia(成立于2006年5月,员工500人,业务比较复杂,包括域名注册、内容广告交易等。它的主要业务之一是拥有一个由65种社交媒体组成的网站群。)网站代表的内容是农场作弊。内容农场的经营者廉价雇佣大量自由职业者,支持他们付费写作,但内容普遍质量不高,很多文章都是靠复制粘贴完成的。但重点是,他们会研究搜索引擎的热门搜索词,并将这些词有机地加入到写作内容中。这样,普通搜索引擎用户在搜索时,就会被内容农场网站吸引,通过大量低质量的内容吸引流量,内容农场就可以赚取广告费用。与传统的作弊方式相比,内容农场不使用机器拼接内容等机械方式,而是雇人来写。这种作弊方式往往很难让搜索引擎给出明确的作弊定义,但严重影响搜索结果的质量,因此是一种很难处理的作弊方式。反作弊技术三、网页防作弊技术的总体思路:目前搜索引擎作弊的方式有很多种,作为一个互相回应的搜索引擎,技术思路也相应调整。所以,如果梳理一下反作弊的思路,就会发现技术方法很多,思路也不容易梳理。然而,如果我们深入分析大多数反作弊的想法,我们会发现在整体思维中有规律可循。从基本思路来看,反作弊措施大致可以分为以下三种:信任传播模型、不信任传播模型和异常发现模型。1.信任传播模型:在海量的网页数据中,通过一定的技术手段或者人工、半人工手段筛选出一些完全可信的页面(可以理解为我们日常所说的白名单)。该算法以白名单中的页面为起点,给白名单中的节点较高的信任度。其他页面是否作弊,应该根据它们与白名单中节点的链接关系来确定。白名单中的节点通过链接关系向外传播信任分数。如果某个节点最终获得的信任分数高于某个值,则认为没有问题,如果低于这个值,则判断为作弊。2.不信任传播模型:从大的技术框架来看,和信任传播模型非常相似。最大的区别在于,初始页面本身不是一个值得信任的页面节点,而是确认作弊的页面集合(也就是我们日常所说的黑名单)。给出黑名单中页面节点的不信任分数,这种不信任关系是通过链接传播的。如果最后一页节点的不信任分数大于设定值,则判定为作弊。3.异常发现模型:简单,比如分析网页内容发现异常词频、链接等。复杂,喜欢分析网站用户的异常行为等。异常发现模型通常与信任传播模型和不信任传播模型相结合。事实上,目前单纯的技术手段并不能完全解决作弊问题,所以现在用户通常在浏览搜索结果甚至上网时都会举报作弊网页。搜索引擎公司有专门的团队审核并主动发现可疑网页,已经验证的网页可以放入黑名单或白名单。综上所述,一定要把人工手段和技术手段结合起来,才能达到更好的反作弊效果。四、一般环节防作弊方法:链接防作弊方法1.信任等级算法(属于信任传播模型)2.BadRank算法(属于不信任传播模型,传闻是Google采用的反链接欺骗算法。注意:不要链接作弊页面。3.spamrank(属于异常发现模型)spamrank的基本假设是:3.1.对于一个正常的页面,其支持者页面的PangRank值应该满足幂律分布,即PR值有大有小。3.2.作弊网页有所不同,一般有以下三个特点:一、支持者页面数量非常大.支持者页面的排名分数都很低三.支持者页面的PangRank值都在一个小的浮动范围内。特殊链接防作弊技术五、特殊链接防作弊技术:1.识别链接农场:、网页出链的统计分布规则,作弊网页出链不符合Power-Law分布Ⅱ、网页入链的统计分布规则,作弊网页入链不符合Power-Law分布Ⅲ、URL名称统计特征,作弊网页的网址较长,包含更多的点画线和数字等Ⅳ、很多作弊网页的URL地址尽管不同,但是对应同一个IP地址Ⅴ、网页特征会随时间变化,比如入链的增长率、出链的增长率等Ⅵ、链接农场的结构特征,农场内的网页之间链接关系非常密切2、识别Google轰炸:判断锚文字是否和被指向页面有语义关系识别内容作弊六、识别内容作弊:1、重复出现关键词,判断文本内一定大小的窗口中是否连续出现同一个关键词2、标题关键词作弊3、统计正常页面中句子长度的规律、停用词的分布规律、词性的分布规律等反隐藏作弊七、反隐藏作弊:常见的隐藏作弊方式包括页面隐藏和网页重定向。1、识别页面隐藏对网页做2次抓取,第1次数正常的搜索引擎爬虫抓取,第2次模拟人工访问网页的方式抓取。这种方法成本非常高。2、识别网页重定向Strider系统给出了根据网页重定向来识别到底哪些是作弊网页的解决方案。八:石榴算法简介:2013年5月17日下午,百度网页搜索反作弊团队在百度站长平台发布公告称:将于一星期后正式推出新的算法“石榴算法”。新算法前期将重点整顿含有大量妨碍用户正常浏览的恶劣广告的页面。百度称此举是为了尊重搜索的用户,净化互联网生态环境!石榴算法简介发布时间:2013年5月17日打击对象:针对大量妨碍用户正常浏览的恶劣广告的页面、低质量内容页面。石榴算法针对的尤其以弹出大量低质弹窗广告、混淆页面主体内容的垃圾广告页面为代表。与之前百度绿萝算法相对应,这正是百度搜索引擎提高用户体验,提高搜索质量的有力手段。2013年5月17日下午,百度网页搜索反作弊团队在百度站长平台发布公告称:将于一星期后正式推出新的算法“石榴算法”。新算法前期将重点整顿含有大量妨碍用户正常浏览的恶劣广告的页面。百度称此举是为了尊重搜索的用户,净化互联网生态环境!整改建议:有弹窗广告?且在主体内容位置显示?赶紧撤掉吧、短期利益是获得了、长期就不讨好了、就如一次借钱忘了还、感觉像是赚到了、实则不然、你的信誉度在他人心中逐渐在减弱……这类型的页面评分也会被降分