SEO优化公司之网站被镜像了要怎么处理呢?

发布时间:2020-01-17     点击数:359

 一、什么是恶意镜像网站?

  镜像网站指的是和你的网站基本一样、并且实时同步的其它网站。就像照镜子一样,所以名为镜像。

  有的镜像网站是没有恶意的,很可能是你自己设置的,为了方便用户能从多个域名访问网站,被封了一个,还有其它的域名。比如著名的草榴社区,好像就有很多镜像可以访问。有的镜像,也就是这里讨论的镜像,是不怀好意的,通常是别人设置的,要么为了负面SEO你的网站,要么为了利用你的内容获得排名,然后把用户转向到敏感、非法内容网站上去。

  网上有的文章把采集和镜像混在一起。虽然表现形式差不多,但严格来说,采集和镜像实现方法、表现形式是有区别的。

  采集的网站一般是提前抓取别人网站的内容,放入自己数据库,再用程序调用到页面上。被采集网站有新内容时,采集网站并不能实时同步更新,要再采集之后才能出现。一旦被采集,内容已经在对方数据库里了,从技术上是无法阻止采集网站显示这些内容的。这篇帖子说的不是这种。

  镜像网站并不事先抓取内容,而是有人访问网站时,实时从被镜像的网站调取内容,做些处理(替换URL、文字,加文字、加JS等),然后实时显示。被镜像的网站有任何更新,镜像网站是实时同步的。  

  网上有卖用于镜像网站的小偷程序的。小偷程序通常也可以用来做采集。为了不给他们做宣传,就不提名字了。从他们的官网摘取几条程序功能,有助于理解后面的内容:

  1)、全自动分析,内外链接自动转换、图片地址、css、js,自动分析CSS内的图片

  2)、内置强大替换和过滤功能,标签过滤、站内外过滤、字符串替换、等等

  3)、伪原创,近义词替换有利于seo

  4)、增加URL路由,实现全站URL变换,个性化本站URL地址

  5)、超级模板增加移动模板、自定义栏目功能

  6)、增加自动获取301、302重定向的采集,解决跳WWW,跳https采集

  7)、代理IP、伪造IP、随机IP、伪造user-agent、伪造referer来路、自定义cookie,以便应对防采集措施

  二、网站被恶意镜像带来的危害

  从SEO角度看,权重不高的小站、新站,被镜像意味着有其它网站和你的网站内容基本一样,搜索引擎有可能认为你的网站不是原版,镜像网站才是,所以把排名、流量给了镜像网站。

  对有一定历史、权重的网站,镜像网站取代原版网站的可能性微乎其微。但从心情角度考虑,被别人镜像,内容被别人偷走,即使没有其它明显后果,也还是挺烦人的一件事。另一个烦人的事是,镜像网站一般来说并不是要和你提供同样的产品或服务,而是把用户转到赌博、色情等服务上去。有的是通过JS把赌博、色情内容显示给用户,有的直接把用户转向到另外的网站上去。

  1)、网站流量明显减少,关键词排名逐渐降低;

  2)、当网站被镜像后,不及时处理,时间一长很容易被降权,如果再想恢复就要花更多的时间与精力;

  三、怎样发现自己网站是被镜像了

  有时候注意到被镜像了是因为自己网站排名下降,怀疑有人负面SEO。有时候是搜索品牌名称,看到镜像网站。已经知道自己被镜像了好办,直接看下面怎么处理部分。

  很多站长则完全不知道自己网站是否被镜像了。有几个我常用的检查方法。

  1)、是百度统计后台:

  受访域名部分列出了使用相同百度统计代码的域名。其中出现快照、百度/谷歌翻译等是正常的,但出现一些奇奇怪怪的域名就要查看一下了。

  2)、是搜索网站的特征句子。最容易想到的是网站品牌名称、首页标题等,确实可以发现一些镜像网站。但有时品牌名绝大多数是会被替换的。

  四、网站被镜像了怎么办?网站被恶意镜像该怎么处理?

  首先,一些在网上提到的解决办法其实并没有什么用。

  比如有的说页面上的链接用绝对地址有帮助,其实小偷程序都会自动替换网址,用相对地址还是绝对地址没什么差别。

  还有的说页面上加上网站链接、网站名称、版权声明之类的,搜索引擎会识别哪个是正版。但镜像小偷程序连链接带文字都可以全部自动替换,这么做并没有用。

  发现镜像网站后的处理原则就是让镜像网站不能在镜像域名上显示你的内容。考虑到镜像网站是要实时访问和调用被镜像的页面的,所以可以考虑几个方法:

  1)、比如用JS检测一下正在被打开的页面是不是在自己的域名上,是的话正常显示,不是的话(域名是镜像网站时)强迫转向到自己域名:

  if (window.location.hostname !== ‘bj.youhuabaidu.com’){

  window.top.location.href = ‘http://bj.youhuabaidu.com/’;

  }


  不过这种方法只对用户有效,搜索引擎不执行JS,还是会抓取到镜像内容。也可以用PHP写脚本判断和转向。

  有时候由于种种原因,程序不起作用。

  2)、另一个直接的方法是屏蔽镜像网站来访问的IP地址。先查一下镜像网站服务器IP。把对方主机IP先屏蔽了。不过镜像网站来实时抓取用的IP大部分情况下不是域名主机IP,可能是CDN,可能是伪造IP,也可能是多IP的服务器。要发现必须屏蔽的IP,需要查看网站原始日志。我的一个小窍门是,访问镜像网站上一个很少人会访问的页面,比如翻页第70页,然后马上查看日志,这个页面被访问的IP就是应该屏蔽的IP。