利用JS封装iframe骗过搜索引擎的抓取

爬虫都不喜欢iframe或frame,因为蜘蛛访问一个网址时所抓取的HTML是调用其他网页的HTML文件的代码,并不包含任何的文字内容,也就是说你这个网页的内容是什么,蜘蛛弄不清楚。有人可能会说搜索引擎的蜘蛛也能跟踪爬取所调用的HTML文件啊。对,是能跟踪爬取,但是跟踪这一部分内容通常不是完整的页面。搜索引擎更不能判断哪部分是主框架哪一部分是被调用的文件。随着搜索技术的发展也不一定永远无法解决这种问题,但是这么多的网站蜘蛛不会因为你一个网站而费那个劲。但通过JS输出iframe代码,可以完美实现直接调用iframe代码的效果!

下面以微博秀为例子,公布方法:

微博秀iframe调用代码如下

 

下面是封装之后的代码

document.write('');

调用iframe

  

 

iframe的优点:

1.iframe能够原封不动的把嵌入的网页展现出来。

2.如果有多个网页引用iframe,那么你只需要修改iframe的内容,就可以实现调用的每一个页面内容的更改,方便快捷。

3.网页如果为了统一风格,头部和版本都是一样的,就可以写成一个页面,用iframe来嵌套,可以增加代码的可重用。

4.如果遇到加载缓慢的第三方内容如图标和广告,这些问题可以由iframe来解决。

iframe的缺点:

1.会产生很多页面,不容易管理。

2.iframe框架结构有时会让人感到迷惑,如果框架个数多的话,可能会出现上下、左右滚动条,会分散访问者的注意力,用户体验度差。

3.代码复杂,无法被一些搜索引擎索引到,这一点很关键,现在的搜索引擎爬虫还不能很好的处理iframe中的内容,所以使用iframe会不利于搜索引擎优化。

4.很多的移动设备(PDA 手机)无法完全显示框架,设备兼容性差。

5.iframe框架页面会增加服务器的http请求,对于大型网站是不可取的。

版权声明:本文内容以盗版加工为主,原创为辅,意在分享,收藏,记录工作中的点点滴滴。不代表任何组织,不代表任何商业机构,也不代表我个人所有想法。
心晴客栈 » 利用JS封装iframe骗过搜索引擎的抓取

发表回复