Python爬虫抓取技术的门道

发布时间：2019-06-18 19:23:57 所属栏目：建站来源：千锋python学院

导读：副标题#e# web是一个开放的平台，这也奠定了web从90年代初诞生直至今日将近30年来蓬勃的发展。然而，正所谓成也萧何败也萧何，开放的特性、搜索引擎以及简单易学的html、css技术使得web成为了互联网领域里最为流行和成熟的信息传播媒介;但如今作为商业化软

基于webgl的检查

var canvas = document.createElement('canvas'); 
var gl = canvas.getContext('webgl'); 
var debugInfo = gl.getExtension('WEBGL_debug_renderer_info'); 
var vendor = gl.getParameter(debugInfo.UNMASKED_VENDOR_WEBGL); 
var renderer = gl.getParameter(debugInfo.UNMASKED_RENDERER_WEBGL); 
if(vendor == 'Brian Paul' && renderer == 'Mesa OffScreen') { 
 console.log('Chrome headless detected'); 
}

基于浏览器hairline特性的检查

if(!Modernizr['hairline']) { 
 console.log('It may be Chrome headless'); 
}

基于错误img src属性生成的img对象的检查

var body = document.getElementsByTagName('body')[0]; 
var image = document.createElement('img'); 
image.src = 'http://iloveponeydotcom32188.jg'; 
image.setAttribute('id', 'fakeimage'); 
body.appendChild(image); 
image.onerror = function(){ 
 if(image.width == 0 && image.height == 0) { 
 console.log('Chrome headless detected'); 
 } 
}

基于以上的一些浏览器特性的判断，基本可以通杀市面上大多数 Headless Browser 程序。在这一层面上，实际上是将网页抓取的门槛提高，要求编写爬虫程序的开发者不得不修改浏览器内核的C++代码，重新编译一个浏览器，并且，以上几点特征是对浏览器内核的改动其实并不小，如果你曾尝试过编译Blink内核或Gecko内核你会明白这对于一个“脚本小子”来说有多难~

更进一步，我们还可以基于浏览器的 UserAgent 字段描述的浏览器品牌、版本型号信息，对js运行时、DOM和BOM的各个原生对象的属性及方法进行检验，观察其特征是否符合该版本的浏览器所应具备的特征。

这种方式被称为浏览器指纹检查技术，依托于大型web站对各型号浏览器api信息的收集。而作为编写爬虫程序的进攻一方，则可以在 Headless Browser 运行时里预注入一些js逻辑，伪造浏览器的特征。

另外，在研究浏览器端利用js api进行 Robots Browser Detect 时，我们发现了一个有趣的小技巧，你可以把一个预注入的js函数，伪装成一个Native Function，来看看下面代码：

var fakeAlert = (function(){}).bind(null); 
console.log(window.alert.toString()); // function alert() { [native code] } 
console.log(fakeAlert.toString()); // function () { [native code] }

（编辑：PHP编程网 - 湛江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/3

首页

尾页

针对移动端转码问题给	选择短网址的好处是可
千万不要因为盲目追求	SEO的职业生涯从seo初