1. 写在前面
做爬虫的人大家都知道,现在国内Web或App普遍防护都做的很好,且越有价值的网站这方面越强
再小再弱的网站现在或多或少都要整点反爬
JS在反爬中应用非常广泛,现在做爬虫工程师基本都要懂JS,因为各种JS加密需要逆向!破解JS加密只是第一步,之后就是如何在我们的Python代码中直接执行JS,下面介绍一下几种Python中执行JS代码的方法
2. PyExecJS方法
首先第一步安装:
pip3 install PyExecJS
PyExecJS 是一个简单易用的库,它提供了一个通用的接口来执行 JavaScript代码,可以在多个JavaScript 运行时环境下工作,包括 Node.js、PhantomJS
然后导入excejs,它是一个在 Python中执行JS代码的库,使用示例如下:
md5_js = '''function hex_md5(s){ return binl2hex(core_md5(str2binl(s), s.length * 8));}function b64_md5(s){ return binl2b64(core_md5(str2binl(s), s.length * 8));}function hex_hmac_md5(key, data) { return binl2hex(core_hmac_md5(key, data)); }function b64_hmac_md5(key, data) { return binl2b64(core_hmac_md5(key, data)); }function calcMD5(s){ return binl2hex(core_md5(str2binl(s), s.length * 8));}function md5_vm_test(){return hex_md5("abc") == "900150983cd24fb0d6963f7d28e17f72";}function cxx(a, d) {var e;a = a - 0,e = str_spl[a]return e;}function core_md5(x, len){x[len >> 5] |= 0x80 <>> 9) << 4) + 14] = len;var a =1732584193;var b = -271733879;var c = -1732584194;var d =271733878;for(var i = 0; i 16) bkey = core_md5(bkey, key.length * 8);var ipad = Array(16), opad = Array(16);for(var i = 0; i > 16) + (y >> 16) + (lsw >> 16);return (msw << 16) | (lsw & 0xFFFF);}function bit_rol(num, cnt){return (num <>> (32 - cnt));}function str2binl(str){var bin = Array();var mask = (1 << 8) - 1;for(var i = 0; i >5] |= (str.charCodeAt(i / 8) & mask) <>2] >> ((i%4)*8+4)) & 0xF) + hex_tab.charAt((binarray[i>>2] >> ((i%4)*8)) & 0xF);}return str;}function binl2b64(binarray){var tab = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/";var str = "";for(var i = 0; i > 2] >> 8 * ( i %4)) & 0xFF) <> 2] >> 8 * ((i+1)%4)) & 0xFF) <> 2] >> 8 * ((i+2)%4)) & 0xFF);for(var j = 0; j binarray.length * 32) str += '';else str += tab.charAt((triplet >> 6*(3-j)) & 0x3F);}}return str;}'''content = '加密内容'ctx = execjs.compile(md5_js)sk = ctx.call('hex_md5', content)
call里面的参数第一个是JS函数名称, 如果要执行的JS有参数, 后面跟上参数就可以像上面content即可
3. js2py方法
首先第一步安装:
pip3 install js2py
js2py是一个专门为 Python 设计的库,允许在 Python 中执行 JavaScript代码,并且提供了较完整的 JavaScript 解释器。它支持更复杂的JavaScript 特性,如闭包和异常处理
适用于一些逆向工程场景,因为它能够处理一些混淆和复杂的 JavaScript 代码
它的原理将JS代码直接转译成Python代码执行,不用安装运行本地环境,启动比较快
不过转译时增加了执行时间,而且转译时有时会报错,特别是JS代码很多时,由于不使用本地JS环境,所以像JS混淆的代码转译时往往容易报错
使用示例:
import js2pyjs2py.eval_js('console.log( "Hello World!" )')
使用execute执行JS代码示例:
import js2pycontext = js2py.EvalJs() # 实例化解析js对象js_code = '''var a = 10function f(x) {return x*x}'''context.execute(js_code) # 调用js代码里面的函数context.a
在JS中直接使用Python内置函数示例:
import js2pycontext = js2py.EvalJs({'python_sum': sum})context.eval('python_sum(new Array(1, 2, 3))')
函数sum是Python里面的函数,可以直接在js2py中使用,其实很好理解,因为js2py是把js转译成python代码再来执行,当然可以直接执行Python函数了
转译JS文件方式示例:
from example import examplejs2py.translate_file('example.js', 'example.py')example.someFunction()
除了使用之前上面的方法外,还可以把JS文件转译成Python代码后再调用,这样做的好处是不用每次调用JS文件都要转译一次
现在js2py还支持JavaScript6 ,更多使用技巧感兴趣的大家可以去官网查看:Js2Py
4. node方法
首先确定先安装好nodejs,然后使用subprocess调用node子进程来执行JS
优点:速度快,而且一般不会出错,因为nodejs跟chrome浏览器一样使用的是v8引擎,在这五种方法中此方法最可靠,特别是有大量js代码要执行时,建议直接调用node
缺点:需要安装nodejs,并且如果大厂网站或app的js一般都会检测nodejs,所以js代码必须处理好,否则无法通过
import subprocess# js文件最后必须有输出,我使用的是 console.logpro = subprocess.run("node abc.js", stdout=subprocess.PIPE)# 获得标准输出_token = pro.stdout# 转一下格式token = _token.decode().strip()
5. Selenium方法
首先第一步安装:
pip3 install selenium
Selenium是一个自动化测试工具,可以模拟浏览器行为。可以在浏览器中执行JavaScript,用于实现网页渲染一系列操作
这里我们需要先下载webdriver以及安装chrome浏览器,或其它浏览器及其相应webdriver
driver地址:chromedriver
Selenium官方网站:Selenium
优点:省去了抠JS代码那些枯燥与繁琐的事项
缺点:必须有浏览器环境支持,执行效率低,只适合在有浏览器环境的情况下执行JS代码
一般不推荐使用selenium,但是如果不介意采集效率低的话,selenium算一个不错的选择
使用示例:
from selenium import webdriverjsstr = '''function add() {let a = 1;let b = 2;return a+b;}'''# 调用jsdriver = webdriver.chrome()# 异步用这个driver.execute_async_script(js)result = driver.execute_script(jsstr)print(result)
下面是早些年的一段更新浏览器User-Agent的JS调用:
6. PyV8方法
PyV8是一个基于Google V8引擎的库,提供在Python中执行 JavaScript代码的功能。它在性能上具有优势,因为V8引擎是高性能的JavaScript引擎
PyV8只支持Python2的pip安装,不支持python3环境下的pip安装,请直接到官网下载安装二进制文件:PyV8
然后解压后将PyV8.py 与 _PyV8.so (注意:如不是这两个文件名需要修改),将两文件复制到Python的site-packages目录下,如/usr/local/lib/python3.6/site-packages
使用示例:
import PyV8ctxt = PyV8.JSContext()# ctxt.__enter__()ctxt.enter()jsstr = '''function add() {let a = 1;let b = 2;return a+b;}'''result = ctxt.eval(jsstr)print(result)
最后大家可以根据自己的业务需求去选择以上适合的方法。
好了,到这里又到了跟大家说再见的时候了。创作不易,帮忙点个赞再走吧。你的支持是我创作的动力,希望能带给大家更多优质的文章