一个完整Python实战项目：selenium识别验证码实现自动登录，自动操作浏览器获取某东数据

最近都没啥时间，很久没更新了。

今天分享一下，如何用selenium识别验证码，实现自动登录以及获取数据。

目标：某东

话不多说直接开始

准备工作

环境

Python 3.10
Pycharm

模块使用

import random
import time
from selenium import webdriver
import pyautogui
import base64
import ddddocr
import csv

win + R 输入cmd 输入安装命令 pip install 模块名 (如果你觉得安装速度比较慢, 你可以切换国内镜像源)

selenium: 自动化测试模块，模拟人的行为去操作浏览器 (获取网页相关数据内容)

正常浏览网站流程

打开浏览器访问网站
输入商品名称, 回车/点击搜索
输入账号密码
浏览器商品数据信息 (第一页)
继续浏览下一页

浏览器

webdriver.Chrome() # 谷歌
webdriver.Edge() # Edge
webdriver.Firefox() # 火狐

建议大家用谷歌

打开浏览器可能会出现问题

报错大概率原因是因为浏览器驱动问题
– 驱动路径
I. 当你驱动文件和你代码放在一起 / 你驱动文件在python目录下面 (可以不用写路径)
II. 给驱动文件路径
– 驱动版本
浏览器可能自动更新 –> 驱动文件版本也要更新
大版本一样, 小版本最相近的即可
打开浏览器之后闪退
原因: 你的selenium版本是4.0的需要加阻塞
运行完成程序之后, 自动结束程序…

代码展示获取数据部分

selenium自动操作浏览器

# 打开浏览器driver = webdriver.Chrome() # 谷歌# 最大化浏览器窗口driver.maximize_window()# 访问网站driver.get('https://www.jd.com/')

输入商品名称, 回车/点击搜索按钮

通过元素定位, 找到搜索框/输入框, 然后输入内容

driver.find_element_by_id() 按 ID 查找元素driver.find_element_by_class_name() 按类名查找元素driver.find_element_by_css_selector() 通过 CSS 选择器查找元素driver.find_element_by_xpath() 通过 XPath 查找元素driver.find_element_by_id('key').send_keys('口红') # 输入关键字driver.find_element_by_class_name('button').click() # 点击搜索按钮# 设置等待元素加载driver.implicitly_wait(10)# 文章不理解的话，我还专门录制了视频讲解# 和源码一起打包好了，都放在这个抠裙了：708525271

输入账号密码, 登陆

driver.find_element_by_id('loginname').send_keys(account) # 输入账号driver.find_element_by_id('nloginpwd').send_keys(password) # 输入密码driver.find_element_by_id('loginsubmit').click() # 点击登陆

获取商品的数据信息

找到商品数据对应标签位置

find_element 定位获取一个
find_elements 定位获取多个

执行页面滚动的操作

def drop_down():    """执行页面滚动的操作"""  # javascript    for x in range(1, 12, 2):# 1 3 5 7 9  在你不断的下拉过程中, 页面高度也会变的        time.sleep(1)        j = x / 9  # 1/9  3/9  5/9  9/9        # document.documentElement.scrollTop  指定滚动条的位置        # document.documentElement.scrollHeight 获取浏览器页面的最大高度        js = 'document.documentElement.scrollTop = document.documentElement.scrollHeight * %f' % j        driver.execute_script(js)#设置等待元素加载过程driver.implicitly_wait(10)#下滑网页页面操作 通过selenium执行JS代码drop_down()# 返回列表lis = driver.find_elements_by_class_name('gl-item')# for循环遍历, 提取列表里面元素for li in lis:    title = li.find_element_by_css_selector('.p-name em').text    price = li.find_element_by_css_selector('.p-price strong i').text    commit = li.find_element_by_css_selector('.p-commit strong a').text    shop = li.find_element_by_css_selector('.p-shop span a').text    dit = {        '标题': title,        '价格': price,        '评价': commit,        '店铺': shop,    }    print(dit)

验证码识别

模块

from selenium import webdriverimport base64import timeimport ddddocrimport pyautoguiimport randomfrom password import account, password

模拟登录

driver = webdriver.Edge(r'D:\自游\京东商品\msedgedriver.exe')driver.get('https://passport.jd.com/new/login.aspx')driver.maximize_window()driver.find_element_by_id('loginname').send_keys(account) # 输入账号driver.find_element_by_id('nloginpwd').send_keys(password) # 输入密码driver.find_element_by_id('loginsubmit').click() # 点击登陆time.sleep(1)

获取验证码图片

# 滑块img_base6_1 = driver.find_element_by_css_selector('.JDJRV-smallimg img').get_attribute('src').split(',')[-1]# 缺口img_base6_2 = driver.find_element_by_css_selector('.JDJRV-bigimg img').get_attribute('src').split(',')[-1]img_content_1 = base64.b64decode(img_base6_1)with open('yzm_1.png', mode='wb') as f:    f.write(img_content_1)img_content_2 = base64.b64decode(img_base6_2)with open('yzm_2.png', mode='wb') as f:    f.write(img_content_2)

识别验证码滑块到缺口距离

det = ddddocr.DdddOcr(det=False, ocr=False)res = det.slide_match(img_content_1, img_content_2, simple_target=True)target = res['target'][0] * 0.67

滑动滑块识别验证

pyautogui.click(x=1502, y=482, button='left') # 按住鼠标pyautogui.dragTo(x=1502+target, y=482, duration=1.5)print(res)# 代码自取扣裙 708525271

文章不理解的话，我还专门录制了视频讲解，和源码一起打包好了，上方自取

今天的分享就到这里，溜了溜了~

文章版权归作者所有，未经允许请勿转载。

THE END

文章

一个完整Python实战项目：selenium识别验证码实现自动登录，自动操作浏览器获取某东数据

ZZM区块链全球区块文化娱乐相结合的新型网站源码

如何在 ASP.NET Core Web API 中处理 Patch 请求

python中argparse模块关于 parse_args() 函数详解（全）

从new File(“”)到jdk源码

当你敲完Hello World后的第一步——C

STM32CubeMX学习五之PWM配置

一个完整Python实战项目：selenium识别验证码实现自动登录，自动操作浏览器获取某东数据

ZZM区块链全球区块文化娱乐相结合的新型网站源码

如何在 ASP.NET Core Web API 中处理 Patch 请求

python中argparse模块关于 parse_args() 函数详解（全）

从new File(“”)到jdk源码

当你敲完Hello World后的第一步——C

STM32CubeMX学习五 之PWM配置

STM32CubeMX学习五之PWM配置