Python爬虫下载小说

Tip

这是一个非常简单的小说网站，读者可以拿来练习爬虫，练习xpath，文章内不让带网址，私信我获取网址。代码里有详细注释。

代码

import requests as rfrom lxml import etreeimport re## 根网址base_url = "xxx"## 小说id，即小说目录地址后的那一串数字content_id = "xxx"## 下载路径及文件名myFile= "./小说名.txt"## 获取htmlitems = r.get(base_url + "/" + content_id).texthtml_body = etree.HTML(items).xpath("/html/body")## 获取小说目录## 这里采用了xpath的方式获取到类为listmain的div，并获取到其内部的dl，然后获取第二个dt之后的所有dd标签，获取每个dd标签下的a标签的href即为小说每一章的地址。href = html_main.xpath("//div[@class='listmain']/dl/dt[2]/following-sibling::dd//a/@href")## 打开文件并追加写入每一章的标题和内容，记得在最后处理一下\n\t和一些其它编码符。（可以适当添加延迟或者参考笔者之前的代理ip博客使用代理ip，否则可能会出现访问超时）with open(myFile,"a", encoding="utf-8") as f:for item in href:res_content = ""# 拼接urlurl = base_url+itemresponse = r.get(url).textres_html = etree.HTML(response)title = res_html.xpath("//div[@class='content']/h1/text()")[0]print("正在下载："+title)res_content+=titleres_content+='\n'contents = res_html.xpath("//div[@id='content']/text()")for content in contents:trans_content = re.sub(r'\xa0', '', content)res_content += content.replace("\xa0","").replace('\r','\t')res_content+='\n'f.write(res_content)print("下载完成")

其它爬虫文章

记一次用Python爬取代理IP并使用（尝试用代理IP制造直播房间访问量）
记一次用Python统计全国女性Size
Python爬虫——爬取阳光高考专业数据并对所有专业进行数据分析

Python爬虫下载小说

Tip

代码

其它爬虫文章

最新关注

热文推荐

我的第二次博客作业

【力扣刷题练习】103. 二叉树的锯齿形层序遍历

040-安全开发-JavaEE应用&SpringBoot框架&JWT身份鉴权&打包部署JAR&WAR

Spring Cloud Alibaba全家桶（十）——微服务网关Gateway组件

YOLOv5训练速度慢 GPU占用率低

249.【2023年华为OD机试真题（C卷）】电脑病毒感染（广度优先搜索（BFS）-Java&Python&C++&JS实现）

Python爬虫下载小说

Tip

代码

其它爬虫文章

相关文章

最新关注

热文推荐