爬虫使用说明书

1. 工具概述
本爬虫工具专为网站设计,用于自动爬取并下载网站上的各类资源附件(如 ZIP、RAR、7Z、EXE 等格式文件)。工具采用 Python 异步编程实现,具有高效、稳定的特点。
2. 环境
- Python 3.7 或更高版本
需要安装的依赖包:
♾️ text 代码:pip install aiohttp beautifulsoup4
3. 使用说明
3.1 基本使用
- 将代码保存为
do.py
打开命令行/终端,运行:
♾️ text 代码:python do.py
3.2 配置说明
代码顶部有以下可配置参数:
♾️ python 代码:# 基本配置
BASE_URL = "https://www.e5a5x.com" # 网站根地址
DOWNLOAD_DIR = "downloads" # 下载文件保存目录
# 请求头设置
HEADERS = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36..."
}
# 分类配置
CATEGORIES = {
"web3": {
"base_url": f"{BASE_URL}/html/web3/",
"sub_categories": ["B1", "B2", "B3", "B4"],
"list_pattern": "list_45_{page}.html" # 分页URL模式
},
# 其他分类...
}
3.3 自定义设置
调整爬取范围:
- 修改
CATEGORIES
字典添加/删除分类 - 调整
max_pages
参数控制每个分类爬取的页数
- 修改
调整并发设置:
♾️ python 代码:semaphore = asyncio.Semaphore(3) # 并发数 connector = aiohttp.TCPConnector(limit=5) # 总连接数
调整下载间隔:
♾️ python 代码:await asyncio.sleep(1) # 请求间隔时间(秒)
4. 运行流程
- 初始化下载目录和日志系统
按分类依次爬取:
- 主分类页面 → 子分类页面 → 分页列表
- 解析每个详情页面的下载链接
- 下载文件到本地
downloads
目录
5. 输出说明
- 所有下载文件保存在
downloads
目录下 - 文件名自动从页面标题生成,特殊字符会被替换
运行日志实时显示在控制台,包含:
- 当前爬取的页面URL
- 找到的详情页数量
- 文件下载进度
- 错误信息
6. 常见问题
Q1: 下载速度慢怎么办?
A: 可以适当增加并发数,但不要超过5,避免被封IP
Q2: 如何跳过已下载的文件?
A: 程序会自动检查,相同文件名的文件不会重复下载
Q3: 如何只下载特定分类?
A: 修改 CATEGORIES
字典,只保留需要的分类
下载地址
按此说明操作即可轻松使用本爬虫工具下载所需资源。如有其他问题,可查阅代码注释或联系开发者。