Article

⚠️ 本文最后更新于2025年05月13日，已经过了144天没有更新，若内容或图片失效，请留言反馈

易语言 Python 爬虫

爬虫使用说明书

1. 工具概述

本爬虫工具专为网站设计，用于自动爬取并下载网站上的各类资源附件（如 ZIP、RAR、7Z、EXE 等格式文件）。工具采用 Python 异步编程实现，具有高效、稳定的特点。

2. 环境

Python 3.7 或更高版本
需要安装的依赖包：
♾️ text 代码:
```
pip install aiohttp beautifulsoup4
```

3. 使用说明

3.1 基本使用

将代码保存为 do.py
打开命令行/终端，运行：
♾️ text 代码:
```
python do.py
```

3.2 配置说明

代码顶部有以下可配置参数：

♾️ python 代码:

# 基本配置
BASE_URL = "https://www.e5a5x.com"  # 网站根地址
DOWNLOAD_DIR = "downloads"  # 下载文件保存目录

# 请求头设置
HEADERS = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36..."
}

# 分类配置
CATEGORIES = {
    "web3": {
        "base_url": f"{BASE_URL}/html/web3/",
        "sub_categories": ["B1", "B2", "B3", "B4"],
        "list_pattern": "list_45_{page}.html"  # 分页URL模式
    },
    # 其他分类...
}

3.3 自定义设置

调整爬取范围：
- 修改 CATEGORIES 字典添加/删除分类
- 调整 max_pages 参数控制每个分类爬取的页数

调整并发设置：

♾️ python 代码:

semaphore = asyncio.Semaphore(3)  # 并发数
connector = aiohttp.TCPConnector(limit=5)  # 总连接数

调整下载间隔：

♾️ python 代码:

await asyncio.sleep(1)  # 请求间隔时间(秒)

4. 运行流程

初始化下载目录和日志系统
按分类依次爬取：
- 主分类页面 → 子分类页面 → 分页列表
解析每个详情页面的下载链接
下载文件到本地 downloads 目录

5. 输出说明

所有下载文件保存在 downloads 目录下
文件名自动从页面标题生成，特殊字符会被替换
运行日志实时显示在控制台，包含：
- 当前爬取的页面URL
- 找到的详情页数量
- 文件下载进度
- 错误信息

6. 常见问题

Q1: 下载速度慢怎么办？

A: 可以适当增加并发数，但不要超过5，避免被封IP

Q2: 如何跳过已下载的文件？

A: 程序会自动检查，相同文件名的文件不会重复下载

Q3: 如何只下载特定分类？

A: 修改 CATEGORIES 字典，只保留需要的分类

下载地址

爬虫下载

按此说明操作即可轻松使用本爬虫工具下载所需资源。如有其他问题，可查阅代码注释或联系开发者。

现在已有 218 次阅读，2 条评论，3 人点赞

日	一	二	三	四	五	六
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

易语言资源网下载爬虫

爬虫使用说明书

1. 工具概述

2. 环境

3. 使用说明

3.1 基本使用

3.2 配置说明

3.3 自定义设置

4. 运行流程

5. 输出说明

6. 常见问题

Q1: 下载速度慢怎么办？

Q2: 如何跳过已下载的文件？

Q3: 如何只下载特定分类？

下载地址