博主

28分钟前在线

小野博客
小野(Hirono)博客的个人网站,主要讲述关于小野的一些陈芝麻烂谷子事。网络、生活、我的主张,也是一个自留地
歌曲封面 未知作品

网站已运行 2 年 43 天 2 小时 50 分

Powered by Typecho & Sunny

2 online · 53 ms

小野博客 小野(Hirono)博客的个人网站,主要讲述关于小野的一些陈芝麻烂谷子事。网络、生活、我的主张,也是一个自留地
Title

易语言资源网下载爬虫

小野

·

Article

爬虫使用说明书

1. 工具概述

本爬虫工具专为网站设计,用于自动爬取并下载网站上的各类资源附件(如 ZIP、RAR、7Z、EXE 等格式文件)。工具采用 Python 异步编程实现,具有高效、稳定的特点。

2. 环境

  • Python 3.7 或更高版本
  • 需要安装的依赖包:

    ♾️ text 代码:
    pip install aiohttp beautifulsoup4

3. 使用说明

3.1 基本使用

  1. 将代码保存为 do.py
  2. 打开命令行/终端,运行:

    ♾️ text 代码:
    python do.py

3.2 配置说明

代码顶部有以下可配置参数:

♾️ python 代码:
# 基本配置
BASE_URL = "https://www.e5a5x.com"  # 网站根地址
DOWNLOAD_DIR = "downloads"  # 下载文件保存目录

# 请求头设置
HEADERS = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36..."
}

# 分类配置
CATEGORIES = {
    "web3": {
        "base_url": f"{BASE_URL}/html/web3/",
        "sub_categories": ["B1", "B2", "B3", "B4"],
        "list_pattern": "list_45_{page}.html"  # 分页URL模式
    },
    # 其他分类...
}

3.3 自定义设置

  1. 调整爬取范围

    • 修改 CATEGORIES 字典添加/删除分类
    • 调整 max_pages 参数控制每个分类爬取的页数
  2. 调整并发设置

    ♾️ python 代码:
    semaphore = asyncio.Semaphore(3)  # 并发数
    connector = aiohttp.TCPConnector(limit=5)  # 总连接数
  3. 调整下载间隔

    ♾️ python 代码:
    await asyncio.sleep(1)  # 请求间隔时间(秒)

4. 运行流程

  1. 初始化下载目录和日志系统
  2. 按分类依次爬取:

    • 主分类页面 → 子分类页面 → 分页列表
  3. 解析每个详情页面的下载链接
  4. 下载文件到本地 downloads 目录

5. 输出说明

  • 所有下载文件保存在 downloads 目录下
  • 文件名自动从页面标题生成,特殊字符会被替换
  • 运行日志实时显示在控制台,包含:

    • 当前爬取的页面URL
    • 找到的详情页数量
    • 文件下载进度
    • 错误信息

6. 常见问题

Q1: 下载速度慢怎么办?

A: 可以适当增加并发数,但不要超过5,避免被封IP

Q2: 如何跳过已下载的文件?

A: 程序会自动检查,相同文件名的文件不会重复下载

Q3: 如何只下载特定分类?

A: 修改 CATEGORIES 字典,只保留需要的分类


下载地址

爬虫下载

按此说明操作即可轻松使用本爬虫工具下载所需资源。如有其他问题,可查阅代码注释或联系开发者。

现在已有 6 次阅读,0 条评论,0 人点赞
Comment:共0条
发表
搜 索 消 息 足 迹
你还不曾留言过..
你还不曾留下足迹..
博主 网站设置有【CDN】缓存,留言等评论内容需要12小时才能显示! 不再显示
博主