通知图标

欢迎访问斗罗大陆网博客

获取网站死链(404等无效链接)并下载到本地-SEO工具天云圣地-SEO实战手札-天云资源博客网-致力于共享资源

获取网站死链(404等无效链接)并下载到本地

一、使用在线工具或软件(推荐)

1. Screaming Frog SEO Spider(Windows/Mac)

  • 特点:专业爬虫工具,可快速检测全站死链,支持导出结果。
  • 操作步骤
    1. 下载安装 Screaming Frog(免费版可爬取500个URL)。
    2. 输入网站域名,点击「Start」开始爬取。
    3. 爬取完成后,点击顶部菜单「Response Codes」筛选「4xx Client Error」和「5xx Server Error」状态码。
    4. 导出结果:
      • 菜单栏选择 File > Export > Response Codes,勾选「4xx」和「5xx」。
      • 保存为CSV或Excel文件到本地电脑。

2. Xenu's Link Sleuth(Windows)

  • 特点:免费工具,专注检测死链和重定向。
  • 操作步骤
    1. 下载 Xenu
    2. 输入网站URL,点击「Check URL」开始扫描。
    3. 扫描完成后,菜单栏选择 File > Report > Dead Links 查看死链。
    4. 右键导出为TXT或HTML文件。

二、浏览器插件(快速检测当前页面)

1. Check My Links(Chrome插件)

  • 特点:实时检测当前页面的死链,适合少量页面。
  • 操作步骤
    1. 安装 Check My Links
    2. 打开需要检测的网页,点击插件图标自动扫描。
    3. 红色标记的链接为死链,点击插件可复制结果。

2. Dead Link Checker(Chrome插件)

  • 类似工具,同样支持导出死链列表。

三、命令行工具(适合开发者)

1. 使用 wget 检测死链

  • 步骤


    Bash
    # 递归下载网站并记录错误链接 wget --spider -r -nd -o wget.log https://www.tyzyj.cn # 提取死链(404等) grep "404" wget.log > dead_links.txt






    # 递归下载网站并记录错误链接 wget --spider -r -nd -o wget.log https://www.tyzyj.cn # 提取死链(404等) grep "404" wget.log > dead_links.txt







    # 递归下载网站并记录错误链接 wget --spider -r -nd -o wget.log https://www.tyzyj.cn # 提取死链(404等) grep "404" wget.log > dead_links.txt




2. 使用 curl 批量检测

  • 编写脚本批量检查指定链接列表:


    Bash


     




    # 假设 links.txt 中是需要检测的URL列表 while read url; do status=$(curl -o /dev/null -s -w "%{http_code}" "$url") if [ "$status" == "404" ]; then echo "$url" >> dead_links.txt fi done < links.txt




四、自建脚本(Python示例)

使用Python快速检测死链并保存到本地:

Python
import requests from bs4 import BeautifulSoup def check_dead_links(url): try: response = requests.get(url, timeout=10) if response.status_code >= 400: print(f"死链: {url} (状态码: {response.status_code})") with open("dead_links.txt", "a") as f: f.write(f"{url}\n") except Exception as e: print(f"访问失败: {url} ({str(e)})") # 示例:检测首页所有链接 homepage = "https://www.tyzyj.cn" response = requests.get(homepage) soup = BeautifulSoup(response.text, "html.parser") links = [a["href"] for a in soup.find_all("a", href=True)] for link in links: check_dead_links(link)

五、注意事项

  1. 权限问题
    • 如果网站需要登录,使用工具时需配置Cookie或登录态(如Screaming Frog的「Authentication」功能)。
  2. JavaScript渲染的链接
    • 普通爬虫可能无法检测JS动态生成的链接,可配合无头浏览器(如Puppeteer)抓取。
  3. 性能优化
    • 大网站建议分批次检测,避免服务器过载。
  4. 定期检测
    • 死链会随内容更新不断产生,建议每月扫描一次。

六、处理死链的建议

  1. 修复或删除无效链接
  2. 设置301重定向:将死链跳转到新页面。
  3. 使用 robots.txt 屏蔽已被删除的页面
  4. 在Google Search Console提交死链更新,加速搜索引擎清理。

    没有回复内容

一键注册登录,免费下载更多的资源教程

  • 波浪
  • 波浪
  • 波浪
  • 波浪