MCP 作为爬虫

1630 字

8 分钟

MCP 作为爬虫

2025-08-20

prog

ai

/

crawler

/

mcp

/

llm

核心架构#

基本组件#

包含三个核心组件：

浏览器 MCP 服务器：负责获取网页内容，模拟真实浏览器行为
状态管理：本地 state 文件存储爬取状态和任务队列
AI 处理引擎：调用 LLM API 对内容进行智能解析和转换

工作流程#

1
网页 URL → 浏览器 MCP → HTML 内容 → LLM 解析 → 结构化数据 → 数据库存储
2
                      ↓
3
                  状态管理 → 任务调度

技术优势#

1. 智能内容提取#

与传统的 XPath 或 CSS 选择器不同，LLM 能够：

语义理解：识别文章的实际内容区域，自动过滤广告、导航栏等无关内容
结构适应：处理不同网站的 HTML 结构差异，无需为每个站点编写特定规则
内容净化：提取纯净的文本内容，去除 HTML 标签和格式干扰

2. 灵活的数据转换#

LLM 可以将提取的内容转换为任意格式：

1
{
2
  "title": "文章标题",
3
  "author": "作者姓名",
4
  "content": "正文内容",
5
  "publish_date": "2025-08-20",
6
  "tags": ["技术", "AI"],
7
  "summary": "文章摘要"
8
}

3. 动态适应性#

当网站结构发生变化时，传统爬虫需要修改代码，而 AI 爬虫能够：

自动适应新的页面结构
识别内容的语义含义而非依赖特定的 HTML 标签
减少维护工作量

实现细节#

状态管理#

使用本地 JSON 文件管理爬虫状态：

1
{
2
  "crawled_urls": ["url1", "url2"],
3
  "pending_urls": ["url3", "url4"],
4
  "last_crawl_time": "2025-08-20T10:00:00Z",
5
  "failed_urls": []
6
}

MCP 集成#

通过浏览器 MCP 服务器获取页面内容，支持：

JavaScript 渲染的动态内容
用户代理伪装
Cookie 和 Session 管理
反爬虫机制绕过

AI 提示工程#

关键在于设计合适的提示词：

1
分析以下网页内容，提取文章信息：
2
1. 标题
3
2. 作者
4
3. 发布时间
5
4. 正文内容
6
5. 相关标签
7

8
忽略导航、广告、评论等无关内容，以 JSON 格式返回。

应用场景#

新闻聚合#

从多个新闻网站提取文章
统一格式存储到数据库
支持全文搜索和分类

内容监控#

监控特定网站的更新
提取关键信息变化
自动化报告生成

数据挖掘#

学术论文抓取和整理
产品信息收集
社交媒体内容分析

性能考量#

成本控制#

批处理：积累一定数量的页面后批量处理，降低 API 调用成本
缓存机制：相似页面结构复用解析结果
增量更新：只处理新增或变更的内容

效率优化#

并发控制：合理设置并发数，避免被目标网站封禁
失败重试：网络异常或解析失败的自动重试机制
资源限制：设置内存和磁盘使用上限

深入技术选型对比#

MCP vs 传统爬虫架构对比#

维度	传统爬虫	MCP + LLM 爬虫
成本	基础设施成本低	API 费用高（ $0.56-$ 200K/百万页面）
性能	毫秒级响应	秒级处理（Hacker News Top 5 需 2 分钟）
适应性	网站更新需修改代码	自动适应结构变化
维护成本	高（每个网站需定制）	低（通用提示词）
准确性	高（精确选择器）	中等（可能产生幻觉）
扩展性	线性扩展困难	批处理优化可行

MCP 2025 规范更新#

安全增强（2025年6月）#

OAuth 资源服务器：MCP 服务器正式归类为 OAuth 资源服务器
资源指示器：客户端必须实现 RFC 8707 资源指示器
令牌作用域：授权服务器可颁发严格限定作用域的令牌

传输机制#

1
{
2
  "transport": {
3
    "local": "stdio",
4
    "remote": "HTTP + Server-Sent Events",
5
    "message_format": "JSON-RPC 2.0"
6
  },
7
  "security_model": {
8
    "authentication": "OAuth 2.0",
9
    "authorization": "Resource-specific tokens",
10
    "threat_mitigation": "Prompt injection protection"
11
  }
12
}

边际案例与挑战#

复杂场景处理#

1. 动态内容渲染#

问题：SPA 应用、懒加载、无限滚动

解决方案：

1
// 等待动态内容加载
2
await page.waitForSelector('.dynamic-content', { timeout: 30000 });
3
await page.evaluate(() => {
4
  return new Promise((resolve) => {
5
    let lastHeight = 0;
6
    const checkScroll = () => {
7
      window.scrollTo(0, document.body.scrollHeight);
8
      const newHeight = document.body.scrollHeight;
9
      if (newHeight === lastHeight) {
10
        resolve();
11
      } else {
12
        lastHeight = newHeight;
13
        setTimeout(checkScroll, 1000);
14
      }
15
    };
16
    checkScroll();
17
  });
18
});

2. 反爬虫检测绕过#

2025年反检测技术栈：

TLS/HTTP2 指纹伪装：模拟真实浏览器的传输层特征
Canvas 指纹随机化：动态生成设备指纹
行为模式模拟：随机化点击、滚动、停留时间

1
# 高级反检测配置
2
stealth_options = {
3
    "user_agent": random.choice(REAL_USER_AGENTS),
4
    "viewport": random.choice(COMMON_RESOLUTIONS),
5
    "headers": generate_realistic_headers(),
6
    "timing": {
7
        "page_load_delay": random.uniform(2, 5),
8
        "scroll_delay": random.uniform(0.5, 2),
9
        "click_delay": random.uniform(0.1, 0.5)
10
    }
11
}

3. 大规模并发控制#

挑战：IP 封禁、服务器过载、内存管理

策略：

智能限流：基于目标网站响应时间自适应调整
IP 池管理：住宅代理轮换 + 地理分布
请求去重：布隆过滤器避免重复抓取

AI 处理边际案例#

1. 内容歧义处理#

问题：多义词、方言、专业术语

增强提示词：

1
上下文：技术博客网站
2
任务：提取文章信息，注意以下歧义处理：
3
1. "Apple" 可能指公司或水果，根据上下文判断
4
2. 专业术语保持原文（如 "Kubernetes"、"Docker"）
5
3. 时间格式统一为 ISO 8601
6
4. 如遇不确定内容，标记为 "uncertain"
7

8
输出格式：{"title": "", "confidence": 0.95}

2. 多语言内容处理#

1
{
2
  "content": {
3
    "detected_language": "zh-CN",
4
    "translation_required": true,
5
    "extracted_data": {
6
      "title": "原始标题",
7
      "title_en": "Translated Title"
8
    }
9
  }
10
}

性能优化深度解析#

成本控制策略#

1. 分层处理模式#

1
class HybridProcessor:
2
    def process_content(self, html_content):
3
        # 第一层：快速结构化检测
4
        if self.is_simple_structure(html_content):
5
            return self.traditional_extract(html_content)
6

7
        # 第二层：AI 增强处理
8
        if self.is_complex_but_recognizable(html_content):
9
            return self.template_guided_llm(html_content)
10

11
        # 第三层：完全 AI 处理
12
        return self.full_llm_processing(html_content)

2. 批量处理优化#

内容聚合：将多个页面合并到单次 API 调用
模板复用：相似结构页面共享解析模板
缓存策略：解析结果按域名+模式缓存

实时性能监控#

1
{
2
  "metrics": {
3
    "processing_latency": "avg: 1.2s, p99: 4.5s",
4
    "success_rate": "94.3%",
5
    "cost_per_page": "$0.003",
6
    "throughput": "850 pages/hour",
7
    "error_breakdown": {
8
      "network_timeout": "2.1%",
9
      "llm_hallucination": "1.8%",
10
      "structure_change": "1.2%",
11
      "rate_limit": "0.6%"
12
    }
13
  }
14
}

高级安全考量#

数据合规性#

GDPR 合规：敏感信息检测和匿名化
Robots.txt 遵守：智能解析和遵循爬取规则
内容版权：自动识别受版权保护的内容

安全风险缓解#

1
class SecurityFilter:
2
    def __init__(self):
3
        self.pii_detector = PIIDetector()
4
        self.content_classifier = ContentClassifier()
5

6
    def sanitize_content(self, content):
7
        # 检测和移除个人身份信息
8
        content = self.pii_detector.remove_pii(content)
9

10
        # 内容分类和风险评估
11
        risk_level = self.content_classifier.assess_risk(content)
12

13
        if risk_level > 0.7:
14
            return None  # 拒绝处理高风险内容
15

16
        return content

MCP 作为爬虫

https://blog.lpkt.cn/posts/mcp-as-crawler/

作者

lollipopkit

发布于

2025-08-20

许可协议

CC BY-NC-SA 4.0

macOS SSH 禁用密码认证仅允许密钥登录

oss-licenses