2013-02-28

概述:WEB客户端


  • 爬虫及爬行方式

    • 爬虫的开始
    • 爬虫的过程
    • 环路及处理
    • 实现简单网络爬虫
  • 机器人与HTTP

    • 相关请求首部
    • 对响应的处理
    • 不好的机器人
  • 拒绝机器人访问

    • 标准及其演变
    • robot.txt

      • 请求与响应
      • 文件的格式
      • 解析的规则
      • 缓存与过期
  • 搜索引擎

    • 搜索引擎起源
    • 现代搜索引擎
    • 搜索引擎格局
    • 搜索核心技术

      • 全文索引
      • 请求查询
      • 结果排序

  • 补充材料之网络爬虫技术综述

  • 补充材料之搜索引擎技术综述

  • 本部分涉及的HTTP首部

  • 参考资料



blog comments powered by Disqus