Skip to content

新版本v0.1.x-改进 #1

@hexleo

Description

@hexleo
  • 减少历史访问列表的内存占用。v0.0.x版本将访问历史直接记录在内存当中,虽然检索速度很快,但不利于大规模的网页抓取工作,限制历史访问列表在内存中的占用条目数,超出部分在文件系统中保存,历史访问列表采用类似LRU形式进行管理。给出设置开关,默认情况关闭此功能,在配置可写文件路径后才启用。
  • 减少冗余状态管理项。WebFetch.java中的设置应该更灵活,在start后依然可以加入新任务。
  • 缺少相关博客说明。博客内容涵盖爬虫基本架构,每个部分的实现方式。为提高爬取速度、降低内存使用等做的优化。收集多方意见,不断改进项目。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions