分布式数据采集平台介绍(网络爬虫)

分布式数据采集平台（网络爬虫）

设计框架

作者：数荟集 CTO 时间：2016-6-8

产品特色

1、高性能

2、分布式部署，规模无限扩展 3、配置灵活，可以任意配置规则

4、支持对爬虫单独设置：执行周期、执行开始时间、执行间隔等参数 5、支持http 、https 等协议 6、支持get 方式和post 方式 7、支持文件下载 8、支持翻页采集

9、支持二次js 请求采集

10、支持html 标签、json 等任意报文 11、支持登录采集

12、支持代理采集，具有代理池功能，定时自动探测代理有效性 13、独创的规则配置体系，具有处理复杂报文的能力

14、具有采集结果加工处理能力，比如：替换、截取、清除垃圾标签、

清除空格等操作

15、支持多数据库，多表数据结果

16、支持数据库插入、删除、修改等操作的功能 17、支持保存文件功能 18、具有规则失效告警功能

功能介绍

爬虫服务器管理

（1）新增、修改、查看和删除爬虫服务器（2）控制分布式爬虫服务器的启动和停止。

（3）配置爬虫执行周期、执行开始时间、执行间隔等参数

网址管理（队列管理）、配置网址相关参数

分组管理，维护网址的分组信息，便于分类进行操作

配置解析规则

代理服务状态设置

代理服务器导入

数据库管理

输入库写入规则可以配置，{标题}标识从网页中采集过来的标题

输出文件管理

输出文件名可以进行配置{$日期}表示系统变量日期

爬虫测试，采集指定url ，用来查看返回报文方便定义规则

失效规则告警