分布式数据采集平台(网络爬虫)
设计框架
作者:数荟集 CTO 时间:2016-6-8
产品特色
1、 高性能
2、 分布式部署,规模无限扩展 3、 配置灵活,可以任意配置规则
4、 支持对爬虫单独设置:执行周期、执行开始时间、执行间隔等参数 5、 支持http 、https 等协议 6、 支持get 方式和post 方式 7、 支持文件下载 8、 支持翻页采集
9、 支持二次js 请求采集
10、 支持html 标签、json 等任意报文 11、 支持登录采集
12、 支持代理采集,具有代理池功能,定时自动探测代理有效性 13、 独创的规则配置体系,具有处理复杂报文的能力
14、 具有采集结果加工处理能力,比如:替换、截取、清除垃圾标签、
清除空格等操作
15、 支持多数据库,多表数据结果
16、 支持数据库插入、删除、修改等操作的功能 17、 支持保存文件功能 18、 具有规则失效告警功能
功能介绍
爬虫服务器管理
(1) 新增、修改、查看和删除爬虫服务器 (2) 控制分布式爬虫服务器的启动和停止。
(3) 配置爬虫执行周期、执行开始时间、执行间隔等参数
网址管理(队列管理)、配置网址相关参数
分组管理,维护网址的分组信息,便于分类进行操作
配置解析规则
代理服务状态设置
代理服务器导入
数据库管理
输入库写入规则可以配置,{标题}标识从网页中采集过来的标题
输出文件管理
输出文件名可以进行配置{$日期}表示系统变量日期
爬虫测试,采集指定url ,用来查看返回报文方便定义规则
失效规则告警
分布式数据采集平台(网络爬虫)
设计框架
作者:数荟集 CTO 时间:2016-6-8
产品特色
1、 高性能
2、 分布式部署,规模无限扩展 3、 配置灵活,可以任意配置规则
4、 支持对爬虫单独设置:执行周期、执行开始时间、执行间隔等参数 5、 支持http 、https 等协议 6、 支持get 方式和post 方式 7、 支持文件下载 8、 支持翻页采集
9、 支持二次js 请求采集
10、 支持html 标签、json 等任意报文 11、 支持登录采集
12、 支持代理采集,具有代理池功能,定时自动探测代理有效性 13、 独创的规则配置体系,具有处理复杂报文的能力
14、 具有采集结果加工处理能力,比如:替换、截取、清除垃圾标签、
清除空格等操作
15、 支持多数据库,多表数据结果
16、 支持数据库插入、删除、修改等操作的功能 17、 支持保存文件功能 18、 具有规则失效告警功能
功能介绍
爬虫服务器管理
(1) 新增、修改、查看和删除爬虫服务器 (2) 控制分布式爬虫服务器的启动和停止。
(3) 配置爬虫执行周期、执行开始时间、执行间隔等参数
网址管理(队列管理)、配置网址相关参数
分组管理,维护网址的分组信息,便于分类进行操作
配置解析规则
代理服务状态设置
代理服务器导入
数据库管理
输入库写入规则可以配置,{标题}标识从网页中采集过来的标题
输出文件管理
输出文件名可以进行配置{$日期}表示系统变量日期
爬虫测试,采集指定url ,用来查看返回报文方便定义规则
失效规则告警