分布式数据采集平台介绍(网络爬虫)

分布式数据采集平台(网络爬虫)

设计框架

作者:数荟集 CTO 时间:2016-6-8

产品特色

1、 高性能

2、 分布式部署,规模无限扩展 3、 配置灵活,可以任意配置规则

4、 支持对爬虫单独设置:执行周期、执行开始时间、执行间隔等参数 5、 支持http 、https 等协议 6、 支持get 方式和post 方式 7、 支持文件下载 8、 支持翻页采集

9、 支持二次js 请求采集

10、 支持html 标签、json 等任意报文 11、 支持登录采集

12、 支持代理采集,具有代理池功能,定时自动探测代理有效性 13、 独创的规则配置体系,具有处理复杂报文的能力

14、 具有采集结果加工处理能力,比如:替换、截取、清除垃圾标签、

清除空格等操作

15、 支持多数据库,多表数据结果

16、 支持数据库插入、删除、修改等操作的功能 17、 支持保存文件功能 18、 具有规则失效告警功能

功能介绍

爬虫服务器管理

(1) 新增、修改、查看和删除爬虫服务器 (2) 控制分布式爬虫服务器的启动和停止。

(3) 配置爬虫执行周期、执行开始时间、执行间隔等参数

网址管理(队列管理)、配置网址相关参数

分组管理,维护网址的分组信息,便于分类进行操作

配置解析规则

代理服务状态设置

代理服务器导入

数据库管理

输入库写入规则可以配置,{标题}标识从网页中采集过来的标题

输出文件管理

输出文件名可以进行配置{$日期}表示系统变量日期

爬虫测试,采集指定url ,用来查看返回报文方便定义规则

失效规则告警

分布式数据采集平台(网络爬虫)

设计框架

作者:数荟集 CTO 时间:2016-6-8

产品特色

1、 高性能

2、 分布式部署,规模无限扩展 3、 配置灵活,可以任意配置规则

4、 支持对爬虫单独设置:执行周期、执行开始时间、执行间隔等参数 5、 支持http 、https 等协议 6、 支持get 方式和post 方式 7、 支持文件下载 8、 支持翻页采集

9、 支持二次js 请求采集

10、 支持html 标签、json 等任意报文 11、 支持登录采集

12、 支持代理采集,具有代理池功能,定时自动探测代理有效性 13、 独创的规则配置体系,具有处理复杂报文的能力

14、 具有采集结果加工处理能力,比如:替换、截取、清除垃圾标签、

清除空格等操作

15、 支持多数据库,多表数据结果

16、 支持数据库插入、删除、修改等操作的功能 17、 支持保存文件功能 18、 具有规则失效告警功能

功能介绍

爬虫服务器管理

(1) 新增、修改、查看和删除爬虫服务器 (2) 控制分布式爬虫服务器的启动和停止。

(3) 配置爬虫执行周期、执行开始时间、执行间隔等参数

网址管理(队列管理)、配置网址相关参数

分组管理,维护网址的分组信息,便于分类进行操作

配置解析规则

代理服务状态设置

代理服务器导入

数据库管理

输入库写入规则可以配置,{标题}标识从网页中采集过来的标题

输出文件管理

输出文件名可以进行配置{$日期}表示系统变量日期

爬虫测试,采集指定url ,用来查看返回报文方便定义规则

失效规则告警


相关内容

  • 网络爬虫技术探究
  • JIU JIANG UNIVERSITY 毕 业 论 文 题 目 网络爬虫技术探究 英文题目 院 系 信息科学与技术学院 专 业 计算机科学与技术 姓 名 闻泽 班级学号 A081129 指导教师 二○一二年五月 信息科学与技术学院学士学位论文 摘 要 网络爬虫是一种自动搜集互联网信息的程序.通过网 ...

  • 聚焦爬虫技术研究综述
  • 第25卷第9期 2005年9月 文章编号:1001-9081(2005) 09-1965-05 Computer App licati ons Edited by Foxit Reader Copyright(C) by Foxit Software Company,2005-2007For Eva ...

  • 智慧物业整体规划方案0517V1.0
  • 智慧社区(物业)解决方案 一.智慧物业整体规划 建立"社区物业 + 社区住户 + 周边商家"之间的商务模式,并与多家大型超市联合,打造成"中国社区电子化运营商".是面向全国基于手机上的开放式智慧物业应用平台,包括物业管理系统.物业账单及缴费系统.短信服务系统. ...

  • 化学主题网络爬虫的设计和实现
  • 化学主题网络爬虫的设计和实现 夏诏杰梁春燕郭力 (中国科学院过程工程所多相实验室,北京100080) E-mail:zjxia@home.ipe.ac.cn 摘 要由于通用搜索引擎检索返回的结果过多.主题相关性不强以及随着人们对提供的各项信息服务的要求越来越 高,基于整个Web的信息采集越来越力不从 ...

  • 八爪鱼爬虫能爬取到哪些数据
  • 八爪鱼·云采集服务平台 www.bazhuayu.com 八爪鱼爬虫能爬取到哪些数据 八爪鱼采集器,是一款通用的网页数据采集器,可以通过规则配置,简单高效地将网页数据转化为结构化数据.没有使用过八爪鱼爬虫的人,可能会十分好奇,八爪鱼到底能爬取到哪些数据呢?本文将具体讲述这一问题. 一.任何网站上的数 ...

  • 云计算描述
  • 一.什么是云 计算机领域下的"云"通常指Internet 网络,随着云计算的兴起,当前的"云"多指云计算.云计算有许多不同定义,这里采用芝加哥大学对云计算的一个定义: 云计算是一种由规模经济驱动的大规模分布式计算范式,系统有一个抽象的,虚拟化的,动态扩展的的计 ...

  • 软件需求说明书模板
  • [项 目 名 称] 需求说明书 目录 1 引言 .............................................................................................................................. ...

  • 内容网数据采集接口定义及自动处理流程
  • 数据采集及自动处理流程 1 概述 本文主要描述内容网库对外定义的数据采集接口以及对于这些采集数据的自动处理流程.通过对现速网的分析,我们认为对于数据的采集主要是通过手工方式,爬虫爬取方式进行的,对于其他的采集方式,网信虽然有提及,但是我们在现在的速网后台没有发现相应的模块,希望网信相关人员通过对该文 ...

  • 兴业银行科技部招聘公告
  • 2017兴业银行信息科技部校园春季招聘公告 2017银行校园招聘即将开始,中公金融人为广大考生整理发布全国各地银行校园招聘信息,,可及时关注2017银行校园招聘公告汇总. 兴业银行成立于1988年8月,是经国务院.中国人民银行批准成立的首批股份制商业银行之一,总行设在福建省福州市,2007年2月5日 ...