分布式资源搜索系统

产品概述

资源采集系统采用高可扩展性的架构设计,完美支持多类型数据来源的采集及新类型的数据采集能力,为客户量身定制专属的海量数字资源采集服务。实现了对不同来源数据的抓取、采集、迁移、清洗、转化、融合,保证了数据的完整性和安全性,解决了软件系统的新数据获取、整理,历史数据在迁移、融合中的难题,为平台的数据应用奠定了基础。

产品特点

全数据

适用于多种数据来源,多种数据类型,及50多种数据库数据采集

高效采集

高效数据采集,端到端响应速度可达毫秒级

可扩展

能够满足业务随需求的多样化,提供定制化组件来扩展采集范围

核心功能

网页采集

网页采集工具没有繁杂的采集规则设置,简单到只需要输入列表页网址和通过浏览器点击鼠标即可完成采集规则的配置。不需要关心网页源码,全程鼠标操作。操作界面友好直观。让网页数据采集变得前所未有的简单,大幅度提高了工作效率。全程智能辅助。只要你能在浏览器中可以看到的内容,几乎都可以按你需要的格式进行采集。支持JS输出内容的采集。软件虽然操作简单,却功能强大、全面。可以实现各类复杂采集需求。可应用于各种场合的通用性采集软件。是复杂采集需求的首选。

集群

通过集群技术可以在付出较低成本的情况下获得在性能、可靠性、灵活性方面的相对较高的收益,其任务调度则是集群系统中的核心技术。集群是一组相互独立的、通过高速网络互联的计算机,它们构成了一个组,并以单一系统的模式加以管理。一个客户与集群相互作用时,集群像是一个独立的服务器。集群配置是用于提高可用性和可缩放性。集群具有提高性能,降低成本,提高扩展性,增强可靠性等特点。

数据处理

采用ETL工具对数据源抽取出所需的数据,经过数据清洗,转化成适合使用的数据。最终按照预先定义好的数据仓库模型,将数据灌入到数据仓库中。

任务监控管理

监控平台具有自己完善的任务管理体系,不仅可以在监控平台执行指定任务也可以按照业务需要周期性执行任务。在大型集群环境下可以指定执行单个服务器或集群执行任务,可以实时查看任务执行执行状态及详细日志,能够应对各类复制的采集需求。

运行环境

操作系统
  • 中标麒麟
  • Windows
  • Linux
应用中间件
  • 东方通
  • 中创
  • 金蝶
  • Tomcat
  • WebSphere
  • Weblogic
数据库
  • 达梦
  • 神州通用
  • Oracle
  • MySQL
浏览器
  • IE9+
  • FireFox
  • Chrome
  • 搜狗
  • 360
扫二维码