Sybase数据仓库技术在中国联通经营分析系统中的应用

浏览:108日期:2023-11-15

应用背景

中国联通拥有全国范围内相当规模的公用电信网,经营多种基础电信业务和增值电信业务,形成移动(GSM、 CDMA)、193 长途、VoIP、165(互联网与电子商务)、寻呼、市话、增值业务等多种业务并存和共同发展的格局。如何发挥联通的综合优势,实现灵活多变的市场营销策略,为客户提供更具有针对性的满意服务; 同时最大限度使自己的资源得到合理配置和优化,降低运营成本,以增强联通的核心竞争力,成为当前迫切需要解决的问题。在此过程中,市场策略的应对速度是保持竞争力的重要手段,而市场应对策略的制定需要丰富、真实、及时的经营信息提供支持。海南联通,在中国联通总部的统一规划下,采用Sybase 公司的数据仓库产品,建设完成了统一经营信息服务子系统。

海南统一经营信息服务子系统以查询 / 统计型经营数据为核心,其数据源于服务支撑系统中各生产子系统中数据(包括电子与手工数据),通过信息展现(包括提供数据接口访问方式)为企业的其它系统提供客户和业务分析层面的经营信息服务,包括统计及分析、决策支持等,如为 ERP 系统中用于企业管理的经营统计信息提供数据来源。

应用需求

众所周知,电信行业的数据堪称为海量数据,对数 据库、数据仓库管理软件的要求极高,主要体现在对海量数据的存储能力和处理的速度要求。本系统数据仓库领域的应用,需要保存,处理大量的历史数据,其中以 CDR 详单的数据量为最大。为了适应此需求,立为通信软件有限公司建议海南联通选用了专业的数据仓库管理软件SybaseIQ12.5 来构建企业经营信息的数据仓库系统。

系统方案

统一经营信息服务系统由数据采集模块、数据仓库生成模块、数据仓库接口模块、总部数据文件生成模块、报表生成模块、元数据管理模块、系统管理模块及系统的信息模型组成。其中,系统的信息模型指导着整个产品的构建和运行过程。中国联通统一经营信息服务系统的总体结构如下图所示:

Sybase数据仓库技术在中国联通经营分析系统中的应用

图表: 统一经营信息系统系统结构图

下面分别对系统各功能模块和系统信息模型说明如下:

系统信息模型: 本产品信息模型包括四部分,分别是:

(1) 数据仓库维表、事实表等数据仓库(DW)信息模型;

(2) 系统管理信息模型,例如: 系统用户表、用户权限表等;

(3) 操作数据存储(ODS)信息模型;

(4) 元数据信息模型。

数据采集模块:定义外部业务操作系统为本产品中ODS提供原始数据的内容和格式,外部业务操作系统将原始数据传送到产品指定的数据缓冲区内,数据采集模块按照调度规则和格式规约从中采集数据,将这些数据放入 staging area (临时数据交换区)中,作为 ODS 的数据源。

数据仓库生成模块: 数据仓库生成模块完成两次 ETL过程,第一次从 staging area 中将业务数据 ETL 到OD中,第二次根据数据仓库定义的维和维层次的定义,ODS中轻度综合的业务数据进行不同粒度的综合并导入到数据仓库中。

数据文件传输模块: 本系统对外提供两种经营信息访问接口: 一种是根据外部数据需求格式规约生成接口数据文件,由数据文件传输模块完成系统与外部统计分析应用系统之间的数据传递; 另一种是在产品对外提供数据仓库元数据的基础上开放数据仓库连接的方式。为了保持总部和省分公司经营信息服务的一体化,本产品封装了省分公司经营信息服务与联通总部的数据接口,根据总部数据要求,制定抽取规则,从数据仓库中抽取相应数据封装成接口数据文件,由数据文件传输模块定期向总部发送。

数据仓库连接管理模块: 产品在对外提供数据仓库元数据的基础上向外部统计分析应用系统开放数据仓库连接,供外部系统使用数据仓库中的数据,数据仓库连接管理模块对外部系统访问数据的权限进行控制。

系统管理模块: 主要包括数据存储的管理、数据采集的管理、数据仓库生成的管理(两次 ETL 规则管理、数据更新调度管理等)、数据传输的管理、元数据管理、日志管理和安全管理。

报表生成模块: 该模块功能包括报表数据生成、报表生成、报表发布。将从数据仓库 /ODS 中抽取的数据,生成 / 更新统计型报表数据;生成 / 更新立方体并将用于 OLAP 分析的立方体发布。

报表查看模块: 系统允许授权用户通过WEB或客户端从远端查看需要的报表信息,并且允许进行在线的数据分析和综合; 包括用户浏览权限验证、报表展示等。

系统配置

如上图所示:

◆ ODS层数据:

硬件平台: 主机 IBM M85, 存储 IBM SHARK

网络平台: 千兆核心局域网,TCP/IP

操作系统: IBM AIX4.3.3

数据库系统软件: SYBAS ASE 12.5

分配空间大小

◆ DW层数据:

硬件平台: 主机 IBM M80, 存储 IBM SHARK

网络平台: 千兆核心局域网

操作系统: IBM AIX4.3.3

数据库系统软件: SYBAS IQ 12.5

分配空间大小

◆ ETL SERVER:

硬件平台: 主机 IBM M85

网络平台: 千兆核心局域网,TCP/IP

操作系统: IBM AIX4.3.3

软件: Informatica 公司的 POWER MART 6

元数据存放: SYBAS ASE 12.5

ETL1 数据源: 接口文本文件; ETL1 目的: ODS SybaseASE 数据库

ETL2数据源: ODS Sybase ASE数据库; ETL2目的: DW Sybase IQ 数据仓库

◆ OLAP SERVER:

硬件平台: 主机 IBM M80

网络平台: 千兆核心局域网,TCP/IP

操作系统: IBM AIX4.3.3

软件: COGNOS 版本 6 组件

OLAP 数据源: DW Sybase IQ 数据仓库; OLAP 目的: COGNOS CUBE 文件

方案优势

由于采用Sybase 公司的数据仓库专用管理系统Sybase IQ12.5,系统建设和运行过程中充分利用了Sybase IQ专业 数据仓库系统软件的下列特点:

特性一: 独特的列式存储技术。数据的列式存储有利 于提高按范围查询的效率,减少系统 I/O,跟相同的大数据量比,查询速度比传统的数据库要提高 1 到 2 倍,而不需要 DBA 额外的做更多的性能调优。另一方面,有利于数据压缩。

特性二: 索引无处不在。Sybase 公司索引无处不在的技术对使用者的响应速度比其他产品要快 10 到 100 倍,这一点充分体现在它可以根据不同的需要,创建不同的索引。对于数据仓库技术,一般需要做很多的汇总数据,而Sybase IQ 是专门针对数据仓库而设计的数据库,针对这些汇总,统计有专用的索引,大大提高统计信息的效率。另外还有专门的 JOIN 索引,更是提高了两个表之间关联的速度。

特性三: 超凡的数据压缩技术。Sybase 公司数据仓库产品具有数据压缩能力。压缩比率很大,在我们的项目中,估计一个礼拜的数据大概在 20 个 G 左右,装入 IQ 后,大概在 10 多 G 多点,这大大的减少了磁盘空间。在数据仓库项目中,存在数据量成指数膨胀所带来投资增长的问题,采用压缩技术将大大削减此投资。

特性四: 安装简单快捷。安装几乎不需要特别高的技 术职能,而且速度快。

应用效果或前景

海南联通的经营分析系统一期架构在sybase数据仓库平台上,已经开始上线运行,系统的访问量不断攀升,有鉴于此,海南联通又着手开始经营分析系统的二期建设,数据仓库平台不变,继续采纳 sybase 平台。

随着经营分析的业务增多、内部不断丰富,数据量将 越来越大,除了依靠数据仓库存档(archive)技术解决这个问题之外,Sybase 良好的数据压缩技术将帮助用户在有限的空间里存储更长历史时间的数据。另外,数据量的增加将影响系统经营信息的提供性能,Sybase 良好的索引技术有助于此问题的解决。

随着经营分析的业务增多、内部不断丰富,数据量将越来越大,Sybase 良好的数据压缩技术将帮助用户在有限的空间里存储更长历史时间的数据.

相关文章: