教学文库网 - 权威文档分享云平台
您的当前位置:首页 > 范文大全 > 文秘资料 >

第2章 数据仓库的数据存储与处理

来源:网络收集 时间:2026-05-16
导读: 数据仓库应用 数据仓库与数据挖掘 第2章数据仓库的数据存储与处理 2012/11/6 数据仓库应用 2.1数据仓库的三层数据结构一、概念数据仓库就是一个面向主题的 ( Subject Oriented)、集成的(Integrate)、相对稳定的 ( Non-Volatile )、反映历史变化 ( Time Varia

数据仓库应用

数据仓库与数据挖掘

第2章数据仓库的数据存储与处理

2012/11/6

数据仓库应用

2.1数据仓库的三层数据结构一、概念数据仓库就是一个面向主题的 ( Subject Oriented)、集成的(Integrate)、相对稳定的 ( Non-Volatile )、反映历史变化 ( Time Variant)的数据集合,通常用于辅助决策支持 (DDS)

2012/11/6

数据仓库与数据挖掘

数据仓库应用

2.1数据仓库的三层数据结构描述了一个解释组存储在各个数据集织所需数据的整体市中的数据轮廓导出数据 (如:数据集市)

元数据:描述其他数据的属性或特征的技术和业务数据.

数据集市元数据

存储在企业级数据仓库和操作型数据存储中的数据企业数据模型

描述调和数据层的数据特性及抽取、转换、加载操作性调和数据数据到调和数据的 (EDW& ODS) ETL规则

EDW元数据

通常存储在遍及组织的各种不同的操作型记录系统中2012/11/6

操作型数据提供给企业数据仓 (如:业务处理系统)

操作型元数据

库的数据特性

数据仓库与数据挖掘

数据仓库应用

2012/11/6

数据仓库与数据挖掘

数据仓库应用

2.2数据仓库的数据特征一、状态数据与事件数据(前像)状态数据--〉事件数据--〉(后像)状态数据 事件是一个由事务引起的数据库活动。

2012/11/6

数据仓库与数据挖掘

数据仓库应用

2.2数据仓库的数据特征二、当前数据与周期数据

操作型业务存储大量“当前数据”。

周期数据物理上就是不再变化和删除的数据。见表2.1和2.2。

2012/11/6

数据仓库与数据挖掘

数据仓库应用

2.2数据仓库的数据特征三、数据仓库中的元数据 DW中还有一类重要的数据:元数据(metedata)。元数据是“关于数据的数据”

元数据就是关于数据的数据,它描述了数据的结构、内容、码、索引等项内容、粒度定义等。

2012/11/6

数据仓库与数据挖掘

数据仓库应用

DW中的元数据

DB中的数据字典是一种元数据。设计一个描述能力强,内容完善的元数据,是有效管理DW的重要前提,它是DW设计的一个重要组成部分。 DW的元数据内容除了与DB的数据字典中的内容相似外,还应包括DW的一些关于数据的特有信息。

数据仓库应用

2.2数据仓库的数据特征三、数据仓库中的元数据技术元数据:

商业智能系统结构的描述,

包括对数据源、数据转换、抽取过程、数据加载策略以及对目标数据库的定义等内容;

包括数据仓库使用的模式、视图、维度、层次结构、类别和

属性的定义。

技术元数据提供给系统管理人员和数据仓库开发人员使用,管理人员需要了解操作环境到商业智能环境的映射关系(即

ETL数据抽取的映射关系),数据的刷新规则,数据的安全2012/11/6

性,数据库优化和任务调度等内容。

数据仓库与数据挖掘

数据仓库应用

2.2数据仓库的数据特征三、数据仓库中的元数据业务元数据:

业务元数据从业务角度描述了商业智能系统中的数据,

使得不懂计算机技术的业务人员也能够"理解"商业智能系统中的数据。

包括以下信息:用户的业务术语和它们表达的数据模型信息、

对象名称及其属性,数据的来源信息和数据访问的规则信息,商业智能系统提供的各种分析方法以及报表展示的信息。

业务元数据使数据仓库管理人员和用户更好地理解和使用数据

仓库,用户通过查看业务元数据可以清晰地理解各指标的含义,2012/11/6

指标的计算方法等信息。数据仓库与数据挖掘

数据仓库应用

元数据举例(数据字典):借书被拒绝数据流名:图书详细信息说明:简要根据图书编号将图书 DS2图书信息图书详细信息记录记录信息表中图书的详细信息返回,以供借阅数据流名:借阅成功信息数据流来源:图书记录信息表图书借阅信息 IPO2.1.5登借阅成功信息说明:简借阅成功后读者所借阅的图书记借书数据流去向:登记借书清单等信息,给读者核实或留存数据流组成:图书编号+图书名数据流来源:登记借书称+{作者}+出版社+版次+出版日数据流去向:读者 DS3借还书记期+库存数量录数据流组成:读者编号+读者姓名+借书数据流量:高峰(5000次/天), IPO2.1.4过平时(1000次/天)证号+{图书编号+图书名称}+借出时间+过期图书信息提示读者期图书校验经办者借阅事务数据流量:高峰(3000次/天),平时 (1000次/天)读者身份错误有效读者

IPO2.1.3拒绝借书

IPO2.1.2借书数目校验

IPO2.1.6输出读者身份错误

读者身份

IPO2.1.1读者身份校验

DS1读者记录

数据仓库应用

元数据举例(数据字典):数据元素定义举例数据项名:读者姓名别名:ReaderName简述:读者的姓名类型:文字长度:10取值范围:中英文

数据仓库应用

元数据举例(数据字典):数据元素定义举例数据项名:管理员编号别名:LibrarianID简述:图书管理员的唯一标示类型:文字长度:8取值范围及含义:数字/英文字母第1-4位:入职年份第5位:进人单位的类别号0-3:校本部;4:应用文理学院;5:师范学院;6:商务学院; 7:生物化学工程学院;8:旅游学院/特教; 9:继续教育学院/实习工厂

第6-8位:职工顺序号8:旅游学院(0~500)、特教(501~999); 9:继续教育学院(0~500)、实习工厂(501~999)

数据仓库应用

元数据举例(数据字典):数据存储定义举例数据文件名:借还书记录简述:存放所有借还书的数据记录数据组成:{借书信息编号+借书证

号+图书编号+借阅日期+归还日期+应还日期+续借次数+操作员}来源/去向:读者借还书时系统自动写入存储方式:数据库表存取频率:5000次/天保存时间:已还记录保存5年,之后定期备份并移出系统;未还记录永久保存。

数据仓库应用

元数据举例(数据字典):数据存储定义举例借还书记录文件的数据结构:借还书记录文件={借书信息编号+借书证号+图书编号+借阅日期+归还日期+应还日期+续借次数+操作员}借书信息编号=借书证号+图书编号+借阅日期+借阅时间图书编号=图书ISBN借阅日期=年(2000..2030)+月(1..12)+日(1..31);借阅时间=时(“00”..“23”)+分(“00”..“59”)+秒(“00”..“59”)续借次数=0..3操作员=图书管理员编号

数据仓库应用

2.3数据仓库的数据ETL过程

ETL概念

ETL过程前后数据的特征数据的ETL过程描述

抽取(Capture/Extract)清洗(Scrub/Cleanse)

转换(Transform)加载和索引(Load/Index)数据仓库与数据挖掘 16

2012/11/6

…… 此处隐藏:1379字,全部文档内容请下载后查看。喜欢就下载吧 ……
第2章 数据仓库的数据存储与处理.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.jiaowen.net/fanwen/2079723.html(转载请注明文章来源)
Copyright © 2020-2025 教文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:78024566 邮箱:78024566@qq.com
苏ICP备19068818号-2
Top
× 游客快捷下载通道(下载后可以自由复制和排版)
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能出现无法下载或内容有问题,请联系客服协助您处理。
× 常见问题(客服时间:周一到周五 9:30-18:00)