第2章 数据仓库的数据存储与处理
数据仓库应用
数据仓库与数据挖掘
第2章数据仓库的数据存储与处理
2012/11/6
数据仓库应用
2.1数据仓库的三层数据结构一、概念数据仓库就是一个面向主题的 ( Subject Oriented)、集成的(Integrate)、相对稳定的 ( Non-Volatile )、反映历史变化 ( Time Variant)的数据集合,通常用于辅助决策支持 (DDS)
2012/11/6
数据仓库与数据挖掘
数据仓库应用
2.1数据仓库的三层数据结构描述了一个解释组存储在各个数据集织所需数据的整体市中的数据轮廓导出数据 (如:数据集市)
元数据:描述其他数据的属性或特征的技术和业务数据.
数据集市元数据
存储在企业级数据仓库和操作型数据存储中的数据企业数据模型
描述调和数据层的数据特性及抽取、转换、加载操作性调和数据数据到调和数据的 (EDW& ODS) ETL规则
EDW元数据
通常存储在遍及组织的各种不同的操作型记录系统中2012/11/6
操作型数据提供给企业数据仓 (如:业务处理系统)
操作型元数据
库的数据特性
数据仓库与数据挖掘
数据仓库应用
2012/11/6
数据仓库与数据挖掘
数据仓库应用
2.2数据仓库的数据特征一、状态数据与事件数据(前像)状态数据--〉事件数据--〉(后像)状态数据 事件是一个由事务引起的数据库活动。
2012/11/6
数据仓库与数据挖掘
数据仓库应用
2.2数据仓库的数据特征二、当前数据与周期数据
操作型业务存储大量“当前数据”。
周期数据物理上就是不再变化和删除的数据。见表2.1和2.2。
2012/11/6
数据仓库与数据挖掘
数据仓库应用
2.2数据仓库的数据特征三、数据仓库中的元数据 DW中还有一类重要的数据:元数据(metedata)。元数据是“关于数据的数据”
元数据就是关于数据的数据,它描述了数据的结构、内容、码、索引等项内容、粒度定义等。
2012/11/6
数据仓库与数据挖掘
数据仓库应用
DW中的元数据
DB中的数据字典是一种元数据。设计一个描述能力强,内容完善的元数据,是有效管理DW的重要前提,它是DW设计的一个重要组成部分。 DW的元数据内容除了与DB的数据字典中的内容相似外,还应包括DW的一些关于数据的特有信息。
数据仓库应用
2.2数据仓库的数据特征三、数据仓库中的元数据技术元数据:
商业智能系统结构的描述,
包括对数据源、数据转换、抽取过程、数据加载策略以及对目标数据库的定义等内容;
包括数据仓库使用的模式、视图、维度、层次结构、类别和
属性的定义。
技术元数据提供给系统管理人员和数据仓库开发人员使用,管理人员需要了解操作环境到商业智能环境的映射关系(即
ETL数据抽取的映射关系),数据的刷新规则,数据的安全2012/11/6
性,数据库优化和任务调度等内容。
数据仓库与数据挖掘
数据仓库应用
2.2数据仓库的数据特征三、数据仓库中的元数据业务元数据:
业务元数据从业务角度描述了商业智能系统中的数据,
使得不懂计算机技术的业务人员也能够"理解"商业智能系统中的数据。
包括以下信息:用户的业务术语和它们表达的数据模型信息、
对象名称及其属性,数据的来源信息和数据访问的规则信息,商业智能系统提供的各种分析方法以及报表展示的信息。
业务元数据使数据仓库管理人员和用户更好地理解和使用数据
仓库,用户通过查看业务元数据可以清晰地理解各指标的含义,2012/11/6
指标的计算方法等信息。数据仓库与数据挖掘
数据仓库应用
元数据举例(数据字典):借书被拒绝数据流名:图书详细信息说明:简要根据图书编号将图书 DS2图书信息图书详细信息记录记录信息表中图书的详细信息返回,以供借阅数据流名:借阅成功信息数据流来源:图书记录信息表图书借阅信息 IPO2.1.5登借阅成功信息说明:简借阅成功后读者所借阅的图书记借书数据流去向:登记借书清单等信息,给读者核实或留存数据流组成:图书编号+图书名数据流来源:登记借书称+{作者}+出版社+版次+出版日数据流去向:读者 DS3借还书记期+库存数量录数据流组成:读者编号+读者姓名+借书数据流量:高峰(5000次/天), IPO2.1.4过平时(1000次/天)证号+{图书编号+图书名称}+借出时间+过期图书信息提示读者期图书校验经办者借阅事务数据流量:高峰(3000次/天),平时 (1000次/天)读者身份错误有效读者
IPO2.1.3拒绝借书
IPO2.1.2借书数目校验
IPO2.1.6输出读者身份错误
读者身份
IPO2.1.1读者身份校验
DS1读者记录
数据仓库应用
元数据举例(数据字典):数据元素定义举例数据项名:读者姓名别名:ReaderName简述:读者的姓名类型:文字长度:10取值范围:中英文
数据仓库应用
元数据举例(数据字典):数据元素定义举例数据项名:管理员编号别名:LibrarianID简述:图书管理员的唯一标示类型:文字长度:8取值范围及含义:数字/英文字母第1-4位:入职年份第5位:进人单位的类别号0-3:校本部;4:应用文理学院;5:师范学院;6:商务学院; 7:生物化学工程学院;8:旅游学院/特教; 9:继续教育学院/实习工厂
第6-8位:职工顺序号8:旅游学院(0~500)、特教(501~999); 9:继续教育学院(0~500)、实习工厂(501~999)
数据仓库应用
元数据举例(数据字典):数据存储定义举例数据文件名:借还书记录简述:存放所有借还书的数据记录数据组成:{借书信息编号+借书证
号+图书编号+借阅日期+归还日期+应还日期+续借次数+操作员}来源/去向:读者借还书时系统自动写入存储方式:数据库表存取频率:5000次/天保存时间:已还记录保存5年,之后定期备份并移出系统;未还记录永久保存。
数据仓库应用
元数据举例(数据字典):数据存储定义举例借还书记录文件的数据结构:借还书记录文件={借书信息编号+借书证号+图书编号+借阅日期+归还日期+应还日期+续借次数+操作员}借书信息编号=借书证号+图书编号+借阅日期+借阅时间图书编号=图书ISBN借阅日期=年(2000..2030)+月(1..12)+日(1..31);借阅时间=时(“00”..“23”)+分(“00”..“59”)+秒(“00”..“59”)续借次数=0..3操作员=图书管理员编号
数据仓库应用
2.3数据仓库的数据ETL过程
ETL概念
ETL过程前后数据的特征数据的ETL过程描述
抽取(Capture/Extract)清洗(Scrub/Cleanse)
转换(Transform)加载和索引(Load/Index)数据仓库与数据挖掘 16
2012/11/6
…… 此处隐藏:1379字,全部文档内容请下载后查看。喜欢就下载吧 ……相关推荐:
- [文秘资料]班长职务辞职报告
- [文秘资料]完美的辞职报告
- [文秘资料]经典的员工辞职报告
- [文秘资料]医院口腔医生辞职报告
- [文秘资料]总经理辞职报告范文四篇
- [文秘资料]超市职员个人辞职报告
- [文秘资料]村妇联主任的辞职报告
- [文秘资料]辞职报告书格式
- [文秘资料]酒店辞职报告简单范文
- [文秘资料]联通的辞职报告
- [文秘资料]2017最新私企员工辞职报告范文
- [文秘资料]2019年度医院基层党组织书记抓党建述职
- [文秘资料]工作时间长辞职报告
- [文秘资料]辞职报告怎么写出来
- [文秘资料]个人能力原因辞职报告
- [文秘资料]网络工程师辞职报告
- [文秘资料]项目部辞职报告
- [文秘资料]缝纫工辞职报告怎么写
- [文秘资料]XXX州委书记述职报告
- [文秘资料]抓基层党建工作述职报告
- (王虎应老师讲课记录)六爻理象思维
- 八个常见投影机故障排除法
- 质量专业综合知识(中级)第一章质量管理
- 煤矿班组建设实施意见
- 我国快餐业与肯德基经营模式的比较与分
- 汽车保险杠模具标准化模架技术工艺研究
- 汽车二级维护作业团体赛比赛规程
- 装卸搬运工安全操作规程
- 高效的工作方法-刘铁
- 依据《生产安全事故报告和调查处理条例
- 2015专业PS夜景亮化效果图制作教程
- 企业劳动定额定员浅析
- 中枢神经系统医学影像学本科五年制第五
- 长城汽车参观探营第三站:研发试验中心
- 小升初语文专项训练
- 建筑工程质量检测资质分类与等级标准
- 周燕珉-我国养老社区的发展现状与规划
- 《生命里最后的读书会》读后感
- 实验室管理评审报告
- CCNA思科网院教程精华之网络基础知识




