资料仓储的OLAP操作方法ppt课件

上传人:痛*** 文档编号:139029585 上传时间:2022-08-22 格式:PPT 页数:55 大小:417.50KB
收藏 版权申诉 举报 下载
资料仓储的OLAP操作方法ppt课件_第1页
第1页 / 共55页
资料仓储的OLAP操作方法ppt课件_第2页
第2页 / 共55页
资料仓储的OLAP操作方法ppt课件_第3页
第3页 / 共55页
资源描述:

《资料仓储的OLAP操作方法ppt课件》由会员分享,可在线阅读,更多相关《资料仓储的OLAP操作方法ppt课件(55页珍藏版)》请在装配图网上搜索。

1、Chapter 2 資料探勘中的資料倉儲和OLAP技術 從买卖性資料到分析用資料操作型資料庫系統q 在業界廣為應用的資料庫軟體,常用到的功能不外乎為執行線上买卖或是查詢處理,因此也稱為線上买卖處理系統On-Line Transaction Processing,OLTPq 線上买卖處理系統,最主要在提供企業平日的一切买卖紀錄之存取,因此,其資料庫又稱為操作型資料庫Operational Database 何謂資料倉儲(1/3)q資料倉儲data warehouse乃是利用儲存大量歷史資料之資料庫,提供彙總或是統計的資訊,以援助決策之运用。q例一:在賣場超市透過收銀機的條碼掃描,客戶購買的每一種

2、商品都會記錄到資料庫之中,但是傳統資料庫的設計,並不能有效地回答經營者所關心的問題。q例如商品甲銷售量的添加,能否會同時帶動商品乙的銷售?用那一種商品來促銷,最能提振業績?何謂資料倉儲何謂資料倉儲(2/3)n例二:亞瑪遜網站每當客戶購買一本書,它就主動推薦其他相關書籍供客戶參考,所推薦的書籍是根據過去許許多多客戶購買書籍的买卖資料裡,探勘出那些書籍是具有強烈的關連性。n這種推薦是由電腦在資料倉儲內經資料探勘所发掘出來的,可以完全自動處理,不須假手人工,不過先決條件就是必須先建立好資料倉儲與資料探勘等系統。何謂資料倉儲何謂資料倉儲(3/3)目前企業大都面臨到一個問題,就是現行營運用的電腦系統並不

3、是針對資料探勘分析而設計的,因此當上級需求一些決策的資訊時,資訊部門经常無法即時提供相關的資訊,協助主管做有效的決策判斷。資料倉儲的誕生就是為了回答主管所關切的決策問題,建置過程首先從各分公司或是分店搜集資料,經過資料清理例如:去掉不需求的瑣碎資料、補足缺失的資料等、資料轉換例如:轉換成一致單位或是格式、資料整合例如:整合不同來源的資料、資料載入例如建立資料立方體:data cube和定期資料更新,最後建置一套資料倉儲系統。資料倉儲的建置過程 資料倉儲的建置過程:搜集資料 資料整理 資料整合 資料載入和定期資料更新資料來源資料來源n資料倉儲的資料來源是由日常運作的資料庫系統所搜集而來,例如:n

4、賣場或是連鎖店的每一筆买卖資料n電子商務網站所記錄的买卖資料n信誉卡銀行記錄持卡人的消費行為n人力資源網站記錄媒介結果n入口網站記錄瀏覽路徑、畫面、停留時間n電話公司記錄通話的型態與時間n網路學習網站搜集學習者的學習行為 線上分析處理與資料探勘(1/2)n 資料倉儲根本上只是一個存放大量彙總資料的後端儲存體,還必須配合前端的運用才干顯示出它的價值,而線上分析處理OLAP:On-Line Analytical Processing與資料探勘data mining則是兩個最常运用的應用。n 線上分析處理可將資料倉儲的資料加以整理、彙總。运用者有資訊上的需求時,不需撰寫程式,就能夠以不同的主題和角度

5、,經由線上分析處理的瀏覽工具快速查出各種資料。線上分析處理與資料探勘線上分析處理與資料探勘(2/2)n資料探勘與線上分析處理的不同之處,在於線上分析處理主要是原本来本的呈現出运用者查詢的結果,而結果的解讀將由运用者自行加以判斷。n資料探勘則能夠更進一步利用統計、機器學習等方法將資料再分析,探勘出新且有用的知識,在資料的運用上更勝於線上分析處理。線上分析處理與資料探勘的不同點線上分析處理與資料探勘的不同點線上分析處理資料探勘多少人曾購買筆記型電腦?多少人曾購買筆記型電腦?哪些顧客能够會購買筆記型電腦?哪些顧客能够會購買筆記型電腦?上個月有多少顧客沒有進入網站瀏覽商品?上個月有多少顧客沒有進入網站

6、瀏覽商品?哪些顧客較有能够在未來三個月內不上站瀏覽哪些顧客較有能够在未來三個月內不上站瀏覽商品?商品?顧客的平均單月消費總金額是多少?顧客的平均單月消費總金額是多少?哪些顧客下個月的消費有能够會超過一萬元?哪些顧客下個月的消費有能够會超過一萬元?哪些顧客訂單超過三天未付款?哪些顧客訂單超過三天未付款?哪些顧客較有能够延遲付款?哪些顧客較有能够延遲付款?電子報的點閱率多少?電子報的點閱率多少?電子報行銷方式對那些會員較有效?電子報行銷方式對那些會員較有效?去年的銷售業績統計報表去年的銷售業績統計報表明年預期之銷售業績額度。明年預期之銷售業績額度。從資料倉儲到資料探勘線上分析處理OLAP資料探勘廣

7、告郵件顧客回覆率廣告郵件顧客回覆率哪些顧客較容易回覆公司廣告郵件哪些顧客較容易回覆公司廣告郵件新產品的客戶銷售量新產品的客戶銷售量何種類型的客戶較有傾向購買新產品何種類型的客戶較有傾向購買新產品公司年度十大客戶公司年度十大客戶公司年度獲利最高十大客戶公司年度獲利最高十大客戶哪些客戶未續約哪些客戶未續約哪些客戶能够在三個月內不再續約哪些客戶能够在三個月內不再續約哪些客戶貸款逾期未還哪些客戶貸款逾期未還貸款逾期未還的客戶屬性貸款逾期未還的客戶屬性前一季的地區銷售報告前一季的地區銷售報告下一季各地區能够的銷售收入下一季各地區能够的銷售收入上週生產線的不良率上週生產線的不良率如何提昇產品的良率如何提昇

8、產品的良率 相關名詞定義n 資料集合資料集合(data set)(data set)、資料表、資料表(table)(table):資料集合:資料集合通常是指搜集並儲存於資料庫或資料倉儲中的資料,通常是指搜集並儲存於資料庫或資料倉儲中的資料,而為了更容易存取這些資料,資料庫或資料倉儲通而為了更容易存取這些資料,資料庫或資料倉儲通常會利用各個資料表來記錄各種層面的資料。常會利用各個資料表來記錄各種層面的資料。n 例如會員資料表用來記錄會員的根本資料例如會員資料表用來記錄會員的根本資料 。n 資料維度資料維度(dimension)(dimension):資料集合會利用有限的屬:資料集合會利用有限的屬

9、性或特徵性或特徵(attribute)(attribute)來描画所包含的資料,稱之來描画所包含的資料,稱之為資料維度。為資料維度。n 例如:會員資料表通常會記錄會員的姓名、電話、例如:會員資料表通常會記錄會員的姓名、電話、地址、生日、教育程度等等,來描画每一個會員,地址、生日、教育程度等等,來描画每一個會員,因此姓名、電話、地址、生日、教育程度即是會員因此姓名、電話、地址、生日、教育程度即是會員資料表的資料維度。資料表的資料維度。相關名詞定義相關名詞定義n 資料數值資料數值(value)(value):每一資料維度會有一相對應的:每一資料維度會有一相對應的值域值域(domain)(domai

10、n),而值域中一切能够的值即所謂的資,而值域中一切能够的值即所謂的資料數值。料數值。n 例如:教育程度此資料維度中所能够包含之資料數例如:教育程度此資料維度中所能够包含之資料數值為國中以下、國中、高中值為國中以下、國中、高中/職、職、大學大學/大專和研讨所。大專和研讨所。n 資料紀錄資料紀錄(record)(record):根據資料維度所描画之每一資料數值的集合。根據資料維度所描画之每一資料數值的集合。資料倉儲的特性資料倉儲的特性 整合的資料整合的資料:將不同來源的資料以一致的命名方式、將不同來源的資料以一致的命名方式、度量單位、統一格式等加以整合儲存,以利未來运度量單位、統一格式等加以整合儲

11、存,以利未來运用者的存取。用者的存取。例如將一切的日期資料都轉成运用單一的格式;意例如將一切的日期資料都轉成运用單一的格式;意義一样,但來源不同的資料,能够运用不同的名稱、義一样,但來源不同的資料,能够运用不同的名稱、度量,在輸入到資料倉儲之前就需先加以統一。度量,在輸入到資料倉儲之前就需先加以統一。主題導向的資料主題導向的資料:在將資料轉移至資料倉儲時,就在將資料轉移至資料倉儲時,就必須將未來分析時所不需求的資料濾除,使資料倉必須將未來分析時所不需求的資料濾除,使資料倉儲只存放與分析主題相關的資料。儲只存放與分析主題相關的資料。資料倉儲的特性資料倉儲的特性歷史性資料歷史性資料:資料倉儲主要是

12、提供過去某個時期的運資料倉儲主要是提供過去某個時期的運作狀態,例如過去三年、五年,或是最近半年的銷售作狀態,例如過去三年、五年,或是最近半年的銷售金額、獲利率等資訊,藉此分析、幫助決策,決定未金額、獲利率等資訊,藉此分析、幫助決策,決定未來企業應採取的战略。來企業應採取的战略。唯讀的資料唯讀的資料:當我們將資料轉移到資料倉儲後,應當當我們將資料轉移到資料倉儲後,應當就不需再做什麼變動,除非是輸入錯誤的資料。就不需再做什麼變動,除非是輸入錯誤的資料。由於存放的是歷史性的資料,所以不需更新,頂多只由於存放的是歷史性的資料,所以不需更新,頂多只需定期参与新資料,或是移出部分老舊的資料。需定期参与新資

13、料,或是移出部分老舊的資料。所以資料倉儲主要是在提供資料快速彙總與查詢的功所以資料倉儲主要是在提供資料快速彙總與查詢的功能,而不在於資料修正的功能。能,而不在於資料修正的功能。資料倉儲與普通資料庫的差異資料倉儲與普通資料庫的差異 資料倉儲典型的代表就是 OLAP 系統,普通資料庫最正确的代表就是 OLTPOn-Line Transaction Processing。OLTP 與 OLAP 特性比較 比較特性OLTP系統特性OLAP系統特性功能需求針對企業現行業務的自動化而設計針對企業資料分析需求而設計資料類別資料比較偏重細節資料偏重彙總或是統計資訊異動頻率資料隨時可被新增、刪除以及變更歷史性的

14、資料,異動機會少設計方式資料庫設計採用正規化設計為了執行效率不採用正規設計儲存方式运用關聯式資料庫架構存資料运用多維度資料庫結構完好性資料未整理過,能够缺失或是不一致資料經過整理較一致、完好資料倉儲的種類資料倉儲的種類(1/2)(1/2)資料倉儲:這是普通典型的資料倉儲解決方案,資料倉儲:這是普通典型的資料倉儲解決方案,首先分析未來決策援助的需求,一切的資料按照首先分析未來決策援助的需求,一切的資料按照需求而加以整理、轉換至資料倉儲之中。建置方需求而加以整理、轉換至資料倉儲之中。建置方式是以整個公司的需求來建構的,以便讓決策者式是以整個公司的需求來建構的,以便讓決策者能從資料倉儲中获得一切決策

15、資訊,像是公司整能從資料倉儲中获得一切決策資訊,像是公司整體的業績、各分店的績效等等。體的業績、各分店的績效等等。資料超市資料超市data martdata mart:通常是指規模較小、只:通常是指規模較小、只針對某些特定主題或是部門而設計的資料倉儲。針對某些特定主題或是部門而設計的資料倉儲。資料倉儲的種類資料倉儲的種類(2/2)(2/2)多層次資料倉儲:指的是前面兩者組合的一種應多層次資料倉儲:指的是前面兩者組合的一種應用方式,最上層的資料倉儲將資料提供給下層的資用方式,最上層的資料倉儲將資料提供給下層的資料超市,資料倉儲的組織有層次架構。料超市,資料倉儲的組織有層次架構。聯合式資料倉儲:指

16、的是整個資料倉儲系統是由聯合式資料倉儲:指的是整個資料倉儲系統是由多個獨立的資料倉儲、資料超市或是多層次資料倉多個獨立的資料倉儲、資料超市或是多層次資料倉儲組合完成,但是能夠提供單一的介面供运用者运儲組合完成,但是能夠提供單一的介面供运用者运用,运用者不需知道資料终究來自那一個資料倉儲。用,运用者不需知道資料终究來自那一個資料倉儲。Virtual Data WarehouseVirtual Data Warehouse 資料倉儲的儲存架構普通常用的儲存架構在邏輯設計上稱為多維度資料庫結構multidimensional database structure,但是實際的儲存實體結構可以是關聯式資

17、料庫,或是【多維度資料立方體】multidimensional data cube,或是兩者混合的結構。存放在多維度資料庫結構的資料稱為【資料立方體】data cube,它是由【維度】dimensions與【事實】facts組合而成。資料立方體提供了資料的多維度觀察,並允許事先計算好彙總值以便將來快速存取彙總的資料。資料立方體的呈現方式 年度年度(z軸軸)2004筆記型2003IBM伺服器型Acer款式款式(y軸軸)廠牌廠牌(x(x軸軸)桌上型年度和廠牌年度和廠牌 年度和款式年度和款式廠牌和款式廠牌和款式加總加總cell 範例一範例一n假設有一購物網站已經建置一個資料倉儲系統,主要作為銷售金額

18、的分析n資料時間範圍從 2001 2003 總共三年。n將全省客戶按照地理區域分為北、中、南三區,北部包含台北、桃園與新竹;中部包含台中、彰化與南投;南部包含嘉義、台南與高雄。n販售商品分成食品、五金、服飾三大類,食品類又分成肉類、餅乾、罐頭三小類;五金再分成汽車、建材、衛浴三小類;服飾類又分成女裝、男裝、童裝三小類。多維度立方體表示圖 多維度立方體表示圖說明資料立方體總共有三個維度,垂直的維度代表時間、橫軸的維度代表商品類別,最後一個客戶區域維度代表客戶所在的區域與縣市。維度上的單位或是階層將立方體劃分成許多小【單元】cell,例如以年、季、月來刻畫時間維度,而三者又有階層關係,每個小單元則

19、存放某個彙總的【量值】measure,在本例中所存放的量值就是銷售金額。例如左上角的單元,代表 2003年第四季,食品賣給北部客戶總共金額是 300,000元,它被存放在 2003 Q4,食品,北部的座標單元之內。資料倉儲的資料倉儲的OLAP操作方法操作方法 n 刻畫維度的單位可以設計成有階層關係存在,稱之為【概念階層】concept hierarchy。例如在時間維度,階層關係是年、季、月、日;商品維度的階層關係是商品類別、商品次類別、商品。n 每一較高的階層會包含數個層次較低的階層,可以利用類似拉近、拉遠zoom in/out的方式快速瀏覽各階層的彙總資料。而較高層次的彙總資料則可以由較低

20、的階層之彙總資料快速組合而成,這也是資料倉儲可以快速回答查詢的缘由之一。資料倉儲的操作方法資料倉儲的操作方法(下鑽下鑽)n 下鑽下鑽(drill-down)(drill-down)方法讓运用者可以更深化一層瀏方法讓运用者可以更深化一層瀏覽彙總資料。覽彙總資料。n 例一:想要進一步瞭解例一:想要進一步瞭解 2003 Q4 2003 Q4 內每個月的銷售情內每個月的銷售情況,則可以在時間維度利用下鑽操作,看到況,則可以在時間維度利用下鑽操作,看到 2003 2003年年 10 12 10 12 月的銷售金額。月的銷售金額。資料倉儲的操作方法資料倉儲的操作方法(下鑽下鑽)例二:在商品維度运用下鑽操作

21、,去細看食品類別裡的肉類、餅乾與罐頭三個小類分別的銷售金額。資料倉儲的操作方法資料倉儲的操作方法(上捲上捲)n 上捲上捲(roll-up)(roll-up)方法讓运用者提高觀看的層次,去瞭方法讓运用者提高觀看的層次,去瞭解更概觀的情況。解更概觀的情況。n 例一:想知道每年的銷售金額不需求細分到季,例一:想知道每年的銷售金額不需求細分到季,透過時間維度的上捲操作,將看到更高層級的彙總透過時間維度的上捲操作,將看到更高層級的彙總資料。資料。食品食品五金五金服飾服飾資料倉儲的操作方法資料倉儲的操作方法(上捲上捲)例二:只希望看到每年北、中、南三地區客戶購買的總銷售金額不需求細分商品類別,同樣利用商品

22、維度的上捲操作,將看到更高一層的統計資料。資料倉儲的操作方法資料倉儲的操作方法(切片切片)n 切片切片(slice)(slice)方法是在單一維度上進行條件設定與資料選擇,進方法是在單一維度上進行條件設定與資料選擇,進而產生出一個子立方體,讓运用者能夠切割某一層面的資料。而產生出一個子立方體,讓运用者能夠切割某一層面的資料。n 例一:主管只想看北部客戶的購買情況,就可以利用切片操作,例一:主管只想看北部客戶的購買情況,就可以利用切片操作,將只包含北部的資料切割出來將只包含北部的資料切割出來 。資料倉儲的操作方法資料倉儲的操作方法(切片切片)例二:只想看最近一年 2003 的資料,同樣利用切片操

23、作,切割出 2003 年的資料。資料倉儲的操作方法資料倉儲的操作方法(切塊切塊)切塊切塊dicedice方法是對多個維度進行條件設定的資方法是對多個維度進行條件設定的資料選擇,進而產生一個子立方體料選擇,進而產生一個子立方體 。例如主管只想看北部客戶在例如主管只想看北部客戶在2003 2003 年的購買情況,則年的購買情況,則可以利用客戶區域維度與時間維度切塊方式切出子可以利用客戶區域維度與時間維度切塊方式切出子立方體。立方體。資料倉儲的操作方法資料倉儲的操作方法(轉軸轉軸)n 轉軸轉軸pivotpivot又稱旋轉:又稱旋轉:rotaterotate方法讓运用者方法讓运用者可以轉動可以轉動 2

24、D 2D 切片或是切片或是 3D 3D 的立方體,從不同的視的立方體,從不同的視角來觀看資料角來觀看資料 。n 例如將前頁圖之子立方體做一例如將前頁圖之子立方體做一 90 90度的旋轉。度的旋轉。食品食品五金五金服飾服飾 Q1 2003 Q2 2003 Q3 2003 Q4北部客戶北部客戶140,000 260,000 280,000 300,000 140,000 160,000 180,000 200,00040,000 60,000 80,000 100,000140,000 260,000 280,000 300,000資料倉儲的查詢處理資料倉儲的查詢處理(1/5)資料倉儲根本上是建立

25、在一個多維度資料庫結構上資料倉儲根本上是建立在一個多維度資料庫結構上的一個儲存體,而多維度資料分析的中心是如何有的一個儲存體,而多維度資料分析的中心是如何有效率的計算出多個維度集合上的統計值例如效率的計算出多個維度集合上的統計值例如 2003年每一季,每個區域服飾的銷售金額,以援年每一季,每個區域服飾的銷售金額,以援助快速查詢之用。助快速查詢之用。假设是运用普通關聯式資料庫,就是利用假设是运用普通關聯式資料庫,就是利用 group by 語法來求得這些統計值語法來求得這些統計值group by 季、分店、季、分店、服飾,只是服飾,只是SQL 的的 group by 指令是在執行時,指令是在執行

26、時,才即時去計算結果,當資料量大時,則能够需求等才即時去計算結果,當資料量大時,則能够需求等待上一段時間。待上一段時間。資料倉儲的查詢處理資料倉儲的查詢處理(2/5)範例一的多維度結構包含時間、商品、客戶區域三個維度與一個銷售金額量值,运用者能够运用下面任何一種的查詢方式來分析資料:(1)按照時間、商品、區域 分組來計算銷售總金額构成時間、商品、區域三維度的立方體 (2)按照時間、商品分組來計算銷售總金額构成時間、商品二維度的立方體 (3)按照商品、區域分組來計算銷售總金額构成商品、區域二維度的立方體 (4)按照時間、區域分組來計算銷售總金額构成時間、區域二維度的立方體 資料倉儲的查詢處理資料

27、倉儲的查詢處理(3/5)(5)按照時間分組來計算銷售總金額构成時間一維度的立方體 (6)按照商品分組來計算銷售總金額构成商品一維度的立方體 (7)按照區域分組來計算銷售總金額构成區域一維度的立方體 (8)一切銷售總金額构成0維度的立方體 資料倉儲的查詢處理資料倉儲的查詢處理(4/5)上面 8 種查詢分組是將三個維度一切能够的查詢組合都陈列出來,這些分組查詢构成該資料立方體的【晶格】lattice。資料倉儲的查詢處理資料倉儲的查詢處理(5/5)為了快速回答查詢,可以將一切能够組合查詢的彙總資料都事先計算並加以儲存,計算的過程可以由下而上聚集而成。假设是記憶空間足夠,可以事先將以上所列的3D0D

28、資料立方體的彙總資料,全部事先算出並加以儲存,假设是空間不夠,則可以只計算部分彙總資料,遇到查詢時,再及時由下層資料立方體以聚集方式快速算出。普通關聯式資料庫遇到每一次查詢,都必須一筆一筆渐渐累積計算,在效能上自然無法跟已經事先計算出彙總值的多維度資料庫結構相比。資料倉儲建置程序資料倉儲建置程序 需求分析:訪談主管,得到系統需求。資料來源:內部資料或是外購資料 資料整理:正確資料,才干提供有用資訊 資料倉儲架構設計 事實資料表設計 維度資料表設計資料倉儲的架構設計資料倉儲的架構設計(1/4)(1/4)一個資料倉儲主要是由事實資料表與維度資料表所構成,兩者之間透過索引鍵建立關聯。事實資料指的是經

29、過整理的原始买卖資料,在事實資料表中,儲存的是各種事實與量值的詳細數值。資料倉儲的架構設計資料倉儲的架構設計(2/4)(2/4)例如一個事實資料表能够存放如此一筆紀錄:各月份、各商品與各客戶購買的金額與數量,前三個欄位月份、商品與客戶是事實資料也是索引鍵欄位,將利用他們分別關聯到其他三個維度資料表時間維度、商品維度與客戶區域維度資料表。剩下銷售數量與金額兩個欄位則是量值欄位,主要是用來做統計數量的運算,例如計算2003 年銷售金額為多少?為了將來資料分析,事實資料表必須包含最低層級的資料列例如提供統計銷售金額資訊最小細到以週為單位、則事實資料表最低層級也必須是週,而不能是月。資料倉儲的架構設計

30、資料倉儲的架構設計(3/4)(3/4)維度資料表指的是為建立某種維度時間維度、商維度資料表指的是為建立某種維度時間維度、商品維度、客戶維度等等所需求的資料表,將來可品維度、客戶維度等等所需求的資料表,將來可以透過維度資料表,瀏覽或是擷取某一維度、某一以透過維度資料表,瀏覽或是擷取某一維度、某一層級的彙總資料。層級的彙總資料。例如:例如:(1)(1)瀏覽瀏覽 2003 2003 年的銷售金額;年的銷售金額;(2)(2)瀏覽瀏覽 2003 2003 年、服飾的銷售金額;年、服飾的銷售金額;(3)(3)瀏覽瀏覽 2003 2003 年、服年、服飾、在中部的銷售金額。飾、在中部的銷售金額。維度資料表內

31、的欄位经常會設計有階層關係存在,維度資料表內的欄位经常會設計有階層關係存在,例如為方便分析某時期的銷售金額,在時間維度上例如為方便分析某時期的銷售金額,在時間維度上就會以年、季、月、日來分成四個層級。就會以年、季、月、日來分成四個層級。資料倉儲的架構設計資料倉儲的架構設計(4/4)(4/4)事實資料表只會包含最低層級的詳細資料,而不會包含彙總過的資料,維度資料表恰好相反,可以依據事實資料表的銷售資料例如买卖日期配合維度資料表的階層關係,事先計算各層級的彙總資料。維度資料表必須有一個主鍵primary key,用以辨識維度中的每一個成員。每個維度資料表的主鍵必須與事實資料表中的某個外部鍵fore

32、ign key產生關聯,透過這些關聯關係,才有辦法計算彙總資料,為節省儲存空間,這些鍵值常以數字代號方式出現。包含三個維度的資料立方體包含三個維度的資料立方體 星狀式資料倉儲架構星狀式資料倉儲架構假设一個維度都儲存在單一資料表例如時間維度,這種方式稱為【星狀式維度】star dimension設計。星狀雪花式資料倉儲架構 當維度資料分別存在多個資料表中時,這種方式稱為【雪花式維度】(snowflake dimension)設計例如商品資料表和商品類別資料表構成一個商品維度。而包含星狀式與雪花式兩種架構者,則稱為【星狀雪花式架構】。資料倉儲常用的實體儲存架構資料倉儲常用的實體儲存架構 第一種是【

33、ROLAP】(Relational OLAP),利用傳統的關聯式資料庫來存放彙總資料,好處是利用現有的儲存架構較容易完成,但是效率能够較差。第二種是【MOLAP】(Multidimensional OLAP),這是真正的多維度資料庫結構,可以存放彙總資料,好處是查詢效率較高,缺點是必須重新開發。第三種是【HOLAP】hybrid OLAP 為前兩者的混和體,在前兩者的優缺點之間获得平衡。資料倉儲建置實例資料倉儲建置實例 假設我們有一個類似網路線上購物網站,這個網站大約有100萬個會員,5000種商品,每個月的平均买卖量有8千筆。需求分析需求分析 假設依據訪談結果,得到下面的需求結果:(1)希望

34、能對每一位客戶做銷售分析。(2)希望能針對每一項產品做銷售業績分析。(3)希望能對每一分類產品做銷售業績分析。(4)希望能對付款方式做銷售分析。(5)希望能對年度、季、月做銷售分析。OLT 資料庫所記錄的資料根本上比較詳細與瑣碎,因此不需求將一切OLT 的 資料都納入資料倉儲之中。在會員資料表中排除會員密碼、行動電話、住址三個欄位,在商品資料表排除圖片與說明兩個欄位。經過濾後的資料綱目經過濾後的資料綱目 事實資料表事實資料表 除了包含买卖資料表的欄位之外,還包括單價與總價。事先將單價納入,可以防止每次必須到商品資料表查詢售價,加快往後彙總的計算,總價可以由數量與單價計算出來,這是所謂的衍生欄位

35、。事實資料表內包含關聯到三個維度資料表的索引欄位:會員帳號、商品編號、买卖時間。維度資料表維度資料表 客戶維度資料表綱目與過濾後的會員資料表綱目一样。商品維度資料表綱目包含商品編號、商品名稱與類別編號三個欄位。商品分類維度資料表綱目與過濾後的商品類別資料表綱目一样。买卖紀錄表中的买卖時間是時間維度資料。假設時間階層選擇年、季、月、日,在OLT資料庫內並沒有一個時間資料表,但是可以由买卖時間欄位計算出所屬的年、季、月、日的資訊,所以時間維度資料表綱目包含买卖時間、年、季、月、日等欄位。星狀雪花式綱目星狀雪花式綱目 總結總結(1/2)資料倉儲是將歷史性的大量資料依據需求,加以整理,去蕪存菁,建立一

36、個多維度的資料儲存架構。資料倉儲提供快速資料瀏覽或是分析,以援助相關決策之用。與資料倉儲關係亲密的兩個應用:線上分析處理系統與資料探勘。本章介紹資料倉儲的根本概念,包括為何需求資料倉儲、資料倉儲的儲存架構、資料瀏覽的操作方法與資料倉儲的種類與建置過程。總結總結(2/2)概念階層是定義一相關主題的概念,並從低層次概念對映到高層次概念的關係。資料倉儲的處理過程及架構,可分為五個主要流程:異質資料庫來源、資料轉換、資料倉儲、OLAP分析以及运用者應用系統。資料倉儲的種類,包括標準資料倉儲、資料超市、多層式資料倉儲、聯合式資料倉儲以及虛擬資料倉儲。OLAP的根本多維度分析操作,有上捲、下鑽、切片、切塊以及旋轉等方式。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!