Quá trình làm tương thích dữ liệu từ các tập đữ liệu khác nhau trong tầng thời gian thực đòi hỏi phải nắm bắt quan hệ giữa nhữna tập dữ liệu này và vai trò của chúng trong nghiệp vụ.. Do
Trang 2Hình số 6 : Kiến trúc dữ liệu cho siêu dữ liệu
Hình số 7: Kiến trúc dữ iiệu ờ mức cao
Hình số 8: Kiến trúc siêu dữ liệu
Hình số 9: Quan niệm kho dữ liệu ờ mức doanh nghiệpHình số 10: Luồng đữ liệu trong kho dữ liệu
Hình số 11: Tiếp cận theo mô hình thác nước
Hình sô' 12: Tiếp cận theo mô hình xoắn trôn ốc
Hình sổ 13: Mổi trường vừa tập trung vừa phân tán
Hình số 14: Mô hình đữ liệu nhập xuất tồn
Hình số 15: Thuộc tính của bảng CUBNXT
Hình số ỉ 6: Kết quả của tiến trình sinh mã-GenerationHình sổ 17: Kết quả của tiến trình thực hiện — DeployHình số 18: Trang nhập hàng hoá (Sheet Nhap)
Hình số 19: Biểu đồ của trang nhập hàng hoá (Sheet Nhap) Hình số 20: Trang xuất hàng hoá (Sheet Xuat )
Hình số 21: Biểu đổ của trang xuất hàng hoá (Sheet Xuat) Hình số 22: Trang tồn hàng hoá (Sheet TON)
Hình số 23: Biểu đồ của trang tồn hằng hoá (Sheet TON)
M Ụ C L Ụ C
Trang 3MỞ ĐẨU 5
PHẦN 1 C ơ SỞ XÂY DỤNG KHO DỮ L IỆ U 6
CHƯƠNG 1 G IỚ I TH IỆU CHUNG VỂ KHO DỮ LIỆU 6
1 Định nghĩa Kho đữ liệu — Data W arehouse 6
2 Đặc điểm dữ liệu trong kho dữ liệu 6
3 Nguvên lý cơ bẳn (Basic Elements) 8
4 Kho dữ liệu cục bộ - Đatamart 9
5 Hệ hỗ trợ quyết định (Decisions Support Systems-DSS) 10
6 Phân biệt Kho dữ liệu với những hệ cơ sờ dữ liệu tác nghiệp 11
7 Các yêu cầu chức năng kho đữ liệu (Desirable Warehouse Functionality) 12 Kết luận 13
CHƯƠNG 2 KIẾN TRÚC K H O DỮ L IỆ U 15
I M Ộ T SỐ KHÁI NIỆM C ơ B Ả N 15
1 Dữ iiệu nghiệp vụ 15
1.1 Dữ liệu thời gian thực (real-time đata) 15
1.2 Dữ liệu dãn xuất (derived data) 15
1.3 Dữ liệu tương thích (reconciled data) 15
2 Siêu dữ liệu (M etadata) 15
2.1 Siẻu dữ liệu trong giai đoạn xây đựng 16
2.2 Sìôu dữ liệu kiểm soát .', 7 16
2.3 Siêu dữ liệu vận dụ n g: 16
II KIẾN TRỦC D ữ LIỆU MỨC KHÁI NIỆM 17
1 Kiến trúc dữ liệu nghiệp vụ 17
2 Kiến trúc siêu đữ liệu 21
3 Quan hộ và nguén của siêu đữ liệ u 22
3.1 Siêu dữ liệu trong giai đoạn xây dựng 22
3.2 Siêu dữ ỉiệu kiểm soát . 23
3.3 Siêu dữ liệu vận d ụ n g 25
4 Kiến trức Logic Kho dữ liệ u 25
4.1 Dữ liệu nghiệp vụ trong kho dữ ỉiệu 26
4,2- Kiến trúc Siêu dữ liệu trong kho đữ liệu 31
4.3 Chỉ mục kho dữ liệu (catalog) 34
III PHƯƠNG PHÁP XAY DỤNG KHO DỮ L IỆ U 34
1 Kế hoạch cơ bản (The Basic pìan) 34
2 Quan niệm ờ mức doanh nghiệp (The Enterprise View) 35
3 Luồng dữ liệu qua kho dữ liệu (Flow of Data Through the W arehouse) 3Ố 4 So sánh mô hình phát triển (Development Models Com pared) 37
4 1 Mô hình thác nước (W aterfall) 37
4.2 Mô hình xoắn trôn ốc (spiral) 38
4.3 Các pha trong phương pháp tiếp cận theo mô hình xoắn ốc 39
5 Các giai đoạn thiết kế kho dữ liệu (ĐW Database Design Phases) 40
Trang 45.1 Xác định mó hình nghiệp vụ (Defining the business model) 40
5.2 Xác định mò binh logic (Defininc the logical m odel) 40
5.3 Xác định mỏ hình Dimensnional (Defining the dimensional model) 40
5-4 Xác định mỏ hình vật lý (Defining the physical m odel) 40
K Ế T L U Ậ N 41
CHƯƠNG 3 T H IẾ T K Ế KHO DỮ L IỆ U 43
I XÁC ĐỊNH MÒ HÌNH NGHIỆP v ụ VÀ MÔ HÌNH LOGIC (DEFINING T H E BUSINESS AND LO G IC A L M O D E L S) 43
1 Xác định mô hình nghiệp v ụ 43
l.í Phản tích chiến lược (Strategic Analysis) 44
1.2 Tạo mô hình nghiệp vụ (Business models creation) 47
1.3 Tạo siêu dữ liệu 52
2 Xác định mô hình logic (Defining the Logical Models) 52
II TẠO MÔ HÌNH DIMENSIONAL (CREATING THE DIM ENSIONAL M O D E L ) 53
1 Giản đồ hình s a o 53
2 Các thành phần của giản đổ hình sao 53
3 Đặc điểm của giản đồ hình sa o 54
4 Vấn để đánh chỉ sỏ' (Index) 55
III TẠO MÔ HÌNH VẬT LÝ (CREATING TH E PHYSICAL MODEL) ’ 5 6 1 Kế hoạch thực hiện 57
2 Mỏi trường thực hiện (vừa tập trung vừa phản tán) 57
3 Lựa chọn hạ tầng 59
K Ế T LU Ậ N 1 60
PHẨN II: XÂY DỤNG KHO DỮ LIỆU THỬ N G H IỆ M 62
CHƯƠNG 4 G IỚ I TH IỆU CÔNG c ụ XẢY DỤNG KHO D ữ LIỆU (O RA C LE W AREHOUSE B U I L D E R ) 62
I KIẾN TRÚC VÀ KHẢ NĂNG CỦA SẢN PHẨM (PRODUCT A R C H ITEC TU R E AND CA PA BILITIES) 62
1 Thành phần thiết kế (The Design Component) 62
2 Thành phđn thực thi (The Runtime Component) 63
3 Các thành phần của Warehouse Builder 64
3.1 ứng dụng máy khách (Warehouse Builder Client Application) 64
3.2 Dịch vụ nền thực hiện Warehouse Builder (Runtime Platform Service) * 1 ! 65
3.3 Thành phần thiết kế Repository (WB Design Repository) 65
3.4 Repository WB thực thi (Warehouse Builder Runtime Repository) 65
3.5 Báo cáo kiểm toán (Audit Reporting Browser) 65
3.6 Báo cáo siêu dữ liệu (Metadata Reporting Browser) 66
4 Đối urựng trong WB (Warehouse Builder Objects) 66
5 WB thực hiện hệ thống dích (Warehouse Builder Deployment Targets) 66
Trang 5II SO L ư ợ c QUÁ TRĨN H TẠO HỆ THỐNG N G H IỆP v ụ THÔNG MINH (O V ERV IEW O F CREATIN G A BUSINESS IN TELLIG EN CE
SY ST E M ) 66
1 Bước 1: Tạo Project {Creating a Project) 67
2 Bước 2: Khai báo các module nguồn và đích (Defining Source and Target M odules) 67
Khai báo nguồn (Defining Sources) , 67
3 Bước 3: Khai báo quá trình chuyển đổi và vận chuyển dữ liệu 68
4 Bước 4: Kiểm tra hợp lệ và sinh mã (Validating and Generating) 69
5 BướeS: Tạo và thực hiện (Deploying and Executing) 69
KẾT L U Ậ N .I Z 71
Kiến trúc và khả năng của sản phẩm 71
CHƯƠNG 5: XÂY DựSỈG KHO D ữ LIỆU TẠ I P E T R O L IM E X 72
1 Bài toán xây dựng kho dữ liệu tại Petrolimex 72
2 Lựa chọn phạm vi xây dựng kho dữ liệu thử nghiệm 73
3 Thiết kế và thực hiện kho đữ liệu thử nghiệm kho dữ liệu 75
4 Khai thác kho dữ liệu ! 82
4.! Trang nhập hàng hoá (Sheet-NHAP) 83
4.2 Trang xuất hằng hoá (Sheet-XƯAT) 85
4.3 Trang tổn hàng hoá (Sheet-TON) 87
KẾT L U Ậ N 1 89
TÀ I LIỆU THAM K H Ả O 92
Trang 6M Ờ ĐẨUTrong những năm qua cùng với sự phát triển CNTT, các hệ thống thòng tin đă được phát triển mạnh cả vể số lượng, chất lương Đặc biệt trong một doanh nghiệp cùng tổn tại nhiều hệ thống thôna tin đa dạng và phong phú Các nhà lãnh đạo thì ỉuõn thiếu thông tin phục vụ điều hành, chưa kể đến có những thông tin sai lệch thậm chí mâu thuẫn về cùng một sự việc trong khi đang sờ hữu một khối lượng dữ liệu khổng lồ
Đến thời điểm hiện nay, phương pháp xây dựng kho đữ liệu (Data Warehousing) đã phát triển cả về lý thuyết cũng như thực tế Lý thuyết xây dựng kho dữ liệu đã được hình thành khá rõ nét, bên cạnh đó các nhà cung cấp phần mềm cũng đã đưa ra các công cụ để xây dựng, duy trì và phát triển kho dữ liệu, Một kho
đữ liệu sẽ giúp doanh nghiệp có khả năng quản iý dữ liệu, khai thác thống tin phục
vụ việc điều hành kính đoanh phù hợp hơn
Cũng như các doanh nghiệp khác, Petrolimex đang có một mạng lưới các ứng dụng nghiệp vụ cục bộ tại từng đơn vị thành viên Việc tập hợp và quản trị đữ liệu trên phạm vi toàn ngành để cung cấp thỏng tin cho "quá trình phản tích, hoạch định chiến lược, hỗ trợ ra quyết định" Irong mòi trường cạnh tranh và hội nhập là một thách thức lớn mà Petrolimex đang tìm hướng giải quyết Đề tài này nghiên cứu lý thuyết, nắm chắc phương pháp iuận và một còng cụ xây dựng kho dữ liệu cụ thể, tạo nền tảng triển khai xây đựng một kho dữ liệu thực tế-hướng giải quyết yêu cầu cùa bài toán nói trên,
Luận vãn bao gồm hai phần Phần í, trình bày cơ sở xây dựng kho dữ liệu, giới thiệu lý thuyết cơ bản về xây dựng Kho dữ liệu Phần n , trình bày nội dung xây dựng kho dữ liệu thử nghiệm, giới thiệu cồng cụ xây dựng kho dữ liệu Oracle Warehouse Builder và bài toán kho dữ liệu của Petrolimex
Tôi xin trân trọng cảm ơn sự hướng dản của Tiến sĩ Nguyễn Tuệ Cảm ơn các thầy cô giáo trong khoa Công nghệ, Viện CNTT, công ty Oracle Việt Nam và đồng nghiệp đă nhiệt tình giúp tôi thực hiện đề tài này
Trang 7dữ liệu được thiết kế để hỗ trợ quản trị hê hỗ trợ quyết định".
2 Đ ặ c đ iể m d ữ liệ u tr o n g k h o d ữ liệ u
Theo định nghĩa của Bill Inmon Kho dữ liệu có 4 đặc tính cơ bản gồm: Hướng chủ đề (Subject-oriented), Tích hợp (Integrated), ít thay đổi (nonvalatile), Tính thời gian cụ th ể (Time-variant) Một số định nghĩa khác về Kho dữ liệu có bổ sung thêm tính chất Kho dữ liệu bao gồm cả dữ liệu chi tiết và dữ liệu tổng hợp
2.1 Hướng chủ dề (Subject-oriented)
Dữ liệu được tập hợp, phân iớp, lưu trữ và xử lý theo từng chủ để Các dữ liậu của mỗì chủ dề chính trong tổ chức được liên kết bởi các khoá đại diện và đưa vào cùng một vị trí, Ví dụ đữ liệu liên quan đến: khách hàng, sản phẩm, tài chính, bán hàng
2.2 Tích hợp (Integrated)
Trong một tổ chức có rất nhiều dữ liệu từ nhiều hệ thống khác nhau Việc hợp
nhất các dữ liêu này trờ thành một tập hợp dữ liệu có nghĩa cho việc phân tích ỉà rất
khó khăn Một trong các tính chất chính của Kho dữ liệu là hoằn thành quá trình hợp nhất hay tích hợp này
Cấu trúc dữ liệu theo một cách thức chung được chấp nhận mặc đù xuất phát từ rất nhiều cấu trúc dữ liệu nguồn khác nhau Dữ liệu tích hợp phải đảm bảo tính nhất quán, đôi khi chấp nhận tính dư thừa để tăng tính hiệu quả của các truy vấh
Trang 8Dü ii6u trong Kho dir li6u la d& lieu chi doc
2.3 it thay ddi (nonvaiatile)
Operational
Load
Insert
UpdateDelete
Warehouse
■rfyRead
Hmh s6 1: tinh chät it thay d6i cüa dü lieu trong kho dü lieu
Dü lieu diroc tai (load) väo kho dir lieu o Idn däu ti£n dirdi dang ban sao tai mưt thdi di^m (snapshot) vä sau do thuưng xuy6n duoc lam tuoi (Refresh) Chu ky läm tiroi duoc xäc dinh tuy theo y£u cäu nghiSp vu, cư nhung kho d£r liSu dưi hưi duoc läm tircri häng ngäy trong khi cư nhiing kho dü li6u chi cän duoc läm urcfi häng thäng
Thưng tin trong Kho dü lieu duoc täi väo sau khi dur lieu trong hS thưng di£u hänh täc nghiep duoc xäc dinh Tinh it bi6n dưi th6 hiưn er chư: Du lieu duoc liru trü läu däi trong kho dir liưu, mac dü cư thäm dü li£u mcfi nhäp väo nhtmg dư li£u cư trong kho vän khưng bi xộ, dilu dư cho ph^p cung cäp thưng tin ve mưt khộng thưi gian däi, cung cäp dü so lieu cän thiư't cho cäc mư hinh nghiep vu phän tfch, dir bäo
2.4 Tinh thoi gian cu th^ (Time-variant)
Mưt kho chüa dü lidu bao häm mưt khư'i luong lưn dir lieu lieh sir Dü liSu duoc liru trü thänh mưt Ioat cäc bän sao(snapshort), mưi bän sao phän änh nhüng giä tri cüa dur li£u tai mưt thưi di&n nhä't dinh, th£ hien mưt khung nhin cüa mưt vüng chü d l trong mưt giai doan Do väy cho phep khưi phuc lai dü lieu lieh sir vä so sänh
Trang 9mộí cách chính xác các giai đoạn khác nhau Yếu tố thời gian đóng vai trò như một phần cùa khoá để bảo đảm tính đơn nhất của mỗi hàng và cung cấp đặc trưng về thời gian cho dữ íiộu.
2.5 Dữ (iệu chi tiết và dữ ỉiệu tổng hợp
Dữ liệu chi tiết là thòng tin mức thấp nhất được lưu trữ trong Kho dữ ỉiệu Dữ liệu tác nghiệp là thông tin mức thấp nhất cho toàn xí nghiệp Dữ liệu tác nghiệp thuần tuý không được lưu trữ trong Kho dữ liệu Dữ liêu tổng hợp là dữ liệu được kết hợp từ dữ liệu chi tiết và lưu qua nhiều giai đoạn khác nhau
3 Nguyên lỷ CƯ bản (Basic Eỉements)
ỮJ50 W0ftfws*
«toitgtoM
• ĩìm*-voítoni
* Nonvùtohi«
Hình số 2: nguyên lý cơ bản của kho dữ liêu
Cơ sở d ữ liệu nguồn (Source Database): Một CSDL tác nghiệp, trung tâm đữ liệu, hệ thống sắn có, làm đầu vào cho vùng định cư dữ liệu
Vùng đ ịn h cư đữ liệu (D ata Staging A rea): Vùng lưu trữ dữ liệu bình thường, đữ liệu có thể ở dạng thô hoặc dạng tổng hợp Quá trình định cư sử đụng một số cổng cụ di trú (migration), công cụ làm sạch (clean), chuyển tải đữ liệu (transformation) Sau đó đữ liệu được sử dụng làm nguồn dữ liệu đẩu vào cho một hoặc nhiều kho dữ liệu
Trang 10Đích (target): Nơi phát hiện, lưu trữ dừ liệu cho các truy vấn trực tiếp của người sử dụng cuối, tạo báo cáo và các ứn2 dụng khác khai thác kho dữ liệu hoặc kho dữ liệu cục bộ.
4 Kho đữ liệu cục bộ - Data m art
Kho dừ liệu cục bộ (Datamart) ià CSDL có những đậc điểm giống với Kho đữ liệu nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một chuyên nsành Các Datamart có thể được hình thành từ một tập con dữ liệu của kho dữ liệu hoăc cũng có thể được xây đựng độc lập và sau khi xây dựng xong, các Datamart có thể được kết nối tích hợp lại với nhau tạo thành kho dữ liệu Vì vậy có thể xây đựng kho dữ liệu bắt đầu bằng việc xây dựng các Datamart hay ngược lại xày dựng kho
dữ liệu trước sau đó tạo ra các Datamart
Datamarí là một kho dữ liệu thứ cấp các dữ liệu tích hợp của Kho dữ liệu Đatamart được hướng tới một phần của dữ liệu thường được gọi là một vùng chủ đề, được tạo ra đành cho một nhóm người sử đụng Dữ liệu trong Datamart cho thồng tin về một chủ đề xác định, không phải về toàn bộ các hoạt động nghiệp vụ đang diễn ra trong một tổ chức Thể hiện thường xuyên nhất cùa Datamart là một kho dữ liệu riêng rẽ theo phương diện vật lí, thường được lưu trữ trên một máy chủ riêng, trong một mạng cục bộ phục vụ cho một nhóm người nhất định Đôi khi Datamart kế? hợp một cách đơn giàn với công nghệ OLAP theo các quan hệ hình sao đặc biệt tạo ra những siêu khối (hypercube) đữ liệu cho việc phân tích của một nhóm người
có cùng mối quan tâm trên một phạm vi dữ liệu
Có thể chia ra làm 2 loại: Datamart độc lập và Daíamart phụ thuộc
Datamart phụ thuộc, chứa những dữ liệu được ỉấy từ Kho dữ liệu và những đữ liệu này sẽ được trích lọc và làm sạch, tích hợp ỉại ờ mức cao hơn để phục vụ một chủ đề nhất định của Datamart
Datamart độc lập: không giống như Datamart phụ thuộc, DM loại này được xây đựng trước DW và dữ liệu được trực tiếp lấy từ các nguồn Phương pháp này đem giản hơn và chi phí thấp hơn nhưng đổi lại có những điểm yếu Mỗi Kho dữ liệu độc
Trang 11lập có cách tích hợp riêns, đo đó đữ liệu từ nhiều Datamart khó đồng nhất với nhau Datamart thể hiện hai vấn đề: thứ nhấc là lính ổn định trong các tinh huống từ một Data mart nhó ban đầu lớn ỉèn nhanh chóne cheo nhiều chiều và thứ hai là sự
lích hợp dữ liệu. Vì vậy khi thiết kế Datamart phải chú ý kĩ tớí tính ổn định của hệ thống, sự đồng nhất cua dữ liệu và vấn đề về khả năng quản lí
5 Hệ hỗ trợ quyết định (Decisions S upport Systems-DSS)
Decision Support System (D SS)
)
Profile o f D SS Q u e rie s
Hình số 3: Hê hỗ trơ ra quyết đinh
DSS cung cấp một hệ thống có khả nãng trợ giúp việc tạo ra các quyết định, mọi kho dữ liệu được thực hiện với các yêu cầu phương pháp lưu trữ, công cụ xừ lý
để người dùng cuối đễ đàng truy cập tới dữ liệu đã được hợp nhất từ nhiều nguồn khác nhau Tuỳ theo yêu cầu của nghiệp vụ, công cụ có thể đơn giản chỉ là công cụ lập báo cáo, cũng có thể phức tạp hơn Sau đây là các thành phần mở rộng của DSS:
Trang 12Hệ tác nghiệp (ODS): là cư sờ dữ liệu cùa tlữ liệu diều hành, (iừ liệu có cấu trúc {định dạng-formatted) tĩnh Hệ tác nshiệp không như kho dữ íiồu, không có tính chát "ít biến đổi", chúng được naười dùna thay đổi cập nhật thường xuyên.
Kho dừ liệu (DW) tập hợp dữ liệu giúp quản lý quá trình ra quyết định
Hệ phân tích trực tuyến (Online analytical processing-OLAP) định nshĩa một cách lỏng ỉẻo (loosely) tập hợp các nguyên tố cơ bản (prineiples) nhằm cung cấp các khung nhìn cho việc hỗ trợ quyết định OLAP phồn tích dữ liệu nhằm chỉ ra định hướng nghiệp vụ, có tính chất tĩnh khỏng đòi hòi tính hiện thời như đữ liệu tác nghiệp
Khai phá đữ liệu (Data m ỉning - ĐM): là kỹ thuật khai phá ra các mẫu, tri thức mới chưa từng xuất hiện trước đó
Hình trẽn cho thấy mâu của một hệ hỗ trợ ra quyết định được phũn chia thành hai phần, phần ỉưu trữ (bao gồm ODS, DW) vằ phần phân tích (OLAP, DM)
6 Phàn biệt Kho dữ liệu với những hệ cư sở đữ liệu íác nghiệp
Có một số điểm khác biệt chính khi thiết kế hê thống tác nghiệp và khi thiết kế Kho đữ liệu, chúng ta phải quan tủm cách tiếp cận và tiến trình thực hiện:
Thiết kế Kho dữ liệu phải quan lâm tới vấn đề tối ưu hoá truy vấn dữ liệu, trong khi thiết kế hệ tác nghiệp quan tâm tới vấn đề tối ưu hoá thao tác dữ íiệu (insert, update, delete )
Tính phát triển của Kho đữ liệu, chúng ta không thể hoàn thành sự phát triển của Kho đữ liệu ngay khi thiết lập, mà quá trình phát triển của kho dữ liệu phải tính đến trong một thời gian dài Thường dẫn tới kết quả sử dụng cấu trúc dữ liệu động hơn là sử dụng cấu trúc dữ liệu tĩnh như hệ tác nghiệp
Kho đữ liệu Uru trữ dữ liệu lịch sử, dữ liệu cho từng đcm vị thời gian trong khi
hệ tác nghiệp xử lý các giao dịch hiện thời
Trang 137 C ác Yẻu cẩu chức năng kho d ừ ỉỉệ u (Desirable Warehouse Functionality).
Desirable W arehouse Functionality
Hình S Ố 4: Yêu cẩu chức nàng kho d ữ lieu
K h ả năng càn bằng (Scalable): Kho dữ liệu có khả năng lưu trữ và quản lý một số lượng khổng lổ các giao dịch và dữ liệu tổns hợp Kho dữ liệu có thể lớn lên theo thời gian, có thèm dữ liệu mới hoặc giữ lại dữ liệu lịch sử cho một thời gian đàì
mà không bị quá tai, vẫn đảm bảo tính ổn định hoạt động
K h ả năng quản trị (M anageable): Kho dữ ỉiệu có khả nãng quản trị viêc tao quyết định
K h ả nâng sẵn sàng (Available): Kho dữ liệu luôn sẵn sàng bất kỳ khi nàocần
K h ả nâng mở rộng (Extensible): Thực hiện một cách dễ dàng khi thêm các loại đữ liệu mới, dữ liệu kết hợp và dữ liệu tổng hợp vào kho đữ liệu
Design
d ãLoad 11 Data ị A ccess
Architecture
Tuning and optimization
Management and revision
OperationandmanagementCapacity planning and sizing
Trang 14K hả nàng mém dẻo (Flexible): Hỗ trợ nhiều cách truy củp dữ liệu chi tiết, dữ liệu tone hợp theo phàn tích nhiểu chiều, khoan dữ liệu và truy vấn khôna xác định (analysis, drilldown, and true ad hoc querying)
K h ả năng tích hợp (Integrated): Kho đữ liệu phải có khả mìng tích hợp đẩy
đủ với các hệ thốníĩ sẩn có, môi trường tác nghiệp Do vậy, có thể tải (load) dữ liệu
Kết luận
Chương I giới thiêu chung về kho dữ liệu, bao gồm các nội dung:
Định nghĩa kho dữ liệu, giới thiệu một định nghĩa phổ biến về kho dữ liệu, định nghĩa của Bill Inmon: "Kho dữ liệu là tập hợp dữ liệu hướng chủ đề, mang tính tích hợp, ít thay đổi, và mổi đơn vị dữ liệu đểu gán với một khoảng thòi gian cụ thể Kho dữ liệu được thiết kế để hỗ trợ quản trị hệ hỗ trợ quyết định"
Bốn đặc tính cơ bản của kho dữ liệu Theo định nghĩa của Bill Inmon Kho dữ liệu có 4 đặc tính cơ bản gốm: Hướng chủ đê' (Subject-oriented), Tích hợp
(Integrated), ít thay đổi (nonvalatile), Tính thời gian cụ th ể (Time-variant) Một sốđịnh nghĩa khác vể Kho dữ liệu có bổ sung thêm tính chất Kho dữ ỉiệu bao gổm cả
dữ liệu chi tiết và dữ liệu tổng hợp
Nguyên lý cơ bản của Kho đữ liệu: Cơ sở dữ liệu nguổn (Source Database)-> Vùng định cư dữ liệu (Data Staging Area)-> Kho dữ liệu đích (target)
Kho đữ liệu cục bộ, xét theo khía cạnh tập hợp thì kho đữ liệu cục bộ là tập con của kho dữ liệu, dùng trung một lĩnh vực cụ thể Có thể xây đựng kho dữ liệu
Trang 15cục bộ trước rồi hợp thành kho dư liệu chung hoặc ngược iại có thể xây dựng kho dữ liệu rrước rồi tổ chức khai thác sử dụng theo các kho dữ liệu cục bộ.
Hệ hỗ trợ ra quvết định có hai thành phần: I thành phán lưu trữ - storage: hệ tác nghiệp — ODS và kho dữ liệu-DW; 2 thành phán phàn tích — analytic: hệ phàn tích trực tuyến — OLAP, khai phá dữ liệu — DM
Phân biệt kho dữ liệu với hệ thống tác nghiệp: Thiết kế Kho dữ liệu phải quan tàm tới vấn đề tối ưu hoá truy vấn dữ liệu, trong khi thiết kế hệ tác nghiệp quan tâm tới vấn để tối ưu hoá thao tác dữ liệu (insert, update, delete ) Phân biệt vể tính chất
dữ liệu lịch sử của kho dữ liệu và tính chất dữ liệu của hệ tác nghiệp
Các yêu cầu chức năng kho đữ liệu phải đảm nhận: khả nãng cần bằng, quán trị, sẵn sàng, mở rộng, mềm dẻo, tích hợp» truy cập sử dụng, và khả năng tin cậy
Trang 16hệ thống hỗ trợ quyết định.
Dữ liệu nghiệp vụ bao gồm dữ liêu cấu trúc và dữ liệu phi cấu trúc Dựa vào các tiêu chí sử dụng trong nghiệp vụ, phạm vi dữ liệu, tính chất đọc/ghi của dữ liệu, thời gian phát sinh dữ liệu người ta chia dữ liệu có cấu trúc ỉàm ba loại:
1.1 Dữ liệu thời gian thực (real-time data)
Dữ liệu chi tiết mới nhất được dùng để vận hành cỏng việc và được truy xuất theo chế độ đọc/ghi thông qua các giao dịch đã được xác định trước
1.2 Dữ liệu dần xuất (derived data)
Dữ liệu tại một thời điểm hoặc dữ liệu định kỳ, ờ mức chi tiết hoặc tổng hợp, thuộc chế độ chỉ đọc, nhận được từ việc xử lỷ dữ liệu thòi gian thực và dùng để quản
lý còng tác nghiệp vụ
1.3 Dữ liệu tương thích (reconciled data)
Được sinh ra trong quá trình xử lý tăng cường tính nhất quán bên trong của dữ liệu Đây là quá trình thực hiện trên dữ liệu thời gian thực ờ mức chi tiết Khía cạnh thứ hai của quá trình này là duy trì hoặc tạo ra một tập dữ liệu lịch sử Do đó có thể coi dữ liệu tương thích là một ỉoạí đặc biệt của dữ liệu dẫn xuất
2 Siêu dữ liệu (M etadata)
Siêu đữ liệu (Metadata ) là dữ liệu về dữ liệu, được sử đụng trong DW để mô tả cũng như sử dụng đữ liệu đảm bảo sử dụng triệt để và nhất quán dữ liệu nghiệp vụ
Trang 172 Ỉ Siêu dữ liệu trong giai đoạn xáy dựng
Là siêu dữ liệu được tạo ra trong quá trình thiết kế, xây đựng ứng dụng và cơ
sở dữ liệu Thông thưcmg, chứng được tạo ra và lưu trữ trong các mố hình đữ liệu và công cụ thiết kế ứng dụng (bộ công cụ CASE)
2.2 Siêu dữ liệu kiểm soát
Là siêu đữ liệu được sử dụng chủ động trong hoạt động của kho dữ liệu, trong
đó siêu đữ liệu hiện hành và siêu dữ ỉiệu sử đụng đóng vai trò quan trọng trong việc quản lý và xây đựng kho dữ liệu
Siêu dữ liệu hiện hành: mô tả thông tin chính xác về tính hiện thời hay vị trí của dữ liệu nghiệp vụ theo thời gian
Sièu đữ liệu sử đụng: gắn chặt vói vấn đề an ninh và các chức năng xác định thẩm quyển, kiểm soát việc truy cập tới kho dữ liệu Hơn nữa chúng cung cấp các phương tiện nhằm giám sát dữ liệu và các chức năng này được sử dụng trong kho dữ liệu như thế nào, và do đó xác định được giá trị của dữ liệu đối với người sò dụngcuối
2.3 Siêu dữ liệu vận dụng:
Là siêu dữ liệu quan trọng nhất đối với người sử đụng đữ liệu nghiệp vụ, đặc biệt trong môi trường thông tin Với chúng người đùng có thể đạt được những lợi ích trong nghiệp vụ và nâng cao hiệu quả cỏng việc
Trang 18Siêu dữ liệu vận dụng có nguồn 200 vù nội dung tương tự siêu dữ liệu trong giai đoạn xảy dựng Sự khác biệt ờ chỗ siêu dừ liệu này được cấu trúc nhằm dảm bảo hiệu quả khả nans tìm kiếm của ncười sử đụn«.
II KIẾN TR Ú C D ữ LIỆU MỨC KHÁI NIỆM
1 Kiến trú c dữ liệu nghiệp vụ
Một trong các bước đầu tiên khi thiết kế Kho dữ liệu là xây dựng kiến trúc tổng thể và làm kiến trúc đó được chấp nhận một cách rộng rãi Thông thường, mục tiêu của hệ tác nghiệp là thực hiện các chức năng người sử đụng yêu cầu, và chúng
có phạm vi dừ liệu khá hẹp, nên việc thiết kế các hệ thống tác nghiập thường bắt đầu với kiến trúc ứng dụng Tuy nhiên, đối với kho dữ liệu tính hợp nhất dữ liệu quan trọng hơn, đo đó điểm khởi đầu trong kiến trúc kho dữ liệu phải là đữ ỉiệu tác nghiệp
Trang 19Dữ liệu dẫn xuất
Hệ thốngthông tin
A
Dữ liệu tương thích
Hình số 5: Mô hình kiến trúc dữ liêu ba táng
Vổi md hình kiến trúc dữ liệu ba tầng: tiến trình từ dữ liệu thời gian thực tới dữ liệu dẫn xuất thông qua đữ liệu tương thích
Tương thích dữ liệu từ nhiều cơ sờ đữ liệu trong thời gian thực
Dẫn xuất dữ liệu do người sử đụng yêu cầu từ dữ liệu vừa được tương thích
Trong kiến trúc này tẩng dưới cùng là dữ liệu thời gian thực, tầng trên cùng là
dữ liệu đẫn xuất và tầng giữa íà tầng dữ liệu tương thích
Trang 20Quá trình làm tương thích dữ liệu từ các tập đữ liệu khác nhau trong tầng thời gian thực đòi hỏi phải nắm bắt quan hệ giữa nhữna tập dữ liệu này và vai trò của chúng trong nghiệp vụ Trèn thực tế quá trình nắm bất này dược xác định qua tiến trình lập mò hình dữ liệu, thường được thực hiện ở mức doanh nghiệp hcm là ở mức ứng dụng riêng lẻ Mối quan hệ giữa tầng dữ liệu tương thích và mô hình đữ iiệu doanh nghiệp là yếu tô' quan trọng để hiểu được hoạt động của kiến trúc ba tầng
Mục đích của tầng dữ ỉiệu tương thích: Bước này ỉấy dữ liệu từ nhiều loại hê tác nghiệp khác nhau, hỗn tạp, phân tán về mặt địa ỉý, sau đó kết hợp và xử lý chúng
để trờ thành hình ảnh mô hình dữ liệu doanh nghiệp duy nhất và logic Chức năng của tầng này trờ thành nguồn duy nhất, chính xác cho mọi dữ liệu mà người dùng của hệ thống thông tin quản lý hay hệ hỗ trợ quyết định đòi hỏi Từ tầng này có thể dẫn xuất ra bất kỳ tổ hợp dữ liệu nào mà người dùng có thể đòi hỏi trong hiện tại hay tương lai
Trong tiến trình sao chép tới tầng dữ iiệu tương thích, các tập hợp dữ liệu trong tầng thời gian thực phải được làm tương thích với nhau bời yêu cầu làm sạch dữ liệu thời gian thực để loại bò những điểm không nhất quán và bất qui tắc trong dữ liệu Khống có đữ liệu mới được tạo ra trong bước này, giá trị được thêm vào tới từ chính tầng tương thích
Trong bước thứ hai, dữ liệu dẫn xuất mà người đùng đòi hòi để đáp ứng yêu ciỉu nghiệp vụ của mình có được bằng cách sử dụng nhiều tiến trình như kết hợp, biến đổi trên đữ liệu tương thích Bước này được định hướng bởi nhu cầu thông tin của ngưởì dùng đựa trên nguồn đữ liệu đuy nhất, đáng tin cậy Thông tín mới có giá trị với nghiệp vụ chỉ được tạo ra trong bước này
Người dùng cuối hiếm khi truy nhập trực tiếp tới tầng dữ liệu tương thích vì cấu trúc đã được lập mô hình và chuẩn hoá của tầng này nói chung không phù hợp với người dùng cuối Phần lớn các tiến trình hỗ trợ quyết định đòi hỏi dữ liệu được kết hợp từ nhiều thực thể khác nhau (hay các bảng đã chuẩn hoá) Tiến trình kết nối này là một trong những công việc không thuân ỉợi với người sử đụng, bời vì nó đòi hỏi một phương pháp hình thức để đảm bào tính hợp lệ Hơn nữa dữ liệu trong tầng
Trang 21này bao trùm toàn bộ fổ chức và như vậy có phạm vị rộng hơn mà hầu hết người đùng đòi hỏi Những lý do nghiệp vụ này hạn chế việc sử dụng trực tiếp tầng dữ liệu tương thích cho các hệ thống thông tin quản lý Việc truy nhủp trực tiếp tới tầng dữ liệu tương thích chì hạn chế trong một số Iượna giới hạn nhố những người phân tích nghiệp vụ thông thạo kỹ thuật, cần xem nghiệp vụ một cách tổng thể Hầu hết người đùng cuối thoả mãn nhu cầu đữ liệu của mình qua tầng dẫn xuất.
Mối quan hệ giữa đữ liệu trong tầng tương thích và trong tầng dẫn xuất tương
tự vai trò của truy vấn đặc biệt (ad-hoc) và truy vấn đã xác định Tầng dữ liệu tương thích đáp ứng các truy vấn đặc biệt Tầng dẫn xuất đáp ứng cho các truy vấn đă xác định, có thể xem tầng đẫn xuất lưu trữ các kết quả của một tạp truy vấn đã xác định
Do đó, tầng dữ liệu đẫn xuất chứa tập dữ liệu được tối ưu hoá để thoả mãn nhu cẩu của các bộ phận, nhóm người đùng hay thậm chí những cá nhân riêng biệt, Bên trong mỗi tập hợp đữ liệu nhò và cấu trúc kém hình thức hơn, người đùng có thể thực hiên các báo cáo thường kỳ hay phát triển các truy vấn cần thiết
Một lý do cho sự thành công của việc tách dữ liệu tương thích khỏi đữ liệu dản xuấc là nhiều yẻti cầu thông tin quản lý đã được xác định trước và thường được lặp lại Lý do đơn giản này cũng làm giảm mạnh tàí nguyên tính toán cần thiết hổ trợ kho dữ liệu Các hoạt động tính toán hay phải iàm hoàn toàn được xác định như liên kết và tách dữ liệu tương thích- thường được thực hiện khi đi chuyển dữ liệu từ tầng tương thích tới tầng dữ liệu dẫn xuất trên cơ sở hàng ngày hơn là mỗi khi người dùng cuối truy vấn
Mô hình kiến trúc dữ liêu ba tầng không có tầng giữa (tầng dữ liệu tương thích) cho ta hình ảnh về kiến trúc đữ liệu hai tầng, tuy nhiên khi khồng có sự tham gia của tẩng tương thích thì kho dữ liệu cũng sẽ gặp một số vấn đề mà tầng dữ liệu tương thích đảm nhận Kiến trúc hai tầng thường thấy xuất hiện trong các tổ chức nhỏ hoặc trong các giai đoạn đầu của quá trình xây dụng một kho dữ liệu qui mô doanh nghiệp Tuy nhiên, nó có nhiều vấn đề liên quan đến kiểm soát và bảo trì dài hạn
Trang 222 !
Mò hình kiến trúc dữ liệu hai tầng khi khỏng có tầng dữ liệu dẫn xuất cho ta
mỏ hình kiến trúc dữ tiêu một táng Kiến trúc một táng sẽ gặp một số vấn đề mà tầng dẫn xuất đảm nhiệm Kiến trúc một tầng hiếm khi xuất hiện bời nó tạo ra xung độí khi nhiều người dùng cùng truy cập tới một dữ liệu
Kiến trúc ba tầng là tiếp cận mạnh nhất Nó được khuyến cáo trong khi nghiệp
vụ cần những đữ liệu trên qui mô toàn tổ chức Sức mạnh và sự thành công của kiến trúc ba tầng xuất phút từ sự nhận thức vai trò mấu chốt cùa mó hình dữ liệu doanh nghiệp và sự thực hiện vật lý tầng dữ ỉiệu tươna thích
2 Kiến trú c siêu dữ liệu
Tương tự dữ liệu nghiệp vụ, siêu đữ liệu cũng được kiến trúc hoá theo định nghĩa cùa siêu dữ liệu trong mục 1 Với dữ liệu nghiệp vụ, sự phản ỉoại rất phù hợp với kiến rrúc ba tầng Với siêu dữ liệu kiến trúc cũng gồm ba phần Tuy các phần không được phân tầng như chúng có quan hệ với nhau (hình vẽ), cho phép siêu dữ liệu thời gian thực cung cấp dữ liêu trực tiếp cho cả siêu dữ liệu kiểm soát lẫn siêu
Trang 23Siẻu dữ iiộu trong giai đoạn xây dựng và siêu đữ liệu trong giai đoạn kiểm soát tồn tại trong nhiểu vị trí khác nhau, được tạo ra và quản lý thồng qua nhiều thành phần Thực sự, các xác định và sử đụng những siêu ứng dụng này trong các môi trường ngày nay ỉà không rõ ràng Mặt khác hiện nay, siêu dữ liệu vận dụng hỉếm khi được nhận thức rõ ràng, và bời vì người dùng cuối sử dụng nó ỉà chủ yếu nên siêu dữ liệu vận dụng là thành phần siêu đữ liệu quan trọng nhất trong kho dữ liệu.
3 Q uan hệ và nguồn của siêu d ữ liệu
Chúng ta có thể thấy rõ mối quan hệ giữa ba loại siẽu dữ liệu và tầm quan trọng của siêu đữ liệu vận đụng bằng cách xem xét vị trí của mỗi loại siêu dữ liệu và cách thức tạo ra chúng
3.1, Siêu dữ ỉiệu trong giai đoạn xây đựng.
Tất cả các cỏng cụ thu thập ý nghĩa, logic nghiệp vụ và biểu diễn những thông tin này một cách có ý nghĩa được sử đụng để tạo ra và quản lý siêu dữ liệu trong giai đoạn xây dựng, ví dụ như các công cụ lập mô hình dữ liệu và các công cụ CASE Siêu dữ liệu mức nghiệp vụ này được bổ sung các thông tin vể cấu trúc vật lý, sự ỉưu trữ và thời gian Siêu đữ liệu trong giai đoạn xày dựng được sỏ đụng trong quá trình phát triển ứng dụng
Nguổn của siêu đữ liêu trong giai đoạn xây đụng cho các hệ thống cũ đã thay đổi nhiều Các tư liệu về yêu cầu và thiết kế-nếu tổn tại là nguồn trên văn bản duy nhất của siêu dữ liệu ở mức nghiệp vụ ờ mức vật lý thì ngược lại, từ bản thiết kế cơ
sờ dữ liệu, file, và các ứng dụng phải tạo ra tư liệu thiết kế Trong những trường hợp
Trang 24như vậy, mối quan hồ với ý nghĩa rmhiệp vụ cỏ thỏ phải điều chinh lại dựa trên cách
sù đụns hiện tại của hộ thống
Tạo quyền sở hữu siêu dữ liệu thực tế ià một vân đề đặc biệt Trong khi các chỉ dẫn và lưu đổ tổ chức tạo thành tư liệu cấu trúc tổ chức, mối liên kẽ( giữa cấu trúc nàv và dữ Iiệu-biểu diễn quyển sò' hữu-bị hạn chế ít tổ chức có tiến trình chính thức qua đó các bộ phận nghiệp vụ nắm lấy quyền sờ hừu dữ liệu Thưcmg quvền sờ hữu dược xác định trên úng dung hon là trên dữ liệu, Hcm nữa quyền sờ hữu dữ liêu ợ mức cá nhủn hiếm khi xuất hiận Chỉ giải quyết được các vấn đề về chất lượng dữ liệu một cách hiệu quả khi xác định được cả hai quyền sờ hữu-của tổ chức và của cá nhân đổng thời công ty phải kiểm soát được các tiến trình duy trì tính hợp lệ và quyền sờ hữu hiện tại của siêu đữ ỉiệu
Cấu trúc siêu dữ liệu trong giai đoạn xây dụng phản ánh nhu cẩu của người thiết kế, người phát triển ứng dụng và cơ sờ đữ liệu, do đó không thích hợp sử dụng khi hộ thổng đưa vào hoạt động Người ta không sử đụng trực tiếp siôu dữ liệu này trong quá trình kiểm soát các hoạt động íhời gian thực của hệ thống vì các lí do hiệu quả và đo đó siêu dữ liệu trong giai đoạn xây dựng được sao chép vào môi trường hoạt động dưới dạng kiểm soát Cấu trúc cùa dữ liệu kiểm soát này được tối ưu cho hiệu quả trong thời gian hoạt đông
Tương tự, khả năng người dùng cuối sử đụng hiệu quả siêu đữ liệu trong giai đoạn xây dựng cũng hạn chế Sièu đữ liệu trong giai đoạn xây dựng và các công cụ CASE thao tác trên chúng được thiết kế để chuyẻn gia trong bộ phận thông tin - thường phải cập nhật siêu đữ liệu-sử dụng Người dùng cuối có kỹ năng khác nhau
và nhu cầu cập nhật siêu đữ liệu trong giai đoạn xây dựng được sao chép vào kho dữ liệu dưới dạng siêu dữ liệu vận dụng
3.2 Siêu dữ liệu kiểm soát
Trong kho dữ liệu mục đích cùa siêu dữ liệu kiểm soát là mỏ tả sự hiện hành
và cách sử đụng dữ liệu nghiệp vụ Nguồn của những siêu dữ liệu này không phải ià siêu đữ liệu trong giai đoạn xây dựng Với siêu đữ liệu hiên hành, nguồn là các ứng
Trang 25dụng hay các công cụ tạo ra và cập nhật dữ liệu nghiệp vụ vể mặt vật lý Với siêu đữ liệu sừ dụng, nguồn ỉà các còng cụ mà qua đó người dùng cuối cộp nhật kho dữ íiệu.
Siêu đữ liệu hiện hành tổn tại ờ nhiều mức chi tiết, ở mức thấp nhất, thông tin hiện hành vể dữ iiệu được lưu ờ mức bảng hay file Trong trường hợp này, siêu dữ liệu mô tà sự hợp lệ về mặt thời gian của toàn bộ tập dữ liệu Theo thuật ngữ vật lý, mỗi bản ghi hay hàng trong file huy bảng có khoảng hợp iệ của chính nó Cuối cùng,
sự hợp lệ có thẻ được xác định ờ mức các trường riêng lẻ trong mồi bàn ghi Mức chí tiết này gần như không được quan tâm bởi vì nếu được thực hiện, khối lượng siêu dữ liệu sẽ vượt quá dữ liệu nghiệp vụ mà nó kiểm soát
ờ hai mức chi tiết file/bang và bản ghi/hàng cẩn có nhiều phương pháp khác nhau để lưu trữ siêu dữ liệu:
ờ mức file/bảng, siêu đữ liệu hiện hành được lưu trữ trong các cấu trúc vật iý
cơ sở là các file hay các bảng Do đó nó phân biệt với dữ liệu nghiệp vụ Để người dùng cuối có thể truy cập tới, siêu đữ liệu này phải được sao chép vào siêu dữ ỉiệu vận dụng
ờ mức bản ghi/hàng, siêu dữ liệu hiện hành hầu hết được lưu trữ dưới dạng nhãn thòi gian Nó nằm cùng vị trí với dữ liệu nghiệp vụ mà nó mô tả, chứ không tách biệt như các kiểu siêu dữ liệu khác Do đó siêu dữ liệu hiện hành à mức bản ghi/hàng không được sao chép vào siêu dữ liệu cách sử dụng, nhưng được truy cập trực tiếp bởi những người sử dụng tuỳ từng tình huống Do đố người đùng cuối hiếm khi phân biệt siêu dữ liệu kiểm soát với dữ liệu nghiệp vụ
Ngày nay trong hẩu hết các mồi trường, siêu dữ liệu hiện hành hiếm khi được luu trữ theo bất hình thức nào Những người quản lý bộ phận thông tin nhận trách nhiệm đảm bảo rằng dữ liệu trong các hệ thống thồng tin quản lý được tạo đúng giò
và cho người dùng biết các vấn đề nảy sinh khi nào Môi trường kho dữ liệu yêu cầu cách tiếp cận một cách hình thức hơn để bảo trì siêu dữ liệu này, bởi VI số lương người dùng và sự phong phú của dữ liệu trong kho Nó đòi hỏi rằng các công cụ định cư và bảo trì kho dữ liêu phải tạo ra và bảo trì siêu dữ liệu môt cách tự đỏng
Trang 26Tẩm quan trọng của siêu dữ liệu vận dụng chỉ được thừa nhận khi có sự bùng
nổ của kho đữ liệu, và sự đa dạng cũng như khối Iưạns dữ liệu mà nó cung cấp cho người sử dụng Loại siêu dữ liệu mới xuất hiện này có cả ưu và nhược điểm Ưu điểm là cấu trúc và sự lưu trữ vật iý có thể định nghía một cách phù hợp nhất với các yêu cầu của kho dữ liệu Tuy nhiên, đo mới xuất hiện nên có ít công cụ quản lý và
sử dung siêu dữ liệu vận dụng
Trong những giai đoạn đầu khi thực hiện kho dữ liệu, thiếu các công cụ hỗ trợ cho siêu dữ liệu vận dụng không phải ỉà một vấn đề nahiẻm trọng, bởi vì trong giai đoạn dầu này thường chứa số ỉượng hạn chể các loại dữ liệu Tuy nhiên, chắc chắn
sẽ cần tới các công cụ này khi khối lượng đữ liệu lớn và việc sử dụng kho dữ liệu được mở rộng trên toàn tổ chức
Kiến trúc khái nỉẻm dữ liệu nghiệp vụ ba tầng, cùng với kiến trúc siêu dữ liệu
hỗ trợ cho các yêu cầu quản lý dữ liệu của bộ phận hộ thống thông tin, cũng như các yêu cầu truy nhập dữ liệu của người dùng cuối
4 Kiến trúc Logic Kho dữ liệu
Các kiểu dữ liệu, khái niệm vể dữ liệu nghiệp vụ và các thành phần siêu dữ liệu cung cấp một lý thuyết cơ bản về kiến trúc kho dữ liệu Tiếp theo chúng ta sẽ nghiên cứu khái quát về kiến trúc logic cùa kho dữ liệu
Việc chuyển kiến trúc từ mức khái niệm sang mức logic bao gổm một số khíacạnh:
Sự ràng buộc do các công nghệ (trong thời kỳ hiện tại cùng dự đoán trong vài năm tới)
Các khía cạnh tổ chức của quyền sở hữu và quá trình phát triển
Sự phân tán dữ liệu và chức năng về mặt địa lý
3.3 S iê u d ữ liệ u v ậ n d ụ n g
Trang 27Theo quan điểm kiến trúc kho đữ liệu, kho dữ liệu nghiệp vụ và kho thòng tin nghiệp vụ )à những thể hiện tương ứng về mặt logic (và thậm chí vột lý) cùa tầng dữ liệu tương thích và tầng dữ liệu dẫn xuất
4.1 D ữ liệu nghiệp vụ trong kho dữ liệu
Kiến trúc kho dữ liệu ba tầng: tầng đữ liệu thời gian thực, tương thích và dẫn xuất chỉ ờ mức khái niệm Khi chúng ta xây dựng kho đữ liệu ở mức vật lý, mỗi tầng này sẽ được thể hiện trên một tầng tương ứng Tuy nhiên, không một tẩng nào nằm trên cùng một vị trí vật ỉý, và tất cả được xây đựng theo một vài cách khác nhau
Trang 28K ho thông tin nghiệp vụ
Trang 29Hệ thống tác nghiệp là các ứng dụng được sử dụng để thực hiện còng việc và
dừ liệu chúng sử trụng trong các file, các cơ sờ dữ liệu là dữ liệu ỉhời gian thực Ngày nay những ứng dụng này tồn tại trong rất nhiều khuôn dạng và vị trí, và do vậy
bị phân tán và không đồng nhất Các ứng dụng mới tiếp tục được xây dựng, thậm chí không đồng nhất và phản tán hơn những ứng dụng trước, hiện nay đang được thực hiên trong nhiều môi trường client/server
Trong khi các dự án cỏng trình Ịại (reengineering project) cố gắng đơn giản hoá mòi trucms client/server để giảm bớt tính hỗn tạp thì có nhiều nhàn tố không cho phép thực hiộn điều này Xu hướng hưóĩig tới các hệ thống phân tán đẫn tới việc
đa dạng hoá công nghệ khi các ứng dụng mới hơn được xây đựng trên các nền tảng mới Sự độc lập của các bộ phận cũng như sự nhận thức về máy tính của người sử dụng ngày càng tăng làm giảm sự kiểm soát của bộ phận hệ thống thông tin trung tâm Nhu cầu phát triển các ứng đụng nhanh hcm cũng iàm giảm việc tiêu chuẩn hoá các hệ thống tác nghiệp Vi vậy rất khó có thể chỉ ra được bất kỳ mộc sự hợp lý hoá nào trong mõi trường vật lý, và trong một vài trường hợp tính đa đạng được phát triển
Các hệ thống tác nghiệp còn được xem giống như các hệ thống cũ, tuy nhiẻn chúng khác nhau ở một khía cạnh quan trọng Các hệ thống cũ thường chứa các chức năng báo cáo, chức năng này được sử đụng để quản lý nghiệp vụ chứ không thực hiện nó Các chức năng này thường chỉ là một phần nhỏ trong các ứng dụng cũ, nhưng phải được phân biệt với các chức nãng tác nghiệp thực sự VỊ trí chính xác của nó là ở trong tẩng dẫn xuất, và theo thời gian chúng sẽ được đặt ở đó
Vì các hệ thống tác nghiệp tương tác với nhau, dữ liệu được chuyển đi chuyển lại và được sửa đổi khi cần thiết* cần phải nhận biết rõ ràng và càng sớm càng tốt các nguồn dữ liệu "chính xác" của bất kỳ phần từ dữ liệu nào cần thiết trong kho lun trữ Lập mô Kình dữ liệu, đặc biệt phân tích lại các dữ liệu đã tồn tại trong phạm
vi của mô hình đữ liệu xí nghiệp (EDM) đóng vai trò chủ đạo tại đây
4 Ị Ỉ C á c hệ th o n g tác n g h iệp
Trang 30Qíc hệ ihống tác nghiệp là nỵuổn - và thực sự [à nguồn duy nhất của loàn bộ
dữ liệu trong kho lưu trữ Điểu nàv là hiển nhièn khi xem xéì các dữ liệu nội tại mô
tá các hoạt dộng hàng nsày cúa nshiệp vụ Dữ liệu này được tạo ra qua các hệ xừ lý siao dịch trong nghiệp vụ đó- Tuv nhiên, cần phát làm rõ khẳng định này khi giao dịch với đữ liệu bên ngoài, dữ liệu định kỳ, đữ liệu hiệu chỉnh, dữ liệu điểu chỉnh, dữ ỉiệu tái sử dụng và dữ liệu cá nhân Cảc loại dữ liệu này được đưa vào trong kho ỉưu trữ từ các hệ thống tác nghiệp hoặc các hệ thống tương tác với kho lưu trữ giống hệ thống tác nghiệp, được chỉ ra ờ những phđn kế tiếp
4.1,2 Kho dữ liệu nghiệp vụ (BDW )
Kho dữ liệu nghiệp vụ là sự rhể hiện mức vật lý của tầng đữ liệu tương thích
Do vậy, có các thuộc tính tương tượng lự tầng dữ liệu tương thích: chi tiết, lịch sừ, nhất quán, mỏ hình và chuẩn hoá
BDW được xây dựng trong mỏi trường quan h ệ hoàn toàn, bời vì môi trưòng này thể hiện được tốt nhất bản chất mô hình và lính chuẩn hoá v ề ỉý thuyết th ì BDVV có thể được phân tán Tuy nhiên, các quá trình tương thích đòi hỏi một khối lượng rất ỉớn dữ liệu phải đối sánh và liên kết, quá trình này rất phù hợp với các ứng dụng không phân tán Thêm vào đó, cơ sờ dữ liệu quan hệ và các mạng ngày nay h ổ trợ một cách giới hạn các quá trình xử lý phân tán hoằn toàn Vì vậy có thể dự đoán được tương lai tầng dữ liệu tưcmg thích sẽ tiếp tục được xây dựng theo mô hình tập trung
Các khía cạnh tổ chức cũng hướng BDW tới sự thực hiện tập trung Đó là vì BDW được dự định trở thành một điểm kiểm soát-nơi chất iượng và sự tích hợp của
dữ liệu được đảm bảo trước khi đưa cho người sử đụng cuối Điểm kiểm soát này có thể nằm trong phạm vi trách nhiệm của một bộ phận trong tổ chức, có thể ỉà trung tâm hệ thống thông tin, và do đó được quản lý đơn giản hơn rất nhiều
Sự bảo mật của BDW là một vấn đề rất quan trọng bờỉ nỏ chứa tất cả dữ liệu nghiệp vụ đưới dạng tích hợp Chì ríỗng sự an toàn về mặt vật lý cũng đảm bảo cho cách tiếp cận iưu trữ dữ liệu tập trung
Trang 31Cân cứ vào kích thước lớn của BDW-do BDW lưu trữ cả dữ tiỗu trong quá khứ nên chi một phần và thẠm chí là một phẩn rất nhỏ cùa nó, có thể trực tuyến về mặt vủt |Ý tại mọi thời điểm Phần còn lại sẽ tồn tại dưới dạng lưu trừ
BDW rất ít khi được nsườị dùng cuối sử đụng trực tiếp Đúng hơn nó là nguồn cùa toàn bộ dữ liệu trong kho íưu trữ thỏng tin nghiệp vụ Do vậy, những vấn để hiệu quà sử dụng của BDW liên quan đến phần đữ liệu ngoại tuyến rất lớn hay các quá trình xử lý theo lò của việc định cư kho dữ liệu từ hệ thống tác nghiệp hay thu thập
đữ liệu để tầng dẫn xuất sừ dụng,
4.1.3 Kho thông tin nghiệp vụ (BfW)
Kho thông tin nghiệp vụ là tên gọi chung cho bất kỳ hệ thống nào được sử dụng trong việc báo cáo, phân tích hoặc đự đoán nghiệp vụ Điều này bao gồm các báo cáo quản trị thông tin, hỗ trợ ra quyết định, các hệ thống thông tín điều hành cũng như các hệ thống phân tích thị trường, các ứng dụng khai phá dữ liệu_
Môi trường này được phân tán ờ mức cao, ngày nay chủ yếu thực hiện qua mô hình cỉienựserver và đựa trên trạm làm việc Trong khi môi trường này sẽ vẫn tiếp tục được phân tán ở mức cao, nó đổng nhất hơn tầng dữ liệu thời gian thực Hầu hết các BĨW đều tổn tại trong cơ sở cấu trúc kiểu quan hệ dựa trên các dòng và cột Nhũn2 môi trường kiểu quan hệ này bao gồm nhiều cơ sở dữ liệu quan hệ thực sự
cũng như các bảng tính và các cổng cụ phần tích đa chiều
Các BIW chứạ dữ liệu đẫn xuất được thiết kế để hỗ trợ các nhu cẫu nghiệp vụ cùa người đùng cuối, cho đù ờ mức cá nhân hay mức nhóm Chúng có thể chứa dữ liệu ở mức chi tiết hay tổng hợp, dữ liệu định kỳ trên một khoảng thời gian trong quá khứ hay các đữ liệu tại một thời điểm Cấu trúc các BIW được tối ưu hoá để trả lời các câu truy vấn trực tuyến, các truy vấn này có thể đặc biệt hoặc có thể dự đoán trước được
Các kho thông tin nghiệp vụ (BIW) được tạo ra một cách trực tiếp tờ BDW hoặc gián tiếp thông qua các BIW khác Nguồn trực tiếp từ BDW dựa trên mối quan
hệ giữa dữ liệu dẫn xuất vằ dữ liệu tương thích đã được định nghĩa bởi kiến trúc
quan niệm Nhu cầu để BIW có nguồn gốc từ các BIW khác là trên thực tế có rất
Trang 32nhiểu BỈW có nội đung tương tự nhau và sự dẫn xuất từ kho dữ liệu nshiệp vụ không phái lù cách sử dụng tốt nhất các tài nguyên tính toán Tuy nhiên, ưu điểm cùa việc các BIW có nguồn gốc từ các BÍW khác phải làm cân bằng với rủi ro do việc có thể tạo ra các dữ liệu suy diễn vòng quanh Điều này đản đến có hai loại kho thông tin nghiệp vụ: BIW nền- dược phép làm nguồn cho các BĨW khác, và BÍW người dùng- không được phép Các BIW nền yêu cầu sự quản iý đặc biệt (tương tự BDW) để đảm bào sự tương thích và tích hợp của dữ liệu lưu trữ ờ đó-
4.2 Kiến trúc Siêu dữ liệu trong kho dữ liệu
Rõ ràng siêu đữ liệu cẩn thiết trong cả ba tầng kiến trúc Tuy nhiên, không phải toàn bộ siêu dữ liệu đểu cần thiết cho mỗi tầna, và các thành phần siêu dữ liệu được mô tả có tầm quan trọng khác nhau trên các tầng khác nhau của dữ liệu nghiệp
Trang 34Kiến trúc ba tầng yéu cáu một cơ sờ chung là siêu dữ liệu trong giai đoạn xây dựng, chứa các định nghĩa của cả ba tẩng thể hiện các mối quan hệ giữa chúng Nó có thể
sử dụng các công cụ xíly dựng khác nhau trong các mòi trường khác nhau, và trong mỏi trường hợp, siêu đừ liệu định nghĩa sau đó phải được làm tương thích Nói chuna tốt hơn là nên sử dụng cùng một công cụ để xày dựng mò hình cho cá ba tầna
để tránh việc ánh xạ íại Thật đáng tiếc, vì các lý do lịch sử và kỹ thuật, siêu dữ liệu trong giai đoạn xảy dựng thường được định nghĩa bằns nhiều cách khác nhau, với các mức độ tích hợp khác nhau có thể có
Giống như sièu dữ liệu trong giai đoạn xày dựng, siêu dữ liêu kiểm soát và siêu
dữ liệu vận dụng cũng cần thiết cho cả ba tầng dữ liệu Nhưns nội dung thực sự cùa các siêu dữ liệu này được lưu trữ theo nhiều cách phụ thuộc vào nhu cầu của tìmg tầng dữ liệu
Vì kho dữ liệu nghiệp vụ chứa toàn bộ đữ liệu tương thích của tổ chức, nên cũng chứa hầu như toàn bộ siêu dữ liệu vận dụng và siêu dữ liệu kiểm soát, Kho dữ liệu nghiệp vụ ghi ỉại các siêu dữ ỉiệu hiện hành ờ mức chi tiết của lịch sử các bản ghi kho đữ liệu nghiệp vụ riêng lẻ, trong khi siêu đữ liệu hiện hành ở mức tổng hợp hon có thể dược !ưu trừ trong các thành phần sử dụng của siêu dữ liệu
Các tầng dữ liệu dẫn xuất và thời gian thực chỉ cần lưu trữ các siêu dữ liệu cần thiết Trong thuật ngữ logic, điều này được thể hiện là tổng của siêu dữ liệu kiểm soát và siêu đữ liệu vận dụng đối với các ứng dụng 0 mỗi mức Siêu dữ liệu có thể được chia nhỏ và phùn tán vể mặt vật lý trong các tầng dữ liệu này khi thích hợp Trong các BIW, khi dữ liệu mới được dẫn xuất bằng việc tập hợp hoặc liên kết các
dữ liệu chi tiết thì siêu dữ liệu vân dụng thích hợp cũng được lưu trữ để sử dụng
Thực tế ngày nay không rõ ràng, và có thể nói Siêu đữ liệu hầu như chỉ nắm bắt được một phần, và khi nó được nắm bắt thì dược ỉưu trữ ờ nhiều nơi khác nhau Trong khía cạnh này, siẻu dữ ỉiộu có thể so sánh với dữ liệu tác nghiệp Với sièu dữ liệu còn có vấn đề khác Sự bảo trì đữ liệu tác nghiệp khi nó thay đổi theo thời gian cực kỳ quan trọng khi thực hiện nghiệp vụ Mặt khác bảo trì siêu dữ liệu thì hầu như khổng tổn tại trong hầu hết các công ty, thậm chí trong những trường hợp khi nó
•• 3 3
Trang 35dược thu thập nỵay từ đáu Điều này là vì nghiệp vụ luòn iuòn sử dụng kí ức của người dùng để xác định ý nghĩa thực sự cùa dữ liệu
Như vậy, ý nghĩa nghiệp vụ được lập một phán trong cẩm nang người dùng và
tư liệu hệ thống, nhưng những thông tin này ỉuỏn luổn được bổ sung bởi kiến thức của người sử dụna thực sự hệ thống Dữ liệu và siêu dữ liệu ứng dụng được bảo trì một cách chính thức nhưng thường bị phân tán siữa tài liệu thiết kế, các chỉ mục hệ thống 2ÌCra các nguồn khác nhau
Cản trờ cho việc định cư các thành phẩn siêu dữ liệu vấn dụng trong kho ỉưu trữ là các siêu dữ liệu lưu trữ trong các công cụ khác nhau không tương thích với nhau Như vậy, tạp siêu dữ liệu đầu tiên hồ trợ cho việc thực hiện kho dữ liệu thường được xây dựng bằng cách sử dụng một cách tiếp cận khéo léo Tuy nhiên, những thoả hiệp này không làm giảm tầm quan trọng của siẻu dữ liệu trong kho dữ liệu hay làm giảm nhu cầu định nghĩa một cách tiếp cận chiến lược cho việc kết hợp siêu dữ liệu vào kiến trúc kho dữ liệu Cách tiếp cận này thường được gọi là chỉ mục kho dữ liệu
4.3 C h ỉ mục kho dữ liệu (catalog)
Là sự lưu trữ về mặt vật lý tất cả siêu dữ liệu vận dụng và một phần siêu dữ liệu kiểm soát, được phủn chia và phân tán giữa kho dữ liệu nghiệp vụ và các kho thông tin nghiệp vụ
III PHƯƠNG PHÁP XÂY ĐỰNG KHO D ử LIỆU
1 K ế hoạch cơ bản (The Basic plan)
Việc thiết kế kho dữ liệu nên khởi đầu bằng một kiến trúc sơ bộ xác định phạm
vi của dự án Các quá trình nghiệp vụ hoặc những đối tượng được chú ý phát triển cũng nên được xác định Một cách tiếp cận không khôn ngoan khi cố gắng phát triển đáp ứng “tất cả”, do vậy phải mát nhiều năm mới có thể hoàn thành Thực tế cho thấy đáy là lý do chính làm cho việc tạo đựng kho dữ liệu bị thất bại
Trang 36Việc xác định các quá trình nghiệp vụ nào sẽ dược dưa vào kho dữ liệu sẽ mang lại hiệu qùa và chúng chỉ ra khã năng truy cập sử dụng dữ liệu ờ các mức, mục tiêu được thực hiện trong thời gian thích hợp
Tiếp theo, ỉựa chọn các phạm vi nghiệp vụ hẹp hơn cho việc phát triển kho dữ Ịiệu cục bộ (Data Mart) Nhằm xây dựng một kế hoạch tổng thể, đảm bảo sự tích hợp, ghép nối các kho dữ liệu cục bộ thành một kho dữ liệu chung thống nhất
Cuối cùng, kế hoạch cơ bản cũna cần chỉ ra chu kỳ cập nhật dữ liệu của kho dữliệu
2 Q uan niệm ở mức doanh nghiệp (The E nterprise View)
Kho dữ liệu cung cấp thông tin cho việc tạo các quyết định chiến lược cửa doanh nghiệp Các tổ chức thường sử dụng kết hợp giữa kho đữ liệu và kho dữ liệu cục bộ (Data mart)
Trang 37Mô hình kiến trúc doanh nghiệp (E nterprise Model A rchitecture)
Mô hình kiến trúc đoanh nghiệp là mô hình dữ liệu bao gổm tát cả các thực thể của tổ chức Siêu dữ liệu được chia sẻ tới tất cả các phòng ban ỉrong tổ chức, sự tạo liên kết giữa các mò hình Có hai mỏ hình kiến ữúc cấp doanh nghiệp:
Hình số 10: Luồng dữ liẽu trong kho dữ tiêu
Dữ liệu được trích chọn từ nhiều nguồn dữ liệu, được chuyển đổi- nếu cần thiết, và được chuyển tải tói vị trí thích hợp trong kho lưu trữ dữ Uệu
Có các kiểu dữ ỉiệu khác nhau để tạo khả năng thực hiện kho dữ liệu dễ dàng
Dữ liệu thô (raw data) ià dữ iiệu mức thấp nhất được tải trong quá trình trích chọn, chuyển đổi và chuyển tải Dữ liệu ở mức tổng hợp (summary data) kết hợp tír các dữ liệu thô giúp thực hiện chức năng phân tích của kho dữ liệu Siêu <iữ ỉiộu (Meta data)
Trang 38thực hiện công việc ánh xạ đữ liệu từ nguồn tới mỏi trường cùa kho dữ liệu, chứa các thỏng tin chi tiết về dữ liệu
Các công cụ ỉruy cập (tool access) giúp sử dụng đữ liệu của kho dữ liệu phục
vụ công việc phàn tích, hỗ trợ ra quyết định và các câu hỏi truv vấn đữ liệu, tạo báo cáo
4 So sánh mô hình phát triển (Development Models Compared)
Development Models Compared
Traditional software development
• Waterfall approach
Requirementsspeci ¡cations
Analysis
Im plem entation
Unit testAcceptancetest
Hình số 11: Tiếp cân theo mồ hình thác nưức
4.1 M ô hình thác nước (W aterfall)
Sự thay đổi được thực hiện dần dần và có tác động ngay từ bước khởi tạo
Đòi hòi phải định nghĩa(xác định), tài liệu, và tính ổn định (frozen)
Mô hình này gập một số vấn đề:
Yêu cầu nghiệp vụ giữ nguyên trạng thái (tĩnh)
Sự ràng buổc về tính tỉ mỉ trong phân tích thiết kế làm thời gian kéo dài
Trang 39Có thể dòi hỏi thực hiện trong nhiểu năm
Phải tuỏn đàm bùo sự liên kết giữa yèu cầu hệ thống với người sự dụng
4.2 M ô hình xoắn trôn ốc (spiral).
Development Models Compared
Data warehouse development Analysis
Roll out
Requirements and specifications
Implementation
Acceptancetest
Hình số 12: Tiếp cân theo mô hình xoắn trốn ốc
Xác định yêu cầu nghiệp vụ
Khởi đầu bằng việc tạo lập hệ thống giả định
Đưa vào thử nghiệm để rút ra các khái niệm (eoncept)
Tập hợp các yêu cầu và ghi nhận rõ nhũng đặc điểm hi tiết
Chức nầng khởi tạo này được thực hiện trong một ngắn
ở mỗi vòng xoáy ốc tiếp theo, các chức năng mới được phát hiện, các chức năng đã được phát hiện ờ các vòng trước được điều chỉnh lại và cứ như vậy vòng xoáy ốc được tiếp tục
Trang 40Như một kho đữ liệu cục bộ được thực hiên, các chức nũng liên tục dược thực hiện lặp lại, hệ thống hỗ trợ ra quvết định được thực hiện nhanh chóng với các yêu cáu thườn2 xuyên thay đổi khác nhau,
Phương pháp tiếp cận này được xem như một sự khời đẩu tin cậy thực hiện kho
dữ liệu đáng trong một thời gian nsắn
Để thực hiện thành công phương pháp này:
Chúng ta phải có khả năng ghép nối với người dùng cẩn thiết về những ý định trình bày một cách rõ ràng, mạch lạc Tập trung vào nghiệp vụ họ cần chứ không tập trung vào vâh để công nghệ
Rõ ràng rằng các vòng iặp tiếp theo có tính chất quan trọng
Rút ra các vấn đề từ sự giao tiếp nghiệp vụ vói người sử dụng
Lượng hoá trước được các vấn để thách thức írong thiết kế
Mô hình hoá nghiệp vụ
43 Các pha trong phương phấp tiếp cận theo mỏ hình xoắn ốc
Pha I: Xác định chiến lược (Strategy)
Tỉm ra các yêu cầu nghiệp vụ, định nghĩa các đối tượng và xác định mục tiêu
Pha II: Định nghĩa (Definition)
Phạm vi và kế hoạch dự án
Pha III: P hàn tích (Analysis)
Các thông tin yêu cầu được định nghĩa
P ha IV : Thiết k ế (Design)
Thiết kế cấu Irúc cơ sở đữ liệu để thu nhản dữ liệu mức chi tiết và đữ iiệu mức tổng hợp
Pha V: Xày dựng và làm tài liệu (Build and document)
Kho dữ liệu và tài liệu được xây đựng