1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng kho dữ liệu (Data warehousing)

94 2K 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 94
Dung lượng 34,05 MB

Nội dung

Quá trình làm tương thích dữ liệu từ các tập đữ liệu khác nhau trong tầng thời gian thực đòi hỏi phải nắm bắt quan hệ giữa nhữna tập dữ liệu này và vai trò của chúng trong nghiệp vụ.. Do

Trang 2

Hình số 6 : Kiến trúc dữ liệu cho siêu dữ liệu

Hình số 7: Kiến trúc dữ iiệu ờ mức cao

Hình số 8: Kiến trúc siêu dữ liệu

Hình số 9: Quan niệm kho dữ liệu ờ mức doanh nghiệpHình số 10: Luồng đữ liệu trong kho dữ liệu

Hình số 11: Tiếp cận theo mô hình thác nước

Hình sô' 12: Tiếp cận theo mô hình xoắn trôn ốc

Hình sổ 13: Mổi trường vừa tập trung vừa phân tán

Hình số 14: Mô hình đữ liệu nhập xuất tồn

Hình số 15: Thuộc tính của bảng CUBNXT

Hình số ỉ 6: Kết quả của tiến trình sinh mã-GenerationHình sổ 17: Kết quả của tiến trình thực hiện — DeployHình số 18: Trang nhập hàng hoá (Sheet Nhap)

Hình số 19: Biểu đồ của trang nhập hàng hoá (Sheet Nhap) Hình số 20: Trang xuất hàng hoá (Sheet Xuat )

Hình số 21: Biểu đổ của trang xuất hàng hoá (Sheet Xuat) Hình số 22: Trang tồn hàng hoá (Sheet TON)

Hình số 23: Biểu đồ của trang tồn hằng hoá (Sheet TON)

M Ụ C L Ụ C

Trang 3

MỞ ĐẨU 5

PHẦN 1 C ơ SỞ XÂY DỤNG KHO DỮ L IỆ U 6

CHƯƠNG 1 G IỚ I TH IỆU CHUNG VỂ KHO DỮ LIỆU 6

1 Định nghĩa Kho đữ liệu — Data W arehouse 6

2 Đặc điểm dữ liệu trong kho dữ liệu 6

3 Nguvên lý cơ bẳn (Basic Elements) 8

4 Kho dữ liệu cục bộ - Đatamart 9

5 Hệ hỗ trợ quyết định (Decisions Support Systems-DSS) 10

6 Phân biệt Kho dữ liệu với những hệ cơ sờ dữ liệu tác nghiệp 11

7 Các yêu cầu chức năng kho đữ liệu (Desirable Warehouse Functionality) 12 Kết luận 13

CHƯƠNG 2 KIẾN TRÚC K H O DỮ L IỆ U 15

I M Ộ T SỐ KHÁI NIỆM C ơ B Ả N 15

1 Dữ iiệu nghiệp vụ 15

1.1 Dữ liệu thời gian thực (real-time đata) 15

1.2 Dữ liệu dãn xuất (derived data) 15

1.3 Dữ liệu tương thích (reconciled data) 15

2 Siêu dữ liệu (M etadata) 15

2.1 Siẻu dữ liệu trong giai đoạn xây đựng 16

2.2 Sìôu dữ liệu kiểm soát .', 7 16

2.3 Siêu dữ liệu vận dụ n g: 16

II KIẾN TRỦC D ữ LIỆU MỨC KHÁI NIỆM 17

1 Kiến trúc dữ liệu nghiệp vụ 17

2 Kiến trúc siêu đữ liệu 21

3 Quan hộ và nguén của siêu đữ liệ u 22

3.1 Siêu dữ liệu trong giai đoạn xây dựng 22

3.2 Siêu dữ ỉiệu kiểm soát . 23

3.3 Siêu dữ liệu vận d ụ n g 25

4 Kiến trức Logic Kho dữ liệ u 25

4.1 Dữ liệu nghiệp vụ trong kho dữ ỉiệu 26

4,2- Kiến trúc Siêu dữ liệu trong kho đữ liệu 31

4.3 Chỉ mục kho dữ liệu (catalog) 34

III PHƯƠNG PHÁP XAY DỤNG KHO DỮ L IỆ U 34

1 Kế hoạch cơ bản (The Basic pìan) 34

2 Quan niệm mức doanh nghiệp (The Enterprise View) 35

3 Luồng dữ liệu qua kho dữ liệu (Flow of Data Through the W arehouse) 3Ố 4 So sánh mô hình phát triển (Development Models Com pared) 37

4 1 Mô hình thác nước (W aterfall) 37

4.2 Mô hình xoắn trôn ốc (spiral) 38

4.3 Các pha trong phương pháp tiếp cận theo mô hình xoắn ốc 39

5 Các giai đoạn thiết kế kho dữ liệu (ĐW Database Design Phases) 40

Trang 4

5.1 Xác định mó hình nghiệp vụ (Defining the business model) 40

5.2 Xác định mò binh logic (Defininc the logical m odel) 40

5.3 Xác định mỏ hình Dimensnional (Defining the dimensional model) 40

5-4 Xác định mỏ hình vật lý (Defining the physical m odel) 40

K Ế T L U Ậ N 41

CHƯƠNG 3 T H IẾ T K Ế KHO DỮ L IỆ U 43

I XÁC ĐỊNH MÒ HÌNH NGHIỆP v ụ VÀ MÔ HÌNH LOGIC (DEFINING T H E BUSINESS AND LO G IC A L M O D E L S) 43

1 Xác định mô hình nghiệp v ụ 43

l.í Phản tích chiến lược (Strategic Analysis) 44

1.2 Tạo mô hình nghiệp vụ (Business models creation) 47

1.3 Tạo siêu dữ liệu 52

2 Xác định mô hình logic (Defining the Logical Models) 52

II TẠO MÔ HÌNH DIMENSIONAL (CREATING THE DIM ENSIONAL M O D E L ) 53

1 Giản đồ hình s a o 53

2 Các thành phần của giản đổ hình sao 53

3 Đặc điểm của giản đồ hình sa o 54

4 Vấn để đánh chỉ sỏ' (Index) 55

III TẠO MÔ HÌNH VẬT LÝ (CREATING TH E PHYSICAL MODEL) ’ 5 6 1 Kế hoạch thực hiện 57

2 Mỏi trường thực hiện (vừa tập trung vừa phản tán) 57

3 Lựa chọn hạ tầng 59

K Ế T LU Ậ N 1 60

PHẨN II: XÂY DỤNG KHO DỮ LIỆU THỬ N G H IỆ M 62

CHƯƠNG 4 G IỚ I TH IỆU CÔNG c ụ XẢY DỤNG KHO D ữ LIỆU (O RA C LE W AREHOUSE B U I L D E R ) 62

I KIẾN TRÚC VÀ KHẢ NĂNG CỦA SẢN PHẨM (PRODUCT A R C H ITEC TU R E AND CA PA BILITIES) 62

1 Thành phần thiết kế (The Design Component) 62

2 Thành phđn thực thi (The Runtime Component) 63

3 Các thành phần của Warehouse Builder 64

3.1 ứng dụng máy khách (Warehouse Builder Client Application) 64

3.2 Dịch vụ nền thực hiện Warehouse Builder (Runtime Platform Service) * 1 ! 65

3.3 Thành phần thiết kế Repository (WB Design Repository) 65

3.4 Repository WB thực thi (Warehouse Builder Runtime Repository) 65

3.5 Báo cáo kiểm toán (Audit Reporting Browser) 65

3.6 Báo cáo siêu dữ liệu (Metadata Reporting Browser) 66

4 Đối urựng trong WB (Warehouse Builder Objects) 66

5 WB thực hiện hệ thống dích (Warehouse Builder Deployment Targets) 66

Trang 5

II SO L ư ợ c QUÁ TRĨN H TẠO HỆ THỐNG N G H IỆP v ụ THÔNG MINH (O V ERV IEW O F CREATIN G A BUSINESS IN TELLIG EN CE

SY ST E M ) 66

1 Bước 1: Tạo Project {Creating a Project) 67

2 Bước 2: Khai báo các module nguồn và đích (Defining Source and Target M odules) 67

Khai báo nguồn (Defining Sources) , 67

3 Bước 3: Khai báo quá trình chuyển đổi và vận chuyển dữ liệu 68

4 Bước 4: Kiểm tra hợp lệ và sinh mã (Validating and Generating) 69

5 BướeS: Tạo và thực hiện (Deploying and Executing) 69

KẾT L U Ậ N .I Z 71

Kiến trúc và khả năng của sản phẩm 71

CHƯƠNG 5: XÂY DựSỈG KHO D ữ LIỆU TẠ I P E T R O L IM E X 72

1 Bài toán xây dựng kho dữ liệu tại Petrolimex 72

2 Lựa chọn phạm vi xây dựng kho dữ liệu thử nghiệm 73

3 Thiết kế và thực hiện kho đữ liệu thử nghiệm kho dữ liệu 75

4 Khai thác kho dữ liệu ! 82

4.! Trang nhập hàng hoá (Sheet-NHAP) 83

4.2 Trang xuất hằng hoá (Sheet-XƯAT) 85

4.3 Trang tổn hàng hoá (Sheet-TON) 87

KẾT L U Ậ N 1 89

TÀ I LIỆU THAM K H Ả O 92

Trang 6

M Ờ ĐẨUTrong những năm qua cùng với sự phát triển CNTT, các hệ thống thòng tin đă được phát triển mạnh cả vể số lượng, chất lương Đặc biệt trong một doanh nghiệp cùng tổn tại nhiều hệ thống thôna tin đa dạng và phong phú Các nhà lãnh đạo thì ỉuõn thiếu thông tin phục vụ điều hành, chưa kể đến có những thông tin sai lệch thậm chí mâu thuẫn về cùng một sự việc trong khi đang sờ hữu một khối lượng dữ liệu khổng lồ

Đến thời điểm hiện nay, phương pháp xây dựng kho đữ liệu (Data Warehousing) đã phát triển cả về lý thuyết cũng như thực tế Lý thuyết xây dựng kho dữ liệu đã được hình thành khá rõ nét, bên cạnh đó các nhà cung cấp phần mềm cũng đã đưa ra các công cụ để xây dựng, duy trì và phát triển kho dữ liệu, Một kho

đữ liệu sẽ giúp doanh nghiệp có khả năng quản iý dữ liệu, khai thác thống tin phục

vụ việc điều hành kính đoanh phù hợp hơn

Cũng như các doanh nghiệp khác, Petrolimex đang có một mạng lưới các ứng dụng nghiệp vụ cục bộ tại từng đơn vị thành viên Việc tập hợp và quản trị đữ liệu trên phạm vi toàn ngành để cung cấp thỏng tin cho "quá trình phản tích, hoạch định chiến lược, hỗ trợ ra quyết định" Irong mòi trường cạnh tranh và hội nhập là một thách thức lớn mà Petrolimex đang tìm hướng giải quyết Đề tài này nghiên cứu lý thuyết, nắm chắc phương pháp iuận và một còng cụ xây dựng kho dữ liệu cụ thể, tạo nền tảng triển khai xây đựng một kho dữ liệu thực tế-hướng giải quyết yêu cầu cùa bài toán nói trên,

Luận vãn bao gồm hai phần Phần í, trình bày cơ sở xây dựng kho dữ liệu, giới thiệu lý thuyết cơ bản về xây dựng Kho dữ liệu Phần n , trình bày nội dung xây dựng kho dữ liệu thử nghiệm, giới thiệu cồng cụ xây dựng kho dữ liệu Oracle Warehouse Builder và bài toán kho dữ liệu của Petrolimex

Tôi xin trân trọng cảm ơn sự hướng dản của Tiến sĩ Nguyễn Tuệ Cảm ơn các thầy cô giáo trong khoa Công nghệ, Viện CNTT, công ty Oracle Việt Nam và đồng nghiệp đă nhiệt tình giúp tôi thực hiện đề tài này

Trang 7

dữ liệu được thiết kế để hỗ trợ quản trị hê hỗ trợ quyết định".

2 Đ ặ c đ iể m d ữ liệ u tr o n g k h o d ữ liệ u

Theo định nghĩa của Bill Inmon Kho dữ liệu có 4 đặc tính cơ bản gồm: Hướng chủ đề (Subject-oriented), Tích hợp (Integrated), ít thay đổi (nonvalatile), Tính thời gian cụ th ể (Time-variant) Một số định nghĩa khác về Kho dữ liệu có bổ sung thêm tính chất Kho dữ liệu bao gồm cả dữ liệu chi tiết và dữ liệu tổng hợp

2.1 Hướng chủ dề (Subject-oriented)

Dữ liệu được tập hợp, phân iớp, lưu trữ và xử lý theo từng chủ để Các dữ liậu của mỗì chủ dề chính trong tổ chức được liên kết bởi các khoá đại diện và đưa vào cùng một vị trí, Ví dụ đữ liệu liên quan đến: khách hàng, sản phẩm, tài chính, bán hàng

2.2 Tích hợp (Integrated)

Trong một tổ chức có rất nhiều dữ liệu từ nhiều hệ thống khác nhau Việc hợp

nhất các dữ liêu này trờ thành một tập hợp dữ liệu có nghĩa cho việc phân tích ỉà rất

khó khăn Một trong các tính chất chính của Kho dữ liệu là hoằn thành quá trình hợp nhất hay tích hợp này

Cấu trúc dữ liệu theo một cách thức chung được chấp nhận mặc đù xuất phát từ rất nhiều cấu trúc dữ liệu nguồn khác nhau Dữ liệu tích hợp phải đảm bảo tính nhất quán, đôi khi chấp nhận tính dư thừa để tăng tính hiệu quả của các truy vấh

Trang 8

Dü ii6u trong Kho dir li6u la d& lieu chi doc

2.3 it thay ddi (nonvaiatile)

Operational

Load

Insert

UpdateDelete

Warehouse

■rfyRead

Hmh s6 1: tinh chät it thay d6i cüa dü lieu trong kho dü lieu

Dü lieu diroc tai (load) väo kho dir lieu o Idn däu ti£n dirdi dang ban sao tai mưt thdi di^m (snapshot) vä sau do thuưng xuy6n duoc lam tuoi (Refresh) Chu ky läm tiroi duoc xäc dinh tuy theo y£u cäu nghiSp vu, cư nhung kho d£r liSu dưi hưi duoc läm tircri häng ngäy trong khi cư nhiing kho dü li6u chi cän duoc läm urcfi häng thäng

Thưng tin trong Kho dü lieu duoc täi väo sau khi dur lieu trong hS thưng di£u hänh täc nghiep duoc xäc dinh Tinh it bi6n dưi th6 hiưn er chư: Du lieu duoc liru trü läu däi trong kho dir liưu, mac dü cư thäm dü li£u mcfi nhäp väo nhtmg dư li£u cư trong kho vän khưng bi xộ, dilu dư cho ph^p cung cäp thưng tin ve mưt khộng thưi gian däi, cung cäp dü so lieu cän thiư't cho cäc mư hinh nghiep vu phän tfch, dir bäo

2.4 Tinh thoi gian cu th^ (Time-variant)

Mưt kho chüa dü lidu bao häm mưt khư'i luong lưn dir lieu lieh sir Dü liSu duoc liru trü thänh mưt Ioat cäc bän sao(snapshort), mưi bän sao phän änh nhüng giä tri cüa dur li£u tai mưt thưi di&n nhä't dinh, th£ hien mưt khung nhin cüa mưt vüng chü d l trong mưt giai doan Do väy cho phep khưi phuc lai dü lieu lieh sir vä so sänh

Trang 9

mộí cách chính xác các giai đoạn khác nhau Yếu tố thời gian đóng vai trò như một phần cùa khoá để bảo đảm tính đơn nhất của mỗi hàng và cung cấp đặc trưng về thời gian cho dữ íiộu.

2.5 Dữ (iệu chi tiết và dữ ỉiệu tổng hợp

Dữ liệu chi tiết là thòng tin mức thấp nhất được lưu trữ trong Kho dữ ỉiệu Dữ liệu tác nghiệp là thông tin mức thấp nhất cho toàn xí nghiệp Dữ liệu tác nghiệp thuần tuý không được lưu trữ trong Kho dữ liệu Dữ liêu tổng hợp là dữ liệu được kết hợp từ dữ liệu chi tiết và lưu qua nhiều giai đoạn khác nhau

3 Nguyên lỷ CƯ bản (Basic Eỉements)

ỮJ50 W0ftfws*

«toitgtoM

• ĩìm*-voítoni

* Nonvùtohi«

Hình số 2: nguyên lý cơ bản của kho dữ liêu

Cơ sở d ữ liệu nguồn (Source Database): Một CSDL tác nghiệp, trung tâm đữ liệu, hệ thống sắn có, làm đầu vào cho vùng định cư dữ liệu

Vùng đ ịn h cư đữ liệu (D ata Staging A rea): Vùng lưu trữ dữ liệu bình thường, đữ liệu có thể ở dạng thô hoặc dạng tổng hợp Quá trình định cư sử đụng một số cổng cụ di trú (migration), công cụ làm sạch (clean), chuyển tải đữ liệu (transformation) Sau đó đữ liệu được sử dụng làm nguồn dữ liệu đẩu vào cho một hoặc nhiều kho dữ liệu

Trang 10

Đích (target): Nơi phát hiện, lưu trữ dừ liệu cho các truy vấn trực tiếp của người sử dụng cuối, tạo báo cáo và các ứn2 dụng khác khai thác kho dữ liệu hoặc kho dữ liệu cục bộ.

4 Kho đữ liệu cục bộ - Data m art

Kho dừ liệu cục bộ (Datamart) ià CSDL có những đậc điểm giống với Kho đữ liệu nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một chuyên nsành Các Datamart có thể được hình thành từ một tập con dữ liệu của kho dữ liệu hoăc cũng có thể được xây đựng độc lập và sau khi xây dựng xong, các Datamart có thể được kết nối tích hợp lại với nhau tạo thành kho dữ liệu Vì vậy có thể xây đựng kho dữ liệu bắt đầu bằng việc xây dựng các Datamart hay ngược lại xày dựng kho

dữ liệu trước sau đó tạo ra các Datamart

Datamarí là một kho dữ liệu thứ cấp các dữ liệu tích hợp của Kho dữ liệu Đatamart được hướng tới một phần của dữ liệu thường được gọi là một vùng chủ đề, được tạo ra đành cho một nhóm người sử đụng Dữ liệu trong Datamart cho thồng tin về một chủ đề xác định, không phải về toàn bộ các hoạt động nghiệp vụ đang diễn ra trong một tổ chức Thể hiện thường xuyên nhất cùa Datamart là một kho dữ liệu riêng rẽ theo phương diện vật lí, thường được lưu trữ trên một máy chủ riêng, trong một mạng cục bộ phục vụ cho một nhóm người nhất định Đôi khi Datamart kế? hợp một cách đơn giàn với công nghệ OLAP theo các quan hệ hình sao đặc biệt tạo ra những siêu khối (hypercube) đữ liệu cho việc phân tích của một nhóm người

có cùng mối quan tâm trên một phạm vi dữ liệu

Có thể chia ra làm 2 loại: Datamart độc lập và Daíamart phụ thuộc

Datamart phụ thuộc, chứa những dữ liệu được ỉấy từ Kho dữ liệu và những đữ liệu này sẽ được trích lọc và làm sạch, tích hợp ỉại ờ mức cao hơn để phục vụ một chủ đề nhất định của Datamart

Datamart độc lập: không giống như Datamart phụ thuộc, DM loại này được xây đựng trước DW và dữ liệu được trực tiếp lấy từ các nguồn Phương pháp này đem giản hơn và chi phí thấp hơn nhưng đổi lại có những điểm yếu Mỗi Kho dữ liệu độc

Trang 11

lập có cách tích hợp riêns, đo đó đữ liệu từ nhiều Datamart khó đồng nhất với nhau Datamart thể hiện hai vấn đề: thứ nhấc là lính ổn định trong các tinh huống từ một Data mart nhó ban đầu lớn ỉèn nhanh chóne cheo nhiều chiều và thứ hai là sự

lích hợp dữ liệu. Vì vậy khi thiết kế Datamart phải chú ý kĩ tớí tính ổn định của hệ thống, sự đồng nhất cua dữ liệu và vấn đề về khả năng quản lí

5 Hệ hỗ trợ quyết định (Decisions S upport Systems-DSS)

Decision Support System (D SS)

)

Profile o f D SS Q u e rie s

Hình số 3: Hê hỗ trơ ra quyết đinh

DSS cung cấp một hệ thống có khả nãng trợ giúp việc tạo ra các quyết định, mọi kho dữ liệu được thực hiện với các yêu cầu phương pháp lưu trữ, công cụ xừ lý

để người dùng cuối đễ đàng truy cập tới dữ liệu đã được hợp nhất từ nhiều nguồn khác nhau Tuỳ theo yêu cầu của nghiệp vụ, công cụ có thể đơn giản chỉ là công cụ lập báo cáo, cũng có thể phức tạp hơn Sau đây là các thành phần mở rộng của DSS:

Trang 12

Hệ tác nghiệp (ODS): là cư sờ dữ liệu cùa tlữ liệu diều hành, (iừ liệu có cấu trúc {định dạng-formatted) tĩnh Hệ tác nshiệp không như kho dữ íiồu, không có tính chát "ít biến đổi", chúng được naười dùna thay đổi cập nhật thường xuyên.

Kho dừ liệu (DW) tập hợp dữ liệu giúp quản lý quá trình ra quyết định

Hệ phân tích trực tuyến (Online analytical processing-OLAP) định nshĩa một cách lỏng ỉẻo (loosely) tập hợp các nguyên tố cơ bản (prineiples) nhằm cung cấp các khung nhìn cho việc hỗ trợ quyết định OLAP phồn tích dữ liệu nhằm chỉ ra định hướng nghiệp vụ, có tính chất tĩnh khỏng đòi hòi tính hiện thời như đữ liệu tác nghiệp

Khai phá đữ liệu (Data m ỉning - ĐM): là kỹ thuật khai phá ra các mẫu, tri thức mới chưa từng xuất hiện trước đó

Hình trẽn cho thấy mâu của một hệ hỗ trợ ra quyết định được phũn chia thành hai phần, phần ỉưu trữ (bao gồm ODS, DW) vằ phần phân tích (OLAP, DM)

6 Phàn biệt Kho dữ liệu với những hệ cư sở đữ liệu íác nghiệp

Có một số điểm khác biệt chính khi thiết kế hê thống tác nghiệp và khi thiết kế Kho đữ liệu, chúng ta phải quan tủm cách tiếp cận và tiến trình thực hiện:

Thiết kế Kho dữ liệu phải quan lâm tới vấn đề tối ưu hoá truy vấn dữ liệu, trong khi thiết kế hệ tác nghiệp quan tâm tới vấn đề tối ưu hoá thao tác dữ íiệu (insert, update, delete )

Tính phát triển của Kho đữ liệu, chúng ta không thể hoàn thành sự phát triển của Kho đữ liệu ngay khi thiết lập, mà quá trình phát triển của kho dữ liệu phải tính đến trong một thời gian dài Thường dẫn tới kết quả sử dụng cấu trúc dữ liệu động hơn là sử dụng cấu trúc dữ liệu tĩnh như hệ tác nghiệp

Kho đữ liệu Uru trữ dữ liệu lịch sử, dữ liệu cho từng đcm vị thời gian trong khi

hệ tác nghiệp xử lý các giao dịch hiện thời

Trang 13

7 C ác Yẻu cẩu chức năng kho d ừ ỉỉệ u (Desirable Warehouse Functionality).

Desirable W arehouse Functionality

Hình S Ố 4: Yêu cẩu chức nàng kho d ữ lieu

K h ả năng càn bằng (Scalable): Kho dữ liệu có khả năng lưu trữ và quản lý một số lượng khổng lổ các giao dịch và dữ liệu tổns hợp Kho dữ liệu có thể lớn lên theo thời gian, có thèm dữ liệu mới hoặc giữ lại dữ liệu lịch sử cho một thời gian đàì

mà không bị quá tai, vẫn đảm bảo tính ổn định hoạt động

K h ả năng quản trị (M anageable): Kho dữ ỉiệu có khả nãng quản trị viêc tao quyết định

K h ả nâng sẵn sàng (Available): Kho dữ liệu luôn sẵn sàng bất kỳ khi nàocần

K h ả nâng mở rộng (Extensible): Thực hiện một cách dễ dàng khi thêm các loại đữ liệu mới, dữ liệu kết hợp và dữ liệu tổng hợp vào kho đữ liệu

Design

d ãLoad 11 Data ị A ccess

Architecture

Tuning and optimization

Management and revision

OperationandmanagementCapacity planning and sizing

Trang 14

K hả nàng mém dẻo (Flexible): Hỗ trợ nhiều cách truy củp dữ liệu chi tiết, dữ liệu tone hợp theo phàn tích nhiểu chiều, khoan dữ liệu và truy vấn khôna xác định (analysis, drilldown, and true ad hoc querying)

K h ả năng tích hợp (Integrated): Kho đữ liệu phải có khả mìng tích hợp đẩy

đủ với các hệ thốníĩ sẩn có, môi trường tác nghiệp Do vậy, có thể tải (load) dữ liệu

Kết luận

Chương I giới thiêu chung về kho dữ liệu, bao gồm các nội dung:

Định nghĩa kho dữ liệu, giới thiệu một định nghĩa phổ biến về kho dữ liệu, định nghĩa của Bill Inmon: "Kho dữ liệu là tập hợp dữ liệu hướng chủ đề, mang tính tích hợp, ít thay đổi, và mổi đơn vị dữ liệu đểu gán với một khoảng thòi gian cụ thể Kho dữ liệu được thiết kế để hỗ trợ quản trị hệ hỗ trợ quyết định"

Bốn đặc tính cơ bản của kho dữ liệu Theo định nghĩa của Bill Inmon Kho dữ liệu có 4 đặc tính cơ bản gốm: Hướng chủ đê' (Subject-oriented), Tích hợp

(Integrated), ít thay đổi (nonvalatile), Tính thời gian cụ th ể (Time-variant) Một sốđịnh nghĩa khác vể Kho dữ liệu có bổ sung thêm tính chất Kho dữ ỉiệu bao gổm cả

dữ liệu chi tiết và dữ liệu tổng hợp

Nguyên lý cơ bản của Kho đữ liệu: Cơ sở dữ liệu nguổn (Source Database)-> Vùng định cư dữ liệu (Data Staging Area)-> Kho dữ liệu đích (target)

Kho đữ liệu cục bộ, xét theo khía cạnh tập hợp thì kho đữ liệu cục bộ là tập con của kho dữ liệu, dùng trung một lĩnh vực cụ thể Có thể xây đựng kho dữ liệu

Trang 15

cục bộ trước rồi hợp thành kho dư liệu chung hoặc ngược iại có thể xây dựng kho dữ liệu rrước rồi tổ chức khai thác sử dụng theo các kho dữ liệu cục bộ.

Hệ hỗ trợ ra quvết định có hai thành phần: I thành phán lưu trữ - storage: hệ tác nghiệp — ODS và kho dữ liệu-DW; 2 thành phán phàn tích — analytic: hệ phàn tích trực tuyến — OLAP, khai phá dữ liệu — DM

Phân biệt kho dữ liệu với hệ thống tác nghiệp: Thiết kế Kho dữ liệu phải quan tàm tới vấn đề tối ưu hoá truy vấn dữ liệu, trong khi thiết kế hệ tác nghiệp quan tâm tới vấn để tối ưu hoá thao tác dữ liệu (insert, update, delete ) Phân biệt vể tính chất

dữ liệu lịch sử của kho dữ liệu và tính chất dữ liệu của hệ tác nghiệp

Các yêu cầu chức năng kho đữ liệu phải đảm nhận: khả nãng cần bằng, quán trị, sẵn sàng, mở rộng, mềm dẻo, tích hợp» truy cập sử dụng, và khả năng tin cậy

Trang 16

hệ thống hỗ trợ quyết định.

Dữ liệu nghiệp vụ bao gồm dữ liêu cấu trúc và dữ liệu phi cấu trúc Dựa vào các tiêu chí sử dụng trong nghiệp vụ, phạm vi dữ liệu, tính chất đọc/ghi của dữ liệu, thời gian phát sinh dữ liệu người ta chia dữ liệu có cấu trúc ỉàm ba loại:

1.1 Dữ liệu thời gian thực (real-time data)

Dữ liệu chi tiết mới nhất được dùng để vận hành cỏng việc và được truy xuất theo chế độ đọc/ghi thông qua các giao dịch đã được xác định trước

1.2 Dữ liệu dần xuất (derived data)

Dữ liệu tại một thời điểm hoặc dữ liệu định kỳ, ờ mức chi tiết hoặc tổng hợp, thuộc chế độ chỉ đọc, nhận được từ việc xử lỷ dữ liệu thòi gian thực và dùng để quản

lý còng tác nghiệp vụ

1.3 Dữ liệu tương thích (reconciled data)

Được sinh ra trong quá trình xử lý tăng cường tính nhất quán bên trong của dữ liệu Đây là quá trình thực hiện trên dữ liệu thời gian thực ờ mức chi tiết Khía cạnh thứ hai của quá trình này là duy trì hoặc tạo ra một tập dữ liệu lịch sử Do đó có thể coi dữ liệu tương thích là một ỉoạí đặc biệt của dữ liệu dẫn xuất

2 Siêu dữ liệu (M etadata)

Siêu đữ liệu (Metadata ) là dữ liệu về dữ liệu, được sử đụng trong DW để mô tả cũng như sử dụng đữ liệu đảm bảo sử dụng triệt để và nhất quán dữ liệu nghiệp vụ

Trang 17

2 Ỉ Siêu dữ liệu trong giai đoạn xáy dựng

Là siêu dữ liệu được tạo ra trong quá trình thiết kế, xây đựng ứng dụng và cơ

sở dữ liệu Thông thưcmg, chứng được tạo ra và lưu trữ trong các mố hình đữ liệu và công cụ thiết kế ứng dụng (bộ công cụ CASE)

2.2 Siêu dữ liệu kiểm soát

Là siêu đữ liệu được sử dụng chủ động trong hoạt động của kho dữ liệu, trong

đó siêu đữ liệu hiện hành và siêu dữ ỉiệu sử đụng đóng vai trò quan trọng trong việc quản lý và xây đựng kho dữ liệu

Siêu dữ liệu hiện hành: mô tả thông tin chính xác về tính hiện thời hay vị trí của dữ liệu nghiệp vụ theo thời gian

Sièu đữ liệu sử đụng: gắn chặt vói vấn đề an ninh và các chức năng xác định thẩm quyển, kiểm soát việc truy cập tới kho dữ liệu Hơn nữa chúng cung cấp các phương tiện nhằm giám sát dữ liệu và các chức năng này được sử dụng trong kho dữ liệu như thế nào, và do đó xác định được giá trị của dữ liệu đối với người dụngcuối

2.3 Siêu dữ liệu vận dụng:

Là siêu dữ liệu quan trọng nhất đối với người sử đụng đữ liệu nghiệp vụ, đặc biệt trong môi trường thông tin Với chúng người đùng có thể đạt được những lợi ích trong nghiệp vụ và nâng cao hiệu quả cỏng việc

Trang 18

Siêu dữ liệu vận dụng có nguồn 200 vù nội dung tương tự siêu dữ liệu trong giai đoạn xảy dựng Sự khác biệt ờ chỗ siêu dừ liệu này được cấu trúc nhằm dảm bảo hiệu quả khả nans tìm kiếm của ncười sử đụn«.

II KIẾN TR Ú C D ữ LIỆU MỨC KHÁI NIỆM

1 Kiến trú c dữ liệu nghiệp vụ

Một trong các bước đầu tiên khi thiết kế Kho dữ liệu là xây dựng kiến trúc tổng thể và làm kiến trúc đó được chấp nhận một cách rộng rãi Thông thường, mục tiêu của hệ tác nghiệp là thực hiện các chức năng người sử đụng yêu cầu, và chúng

có phạm vi dừ liệu khá hẹp, nên việc thiết kế các hệ thống tác nghiập thường bắt đầu với kiến trúc ứng dụng Tuy nhiên, đối với kho dữ liệu tính hợp nhất dữ liệu quan trọng hơn, đo đó điểm khởi đầu trong kiến trúc kho dữ liệu phải là đữ ỉiệu tác nghiệp

Trang 19

Dữ liệu dẫn xuất

Hệ thốngthông tin

A

Dữ liệu tương thích

Hình số 5: Mô hình kiến trúc dữ liêu ba táng

Vổi md hình kiến trúc dữ liệu ba tầng: tiến trình từ dữ liệu thời gian thực tới dữ liệu dẫn xuất thông qua đữ liệu tương thích

Tương thích dữ liệu từ nhiều cơ sờ đữ liệu trong thời gian thực

Dẫn xuất dữ liệu do người sử đụng yêu cầu từ dữ liệu vừa được tương thích

Trong kiến trúc này tẩng dưới cùng là dữ liệu thời gian thực, tầng trên cùng là

dữ liệu đẫn xuất và tầng giữa íà tầng dữ liệu tương thích

Trang 20

Quá trình làm tương thích dữ liệu từ các tập đữ liệu khác nhau trong tầng thời gian thực đòi hỏi phải nắm bắt quan hệ giữa nhữna tập dữ liệu này và vai trò của chúng trong nghiệp vụ Trèn thực tế quá trình nắm bất này dược xác định qua tiến trình lập mò hình dữ liệu, thường được thực hiện ở mức doanh nghiệp hcm là ở mức ứng dụng riêng lẻ Mối quan hệ giữa tầng dữ liệu tương thích và mô hình đữ iiệu doanh nghiệp là yếu tô' quan trọng để hiểu được hoạt động của kiến trúc ba tầng

Mục đích của tầng dữ ỉiệu tương thích: Bước này ỉấy dữ liệu từ nhiều loại hê tác nghiệp khác nhau, hỗn tạp, phân tán về mặt địa ỉý, sau đó kết hợp và xử lý chúng

để trờ thành hình ảnh mô hình dữ liệu doanh nghiệp duy nhất và logic Chức năng của tầng này trờ thành nguồn duy nhất, chính xác cho mọi dữ liệu mà người dùng của hệ thống thông tin quản lý hay hệ hỗ trợ quyết định đòi hỏi Từ tầng này có thể dẫn xuất ra bất kỳ tổ hợp dữ liệu nào mà người dùng có thể đòi hỏi trong hiện tại hay tương lai

Trong tiến trình sao chép tới tầng dữ iiệu tương thích, các tập hợp dữ liệu trong tầng thời gian thực phải được làm tương thích với nhau bời yêu cầu làm sạch dữ liệu thời gian thực để loại bò những điểm không nhất quán và bất qui tắc trong dữ liệu Khống có đữ liệu mới được tạo ra trong bước này, giá trị được thêm vào tới từ chính tầng tương thích

Trong bước thứ hai, dữ liệu dẫn xuất mà người đùng đòi hòi để đáp ứng yêu ciỉu nghiệp vụ của mình có được bằng cách sử dụng nhiều tiến trình như kết hợp, biến đổi trên đữ liệu tương thích Bước này được định hướng bởi nhu cầu thông tin của ngưởì dùng đựa trên nguồn đữ liệu đuy nhất, đáng tin cậy Thông tín mới có giá trị với nghiệp vụ chỉ được tạo ra trong bước này

Người dùng cuối hiếm khi truy nhập trực tiếp tới tầng dữ liệu tương thích vì cấu trúc đã được lập mô hình và chuẩn hoá của tầng này nói chung không phù hợp với người dùng cuối Phần lớn các tiến trình hỗ trợ quyết định đòi hỏi dữ liệu được kết hợp từ nhiều thực thể khác nhau (hay các bảng đã chuẩn hoá) Tiến trình kết nối này là một trong những công việc không thuân ỉợi với người sử đụng, bời vì nó đòi hỏi một phương pháp hình thức để đảm bào tính hợp lệ Hơn nữa dữ liệu trong tầng

Trang 21

này bao trùm toàn bộ fổ chức và như vậy có phạm vị rộng hơn mà hầu hết người đùng đòi hỏi Những lý do nghiệp vụ này hạn chế việc sử dụng trực tiếp tầng dữ liệu tương thích cho các hệ thống thông tin quản lý Việc truy nhủp trực tiếp tới tầng dữ liệu tương thích chì hạn chế trong một số Iượna giới hạn nhố những người phân tích nghiệp vụ thông thạo kỹ thuật, cần xem nghiệp vụ một cách tổng thể Hầu hết người đùng cuối thoả mãn nhu cầu đữ liệu của mình qua tầng dẫn xuất.

Mối quan hệ giữa đữ liệu trong tầng tương thích và trong tầng dẫn xuất tương

tự vai trò của truy vấn đặc biệt (ad-hoc) và truy vấn đã xác định Tầng dữ liệu tương thích đáp ứng các truy vấn đặc biệt Tầng dẫn xuất đáp ứng cho các truy vấn đă xác định, có thể xem tầng đẫn xuất lưu trữ các kết quả của một tạp truy vấn đã xác định

Do đó, tầng dữ liệu đẫn xuất chứa tập dữ liệu được tối ưu hoá để thoả mãn nhu cẩu của các bộ phận, nhóm người đùng hay thậm chí những cá nhân riêng biệt, Bên trong mỗi tập hợp đữ liệu nhò và cấu trúc kém hình thức hơn, người đùng có thể thực hiên các báo cáo thường kỳ hay phát triển các truy vấn cần thiết

Một lý do cho sự thành công của việc tách dữ liệu tương thích khỏi đữ liệu dản xuấc là nhiều yẻti cầu thông tin quản lý đã được xác định trước và thường được lặp lại Lý do đơn giản này cũng làm giảm mạnh tàí nguyên tính toán cần thiết hổ trợ kho dữ liệu Các hoạt động tính toán hay phải iàm hoàn toàn được xác định như liên kết và tách dữ liệu tương thích- thường được thực hiện khi đi chuyển dữ liệu từ tầng tương thích tới tầng dữ liệu dẫn xuất trên cơ sở hàng ngày hơn là mỗi khi người dùng cuối truy vấn

Mô hình kiến trúc dữ liêu ba tầng không có tầng giữa (tầng dữ liệu tương thích) cho ta hình ảnh về kiến trúc đữ liệu hai tầng, tuy nhiên khi khồng có sự tham gia của tẩng tương thích thì kho dữ liệu cũng sẽ gặp một số vấn đề mà tầng dữ liệu tương thích đảm nhận Kiến trúc hai tầng thường thấy xuất hiện trong các tổ chức nhỏ hoặc trong các giai đoạn đầu của quá trình xây dụng một kho dữ liệu qui mô doanh nghiệp Tuy nhiên, nó có nhiều vấn đề liên quan đến kiểm soát và bảo trì dài hạn

Trang 22

2 !

Mò hình kiến trúc dữ liệu hai tầng khi khỏng có tầng dữ liệu dẫn xuất cho ta

mỏ hình kiến trúc dữ tiêu một táng Kiến trúc một táng sẽ gặp một số vấn đề mà tầng dẫn xuất đảm nhiệm Kiến trúc một tầng hiếm khi xuất hiện bời nó tạo ra xung độí khi nhiều người dùng cùng truy cập tới một dữ liệu

Kiến trúc ba tầng là tiếp cận mạnh nhất Nó được khuyến cáo trong khi nghiệp

vụ cần những đữ liệu trên qui mô toàn tổ chức Sức mạnh và sự thành công của kiến trúc ba tầng xuất phút từ sự nhận thức vai trò mấu chốt cùa mó hình dữ liệu doanh nghiệp và sự thực hiện vật lý tầng dữ ỉiệu tươna thích

2 Kiến trú c siêu dữ liệu

Tương tự dữ liệu nghiệp vụ, siêu đữ liệu cũng được kiến trúc hoá theo định nghĩa cùa siêu dữ liệu trong mục 1 Với dữ liệu nghiệp vụ, sự phản ỉoại rất phù hợp với kiến rrúc ba tầng Với siêu dữ liệu kiến trúc cũng gồm ba phần Tuy các phần không được phân tầng như chúng có quan hệ với nhau (hình vẽ), cho phép siêu dữ liệu thời gian thực cung cấp dữ liêu trực tiếp cho cả siêu dữ liệu kiểm soát lẫn siêu

Trang 23

Siẻu dữ iiộu trong giai đoạn xây dựng và siêu đữ liệu trong giai đoạn kiểm soát tồn tại trong nhiểu vị trí khác nhau, được tạo ra và quản lý thồng qua nhiều thành phần Thực sự, các xác định và sử đụng những siêu ứng dụng này trong các môi trường ngày nay ỉà không rõ ràng Mặt khác hiện nay, siêu dữ liệu vận dụng hỉếm khi được nhận thức rõ ràng, và bời vì người dùng cuối sử dụng nó ỉà chủ yếu nên siêu dữ liệu vận dụng là thành phần siêu đữ liệu quan trọng nhất trong kho dữ liệu.

3 Q uan hệ và nguồn của siêu d ữ liệu

Chúng ta có thể thấy rõ mối quan hệ giữa ba loại siẽu dữ liệu và tầm quan trọng của siêu đữ liệu vận đụng bằng cách xem xét vị trí của mỗi loại siêu dữ liệu và cách thức tạo ra chúng

3.1, Siêu dữ ỉiệu trong giai đoạn xây đựng.

Tất cả các cỏng cụ thu thập ý nghĩa, logic nghiệp vụ và biểu diễn những thông tin này một cách có ý nghĩa được sử đụng để tạo ra và quản lý siêu dữ liệu trong giai đoạn xây dựng, ví dụ như các công cụ lập mô hình dữ liệu và các công cụ CASE Siêu dữ liệu mức nghiệp vụ này được bổ sung các thông tin vể cấu trúc vật lý, sự ỉưu trữ và thời gian Siêu đữ liệu trong giai đoạn xày dựng được sỏ đụng trong quá trình phát triển ứng dụng

Nguổn của siêu đữ liêu trong giai đoạn xây đụng cho các hệ thống cũ đã thay đổi nhiều Các tư liệu về yêu cầu và thiết kế-nếu tổn tại là nguồn trên văn bản duy nhất của siêu dữ liệu ở mức nghiệp vụ ờ mức vật lý thì ngược lại, từ bản thiết kế cơ

sờ dữ liệu, file, và các ứng dụng phải tạo ra tư liệu thiết kế Trong những trường hợp

Trang 24

như vậy, mối quan hồ với ý nghĩa rmhiệp vụ cỏ thỏ phải điều chinh lại dựa trên cách

sù đụns hiện tại của hộ thống

Tạo quyền sở hữu siêu dữ liệu thực tế ià một vân đề đặc biệt Trong khi các chỉ dẫn và lưu đổ tổ chức tạo thành tư liệu cấu trúc tổ chức, mối liên kẽ( giữa cấu trúc nàv và dữ Iiệu-biểu diễn quyển sò' hữu-bị hạn chế ít tổ chức có tiến trình chính thức qua đó các bộ phận nghiệp vụ nắm lấy quyền sờ hừu dữ liệu Thưcmg quvền sờ hữu dược xác định trên úng dung hon là trên dữ liệu, Hcm nữa quyền sờ hữu dữ liêu ợ mức cá nhủn hiếm khi xuất hiận Chỉ giải quyết được các vấn đề về chất lượng dữ liệu một cách hiệu quả khi xác định được cả hai quyền sờ hữu-của tổ chức và của cá nhân đổng thời công ty phải kiểm soát được các tiến trình duy trì tính hợp lệ và quyền sờ hữu hiện tại của siêu đữ ỉiệu

Cấu trúc siêu dữ liệu trong giai đoạn xây dụng phản ánh nhu cẩu của người thiết kế, người phát triển ứng dụng và sờ đữ liệu, do đó không thích hợp sử dụng khi hộ thổng đưa vào hoạt động Người ta không sử đụng trực tiếp siôu dữ liệu này trong quá trình kiểm soát các hoạt động íhời gian thực của hệ thống vì các lí do hiệu quả và đo đó siêu dữ liệu trong giai đoạn xây dựng được sao chép vào môi trường hoạt động dưới dạng kiểm soát Cấu trúc cùa dữ liệu kiểm soát này được tối ưu cho hiệu quả trong thời gian hoạt đông

Tương tự, khả năng người dùng cuối sử đụng hiệu quả siêu đữ liệu trong giai đoạn xây dựng cũng hạn chế Sièu đữ liệu trong giai đoạn xây dựng và các công cụ CASE thao tác trên chúng được thiết kế để chuyẻn gia trong bộ phận thông tin - thường phải cập nhật siêu đữ liệu-sử dụng Người dùng cuối có kỹ năng khác nhau

và nhu cầu cập nhật siêu đữ liệu trong giai đoạn xây dựng được sao chép vào kho dữ liệu dưới dạng siêu dữ liệu vận dụng

3.2 Siêu dữ liệu kiểm soát

Trong kho dữ liệu mục đích cùa siêu dữ liệu kiểm soát là mỏ tả sự hiện hành

và cách sử đụng dữ liệu nghiệp vụ Nguồn của những siêu dữ liệu này không phải ià siêu đữ liệu trong giai đoạn xây dựng Với siêu đữ liệu hiên hành, nguồn là các ứng

Trang 25

dụng hay các công cụ tạo ra và cập nhật dữ liệu nghiệp vụ vể mặt vật lý Với siêu đữ liệu sừ dụng, nguồn ỉà các còng cụ mà qua đó người dùng cuối cộp nhật kho dữ íiệu.

Siêu đữ liệu hiện hành tổn tại ờ nhiều mức chi tiết, mức thấp nhất, thông tin hiện hành vể dữ iiệu được lưu ờ mức bảng hay file Trong trường hợp này, siêu dữ liệu mô tà sự hợp lệ về mặt thời gian của toàn bộ tập dữ liệu Theo thuật ngữ vật lý, mỗi bản ghi hay hàng trong file huy bảng có khoảng hợp iệ của chính nó Cuối cùng,

sự hợp lệ có thẻ được xác định ờ mức các trường riêng lẻ trong mồi bàn ghi Mức chí tiết này gần như không được quan tâm bởi vì nếu được thực hiện, khối lượng siêu dữ liệu sẽ vượt quá dữ liệu nghiệp vụ mà nó kiểm soát

ờ hai mức chi tiết file/bang và bản ghi/hàng cẩn có nhiều phương pháp khác nhau để lưu trữ siêu dữ liệu:

mức file/bảng, siêu đữ liệu hiện hành được lưu trữ trong các cấu trúc vật iý

cơ sở là các file hay các bảng Do đó nó phân biệt với dữ liệu nghiệp vụ Để người dùng cuối có thể truy cập tới, siêu đữ liệu này phải được sao chép vào siêu dữ ỉiệu vận dụng

ờ mức bản ghi/hàng, siêu dữ liệu hiện hành hầu hết được lưu trữ dưới dạng nhãn thòi gian Nó nằm cùng vị trí với dữ liệu nghiệp vụ mà nó mô tả, chứ không tách biệt như các kiểu siêu dữ liệu khác Do đó siêu dữ liệu hiện hành à mức bản ghi/hàng không được sao chép vào siêu dữ liệu cách sử dụng, nhưng được truy cập trực tiếp bởi những người sử dụng tuỳ từng tình huống Do đố người đùng cuối hiếm khi phân biệt siêu dữ liệu kiểm soát với dữ liệu nghiệp vụ

Ngày nay trong hẩu hết các mồi trường, siêu dữ liệu hiện hành hiếm khi được luu trữ theo bất hình thức nào Những người quản lý bộ phận thông tin nhận trách nhiệm đảm bảo rằng dữ liệu trong các hệ thống thồng tin quản lý được tạo đúng giò

và cho người dùng biết các vấn đề nảy sinh khi nào Môi trường kho dữ liệu yêu cầu cách tiếp cận một cách hình thức hơn để bảo trì siêu dữ liệu này, bởi VI số lương người dùng và sự phong phú của dữ liệu trong kho Nó đòi hỏi rằng các công cụ định cư và bảo trì kho dữ liêu phải tạo ra và bảo trì siêu dữ liệu môt cách tự đỏng

Trang 26

Tẩm quan trọng của siêu dữ liệu vận dụng chỉ được thừa nhận khi có sự bùng

nổ của kho đữ liệu, và sự đa dạng cũng như khối Iưạns dữ liệu mà nó cung cấp cho người sử dụng Loại siêu dữ liệu mới xuất hiện này có cả ưu và nhược điểm Ưu điểm là cấu trúc và sự lưu trữ vật iý có thể định nghía một cách phù hợp nhất với các yêu cầu của kho dữ liệu Tuy nhiên, đo mới xuất hiện nên có ít công cụ quản lý và

sử dung siêu dữ liệu vận dụng

Trong những giai đoạn đầu khi thực hiện kho dữ liệu, thiếu các công cụ hỗ trợ cho siêu dữ liệu vận dụng không phải ỉà một vấn đề nahiẻm trọng, bởi vì trong giai đoạn dầu này thường chứa số ỉượng hạn chể các loại dữ liệu Tuy nhiên, chắc chắn

sẽ cần tới các công cụ này khi khối lượng đữ liệu lớn và việc sử dụng kho dữ liệu được mở rộng trên toàn tổ chức

Kiến trúc khái nỉẻm dữ liệu nghiệp vụ ba tầng, cùng với kiến trúc siêu dữ liệu

hỗ trợ cho các yêu cầu quản lý dữ liệu của bộ phận hộ thống thông tin, cũng như các yêu cầu truy nhập dữ liệu của người dùng cuối

4 Kiến trúc Logic Kho dữ liệu

Các kiểu dữ liệu, khái niệm vể dữ liệu nghiệp vụ và các thành phần siêu dữ liệu cung cấp một lý thuyết cơ bản về kiến trúc kho dữ liệu Tiếp theo chúng ta sẽ nghiên cứu khái quát về kiến trúc logic cùa kho dữ liệu

Việc chuyển kiến trúc từ mức khái niệm sang mức logic bao gổm một số khíacạnh:

Sự ràng buộc do các công nghệ (trong thời kỳ hiện tại cùng dự đoán trong vài năm tới)

Các khía cạnh tổ chức của quyền sở hữu và quá trình phát triển

Sự phân tán dữ liệu và chức năng về mặt địa lý

3.3 S iê u d ữ liệ u v ậ n d ụ n g

Trang 27

Theo quan điểm kiến trúc kho đữ liệu, kho dữ liệu nghiệp vụ và kho thòng tin nghiệp vụ )à những thể hiện tương ứng về mặt logic (và thậm chí vột lý) cùa tầng dữ liệu tương thích và tầng dữ liệu dẫn xuất

4.1 D ữ liệu nghiệp vụ trong kho dữ liệu

Kiến trúc kho dữ liệu ba tầng: tầng đữ liệu thời gian thực, tương thích và dẫn xuất chỉ ờ mức khái niệm Khi chúng ta xây dựng kho đữ liệu mức vật lý, mỗi tầng này sẽ được thể hiện trên một tầng tương ứng Tuy nhiên, không một tẩng nào nằm trên cùng một vị trí vật ỉý, và tất cả được xây đựng theo một vài cách khác nhau

Trang 28

K ho thông tin nghiệp vụ

Trang 29

Hệ thống tác nghiệp là các ứng dụng được sử dụng để thực hiện còng việc và

dừ liệu chúng sử trụng trong các file, các cơ sờ dữ liệu là dữ liệu ỉhời gian thực Ngày nay những ứng dụng này tồn tại trong rất nhiều khuôn dạng và vị trí, và do vậy

bị phân tán và không đồng nhất Các ứng dụng mới tiếp tục được xây dựng, thậm chí không đồng nhất và phản tán hơn những ứng dụng trước, hiện nay đang được thực hiên trong nhiều môi trường client/server

Trong khi các dự án cỏng trình Ịại (reengineering project) cố gắng đơn giản hoá mòi trucms client/server để giảm bớt tính hỗn tạp thì có nhiều nhàn tố không cho phép thực hiộn điều này Xu hướng hưóĩig tới các hệ thống phân tán đẫn tới việc

đa dạng hoá công nghệ khi các ứng dụng mới hơn được xây đựng trên các nền tảng mới Sự độc lập của các bộ phận cũng như sự nhận thức về máy tính của người sử dụng ngày càng tăng làm giảm sự kiểm soát của bộ phận hệ thống thông tin trung tâm Nhu cầu phát triển các ứng đụng nhanh hcm cũng iàm giảm việc tiêu chuẩn hoá các hệ thống tác nghiệp Vi vậy rất khó có thể chỉ ra được bất kỳ mộc sự hợp lý hoá nào trong mõi trường vật lý, và trong một vài trường hợp tính đa đạng được phát triển

Các hệ thống tác nghiệp còn được xem giống như các hệ thống cũ, tuy nhiẻn chúng khác nhau ở một khía cạnh quan trọng Các hệ thống cũ thường chứa các chức năng báo cáo, chức năng này được sử đụng để quản lý nghiệp vụ chứ không thực hiện nó Các chức năng này thường chỉ là một phần nhỏ trong các ứng dụng cũ, nhưng phải được phân biệt với các chức nãng tác nghiệp thực sự VỊ trí chính xác của nó là ở trong tẩng dẫn xuất, và theo thời gian chúng sẽ được đặt ở đó

Vì các hệ thống tác nghiệp tương tác với nhau, dữ liệu được chuyển đi chuyển lại và được sửa đổi khi cần thiết* cần phải nhận biết rõ ràng và càng sớm càng tốt các nguồn dữ liệu "chính xác" của bất kỳ phần từ dữ liệu nào cần thiết trong kho lun trữ Lập mô Kình dữ liệu, đặc biệt phân tích lại các dữ liệu đã tồn tại trong phạm

vi của mô hình đữ liệu xí nghiệp (EDM) đóng vai trò chủ đạo tại đây

4 Ị Ỉ C á c hệ th o n g tác n g h iệp

Trang 30

Qíc hệ ihống tác nghiệp là nỵuổn - và thực sự [à nguồn duy nhất của loàn bộ

dữ liệu trong kho lưu trữ Điểu nàv là hiển nhièn khi xem xéì các dữ liệu nội tại mô

tá các hoạt dộng hàng nsày cúa nshiệp vụ Dữ liệu này được tạo ra qua các hệ xừ lý siao dịch trong nghiệp vụ đó- Tuv nhiên, cần phát làm rõ khẳng định này khi giao dịch với đữ liệu bên ngoài, dữ liệu định kỳ, đữ liệu hiệu chỉnh, dữ liệu điểu chỉnh, dữ ỉiệu tái sử dụng và dữ liệu cá nhân Cảc loại dữ liệu này được đưa vào trong kho ỉưu trữ từ các hệ thống tác nghiệp hoặc các hệ thống tương tác với kho lưu trữ giống hệ thống tác nghiệp, được chỉ ra những phđn kế tiếp

4.1,2 Kho dữ liệu nghiệp vụ (BDW )

Kho dữ liệu nghiệp vụ là sự rhể hiện mức vật lý của tầng đữ liệu tương thích

Do vậy, có các thuộc tính tương tượng lự tầng dữ liệu tương thích: chi tiết, lịch sừ, nhất quán, mỏ hình và chuẩn hoá

BDW được xây dựng trong mỏi trường quan h ệ hoàn toàn, bời vì môi trưòng này thể hiện được tốt nhất bản chất mô hình và lính chuẩn hoá v ề ỉý thuyết th ì BDVV có thể được phân tán Tuy nhiên, các quá trình tương thích đòi hỏi một khối lượng rất ỉớn dữ liệu phải đối sánh và liên kết, quá trình này rất phù hợp với các ứng dụng không phân tán Thêm vào đó, cơ sờ dữ liệu quan hệ và các mạng ngày nay h ổ trợ một cách giới hạn các quá trình xử lý phân tán hoằn toàn Vì vậy có thể dự đoán được tương lai tầng dữ liệu tưcmg thích sẽ tiếp tục được xây dựng theo mô hình tập trung

Các khía cạnh tổ chức cũng hướng BDW tới sự thực hiện tập trung Đó là vì BDW được dự định trở thành một điểm kiểm soát-nơi chất iượng và sự tích hợp của

dữ liệu được đảm bảo trước khi đưa cho người sử đụng cuối Điểm kiểm soát này có thể nằm trong phạm vi trách nhiệm của một bộ phận trong tổ chức, có thể ỉà trung tâm hệ thống thông tin, và do đó được quản lý đơn giản hơn rất nhiều

Sự bảo mật của BDW là một vấn đề rất quan trọng bờỉ nỏ chứa tất cả dữ liệu nghiệp vụ đưới dạng tích hợp Chì ríỗng sự an toàn về mặt vật lý cũng đảm bảo cho cách tiếp cận iưu trữ dữ liệu tập trung

Trang 31

Cân cứ vào kích thước lớn của BDW-do BDW lưu trữ cả dữ tiỗu trong quá khứ nên chi một phần và thẠm chí là một phẩn rất nhỏ cùa nó, có thể trực tuyến về mặt vủt |Ý tại mọi thời điểm Phần còn lại sẽ tồn tại dưới dạng lưu trừ

BDW rất ít khi được nsườị dùng cuối sử đụng trực tiếp Đúng hơn nó là nguồn cùa toàn bộ dữ liệu trong kho íưu trữ thỏng tin nghiệp vụ Do vậy, những vấn để hiệu quà sử dụng của BDW liên quan đến phần đữ liệu ngoại tuyến rất lớn hay các quá trình xử lý theo lò của việc định cư kho dữ liệu từ hệ thống tác nghiệp hay thu thập

đữ liệu để tầng dẫn xuất sừ dụng,

4.1.3 Kho thông tin nghiệp vụ (BfW)

Kho thông tin nghiệp vụ là tên gọi chung cho bất kỳ hệ thống nào được sử dụng trong việc báo cáo, phân tích hoặc đự đoán nghiệp vụ Điều này bao gồm các báo cáo quản trị thông tin, hỗ trợ ra quyết định, các hệ thống thông tín điều hành cũng như các hệ thống phân tích thị trường, các ứng dụng khai phá dữ liệu_

Môi trường này được phân tán ờ mức cao, ngày nay chủ yếu thực hiện qua mô hình cỉienựserver và đựa trên trạm làm việc Trong khi môi trường này sẽ vẫn tiếp tục được phân tán ở mức cao, nó đổng nhất hơn tầng dữ liệu thời gian thực Hầu hết các BĨW đều tổn tại trong cơ sở cấu trúc kiểu quan hệ dựa trên các dòng và cột Nhũn2 môi trường kiểu quan hệ này bao gồm nhiều cơ sở dữ liệu quan hệ thực sự

cũng như các bảng tính và các cổng cụ phần tích đa chiều

Các BIW chứạ dữ liệu đẫn xuất được thiết kế để hỗ trợ các nhu cẫu nghiệp vụ cùa người đùng cuối, cho đù ờ mức cá nhân hay mức nhóm Chúng có thể chứa dữ liệu ở mức chi tiết hay tổng hợp, dữ liệu định kỳ trên một khoảng thời gian trong quá khứ hay các đữ liệu tại một thời điểm Cấu trúc các BIW được tối ưu hoá để trả lời các câu truy vấn trực tuyến, các truy vấn này có thể đặc biệt hoặc có thể dự đoán trước được

Các kho thông tin nghiệp vụ (BIW) được tạo ra một cách trực tiếp tờ BDW hoặc gián tiếp thông qua các BIW khác Nguồn trực tiếp từ BDW dựa trên mối quan

hệ giữa dữ liệu dẫn xuất vằ dữ liệu tương thích đã được định nghĩa bởi kiến trúc

quan niệm Nhu cầu để BIW có nguồn gốc từ các BIW khác là trên thực tế có rất

Trang 32

nhiểu BỈW có nội đung tương tự nhau và sự dẫn xuất từ kho dữ liệu nshiệp vụ không phái lù cách sử dụng tốt nhất các tài nguyên tính toán Tuy nhiên, ưu điểm cùa việc các BIW có nguồn gốc từ các BÍW khác phải làm cân bằng với rủi ro do việc có thể tạo ra các dữ liệu suy diễn vòng quanh Điều này đản đến có hai loại kho thông tin nghiệp vụ: BIW nền- dược phép làm nguồn cho các BĨW khác, và BÍW người dùng- không được phép Các BIW nền yêu cầu sự quản iý đặc biệt (tương tự BDW) để đảm bào sự tương thích và tích hợp của dữ liệu lưu trữ ờ đó-

4.2 Kiến trúc Siêu dữ liệu trong kho dữ liệu

Rõ ràng siêu đữ liệu cẩn thiết trong cả ba tầng kiến trúc Tuy nhiên, không phải toàn bộ siêu dữ liệu đểu cần thiết cho mỗi tầna, và các thành phần siêu dữ liệu được mô tả có tầm quan trọng khác nhau trên các tầng khác nhau của dữ liệu nghiệp

Trang 34

Kiến trúc ba tầng yéu cáu một cơ sờ chung là siêu dữ liệu trong giai đoạn xây dựng, chứa các định nghĩa của cả ba tẩng thể hiện các mối quan hệ giữa chúng Nó có thể

sử dụng các công cụ xíly dựng khác nhau trong các mòi trường khác nhau, và trong mỏi trường hợp, siêu đừ liệu định nghĩa sau đó phải được làm tương thích Nói chuna tốt hơn là nên sử dụng cùng một công cụ để xày dựng mò hình cho cá ba tầna

để tránh việc ánh xạ íại Thật đáng tiếc, vì các lý do lịch sử và kỹ thuật, siêu dữ liệu trong giai đoạn xảy dựng thường được định nghĩa bằns nhiều cách khác nhau, với các mức độ tích hợp khác nhau có thể có

Giống như sièu dữ liệu trong giai đoạn xày dựng, siêu dữ liêu kiểm soát và siêu

dữ liệu vận dụng cũng cần thiết cho cả ba tầng dữ liệu Nhưns nội dung thực sự cùa các siêu dữ liệu này được lưu trữ theo nhiều cách phụ thuộc vào nhu cầu của tìmg tầng dữ liệu

Vì kho dữ liệu nghiệp vụ chứa toàn bộ đữ liệu tương thích của tổ chức, nên cũng chứa hầu như toàn bộ siêu dữ liệu vận dụng và siêu dữ liệu kiểm soát, Kho dữ liệu nghiệp vụ ghi ỉại các siêu dữ ỉiệu hiện hành ờ mức chi tiết của lịch sử các bản ghi kho đữ liệu nghiệp vụ riêng lẻ, trong khi siêu đữ liệu hiện hành ở mức tổng hợp hon có thể dược !ưu trừ trong các thành phần sử dụng của siêu dữ liệu

Các tầng dữ liệu dẫn xuất và thời gian thực chỉ cần lưu trữ các siêu dữ liệu cần thiết Trong thuật ngữ logic, điều này được thể hiện là tổng của siêu dữ liệu kiểm soát và siêu đữ liệu vận dụng đối với các ứng dụng 0 mỗi mức Siêu dữ liệu có thể được chia nhỏ và phùn tán vể mặt vật lý trong các tầng dữ liệu này khi thích hợp Trong các BIW, khi dữ liệu mới được dẫn xuất bằng việc tập hợp hoặc liên kết các

dữ liệu chi tiết thì siêu dữ liệu vân dụng thích hợp cũng được lưu trữ để sử dụng

Thực tế ngày nay không rõ ràng, và có thể nói Siêu đữ liệu hầu như chỉ nắm bắt được một phần, và khi nó được nắm bắt thì dược ỉưu trữ ờ nhiều nơi khác nhau Trong khía cạnh này, siẻu dữ ỉiộu có thể so sánh với dữ liệu tác nghiệp Với sièu dữ liệu còn có vấn đề khác Sự bảo trì đữ liệu tác nghiệp khi nó thay đổi theo thời gian cực kỳ quan trọng khi thực hiện nghiệp vụ Mặt khác bảo trì siêu dữ liệu thì hầu như khổng tổn tại trong hầu hết các công ty, thậm chí trong những trường hợp khi nó

•• 3 3

Trang 35

dược thu thập nỵay từ đáu Điều này là vì nghiệp vụ luòn iuòn sử dụng kí ức của người dùng để xác định ý nghĩa thực sự cùa dữ liệu

Như vậy, ý nghĩa nghiệp vụ được lập một phán trong cẩm nang người dùng và

tư liệu hệ thống, nhưng những thông tin này ỉuỏn luổn được bổ sung bởi kiến thức của người sử dụna thực sự hệ thống Dữ liệu và siêu dữ liệu ứng dụng được bảo trì một cách chính thức nhưng thường bị phân tán siữa tài liệu thiết kế, các chỉ mục hệ thống 2ÌCra các nguồn khác nhau

Cản trờ cho việc định cư các thành phẩn siêu dữ liệu vấn dụng trong kho ỉưu trữ là các siêu dữ liệu lưu trữ trong các công cụ khác nhau không tương thích với nhau Như vậy, tạp siêu dữ liệu đầu tiên hồ trợ cho việc thực hiện kho dữ liệu thường được xây dựng bằng cách sử dụng một cách tiếp cận khéo léo Tuy nhiên, những thoả hiệp này không làm giảm tầm quan trọng của siẻu dữ liệu trong kho dữ liệu hay làm giảm nhu cầu định nghĩa một cách tiếp cận chiến lược cho việc kết hợp siêu dữ liệu vào kiến trúc kho dữ liệu Cách tiếp cận này thường được gọi là chỉ mục kho dữ liệu

4.3 C h ỉ mục kho dữ liệu (catalog)

Là sự lưu trữ về mặt vật lý tất cả siêu dữ liệu vận dụng và một phần siêu dữ liệu kiểm soát, được phủn chia và phân tán giữa kho dữ liệu nghiệp vụ và các kho thông tin nghiệp vụ

III PHƯƠNG PHÁP XÂY ĐỰNG KHO D ử LIỆU

1 K ế hoạch cơ bản (The Basic plan)

Việc thiết kế kho dữ liệu nên khởi đầu bằng một kiến trúc sơ bộ xác định phạm

vi của dự án Các quá trình nghiệp vụ hoặc những đối tượng được chú ý phát triển cũng nên được xác định Một cách tiếp cận không khôn ngoan khi cố gắng phát triển đáp ứng “tất cả”, do vậy phải mát nhiều năm mới có thể hoàn thành Thực tế cho thấy đáy là lý do chính làm cho việc tạo đựng kho dữ liệu bị thất bại

Trang 36

Việc xác định các quá trình nghiệp vụ nào sẽ dược dưa vào kho dữ liệu sẽ mang lại hiệu qùa và chúng chỉ ra khã năng truy cập sử dụng dữ liệu ờ các mức, mục tiêu được thực hiện trong thời gian thích hợp

Tiếp theo, ỉựa chọn các phạm vi nghiệp vụ hẹp hơn cho việc phát triển kho dữ Ịiệu cục bộ (Data Mart) Nhằm xây dựng một kế hoạch tổng thể, đảm bảo sự tích hợp, ghép nối các kho dữ liệu cục bộ thành một kho dữ liệu chung thống nhất

Cuối cùng, kế hoạch cơ bản cũna cần chỉ ra chu kỳ cập nhật dữ liệu của kho dữliệu

2 Q uan niệm ở mức doanh nghiệp (The E nterprise View)

Kho dữ liệu cung cấp thông tin cho việc tạo các quyết định chiến lược cửa doanh nghiệp Các tổ chức thường sử dụng kết hợp giữa kho đữ liệu và kho dữ liệu cục bộ (Data mart)

Trang 37

Mô hình kiến trúc doanh nghiệp (E nterprise Model A rchitecture)

Mô hình kiến trúc đoanh nghiệp là mô hình dữ liệu bao gổm tát cả các thực thể của tổ chức Siêu dữ liệu được chia sẻ tới tất cả các phòng ban ỉrong tổ chức, sự tạo liên kết giữa các mò hình Có hai mỏ hình kiến ữúc cấp doanh nghiệp:

Hình số 10: Luồng dữ liẽu trong kho dữ tiêu

Dữ liệu được trích chọn từ nhiều nguồn dữ liệu, được chuyển đổi- nếu cần thiết, và được chuyển tải tói vị trí thích hợp trong kho lưu trữ dữ Uệu

Có các kiểu dữ ỉiệu khác nhau để tạo khả năng thực hiện kho dữ liệu dễ dàng

Dữ liệu thô (raw data) ià dữ iiệu mức thấp nhất được tải trong quá trình trích chọn, chuyển đổi và chuyển tải Dữ liệu ở mức tổng hợp (summary data) kết hợp tír các dữ liệu thô giúp thực hiện chức năng phân tích của kho dữ liệu Siêu <iữ ỉiộu (Meta data)

Trang 38

thực hiện công việc ánh xạ đữ liệu từ nguồn tới mỏi trường cùa kho dữ liệu, chứa các thỏng tin chi tiết về dữ liệu

Các công cụ ỉruy cập (tool access) giúp sử dụng đữ liệu của kho dữ liệu phục

vụ công việc phàn tích, hỗ trợ ra quyết định và các câu hỏi truv vấn đữ liệu, tạo báo cáo

4 So sánh mô hình phát triển (Development Models Compared)

Development Models Compared

Traditional software development

• Waterfall approach

Requirementsspeci ¡cations

Analysis

Im plem entation

Unit testAcceptancetest

Hình số 11: Tiếp cân theo mồ hình thác nưức

4.1 M ô hình thác nước (W aterfall)

Sự thay đổi được thực hiện dần dần và có tác động ngay từ bước khởi tạo

Đòi hòi phải định nghĩa(xác định), tài liệu, và tính ổn định (frozen)

Mô hình này gập một số vấn đề:

Yêu cầu nghiệp vụ giữ nguyên trạng thái (tĩnh)

Sự ràng buổc về tính tỉ mỉ trong phân tích thiết kế làm thời gian kéo dài

Trang 39

Có thể dòi hỏi thực hiện trong nhiểu năm

Phải tuỏn đàm bùo sự liên kết giữa yèu cầu hệ thống với người sự dụng

4.2 M ô hình xoắn trôn ốc (spiral).

Development Models Compared

Data warehouse development Analysis

Roll out

Requirements and specifications

Implementation

Acceptancetest

Hình số 12: Tiếp cân theo mô hình xoắn trốn ốc

Xác định yêu cầu nghiệp vụ

Khởi đầu bằng việc tạo lập hệ thống giả định

Đưa vào thử nghiệm để rút ra các khái niệm (eoncept)

Tập hợp các yêu cầu và ghi nhận rõ nhũng đặc điểm hi tiết

Chức nầng khởi tạo này được thực hiện trong một ngắn

ở mỗi vòng xoáy ốc tiếp theo, các chức năng mới được phát hiện, các chức năng đã được phát hiện ờ các vòng trước được điều chỉnh lại và cứ như vậy vòng xoáy ốc được tiếp tục

Trang 40

Như một kho đữ liệu cục bộ được thực hiên, các chức nũng liên tục dược thực hiện lặp lại, hệ thống hỗ trợ ra quvết định được thực hiện nhanh chóng với các yêu cáu thườn2 xuyên thay đổi khác nhau,

Phương pháp tiếp cận này được xem như một sự khời đẩu tin cậy thực hiện kho

dữ liệu đáng trong một thời gian nsắn

Để thực hiện thành công phương pháp này:

Chúng ta phải có khả năng ghép nối với người dùng cẩn thiết về những ý định trình bày một cách rõ ràng, mạch lạc Tập trung vào nghiệp vụ họ cần chứ không tập trung vào vâh để công nghệ

Rõ ràng rằng các vòng iặp tiếp theo có tính chất quan trọng

Rút ra các vấn đề từ sự giao tiếp nghiệp vụ vói người sử dụng

Lượng hoá trước được các vấn để thách thức írong thiết kế

Mô hình hoá nghiệp vụ

43 Các pha trong phương phấp tiếp cận theo mỏ hình xoắn ốc

Pha I: Xác định chiến lược (Strategy)

Tỉm ra các yêu cầu nghiệp vụ, định nghĩa các đối tượng và xác định mục tiêu

Pha II: Định nghĩa (Definition)

Phạm vi và kế hoạch dự án

Pha III: P hàn tích (Analysis)

Các thông tin yêu cầu được định nghĩa

P ha IV : Thiết k ế (Design)

Thiết kế cấu Irúc cơ sở đữ liệu để thu nhản dữ liệu mức chi tiết và đữ iiệu mức tổng hợp

Pha V: Xày dựng và làm tài liệu (Build and document)

Kho dữ liệu và tài liệu được xây đựng

Ngày đăng: 25/03/2015, 10:34

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w