CHƯƠNG 3: THIÊT KẾ KHO DỮ LIỆU sử DỤNG CƠNG NGHỆ ORACLE DATAVVAREHOUSE
3.1. CẤC PHA TRONG QUẢ TRÌNH TllIẾT KẾ DW ll
Các nhiệm vụ trong quá trình thiết kế được chia thành 4 pha như sau: - Pha 1: Đinh nghĩa mị hình kinh doanh (mị hình khái niệm). Một sự
phân tích ở mức chiến lược dược thực hiện nhảm xác định các quá Irình kinh doanh xáy ra trong dounh níìhiệp và sẽ dược phàn ánh trong DW. Các yêu cầu về phàn tích nghiệp vụ dược đưa ra và nghiên cứu, các quá trình được xác định về độ do và chiều hướng phát triển và được xác định trong lài liệu.
- Pha 2: Định nghĩa mỏ hình ỈOiĩic: xác định mơ hình dữ- liệu dưới dạng cĩổ thị kỹ thuật chuyên sâu, trong dĩ thế hiện các định nghĩa, dặc tính vù quan hệ giữa các loại số liệu trong mơi trường kinh doanh- kỹ thuật ờ mức khái niệm. Mục đích của pha này là mơ tả dữ liệu của người dùng cuối và đội ngủ những người dùng. Pha này sẽ tạo ra các bàng thoa mãn tiêu chuấn 3NF.
- Pha 3: Định nghĩa Dimensional model: mõ hình kinh doanh dược chuyến đổi sang mỏ hình chiều. Các bán lĩ biểu diễn sơ đổ của DWH và các thành phần của báng (.tược định ntĩhĩa, quan hệ giữa sơ dồ của các báng dược thiết lập. Các cơ sớ dế thiết lập dữ liệu cho DVV dược ghi lại.
- Pha 4 :Định nsíhĩa mơ hình vát lý: mơ hình chiều được chuyển sang inố hình vật lý. Pha này bao gồm việc xác định và shi ra lài liệu các 1'brmai dữ liệu, kích ihước CSDL dược dự trù. Các chiến lược phân vùng hệ ihốriiĩ, intlex dữ liệu và lổ chức lưu (lữ sị’ liệu được xác (lịnh troiiíi pha nìiv.
Vè mật lý thuyci, Ihiốt kế là mội cơng việc hết sức phức tạp, yêu cấu cĩ kinh nghiệm và sự hiếu biếl dc vượi qua các thách thức. Đĩ là:
- Tập hựp đầy (lỉt yêu cầu và những thơng tin về hệ thống, cán cĩ liên kếi chậl chẽ giữa người cung cấp thịng Ún và người thiết kế. Bán thiếi kế phái dẩy dù độ mém dẻo dế đáp ứng những yéu CÀU ỉhay đổi trong quá Irình thực hiện cũng như don g thời gian bao lrì. Một loạt khĩ khàn trong quá trình thiết kế dã dược thống kê như sau:
- Cán cĩ dược bủn trá lời các càu hỏi đúng thời gian - Kiếm sốt dược khối lượng dữ liệu
- Kiếm sốt và điểu khiến dược các chi phí thiết kế - Kiếm sốt dược các giao diện và cơng cụ
- Kiểm sốt hiệu qua của các quá trình thực thi trong thời gian dài - Dự phịng và cĩ phương án phục hổi với một khối lượng lớn dữ liệu
cĩ nhu cầu thường xuyên khai thác
Sau đay chung ta sẽ xem xét chi tiết các pha irong quá trình thiết kế.
3.1.1. P h a 1 và 2: Xây dựng mỏ hình ki nh d o a n h và mồ hìn h logic
Pha ỉ : X'ây dựng mơ hình kinh doanh
Trong pha này cần thực hiện ít nhất 3 nhiệm vụ. Đĩ là phàn tích chiến lược, tạo mơ hình kinh doanh và tạo tài liệu metadata.
- Phân tích chiến lược: được thực hiện ờ mức doanh nghiệp, phân tích
chiến lược ưu tiên xác định ccíc quá trinh kinh doanh chú yếu (hay cịn gọi là vùng chủ để SA - Subject Area ), cĩ ý nghĩa chiến lược trong hoạt dộng của doanh nghiệp. Các quá trình sơ cấp này dược lựa chọn dể đưa vào DWH.
- Tạo mơ hình kinh doanh: (hay mơ hình khái niệm). Mỏ hình này
dược tạo irong quá trình tìm hiếu chi tièì các yèu cầu kinh cloanh trong những quá trình đặc thù. c á n kiếm tra sự xuất hiện và nguồn gốc của các nguổn dữ liệu phục vụ cho việc phàn tích các yêu cáu trong kinh doanh.
Tạo Mem data: Meta data dược tạo ra trong pha đầu cúa việc thiết
kế. Kết quả của mồ hình kinh doanh dược tổng kết tron ứ các cơng cụ Meta data, và chính ĩ íc thỏng tin này được coi như những nguổn thống tin cơ bán phục vụ các pha tiơp theo trong quá irìnlì thiết kế DWH.
Thưc hiên phùn tich chiên lự(ft. Trong CƠHỈÌ đoạn này cĩ 3 nhiệm vụ
a. Xác (lịnh các quá trình kinh doanh chủ yếu b. Hiếu rõ về các quá trình kinh doanh
c. Xác định mức độ quan trọng của các quá trình và chọn đe (lưa vào
D W H
a- Từ quan điểm của người ra quyết dịnh xác định quá trình nào là quan trọng nhất dối với doanh nghiệp.
Một quá trình kinh doanh dược hỗ trợ bởi các hệ thống tác nghiệp kế thừa, các dữ liệu từ nhiều hệ thống đĩ được thu thập cho ĐWH. Ví dụ: hệ thống đặt hàng, lạp hố tĩơn, vận chuyển, cung cấp, kiếm kê hàng hố, bán hàng, kê' tốn...
b- H iểu rõ quá trình kinh doanh là sự khoan sâu trong quá trình phủn tích các thõng số (được gọi là các chiều kinh doanh - business dimensions ) gán liền với mỗi quá trình. Việc tạo ra các ma trận nhiều chiều biểu diễn quá trình kinh doanh rất cĩ lợi cho cơng đoạn này. c- Xác định mức độ quan trọng của từng quá trình và thời gian cần thiết
dể thiết lập quá trình dĩ trong DWH.
Mục đích của việc phcìn tích chiến lược là xác ílịnh quy ITIƠ của DW, khấc phục những điểm bất thường, dự đốn trước các hậu quá của sự Ihay đối nhầm hạn chế phí tổn.
Pha ỉ : Tao mỏ hìnli kình doanh
Sau khi dã xác định những quá Irình quan trọng cần thiết lập trong DW cần lạo mơ hình kinh doanh. Muốn vậy cần thực hiện các cổng đoạn.
* Xác cỉị/ih các yêu rầu kinh doanh
Mơ hình kinh doanh được tạo ra bằng cách xác định các yêu cầu kinh doanh cĩ tính phân tích cho lìmg quá trình kinh doanh. Cần ihiếi phủi làm việc
với quán lý doanh nghiệp và nhà phàn tích đế :
- Định nghĩa và lập tài liệu các quá trình mẫu trong kinh doanh cùntĩ các phương pháp đánh giá cúa nĩ.
- Tạo và chi tiết hố danh sách các tham số trong mỗi phương phấp đánh giá.
- Xác định cách đánh giá các yêu cấu phân tích.
Sàng lọc các định niìlìĩa và các quy lác ironu kinh doanh.
Sau khi dã xác định ycu cáu kinh doanh cán phái kiếm tra vé mật cỏn lĩ nghệ một cách cĩ hệ thống xem với những yêu cầu trên các dữ liệu thu thập dược cĩ (láp ứng được nhu cầu hay khơng ?
Xác định các yêu cầu kinh doanh cĩ thổ dược thực hiện từ những nguồn
s a u :
- Đầu vào sơ cấp: là những cuộc phịng vấn với nhỡn a nhà kinh doanh và những nhà phân tích là những người điểu hành , tiến hành xác định và phân tích các quá trình kinh doanh.
- Đầu vào thứ cấp: từ những yêu cáu thu thập từ đàu vào thứ cấp, sàng lọc và so sánh với các dữ liệu dã cĩ san hoạc ứ nguồn khác đế biết được chính xác số liệu nao được sử dụng trong việc diều hành và phân tích sơ' liệu. Các nguồn dữ liệu khác cĩ thể là:
+ Các hệ thống Meta data dược thừa kế.
+ Các mơ hình quan hệ thực thể thừa k ế từ các hệ thống OLTP. + Các tài liệu tham khao khác như: các báo cáo diều hành, nghiên cứu về hệ thống Marketing...
Trong quá trình thu thập các yêu cẩu vé thơng tin trong kinh doanh các vấn đề cần phải làm rõ là:
v ề các tliơìiiị sổ của doanh nghiệp’, doanh nghiệp xác định mức độ thành
cơng của mình như ihế nào: bàng lổng lượng hàng bán ra, doanh thu, lợi nhuận, số người mua sán phíỉm ? Đơn vị tính: nghìn, triệu, tỷ...
Các chiều kinh doanh: doanh nghiệp cĩ thường xuyên xác định mức độ
ihành cịng ■? thời gian xác định các chi liêu cĩ n ù n g nil Liu ■? Hẹ ihịng tìti chính của doanh nghiệp, mơ lả cấc san phám (cùng với những thơng tin đì kèm như s ố khách hàng, nhà Ihầu phụ, nơi chứa...).
Các chí tiêu cơ bán và cách phân loại và tạo nhĩm các chí tiêu này, các n h ĩ m này cĩ thay đối thường xuyên khơng ? Cĩ ước tượng dược các chỉ tiêu ờ một mức đáp giá khác khơng ?
Các báo cáo và sự phân tích: hiện doanh níỉhiệp được phan tích như thế
nào ? Dữ liệu nào dược sử dụng và sử dụng như thố nào, thời gian lưu trữ là bao nhiêu, những báo cáo cơ bán được sử dụng là gi ? Dữ liệu nào là quan trọng và dữ liệu nào thiếu.
Các yêu cầu về CƠ/IÍỊ tiiịhệ thơn lị tin: à mỗi doanh tìiihiệp đều cĩ cá nhân
làm về cồng nghệ thơng tin, hiếu rõ dữ liệu. Cán phĩng vấn những người này để làm rõ: dữ liệu của doanh nghiệp dược hat Irữ thế nào ? Trên hê phần cứng và phán mềm hệ thống nào ? Khuơn dạng của dữ liệu, clữ liệu để ớ dạng phăng hay cĩ can trúc, chu kỳ làm mối cìữ liệu, độ tin cậy của dữ liệu, phương pháp truy xuất dữ liệu, mạng được lổ chức thế nào. các ihii lục mạn« là gì ? Dữ liệu dược háo mậ t như t h ế nào ?
Tao Meta chito
Meta data là dữ liệu mơ ui ve dữ liệu clúníỉ hơn là những định nghĩa quan trọng vẻ dữ liệu, nĩ sẽ mơ tá ílữ liệu nào dược lưu trữ Ironíỉ DVVH và những
quá i r ì n h sẽ sử dụng nĩ khi thiết lộp DW. Meta dala chứa các thơng tin liên
kếi giữa các hệ thống nguồn và DVV và chứa cá các quy tắc chuyến dữ liệu vào DWH. Các tai liệu về Meta data cĩ thể được tạo ra ở pha tạo mơ hình doanh nghiệp và đây là mức đáu liên của Meta data. Các kếi quả trong pha tạo tạo mơ hình doanh nghiệp cùng với Meta data cĩ thế được tổng kết lại nhầm phục vụ cho các bước tiếp theo của quá trình thiết kế.
Meta data mơ ta chi tiết về nguồn dữ liệu, nội dung của các nguồn này, cấu trúc dừ liệu và các dặc tính của kho dữ liệu.
Cẩn đặc biệt quan tâm đến việc xác định những người cĩ kha nủng truy nhộp hoặc liên quan đến Meta data. Cấc thơng tin từ họ cho phép người thiết kế cĩ thể hiểu dược các định nghĩa và cách du na Meia data mộí cách đứng dán và rõ ràng.
Người ta phàn biệt các loại Meta data sau đây: - Meta data kinh doanh: chứa hai lớp t h ơ ntin:
+ Lớp đầu: chừa các ihịng tin gián lược về mị hình kinh doanh định nghĩa tổng quát các quá trình kinh doanh dược dưa vào DW, các chiều và quá trình xác định mồi quá trình, các định nghĩa và các ỉuật kinh doanh, cũng như sự kiểm tra về dữ liệu.
+ Lớp hai: chứa các bộ phận và câu irúc cua DW phục vụ cho sự iruy nhập cùa người sử ciụng. Nhữnu người cĩ kình nghiệm cĩ the sử dụng lài liệu này đế khám phá DW.
- ETT (extraction, translbrmation and transporlalion) Meta data. ETT Méta dala chứa mơ hình vé chiều, mỏ hình vặt lý (các định nghĩa chi tiết và tổng hợp) và các thơng tin liên kết (mõ ta chi tiết vé việc dữ liệu dược chuyến thê' nào vào DW và ỏ đĩ nĩ được [ưu irữ ỏ khuơn dạng nào). ETT chứa tấl cá các luặi (gồnì cá các iLiậl kinh doanh) đế (rích dữ liệu, làm sạch nĩ, tổng quái hố và chuyển tlữ liệu vào kho. - Meta data tác nghiệp: dù ne dế tái và điếu hành quá Irình tái dữ liêu
vào DVV và đicu khiến truy nhập của ntĩirời dùng. Nĩ chứa các thơng tin vé háo mật, thống kẽ việc sứ dụng các bủnu và những thơng tin về hiệu suãì sứclụim các hán«.
j
I
Pha 2: Thiết kẽ mỏ hì nil logic
Cĩ nhiéu phương pháp thiết kế mơ hình dữ liệu, trong mỗi phương pháp sử đụng những cổng cụ và nguyên tác khác nhau. Cách tiếp cận phổ biến nhất là mơ hình ihực thế - quan hệ (Entiiy Relationship Mocleling-ERM) do PeterChen đề xuất vào cuối những nám 70.
Đây là kỹ thuật rấl mạnh dế thiết kế các quá trình giao clịch trong mỏi trường cơ sở dữ liệu quan hệ. Dữ liệu được chuẩn hố và loại bỏ các thơng tin thừa (ít nhất cũng thoả mãn 3 NF).
Các hệ xử lý giao dịch phát triển bằng phương pháp này cĩ hiệu suất xứ lý cao. Tuy nhiên dữ liệu khơng dồng nhất khi chuyển từ một hệ này sang hệ khác. Các hệ này dược thiết lập riêng rẽ nhằm mục đích cập nhật và thêm các ban ghi của thực chế, phù hợp với các ER - diagram. Quan hệ giữa các bảng dược chuẩn hố từ quan hệ nhiều- nhiều, gây khĩ khăn đốn việc phân tích và ra quyết định.
Về mặt cấu trúc, quan hệ thuộc mị hình logic Irong khi các thành phán cua mơ hình vật lý là mơ hình triển khai, các Meta data dược dặt tên, các bảng sự kiện và các bảng chiều cán dặc biệt chú ý.Việc xem xét các chiều của mơ hình kinh doanh được xem như cách tiếp cận từ trên xuống, riong đĩ trọng tàm xem xét là các quá trình kinh cỉoanh chứ khơng phái là clữ liệu.
Một ERD là biếu diễn trực quan các yêu cầu về thơng tin của một hệ thống ERM. Đĩ là sơ đổ mơ ta mơ hình dữ liệu. Trong sơ đồ liên kết các yêu cáu dữ liệu, mơ tá đữ liệu, liện hệ giữa các dữ liệu và được coi là cơ sở phục vụ cho việc thiếi kế cơ sớ dữ liệu. Một ERD cĩ ba thành phấn:Thực thế,liên hệ và thuộc tính và đã trình bầy ớ phần 2.3.3. [
3.1.2. P h a 3: T ạ o 1Ĩ1Ơ hìn h chiều (mơ hìn h sao)
Mỏ hình chiều được chuyển lừ mỏ hình kinh doanh, khác với ERM, các gĩi dữ liệu trong mơ hình chiều dược tổ chức sao cho người sứ dụng cĩ ihế hiếu, tiến hành truy vấn cĩ kếl quá và cĩ ihê Irâi qua các (hay dổi vì mở hình chiều được xây dựng từ các bủng và quan hệ giữa chúng nên các mục liêu cần đạt trong pha này là:
- Tạo ra một cấu trúc cỉể hiểu cĩ chất lượng LỐI giúp người sứ dụng hiểu được cấu trúc dữ liệu và câu Irúe hệ ihống một cách dễ (làng. - Báo dám sự tối ưu của các câu truy ván đặc biệi là nhfrna cáu truy
ván phức hựp và khai ihác dử liệu.
Càu trúc phái dược ÜIO ra sao cho dẻ diuiiì được cái lien. Câu trúc nàv phái di kèm mộl kế hoạch đè cặp nhật dữ liộn.
- Số liệu sự kiện (hay cịn gọi là dữ liệu chi tiéì, dữ liệu thơ, dữ liệu nguyên lử) là các ihơng số ghi lại trong quá Lrình kinh doanh,
- Số liệu chiều: hướng tới mộl thuộc lính lĩià dựa liên đĩ tình hình kinh (loanh được phàn lích.
- Các dử liệu dược chuyến hố lừ các báng sự kiện. - Số liệu tống hợp hoặc liên kỗì ớ mức cao.
- Mela data: mơ ta vé dữ liệu dược lưu trữ trong DW.
Thiết k ế mơ hình chiền
Quá trình ihiết kế các hang ỉrong DWH bắt đáu từ việc quan sát quá trình kinh doanh cửa doanh nghiệp iheo các SA. Các nhà quán trị doanh nghiệp cẩn xác định mơ hình kinh doanh (hay cịn gọi là mơ hình khái niệm, trong đĩ chỉ rõ các SA và quan hệ giữa chúng. Mơ hình chiều là mội cách tiếp cận từ trên xuống và là bước tiếp theo của việc xây dựng mơ hình kinh doanh. Trong pha này chú trọng đến việc xác định các bang s ự kiện , các bủng chiểu và quan hệ giữa chúng . Đậc biệt cán xác định kích cỡ khá năng tâng lên của các chiều cần khảo sát clể phủn tích quá trình kinh doanh. Mơ hình chiều phân làm hai loại là mõ hình sao và mơ hình bống tuyết. Trong luận án này chỉ tập trung xem xét mơ hình sao.
Mơ hình sao là một bản ihict kế logic - kỹ thuật, trong dĩ biếu diễn dữ liệu trong một khung chuẩn - cho phép người xem cĩ một cái nhìn trực giác và đầy đủ về hệ thống dữ liệu. Mỗi một mơ hình chiều dược xây dựng lừ một báng sự kiện và một tập hợp các báng nhỏ dược ÍĨỌỈ là các bàng chiều. Mơ hình đặc thù đĩ: Gác bảng chiều nhị bao xung quanh mộl báng sự kiện lớn thường được gọi là mơ hình sao. Tuy mơ hình này dữ liệu íiư thừa được chuyến lừ dối tượng này sang dối lượng khúc phục vụ cho quá trình phân tích.
Điểu này cịn gọi là sự chuyển dữ liệu hay cịn izọi ỉà sự thừa kế.