X ây dựng mơ hình theo chiều

Một phần của tài liệu Một số vấn đề cơ bản về thiết kế và xây dựng mô hình Datawarehouse (Trang 42)

CẤU TRÚC KHO DỮ LIỆU VẦ MƠ HỈNH DỮ LIỆU.

2.3.4. X ây dựng mơ hình theo chiều

Về phương diện nào dĩ, việc xây dựng mơ hình theo chiều đơn giản hơn, cĩ ý nghĩa hơn và dễ hiểu hơn so với xây dụng mị hình ER. Tuy nhiên, việc xảy dựng mơ hình theo chiều là một khái niệm khá mới và cịn chưa được xác định một cách chắc chắn về chi tiết, dặc biệt khi so sánh với kỹ thuật xây dựng mỏ hình ER.

Các khải niệm cơ ban

Xây đựng mơ hình theo chiểu là mội kỹ thuật để tạo khái niệm và hình dung các mố hình dữ liệu như một bộ tiêu chuẩn dược mơ tả bằng các lĩnh vực kinh doanh chung. Nĩ dặc biệt hữu ích để tĩm tát và sắp xếp lại dử liệu, dưa ra cái nhìn về dữ liệu hỗ trợ cho phàn tích dữ kiện. Xây dựng mơ hình theo chiều tập trung vào các dữ liệu bằng số.

Xây dựng mơ hình theo chiều cĩ mội số khái niệm cơ bản: • Sự kiện

• Chiểu

• Ticu chuẩn đánh giá (các biến số)

Sư kiên

Sự kiện !à sự thu ihộp các hạng mục dữ liệu liên quan, bao gổm cá các tiêu chuán đánh giá và nội dung dữ liệu. Mỗi sự kiện thế hiện đặc trưng một hạng mục kinh doanh, một giao dịch kinh doanh hcuỊc một sự việc cổ thế dược sử dụng để phân tích việc kinh doanh hay quá trình kinh doanh.

Tron ổ kho dừ liệu, các sự kiện dược tiến hành ưong các báng biểu, trong đĩ mọi dữ liệu bàng số dược lưu trữ.

Chiều

Chiểu là sự ihu ihập của các ihành viên hoặc các dơn vị cùng loại đe xem xét. Tro ng một sơ đổ chiểu thường được biểu hiện bằ n2 một trục. Trong mổ hình theo chiều, mọi điểm dữ liệu irong bùn2 sự kiện được sắn kết với một và chi một thành viên cùa một trong số nhiều chiểu. Nahĩa là, chiều xác tlịnh nền ngữ cánh cho các sự kiện. Nhiều quá trình phân tích được sứ dụng clc định lượng ảnh hướng của các chiểu lèn sự kiện.

Chiều là những tham số trên dĩ chúng ta muốn thực hiện việc xử lý phán tích trực tuyến (OLAP). Ví dụ, trong cơ sở dữ liệu phàn tích việc bán sán phẩm, các chiều cĩ thể là:

• Thịi gian • Địa điểm/vùng • K h á c h h à n g

• Nhan viên bán hàng

• Các bối cảnh như các con số thực tế, nsâ n quỹ hay dự kiến

Chiều thường cĩ thể được nhĩm thành các thực thế thơng íin kiiơng số như chi nhánh hay nhân viên.

T h à n h v i ê n c h i ề u : Một chiéu cĩ chứa nhiều chiều ihành viên. Mỗi

chiều thành viên cĩ một cái tên rièng hay người nhẠn dạniĩ sử dụnsĩ dế xác định vị trí của hạng mục dữ liệu. Ví dụ tồn bộ iháng, quý, nám tạo ncn chiéu llioi £Ìau và các thành phố, vùng và đất nước tạo nên chiều vổ mật địa lý.

Phân cấp theo chiểu: chúng la cĩ thổ sắp xếp các thành vièn cùa một

chiểu vào một hoặc nhiều cấp. Mỗi sự phân cấp LŨ ne cĩ thể cĩ nhiều mức phàn cấp

C á c p h â n Ciíp c h i e u t h ị i g i a n P h à n c á p 1 L:rr±J P h i m c á p 2 1 YV*j'jk ( Hai) Ị ( Half I 17.IV ùu.ìrv-' 1 ị C m r t n i’ [r.k n th Da/ 3- * *

Hì n h 9: P h â n c á p chiểu thời gian

Một ví dụ rất tốt để xét là sự phân cấp kích cỡ theo thời gian như nêu trong Hình 9. Lý do xác định 2 cấp cho kích cỡ theo thời gian !à vì một tuần cĩ thể kéo dài trong hai tháng, các quý, và các mức cao hơn. Chính vì vậy, các tiùin lề khổng thể cộng lên (hành mội íháng và v.v. Nếu khơng cỏ lựi thực tế trong việc phân tích dữ liệu trên cơ sớ hàng tuủn thì ta khơng cần phải xác định một cấp khác cho tuần.

Tiêu chuẩn cĩániì g[á

Tiêu chuẩn đánh giá là một thuộc tính số của sự kiện thể hiện sự thực thi và thái độ của việc kinh doanh liên quan tới các chiểu. Những con số thực được gọi là biến số. Ví dụ, tiêu chuấn đánh giá là việc bán hàng bàng tiền, số lượng bán, số lượng dược cung cấp, chi phí cung cấp, lượng giao dịch và v.v. Mội tiêu chí đánh giá được quyết định bới sự kẽì hợp các thành viên r ủ a các chiều và được đạt theo các .sự kiện.

S ự hỉnh dung vé một Mị hình chiều

Cách phổ biến nhất để hình dung một mơ hình theo chiều là vẽ ra một khối lập phương. Chúng ta cĩ thể dưa m một mơ hình 3 chiều sử dụng khối lập phương. Thịng thường một mơ hình iheo kích cỡ cĩ lừ ba kích cỡ irớ lêdưực coi là một hypercube. Tuy nhiên, mội hypercube rất khĩ đế hình (lung do vậy khối lập phương là thuật ngữ dược sứ dụng Ihỏng dụng hơn.

Trong Hình 10, thước đo chính !à số lượng san xuất dược xác đ ị n h b ằ n g sự kết hợp của 3 chiều: địa điếm, sán phám, và thời gian. Chiểu địa diếm và sán phẩm cĩ 2 mức phân cấp của riêng chúng. Ví dụ. chiêu dị a điểm cĩ mức vùnổ và n h à máy. Ớ mỗi ehiéu lại cĩ các ihành viên như vùng mien dỏng và VÌIIÌIĨ m i ê n lây cúa chiều địa điếm. Mặc đù khơng nè II ironiz h ì n h vẽ, e hi ổu

lhời gian cũng cĩ những con số của nổ ví dụ nhu' 1996 và 1997. Mỏi ỏ lập phương nhỏ hú cĩ những con số riêng của nĩ li 1C hiện số Iirựnu sán xuấl như là một thước do. Ví dụ, trong một giai đoạn thời gian nhát định (khơng ihể hiện tron« hình), nhà máy Armonk ờ vùng micn dơng dã sán xuất 11.000 máy CeilPhone mode! số 1001. C h i ế u vi t r í đ i a lj' Chiêu phán cáp ồ n r h r . r e.tvi PVC'Vi u- II /I '3Ui): . ‘u. . (/ựl ^roi ,'J .* £ #. *1 f ề HjwZ-Xwi; . 1;J , ' . .-í ; '**•- t * 7 *

■A.ISI L' ---Chi ểu thời g i an

^ f S r ĩ ị ị - r r

, ^•«•Iiịiyn Ï W ‘Ị ^ 1’ C h i ề u

°iZZJZ" wwiwt r'dijn pliãii cáp

C h i e n s à n pliáin

H ì n h 1 0 : K h ỏ i ( l ữ l i ệ u t r o n í í m ỏ h ì n h c h i ế u

N hững thao tác cơ bản cho OLAP

Xây dựng mơ hình theo chiều chủ yếu hỗ trợ cho OL AP và đưa ra quyết định. Hãy xem một số khái niệm cư bán về OL AP đế cĩ thế nắm dược cấc yêu cáu kinh doanh tốt hơn sao cho chúng ta cĩ thế xây dựne mị hình kho dữ liệu hiệu qua hơn.

Cĩ 4 loại thao tác được sử dụng trong O L AP đế phân tích dừ liệu. Khi chiínẹ ta xéi tới các mức chi tiết khác nhau, c h ú n s ta cĩ ihê ilụrc hiện thao tác

drill clownroll up. Để browse cùng các chiều chiinü ta sử tlụng ihao tác lát

mỏngkè ỏ vuĩnỵ(.slice và dice).

D r ill d o w n vil R o ll lip

Drill down và Roll up là các thao tác dịch chuyển cách nhìn xuống hoặc lèn ktii xem các mức phân cấp theo chiều. Với khá năn tỉ drill-down, người sử dụng cĩ thế đuực hướng dẫn tới các mức chi tiết cao hơn. Với khá ruing roll­ up, người sử dụng cĩ thè ihu nhỏ (/.001)1 oui) dế xem mức dữ liệu lỏm lãt. Đường điều hướng (.lược xác định biine các phân cáp trong các kích cỡ. Khi phân lích báo cáo sán xiuít hùn li ihánụ cúa các nhà máv ỏ' vùn li mien lâv. la cĩ

thế muốn xem các xu hướng hiện tại bằng cách xem việc thực hiện ớ quý trước.Cĩ thể sẽ thực hiện thao tác roll-up bằng cách xem dữ liệu hàng quý. Sau dĩ ta cĩ thế bân khốn tại sao nhà máy San Jose lại sản xuất ít hơn Boulder và sỗ cán nhiều thơng tin chi tiết hơn. Sau đấy cĩ ihể sứ dụng thao tấc drill down írên báo cáo cứa Nhĩm trong một nhà máy đế xem hiệu quá của Nhĩm 2 (nhĩm thấp hơn {rong mọi irường hợp so với hiệu quá cua Nhĩm l) cĩ thể được cái tiến như thế nào.

Lcìt car và ké ỏ vuơn Ỉỉ

Lát cắtkể ỏ vuơng là những thao tấc dể trình duyệt dừ liệu qua khối

lập phương. Lát cắt cắt qua khối lập phương sao cho người sử đụng cĩ thể tập trung vào một số viễn cảnh cụ thể. Tạo ơ vuơng quay khối lập phương tới một viễn cảnh khác sao cho việc phân tích dữ liệu đạc trưng hơn cho người sử dụng. Ta cĩ thể phân tích báo cáo sản xuất của một tháng nhất định theo nhà máy và theo sản phẩm, do vậy sẽ xem được tổng sàn lượng hàng quý của một nhà máy. Sau đĩ cĩ íhế thay đổi kích cỡ từ sản phẩm sang thời gian là cái đang kẻ ố vuơng (dicing). Nếu muốn chỉ tập trung vào Cell Phone chứ khơng phải tổng sản phẩm, ta cĩ thể cất khối lập phương chi cho phần CellPhone cho cùng các kích cỡ, là cái đang dược cát(slicing).

Đĩ là một số các thao tác quan trọng dược sử dụng trong phân tích dữ liệu. Để tạo điều kiện cho các loại thao tác này yêu cáu dữ liệu phái dược lưu trữ theo một cách riêng, và đĩ chính là mơ hình chiều.

â n O v v íU ik t »

M ỏ hình sao(star schema) bịng tuyết {Snowflake schema)

Cĩ hai loại mơ hình cơ bán cĩ thể được sứ dụng irons xày dựng mồ hình llìCo chiếu:

• Mơ hình slur

• Mơ hình bơng luyết

Chúng đủ dể giãi thích các vấn dề trong xây dụng mơ hình theo chiểu. Phcìn này chí đưa ra giới thiệu cơ ban về kỹ thuật xây dựng mơ hình chiều.

Mị hình sao

Gián dồ lììiìh sao đã trở thành một ihuật ngữ thơng dụng dược sử dung

bao hàm nghĩa mỏ hình chiểu. Những người thiết kế cơ sở dữ liệu đã sử dung từ làu thuật ngữ giản đổ hình sao dể mơ ta các mơ hình theo chiều vì cấu trúc thư được trơng giống như sao và sơ cỉổ lị gíc trơng giống như giãn đồ vật lý.

M ơ hình sao là cấu trúc cơ bàn cho mơ hình theo chiều. Điển hình, nĩ cĩ một báng trung tâm lớn (gọi là Fact tab!e-bcini> sự kiện) và một bộ các báng nhỏ hơn (gọi là Dimension Vảbìe-báiKỊ chiều) được sắp xếp theo kiểu nan hoa xung quanh bang sự kiện.Ví dụ :được sấp xếp xung quanh bang sự kiện là các bảng chiều về thời g i a n , khách Iià/IÍỊ, niỊười bán, ilịa điểm sán xuất VCI sein phẩm.

Trong khi mỏ hình ER truyền [hống, kiếu của các thực thể được cân đối và cĩ các mối quan hệ phức tạp giữa các thực thế thì mĩ hình iheo chiều lại rất khổng đối xứng. Mặc dù vậy, bang sự kiện trong mơ hình theo chiêu được gán với các báng chiéu khác, chí cĩ một đường kết nối duy nhất kết nối bang sự kiện với bang Ilieo chiều.

Mơ hinij bƠỊỊX tuvểr

Việc xày dựng mơ hình theo chiều điển hình hắt dấu bang việc xác định các sự kiện và chiểu, sau khi các yêu cầu kinh doanh dã dược thu thập. Mơ hình llìeo chiều ban điìu thường xuất hiện giơYiiZ hình sao với một sự kiện ớ giữa và một số các chiêu ờ c ù n2 mức bao quanh nĩ.

Mơ hình bơng luyèì là kcl quá của V i ệ c phàn ly một hoặc nhiều chiểu, những cái dồi khi tự nĩ củng cĩ phân Ihùnh các cáp. Chúng iu cĩ thế xác định các mối quan hệ lừ mộl-nhiều giữa các thành viên trong cùng mội báng chiều như một báng theo chiều riêng tạo nên một cấp. Ví C ÍỊI, chiếu I)i>ười bán cĩ thế dược phan chia Ihành các kích cỡ nhĩ hơn như ỉổniị dại /ý. dại lý vùiiiị... . Loại mơ hình này được sinh lừ giàn ctồ hình sao và như được thấy, trơng giống như bơng tuyết.

Cấu trúc bơng tuyết bị chia lách làm ta hình dung tốt dược cấu trúc phân cấp của các kích cỡ. Mĩ hình bơng tuyết rất đưn gian đối với người lập mỏ hình dữ liệu để hiểu và đối với người thiết k ế cơ sở dữ liệu để sử dụng phân tích các kích cỡ. Tuy nhiên, cấu trúc bơng tuyết dường như phức tạp hơn và cĩ thể tạo cho người sử dụng là nhà kinh doanh cám thấy bất tiện hơn so với làm việc cùng mơ hình sao đơn giản hơn. Những người thiết k ế cũng cĩ thể Ịựa chọn bơng tuyết vì nĩ giúp tiết kiệm cĩng việc lưu trữ. Xét một ứng dụng ngân hàng nơi cĩ một bảng lài khốn nít lớn là một trons các chiều. Ta cĩ thể dễ dàng tiết kiệm được khá nhiều chỗ trong bảng của chiều đĩ bằng cách khơng lưu trữ thường xuyên các trường ký tự (text) lặp, dặt chúng một lần trong một báng tiểu kích cỡ. Mạc dù mơ hình bỏng tuyết giúp tiết kiệm chỗ nhưng nĩi chung nĩ khơng nối bật khi so với bảng sự kiện. Phần ỉớn những người thiết kế CƯ sớ dữ liệu khơng coi việc tiết kiệm chỗ là một tiêu chí quyết định chính trong lựa chọn kỹ thuẠt xfly dựng mị hình.

Một tiêu chuẩn chủ yếu khác cho việc sử dụng OL AP íà thời gian đáp ứng cho cAu hỏi ad - hoc. Tuy nhiên, chúng vần cĩ ihế thực hiệo phụ thuộc vào cấu trúc và khối lượng dữ liệu. Đối với thời gian đáp ứng nhanh một cách nhất quán, việc hợp nhiVt đừ liệu (ílén tính tốn và tiền hợp nhất) được yêu câu. Bằng việc tiền tính lốn và lưu trữ tất cá các tons số phụ trước khi câu hỏi ctirợc đưa ra, cĩ thể giam số lượne han ghi được truy lục cho câu hỏi và duy trì nhất quán và thực hiện nhanh. Khi người sứ dụng di sâu vào chi tiết, họ thường đi theo các lớp phân cấp khác. Do vậy, diều dĩ cung cấp các đường ilẫn đến dừ liệu hợp nhất hoặc tính tốn trước.

Một phần của tài liệu Một số vấn đề cơ bản về thiết kế và xây dựng mô hình Datawarehouse (Trang 42)

Tải bản đầy đủ (PDF)

(110 trang)