TẠO MÔ HÌNH VẬT LÝ (CREATING THE PHYSICAL MODEL)

Một phần của tài liệu Xây dựng kho dữ liệu (Data warehousing) (Trang 57)

M ô hình vật lý được thể hiện dưới dạng hệ quản trị c ơ sờ dữ liệ u (D B M S ). C húng ta chắc chán rằng m ỗi đốt tượng lưu trữ (bảng) như là nơi lưu trữ thích hợp cho các nội dung v à các c h ỉ m ục để tối ưu hóa thực hiện. N goài ra còn một điều đáng quan tâm kh á c như: phân đoạn dữ liệu (data p artitio nin g ), phản đ o ạn ...và ước lượng trước ràng buộc nghiệp vụ và yêu cầu người dùng. N gôn ngữ định nghĩa dữ

57

liệu ( D D L ) được sinh ra để x a y dụng và phát triển , k iể m thử v à tạo dựng c á c đối tượng cùa kh o d ữ liệu.

M ô hình vật lý được chu yển đổi từ mò hình D im e n sio n , điểu kh ác biệt c ơ bản giữa hai mô h ình này ià : m ô hình vật lý có m ức độ ch i tiết hơn về các đặc tính của cơ sở dữ liệ u như: k iể u , độ đ à i, k íc h thước dữ liệ u và c á c ch iế n lược tạo c h ỉ m ục, phân đoạn đữ liệ u (p artitio n in g ).

1. Kẻ hoạch thực hỉện

Đ ể lập k ế hoạch ch iế n lược có tính thực th i c a o , k h i thiết k ế kiế n trúc phần cứng và m ôi trường cho kho dữ liệ u , chúng ta phải quan tâm tới một sổ vấn đề:

- K h ả o sát m ôi trường kiến trúc k ỷ thuật thực hiện kh o dữ liệu - C h u ẩn bị k ế hoạch có tính k h ả thi củ a trong m ô i trường hiện tại

- T à i liệ u giao đ iện kh o dữ liệ u đã tồn tạ i, v à tài liê u g iao diện kh o đữ liệ u yêu cẩu .

- T à i liệ u hộ thống tác nghiệp m à kho đ ữ liệu yêu cầu .

- C h iế n lược dự phòng và k h ô i phục. - C h iế n lược kiể m soát, đảm bảo an ninh.

- T ạ o k iế n trúc dữ liệ u củ a k h o đữ liệu

- ước iượng, đánh giá rủ ro.

2. Môi trường thực hiện (vừa tập trung vừa phân tán)

K h i thiết k ế kho dữ liệ u ợ m ức vật lý , chúng ta phải quan tâm c á c yếu tố trong cấu trú c củ a tổ chức sẽ q u yế t định m ôi trường thực th i củ a k h o dữ ỉiệ u đó là: Cấu trúc v ề m ặt đ ịa lý v à cấu trúc về m ặt báo cáo c ủ a tổ c h ứ c , c á c cấu trúc n ày x á c

định nguổn dữ liệu và n ơ i chúng được sử dụng. K h o đữ liệ u c ó thể được thực hiện

trên các m ôi trường: tập trung, phân tán, và hỗn hợp,

T h iế t k ế lo g ic c ủ a kiế n trú c dữ liệu ba tầng đưa chú ng ta đến m ột tập m ểm dẻo và m ạnh m ẽ các lựa chọn c h o thiết k ế vật lý c ủ a kho d ữ liệ u . C á c lự a chọn này

bao gổm từ việ c thiết k ế dựa trên sự thực hiện tập truníỉ hóa cho đến sự tiếp cận phân tán h ay hỏn hợp.

. OLAP System

5 H

H ìn h số 13: M ò i trường vừa táp trung vừ a phân tán

T ù y ih u ộ c vào cấu trúc về m ật đ ịa ỉý và cấu trúc về m ật báo cáo của tổ chức m à lự a chọn m ỏi trường thực thi kh o dữ liệu tập trung, phàn tán h a y hỗn hợp. T ììồ n g thường m ôi trường hỗn hợp được sử dụng như một g iả i pháp điểu h òa, nó phát h uy hỗ trợ cho nhau củ a h a i m ô h ìn h . V à được hình thành từ thực tế:

C ó rất nhiều nguổn dữ liệu ờ nhiều v ị tr í đ ịa lý khác nhau (phân tán ),

K h o dữ liệ u nghiệp vụ ( D B W ) nẻn được tập trung hóa cao độ v ì đ ây là nơi tập trung đ a phần dữ liệu và năng lực x ử lý . M ộ t trong những yếu tố quan trọng nhất nhưng thường ít được b iết đến, trong quyết đ ịnh n ày là sự thừa nhận rằng tầng D L điều hòa n ày đòi hỏi sự kiểm soát và quản lý m ộỉ cẩ ch nghiêm ngặt. Sự toàn vẹn đữ liệ u c h ỉ được đảm bảo kh i đữ liệu nhập vùo B D W được thẩm định k ỹ lưỡng. C ò n m ặt an ninh chặt ch ẽ v ì B D W là tài sản thòng tin toàn điện nhất của tổ chứ c.

59

D ữ liệu dần xu ấ t ( B I W ) tổn tại rất nhiểu n ơ i, nhiều cấp : công ty , phòng

ban, cá nhân tương ứng với nhu cầu tru y cập cục bộ và quản lý d ữ ỉiệu của người dùng.

3 . L ự a ch ọ n h ạ tầ n g

Sự lựa chọn kiến trúc phần cứng là điểu kiện hạ tầng (in fra stru ctu re ) có tính chất sống còn (c r it ic a l) cho v iệ c thực hiện thành công kh o dữ liệ u . K h o đữ liệu yêu cầu phần cứng phải đủ m ạnh (ro b u st) và các khả năng: ốẩn sàng (a v a ila b le ), tin cậy (re lia b le ), m ềm dẻo (fle x ib le ), m ờ rộng (e x te n sib le ), cân bằng (s c a la b le ), v à hỗ trợ (supportable), kh ô i phục (re co vera b le) và c h ạ y song song (p a ra lle l).

Ngoài ra cẩn phải tính đến đội ngũ làm tin học ( I T team ), quàn trị dữ liệ u củ a hệ thống tác nghiệp, Nlhững chu yên g ia có k in h nghiệm thực hiện v à d uy trì c á c hệ thống hiện tạ i, có kh ả năng cung cấp các thông tin hữu đụng về các hệ thống hiện tại. Đ ảm bảo m ôi trường m ạng thục thi c á c tiến trìn h trích ch ọ n , chu yển đổi và chu yển tải dữ liệ u ( E T T ) .

60

C hương m có tiêu dề ’‘T h iế t kế kho dữ liệ u ” , nộị dung chương này trình bày các bước x á c định để thiết k ế mô hình nghiệp vụ , mô hình lo g ic , và m ỏ hình vật lý cùa K h o dữ liệ u .

Xác định mô hình nghiệp vụ.

T ro n g pha đầu tiên, m ô hình nghiệp vụ , bao gồm ít nhất b a phần ỉiên quan chặt chẽ tới nhau: phân tích ch iến lư ợ c, tạo mô hình nghiệp v ụ , tạo siêu dữ liệu .

Phân tích ch iế n lược (S trateg ic A n a ly s is ):

Đ ư ợ c thực hiện ở m ức doanh nghiệp, phân tích chiến lược tìm ra c á c quá trình nghiệp vụ c h ín h (m a jo r) h ay vùng chủ đề, chúng đóng v a i trò quan trọng trên phạm v i toàn tổ ch ứ c. C á c tiến trình nghiệp vụ ch ín h đự kiế n được thực hiện trong kho đữ liệu .

T ạ o mô h ìn h nghiệp vụ (B u sin e ss M odel C rea tio n )

M ô h ìn h nghiệp vụ được tạo ra từ các yêu cầu nghiệp vụ c h í tiết* quá trình nghiệp vụ trên những nguồn đ ữ ỉiệ u sẵn có để hỗ trợ phân tích yêu cầu nghiệp v ụ

T ạ o siêu dữ liệ u (M etadata C reatio n )

S iêu dữ liệ u được tạo ngay trong pha đẩu tiên củ a quá trìn h thiết kế , kết quả củ a mô hình nghiệp vụ được thể h iện trên các công cụ siêu dữ ĩiệ u và đây ỉà nguồn chủ yếu c h o các pha thiết k ế tiếp theo.

C ũ n g trong phần n ày, trìn h b à y c á c c h ỉ đẫn k ỹ thuật phỏng v á h , phân tích và rút ra mô h ìn h nghiệp vụ ,

Xác định mô hình logic

C ó nhiều phương pháp x á c đ ịnh m ô h ìn h lo g ic, nhưng phổ biến nhất vẫn là sừ dụng theo hướng m ô h ìn h thực thể liê n kết (e n tũ y-rela tio n sh ip ). M ô hình E R có đặc đ iểm : cá ch tiếp cận từ dưới lên (B o tto m -u p ), thiết k ế cho c á c hệ thống giao đ ịch và thường tuân theo chu ẩn ba (3 N F ).

61

S ử dụng kh ái niệm liồn kết củ a củ a mô hình thực thể liê n kết, lược đồ thực thể Hên kết ( E R M , E R D ) để tham ch iếu m ô hình log ic ờ m ức cao , m ô hình vật lý , siẻu đữ liệ u , bảng fa ct, bảng D im e n s io n ...tiếp theo là mô hình đ em ensional với cách tiếp càn từ trên xuống (top-dow n) nhằm x á c định c á c tiến trình nghiệp vụ thay v ì dữ liệu .

X á c định mô hình vật lý

M ô h ìn h vật lý được chu yển đổi từ m ỏ hình D im e n sio n , điều khác biệt c ơ bản giữa h ai mô hình này là : mô h ìn h vật lý có m ức độ c h i tiết hơn về c á c đặc tính củ a c ơ sờ dữ liệu như: k iể u , độ d ài, k íc h thước dữ liệ u và c á c ch iế n lược tạo c h ỉ m ục, phân đoạn d ữ liệ u (p artitio n in g ).

T ù y thuộc vào cấu trúc về m ặt đ ịa ỉý v à cấu trúc về m ặt báo cáo củ a tổ chứ c m à iựa chọ n m ôi trường thực thi kh o đ ữ liệ u tập trung, phân tán h ay hỗn hợp. Th ô n g thường m ỏi trường hỗn hợp được sử dụng như m ột g iải pháp điểu hòa, nó phát h u y hỗ trợ cho nhau của hai m ỏ hình.

62

PHẦN II: XÂY DỰNG KHO D ữ LIỆU THỬ NGHIỆM

C H Ư Ơ N G 4. GIỚI THĨỆU CÔNG c ụ XÂY DỤNG KHO DỮ LIỆU

(ORACLE WAREHOUSE BUILDER)

I. KIẾN TRÚC VÀ KHẢ NĂNG CỦA SẢN PHAM (PRODUCT

ARCHITECTURE AND CAPABILITIES)

O W B là công cụ thiết k ế và thực hiện hoàn ch ìn h cho v iệ c x â y dựng, quản trị kho dữ liệu và hệ nghiệp vụ thông m inh. C húng kết hợp tất c ả các thành phần chủ

chốt như còng c ụ : trích lọ c , chu yển đ ổ i, và tải (e xtra ctio n , transform ation, and

lo a d in g - E T L ) và công cụ thiết k ế vào cùng một sản phẩm , N g o ài ra , O W B sử dụng công nghệ O ra c le D atabase, đ ây là cốt lõ i cùa vấn đề tíc h hợp củ a bộ công cụ nghiệp vụ thông m in h O ra c le , tíc h hợp với các công cụ tru y vấn không x á c định trước (ad-hoc, O L A P ) và các tính năng củ a c ơ sờ đữ liệ u O ra c le .

K iế n trúc củ a O W B gổtn h ai thành phần ch ín h : m ôi trường thiết k ế (d e sig n ), mỏi trường thực thi (ru n tim e ). M ồ i thành phần được quản trị m ột phần riêng biệt của hệ thống, m ôi trường thiết k ế dùng để quản lý siêu dữ liệu trong k h i m ủi trưcmg thực thi lạ i quản lý dữ liệu vật lý .

1. Thành phần thiết kê (The Design Component)

Th àn h phần thiết k ế củ a W B là nội dung củ a kh o chứ a (re p o sito ry) siêu dữ liệu đạt m ức cân bằng cao và được lưu trữ trong c ơ sờ d ữ liệu O ra c le , và tập hợp thiết k ế m áy trạm , công cụ báo cáo được viết bằng ja v a hoặc H T M L . Sử dụng thành phần này siêu dữ liệu có thể được rà soát và quản lý .

V iệ c tạo c á c siêu dữ liệ u ỉà hoạt động thiết k ế , sử dụng c á c cổng cụ m áy trạm (C lie n t tool) để thiết k ế các đối tượng, tiến trìn h , và các jo b . V ớ i cách n ày, tạo siêu

dữ liệ u đặc b iệt k h i thiết k ế m ột hệ thống m ớ i. W B hỗ trợ v iệ c thiết k ế lược đổ c ơ sở

dữ liệ u quan hệ, lược đồ đa c h iề u , tiến trìn h trích chọ n, ch u yển đổi và tải dữ liệ u , môi trường cồng cụ người dùng c u ố i thông qua m áy trạm .

63

Nguồn dữ liệ u đóng v a i trò quan trọng trong bất k ỳ tiến trình trích chọn,

chu yển đổi và tải đ ữ liệu ( E T L ) . T h a y Vỉ phải tạo c á c siêu dữ liệu bằng hình thức thủ

cò n g , W B cun g cấp thành phần tíc h hợp có kh ả năng nhập (im p o rt) thòng tin thích hợp-đâ có vào R ep o sito ry.

M ột trong những điểm m ạnh của kiế n trúc n ày là kh ả năng hỗ trợ quản trị vòng đờị củ a siêu dữ liệ u , điểu n à y cho phép siêu đ ữ liệ u được cập nhật những thay đổi từ hệ thống nguồn. T iế p theo W B chuyển những th ay đổi n ày tới sự thay đổi của E T L và hệ thống đ íc h (target syste m ).

Đ ể đảm bảo chất lượng và tính toàn vẹn củ a siêu dữ liệ u trong R ep o sito ry. W B đưa thêm tín h năng kiể m tra tính hợp ỉệ (V a lid a tio n ) trong R ep o sito ry. V a lid a tio n giúp cho hệ thống phức tạp được tạo từ nhiêu người trở lên hợp nhất chặt chẽ.

N goài ra W B còn cung cấp kh ả năng đưa c á c thông tin báo cáo về siêu dữ liệu dưới m ổì trưcmg W E B . Đ iề u n ày giúp những người phát triển và người sử đụng nghiệp vụ c ó thể rà soát, đánh g iá m à không cần tới các công c ụ trong m ôi trường phát triển. Đ iề u rất quan trọng là những thay đổi n ày được lập báo cáo phân tích sự tác động tới hệ thống trước k h ì chúng được đưa vào triển k h a i. B áo cáo n ày giúp kiể m soát sự thay đ ổ i, v à lập k ế hoạch thực hiện những th ay đổi n ày tốt hơn. Củng có thể bạn sẽ phải q uay trờ lạ i từ v ị trí xuất phát dữ liệu nguồn.

2. Thành phần thực thì (The Runtime Component)

Chúng ta có thể đùng thành phẩn thiết k ế phần trước để thiết k ế siêu dữ liệu

và tiến trình E T L , những thông tin đó thể hiện hệ thống ở m ứ c lo g ic , chúng cần đưọc đưa vào m ôi trường c ơ sờ d ữ liệu vật lý . T rư ớ c k h i điểu n à y được thực hiện thông tin về m ồỉ trường c ơ sở dữ liệ u được thêm vào thành phần thiết k ế k h i thiết ỉập cấu hình để thực h iện hệ thống đ íc h . Sau k h i những thiết lập cấu hình n ày được hoàn thành, m ã chương trìn h có thể được sin h , (code can be generated).

W B sin h ra c á c m ă cho tiến trìn h E T L , và c á c câu lệnh đ ịnh nghĩa d ữ liệu cho

c á c đối tượng cơ sở đữ liệu ( S Q L - Đ D L ) dưới đạng m ột ngôn ngữ. C hú ng c ó thể sinh

64

M ã củ a tiến trình E T L được thực hiện trong m ôi trường cơ sờ đữ liệ u , chúng có thể đtrợc thực hiện bời cỏng cụ W arehouse B u ild e r D eplo ym ent M anager hoặc từ m ột công cụ kh ác như O E M (O ra c le En terp rise M an ag er). T iế n írìn h E T L kéo dữ liệ u từ nguồn vào cơ sở dữ liệu đ íc h . C á c m â sinh ra có thể được c h ạ y ờ m ôi trưòng tương ứng, v í dụ A B A P code trích dữ liệu từ hệ thống S A P sẽ ch ạ y trong m ỏi trường S A P .

Đ ể ghi lạ i vết củ a quá trình tài đữ liệ u , c á c m ã sinh ra bởi W B thường có nôi d un g kiể m toán (A u đ it ). Thô n g tin được ghi iạ i k h i các đòng lệnh được thực thi bao gồm số dòng được ch ọ n , chèn và cập nhật. N ếu lỗ i x ả y ra trong quá trình chuyển đổi hoặc tải dữ liệ u . N hững thông tin này được ghi vào m ột bảng gọi ỉằ bảng thực thi (ru n tim e tab le). C á c nội dung n ày có thể được xem trong công cụ R u n tim e A u d it B ro w se r của W B .

T u ỳ thuộc vào tín h năng quản trị và lập lịc h được cun g cấp trong các công cụ tíc h hợp đặc b iệt. O E M (O ra c le En te rp rise M an ag e r) là công cụ để lập lịc h và quản

trị sờ dữ liệ u . W B có kh ả năn g tạo các jo b ch ạ y trong O E M R e p o sito ry , chúng

cho phép lập lịc h , k iể m soát k h i c ơ sờ dữ liệ u hoạt động.

K ế t hợp vớ i công cụ O ra c le W o rk flo w ( O W F ) , người dùng W B có thể tạo phát triển kh o dữ liệ u đ ố i v ớ i tiến trình E T L bao gồm cả c á c cảnh báo (n o tifica tio n s). 3 . C á c ỉh à n h p h ầ n c ủ a W a re h o u s e B u ild e r

W B bao gồm các thành phần chủ chốt sau:

3.1. ứng dụng máy khách (Warehouse Builder Client Application)

C u n g cấp m ột g iao diện đồ hoạ, dễ dàng cho v iệ c k h a i báo, thiết k ế và thực hiện h ệ thống nghiệp vụ thông m in h . C ó nhiểu thành phần giúp thực hiện m ỗi bước củ a c ả tiến trìn h . B ộ sin h m ã và quản iý thực hiện (D ep lo ym en t M an ag er) là các thành phần trên ứng dụng kh ách nhằm kiể m soát quá trìn h tạo và quản trị hệ thống.

C o d e G e n e r a t o r : thành phần n ày dựa trên siêu dữ liệu trong R ep o ito ry để sin h tập m ã lên h (generates sc rip ts) như c á c câu lệnh D D L hoặc P L / S Q L . C á c câu

65

lệnh sinh ra n ày được tồi ưu hoá trong m ôi trường c ơ sở dữ liệu O racle Bi hoặc O ra cle 9Í.

D e p lo y m e n t M a n a g e r : thành phần này quản trị tất cả c á c k h ía cạnh của việc thực hiện và c á c đối tượng được thực hiên. Bạn chọn nhũĩig đối tượng sẽ được thực hiện và x á c đ ịnh c á c h các đối tượng được thực h iện . Sau đó c h ạ y lệnh D eployed các đối tượng đó, bạn cũng có thể quản iý c á c vòng đời thực hiện thông qua lịc h sử thực hiện (D ep lo ym en t h isto ry ).

3.2. Dich vụ nền thực hiện Warehouse Builder (Runtime Platform Service)

Đ â y là thành phần ch ạ y trên m áy ch ủ , cun g cấp đ ịc h vụ nển để thực hiện. D ịc h vụ này quản trị v iệ c thực hiện c á c ánh x ạ và tiến trìn h theo luồng củ a W B , đảm bảo m ọi thực h iện đều được ghi lạ i (k iể m toán-audit) vào trong R e p o sito ry . C ó thể đùng O E M (O ra c le E n te rp rise M an ag e r) để thực hiện d ịc h vụ n ày từ x a . D ịc h vụ n ày được thiết k ế và thực hiồn cùng với c ơ s ở dữ ỉiệ u , start và shutdow n cùng với C S D L .

3.3. Thành phần thiết kể Repository (WB Design Reposừory)

T h à n h phần thiết k ế R e p o sito ry được c à i đật cùng vớ i C S D L O ra cle , lưu trữ các định n g h ĩa siêu dữ liệ u cho tất cả c á c đối tượng trong kh o dữ liệ u . Đ â y cũng là nơi ỉưu trữ c á c thông tin thiết k ế cù a hệ thống đích đang được x â y dựng. C húng ta có

Một phần của tài liệu Xây dựng kho dữ liệu (Data warehousing) (Trang 57)

Tải bản đầy đủ (PDF)

(94 trang)