Cách tiếp cận Bottom-up

Một phần của tài liệu Xây dựng quy trình tích hợp dữ liệu ETL và xuất báo cáo cho hệ thống e banking tại NH TMCP công thương việt nam 758 (Trang 36 - 43)

Cịn theo Bill Inmon thì kho dữ liệu là kho lưu trữ tập trung cho tất cả dữ liệu doanh nghiệp. Trong cách tiếp cận này, trước tiên một tổ chức tạo ra một mơ hình kho dữ liệu chuẩn hóa. Dimensional data marts sau đó được tạo dựa trên mơ hình DW. Đây được gọi là cách tiếp cận từ trên xuống. Phương pháp mà ETL tải thông tin trực tiếp đến DW sau đó tải dữ liệu vào data mart được gọi là Top-down

Hình 2.9. Cách tiếp cận Top-down

2.4. Thành phần của kho dữ liệu

Với các hệ thống kho dữ liệu khác nhau sẽ có cấu trúc khác nhau. Nhưng một DW về cơ bản sẽ có 4 lớp sau:

+ Source Layer + Staging Layer + Storage Layer + Presentation Layer

Data Warehouse Architecture

Hình 2.10. Kiến trúc DWH

Source Layer (Lớp dữ liệu nguồn):

- Lớp dữ liệu nguồn bao gồm dữ liệu từ nhiều nguồn khác nhau như:

o Dữ liệu hệ thống tác nghiệp như dữ liệu bán hàng, dữ liệu nhân sự, dữ

liệu sản phẩm, dữ liệu hàng tồn kho, dữ liệu tiếp thị,...

o Dữ liệu nhật ký máy chủ web với dữ liệu duyệt web của người dùng. o Dữ liệu nghiên cứu thị trường nội bộ.

o Dữ liệu của bên thứ ba, chẳng hạn như dữ liệu điều tra dân số, dữ liệu

nhân khẩu học hoặc dữ liệu khảo sát.

- Dữ liệu nguồn có thể là bất cứ hệ quản trị cơ sở dữ liệu nào như MySQL, Oracle, MSSQL, DB2, ...Hoặc ở bất cứ định dạng file text, file xml, file excel,.

Staging Layer (Lớp staging):

- Staging là khu vực lưu trữ dữ liệu tạm thời, dữ liệu từ Source layer thơng qua q trình ETL dữ liệu được làm sạch và tải vào khu vực STG với mục đích lưu trữ dữ liệu nguồn tại STG.

Storage Layer:

- Data mart (Kho dữ liệu chủ đề): DM là khu vực lưu trữ dữ liệu về một lĩnh

vực, một chuyên môn. Các DM có thể được xây dựng trước khi xây dựng DWH sau đó kết nối tích hợp lại với nhau tạo thành DWH. Hoặc DWH được xây dựng trước sau đó tạo ra các DM [2].

- Meta data (Siêu dữ liệu): Trong việc tổ chức kho dữ liệu, không chỉ những

người dùng đầu cuối mà ngay cả những nhân viên quản trị đều cần truy nhập tồn bộ thơng tin trong bảng gồm các đối tượng cũng như các thuộc tính. Do đó họ muốn biết một số vấn đề [2]:

o Có thể tìm thấy dữ liệu ở đâu?

o Tồn tại những loại thông tin, dữ liệu nào? o Dữ liệu thuộc loại nào, có dạng ra sao?

o Trong các cơ sở dữ liệu khác nhau thì dữ liệu có liên quan với nhau

như thế nào?

o Dữ liệu được lấy từ đâu và thuộc ai quản lý?

Vì vậy hình thành một dạng cơ sở dữ liệu khác được gọi là siêu dữ liệu nhằm mô tả cấu trúc nội dung của cơ sở dữ liệu chính [2].

Presentation Layer:

- OLAP: là một hệ thống được dùng để phân tích dữ liệu một cách hiệu quả.

OLAP cho phép người sử dụng phân tích dữ liệu qua việc cắt lát (slice) dữ liệu theo nhiều khía cạnh khác nhau, khoan xuống (Drill-Down) mức chi tiết hơn hay cuộn lên (Roll-Up) mức tổng hợp hơn của dữ liệu. Bản chất cốt lõi của OLAP là dữ liệu được lấy ra từ kho dữ liệu sau đó được chuyển thành mơ hình đa chiều và được lưu trữ trong một kho dữ liệu đa chiều [2].

- Data mining: Người sử dụng biện pháp phân tích dữ liệu tìm ra những quy

luật và quy tắc để đưa ra, các quyết định kinh doanh. Data Mining không dùng những câu truy vấn mà dùng những thuật tốn đặc, biệt để phân tích dữ liệu (Mơ hình thống kê, tốn học,...) [2].

2.5. Tổ chức dữ liệu logic trongDWH

2.5.1. Lược đồ kho dữ liệu

2.5.1.1. Lược đồ hình sao

Lược đồ hình sao là lược đồ cơ bản trong số các lược đồ của kho dữ liệu và đây là giản đồ đơn giản nhất. Lược đồ này được sử dụng rộng rãi để phát triển hoặc xây dựng DW và data mart. Lược đồ hình sao là một trường hợp cần thiết của lược đồ bơng tuyết. Ngồi ra lược đồ hình sao cũng hiệu quả để xử lý các truy vấn cơ bản. Lược đồ hình sao được thể hiện như sau:

Hình 2.11. Lược đồ hình sao

Lược đồ hình sao gồm 1 bảng Fact (bảng sự kiện) nằm ở trung tâm và xung quanh là những bảng Dimension (bảng chiều). Dữ liệu của lược đồ hình sao khơng

được chuẩn hoá. Các câu hỏi nhằm vào bảng Fact và được cấu trúc bởi các bảng Dimension.

Ưu điểm:

- Truy vấn dữ liệu sẽ đơn giản hơn vì các thơng tin đo lường và thông tin mô

tả được thể hiện tập trung trên bảng fact. Vì vậy câu lệnh truy vấn sẽ đơn giản hơn mà không cần join qua nhiều bảng

Nhược điểm:

- Điểm bất lợi của lược đồ hình sao là tính tồn vẹn của dữ liệu, dữ liệu khơng

được chuẩn hóa.

2.5.1.2. Lược đồ hình bơng tuyết

Lược đồ hình bơng tuyết là sự mở rộng của lược đồ hình sao trong đó ta thực hiện chuẩn hố một số Dimension table. Tức là từ Dimension table ban đầu ta thực hiện chuẩn hố thành nhiều Dimension table có quan hệ phân cấp.

Hình 2.12. Lược đồ hình sao

Trong lược đồ hình bơng tuyết, mỗi bảng dimension của lược đồ hình sao được chuẩn hóa hơn. Lược đồ hình bơng tuyết cải thiện năng suất truy vấn, tối thiểu

không gian đĩa cần thiết để lưu trữ dữ liệu và cải thiện năng suất nhờ việc chỉ phải kết hợp những bảng có kích thước nhỏ hơn thay vì phải kết hợp những bảng có kích thước lớn lại khơng chuẩn hóa [2].

2.5.1.3. Lược đồ chịm sao

Lược đồ chòm sao là một tập hợp nhiều bảng fact cùng sử dụng chung một số bảng dimension. Lược đồ là sự kết hợp của nhiều data mart

( ID-Produd-Category Product-Category ProduaZune ? IO Calendar Month Calendar Month CMrrxUi-Wxifh-Nxnir CMvtKJjt-Morith-Nurnbvt CMctxJjt-CKJjrtiT Caiendat-Year Last Oay Of Month Calendar Month-Sort 1 CMendM-YeM-Quarter ? ID-Pncf-SvgnKTIt PrXT-Segment □ FaaS-MonOTy-SateS- Quota ID Calendar Month ID-PIxrirarKI-Vrrvon I□Z Pr Odud-CMegory ID-Pnaf-Segment ID-Currency ID Sales OrgarasaDon Revenue Quota SMet-Anxxxit-QuoCi t ID-Currency

Currency ISO Code Currency"Name Currency- SymboI-ID J FaOS-MonOTy-Sales IO Calendar Wxith ID-Currency ID-Produd ID-SxIrX-Chxnnri 1 DZSM VsZorgarawtXXI Discount Revenue Sales-Amount TrxmlK-Pnrr Hình 2.13. Lược đồ chịm sao

2.5.2. Mơ hình dữ liệu đa chiều

Lượng dữ liệu trong DWH là rất lớn và cũng khơng có những thao tác như sửa đổi hay tạo mới nên DWH cần được tối ưu để thuận tiện cho việc phân tích và báo cáo. Các thao tác với dữ liệu của DWH dựa trên cơ sở Mơ hình dữ liệu đa chiều (multidimensional data model). Mơ hình này cho hiệu năng tốt trên những phép truy vấn phức tạp và giúp người dùng có thể nhìn dữ liệu theo nhiều cách khác nhau. Mơ hình dữ liệu đa chiều được thể hiện dưới dạng đa chiều (Multi Dimension) gọi là khối (cube). Mỗi chiều mơ tả một đặc trưng nào đó của dữ liệu [2].

Hình 2.14. Hình ảnh cube 3 chiều thể hiện số lượng bán hàng theo 3 chiều Location, Time, Item

- Cây phân cấp

Cây phân cấp là một cách để tổ chức dữ liệu ở các cấp độ tổng hợp khác nhau, cho phép người dùng đi sâu hơn vào dữ liệu và để xem dữ liệu chi tiết. Các chiều (dimension) được phân cấp theo loại. Ví dụ như phân cấp chiều product, location và time như hình ảnh sau:

Dimensions: Product, Location, Time Hierarchicalsummarization paths

Một phần của tài liệu Xây dựng quy trình tích hợp dữ liệu ETL và xuất báo cáo cho hệ thống e banking tại NH TMCP công thương việt nam 758 (Trang 36 - 43)

Tải bản đầy đủ (DOCX)

(92 trang)
w