KIẾN TRÚC DỮ LIỆU DW

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Xử lý phân tích trực tuyến OLAP và ứng dụng trong khai thác kho dữ liệu Luận văn ThS Công nghệ thông tin 1 01 10 (Trang 20 - 25)

1.3.1 Kiến trúc tham chiếu cơ bản và một số nguyên lý hoạt động của kho dữ liệu

Kiến trúc của kho dữ liệu dưới đây mô tả các thành phần của kho:

LỚP QUẢN LÝ DỮ LIỆU

KHỐI CÁC NGUỒN

DỮ LIỆU

KHỐI TẠO DỰNG

KHO DỮ LIỆU

KHỐI TẠO DỰNG

DATA MART

KHỐI TRUY NHẬP VÀ SỬ DỤNG

LỚP QUẢN LÝ SIÊU DỮ LIỆU LỚP CHUYỂN TẢI DỮ LIỆU

LỚP KẾT CẤU HẠ TẦNG

Hình 1.2 Kiến trúc thành phần kho dữ liệu 1.3.1.1 Khối các nguồn dữ liệu

Khối này bao gồm các phần sau:

 Dữ liệu sản phẩm: Đó là dữ liệu được chắt lọc từ các phần mềm ứng dụng và các hệ CSDL tác nghiệp đủ loại.

 Dữ liệu kế thừa: Về cơ bản loại dữ liệu này có tính lịch sử. Chúng phục vụ cho quá trình phân tích dữ liệu.

 Các hệ thống dữ liệu bên trong.

 Các hệ thống dữ liệu bên ngoài.

 Hệ quản lý siêu dữ liệu cho khối này.

1.3.1.2 Khối tạo dựng kho dữ liệu Khối này bao gồm các khối con [2]:

1. Khối con tinh chế:

Liên quan đến việc nâng cao chất lượng của dữ liệu, có các chức năng chính sau: Chuẩn hoá, làm sạch, sàng lọc, tương hợp dữ liệu, phân định thời gian cho các thông tin nguồn.

2. Khối con gia công lại: Có các chức năng chính sau:

 Tích hợp các dữ liệu khác từ các hệ thống để tạo ra dữ liệu mới.

 Phân dữ liệu thành ra các loại cho dễ xử lý.

 Tính toán sơ bộ, tổng hợp và kết xuất dữ liệu

 Chuyển đổi và hình thành lại các dữ liệu từ các nguồn khác nhau

 Biến đổi và gia công lại dữ liệu

3. Khối con Data Warehouse: Bao gồm các chức năng chính sau:

 Mô hình hoá, tổng hợp và kết nối mức độ cao các dữ liệu.

 Tăng chất lượng giá trị của dữ liệu.

(LUAN.VAN.THAC.SI).Xu.ly.phan.tich.truc.tuyen.OLAP.va.ung.dung.trong.khai.thac.kho.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xu.ly.phan.tich.truc.tuyen.OLAP.va.ung.dung.trong.khai.thac.kho.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xu.ly.phan.tich.truc.tuyen.OLAP.va.ung.dung.trong.khai.thac.kho.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xu.ly.phan.tich.truc.tuyen.OLAP.va.ung.dung.trong.khai.thac.kho.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10

 Mô tả các loại cơ sở dữ liệu.

 Xây dựng các từ điển thuật ngữ tác nghiệp,...

Về cơ bản các dữ liệu được xử lý ở đây được lấy trực tiếp từ khối các nguồn dữ liệu.

1.3.1.3 Khối tạo dựng Data Mart

Khối này dùng để tạo ra DM từ các nội dung của kho dữ liệu. Cũng giống như khối tạo dựng DW, trong khối này cũng có những chức năng như khối trên nhưng thường ở mức cao hơn và có hướng chủ đề rõ ràng. Các chức năng chính có trong khối này là:

 Tinh chế và gia công lại như khối tạo dựng DW.

 Sàng lọc các dữ liệu đã chắt lọc từ khối tạo dựng DW.

 Tích hợp các dữ liệu vào các lĩnh vực có chủ đề cụ thể.

 Tạo ra các dữ liệu tổng hợp

 Kiến tạo các kho dữ liệu chuyên dùng.

1.3.1.4 Khối truy nhập và sử dụng

Khối này bao gồm hai khối con chính là khối con truy nhập và khối con phân tích và tạo báo cáo.

Khối con truy nhập có những chức năng chính sau:

 Truy nhập trực tiếp vào khối tạo dựng DW.

 Truy nhập vào các Data Mart.

 Gia công lại và biến đổi dữ liệu thành các loại dữ liệu có cấu trúc phức tạp hơn.

Khối con phân tích và tạo báo cáo có các chức năng chính sau:

 Tạo ra các công cụ chuẩn để tạo báo cáo, phân tích, mô hình hoá tác nghiệp.

 Tạo ra các phần mềm trợ giúp ra quyết định, các phần mềm khai thác dữ liệu.

Cả hai khối con này đều có cơ chế quản lý siêu dữ liệu của chúng.

1.3.1.5 Lớp quản lý dữ liệu

Kho dữ liệu là một hệ thống thông tin lớn cho nên cũng giống như các hệ quản trị cơ sở dữ liệu tác nghiệp thông thường, việc quản lý dữ liệu đóng một vai trò rất quan trọng, nhất là phải quản lý một khối lượng rất lớn các dữ liệu lịch sử và hiện tại, mà các dữ liệu này bao gồm nhiều kiểu loại khác nhau rất phong phú và đa dạng được lưu trữ trong nhiều loại hình mang thông tin. Các chức năng chính của lớp quản lý dữ liệu là:

 Sao lại các dữ liệu thích hợp từ nguồn dữ liệu đã chọn phục vụ cho việc tinh chế và gia công lại dữ liệu trong kho dữ liệu.

 Giám sát và đáp ứng các yêu cầu cho các dữ liệu mới rút từ các nguồn dữ liệu khác nhau.

 Bảo quản các dữ liệu trong các nguồn dữ liệu tác nghiệp và nạp lại hoặc cập nhật và làm sạch dữ liệu.

Như vậy có thể thấy lớp quản lý dữ liệu có những chức năng quản lý mới khác với các chức năng của hệ quản trị cơ sở dữ liệu thông thường.

1.3.1.6 Lớp quản lý siêu dữ liệu

Trong việc thiết kế các kho dữ liệu, các siêu dữ liệu thể hiện ở khắp nơi.

Các nguồn dữ liệu được đặc trưng bởi định nghĩa của các dữ liệu nhập vào. Việc bổ sung các nhãn thời gian đòi hỏi phải định nghĩa các nhãn thời gian dùng trong siêu dữ liệu. Lớp quản lý siêu dữ liệu cũng quản lý các dữ liệu mô tả đầy đủ và hoàn chỉnh các dữ liệu được lưu trữ trong DW.

1.3.1.7 Lớp chuyển tải dữ liệu

Nhiệm vụ chuyển tải dữ liệu giữa các khối do lớp này thực hiện. Lớp này thực hiện nạp, sao chép, chuyển tải dữ liệu và sử dụng các hệ thống mạng, các phần mềm lớp trung gian. Nó bảo đảm tính an toàn và phân quyền cho các nhu cầu chuyển tải dữ liệu.

Lớp chuyển tải xác định các cầu nối truyền thông cần thiết giữa các trang thiết bị phần cứng và phần mềm của DW.

1.3.1.8 Lớp kết cấu hạ tầng

(LUAN.VAN.THAC.SI).Xu.ly.phan.tich.truc.tuyen.OLAP.va.ung.dung.trong.khai.thac.kho.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xu.ly.phan.tich.truc.tuyen.OLAP.va.ung.dung.trong.khai.thac.kho.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xu.ly.phan.tich.truc.tuyen.OLAP.va.ung.dung.trong.khai.thac.kho.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xu.ly.phan.tich.truc.tuyen.OLAP.va.ung.dung.trong.khai.thac.kho.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10

 Quản lý các hệ thống: tìm kiếm, quản lý và xác định các phần mềm chuẩn và các phần mềm ứng dụng .

 Trợ giúp cho quá trình tích hợp và các hoạt động khác để sao chép, cập nhật, kết nối, tổng hợp dữ liệu.

 Thực hiện công việc lưu trữ.

 Hệ thống xử lý: tạo ra các môi trường làm việc cho các khối chính.

1.3.2 Kiến trúc logic của DW

Như trên đã phân tích, dữ liệu nghiệp vụ bao gồm ba loại: dữ liệu thời gian thực, dữ liệu tương hợp và dữ liệu dẫn xuất. Mỗi loại dữ liệu này có thể ở các tầng khác nhau và mỗi tầng có cấu trúc vật lý riêng. Kiến trúc dữ liệu logic cho DW có thể xây dựng như sau [1]:

Hình 1.3 Kiến trúc ba tầng của DW

Hệ thống tác nghiệp (Operational System - OS) Hệ thống tác nghiệp

Dữ liệu dẫn xuất

Dữ liệu tương hợp

Dữ liệu thời gian thực

Kho thông tin nghiệp vụ

Kho dữ liệu =

=

=

Kho dữ liệu nghiệp vụ

Là chương trình ứng dụng để thực hiện các nghiệp vụ và các dữ liệu được lưu ở hệ thống tệp hay CSDL.

Hệ thống thao tác bao gồm các nguồn dữ liệu của DW, dữ liệu được tạo ra trong các hệ thống xử lý giao tác hàng ngày của xí nghiệp.

Kho dữ liệu nghiệp vụ (Business Data Warehouse - BDW)

Kho dữ liệu nghiệp vụ BDW là dạng cài đặt vật lý những dữ liệu tổng hợp được thiết kế để điều khiển và cung cấp dữ liệu đơn giản, nhất quán cho NSD đầu cuối.

BDW rất ít khi được NSD khai thác trực tiếp. Nó là nguồn cung cấp dữ liệu cho kho dữ liệu thông tin tác nghiệp.

Kho thông tin tác nghiệp (Business Information Warehouse - BIW) Đây là hệ thống thông tin được sử dụng để làm báo cáo, phân tích, hay dự đoán về nghiệp vụ. Nó bao gồm những thông tin quản lý, trợ giúp quyết định và các hệ thống thông tin thực thi như các hệ thống phân tích thị trường, các chương trình ứng dụng khai thác thông tin.

1.4 MÔ HÌNH DỮ LIỆU

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Xử lý phân tích trực tuyến OLAP và ứng dụng trong khai thác kho dữ liệu Luận văn ThS Công nghệ thông tin 1 01 10 (Trang 20 - 25)

Tải bản đầy đủ (PDF)

(107 trang)