1.3.1 Kiến trúc tham chiếu cơ bản và một số nguyên lý hoạt động của kho dữ liệu
Kiến trúc của kho dữ liệu dưới đây mô tả các thành phần của kho:
LỚP QUẢN LÝ DỮ LIỆU
KHỐI CÁC NGUỒN
DỮ LIỆU
KHỐI TẠO DỰNG
KHO DỮ LIỆU
KHỐI TẠO DỰNG
DATA MART
KHỐI TRUY NHẬP VÀ SỬ DỤNG
LỚP QUẢN LÝ SIÊU DỮ LIỆU LỚP CHUYỂN TẢI DỮ LIỆU
LỚP KẾT CẤU HẠ TẦNG
Hình 1.2 Kiến trúc thành phần kho dữ liệu 1.3.1.1 Khối các nguồn dữ liệu
Khối này bao gồm các phần sau:
Dữ liệu sản phẩm: Đó là dữ liệu được chắt lọc từ các phần mềm ứng dụng và các hệ CSDL tác nghiệp đủ loại.
Dữ liệu kế thừa: Về cơ bản loại dữ liệu này có tính lịch sử. Chúng phục vụ cho quá trình phân tích dữ liệu.
Các hệ thống dữ liệu bên trong.
Các hệ thống dữ liệu bên ngoài.
Hệ quản lý siêu dữ liệu cho khối này.
1.3.1.2 Khối tạo dựng kho dữ liệu Khối này bao gồm các khối con [2]:
1. Khối con tinh chế:
Liên quan đến việc nâng cao chất lượng của dữ liệu, có các chức năng chính sau: Chuẩn hoá, làm sạch, sàng lọc, tương hợp dữ liệu, phân định thời gian cho các thông tin nguồn.
2. Khối con gia công lại: Có các chức năng chính sau:
Tích hợp các dữ liệu khác từ các hệ thống để tạo ra dữ liệu mới.
Phân dữ liệu thành ra các loại cho dễ xử lý.
Tính toán sơ bộ, tổng hợp và kết xuất dữ liệu
Chuyển đổi và hình thành lại các dữ liệu từ các nguồn khác nhau
Biến đổi và gia công lại dữ liệu
3. Khối con Data Warehouse: Bao gồm các chức năng chính sau:
Mô hình hoá, tổng hợp và kết nối mức độ cao các dữ liệu.
Tăng chất lượng giá trị của dữ liệu.
(LUAN.VAN.THAC.SI).Xu.ly.phan.tich.truc.tuyen.OLAP.va.ung.dung.trong.khai.thac.kho.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xu.ly.phan.tich.truc.tuyen.OLAP.va.ung.dung.trong.khai.thac.kho.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xu.ly.phan.tich.truc.tuyen.OLAP.va.ung.dung.trong.khai.thac.kho.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xu.ly.phan.tich.truc.tuyen.OLAP.va.ung.dung.trong.khai.thac.kho.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10
Mô tả các loại cơ sở dữ liệu.
Xây dựng các từ điển thuật ngữ tác nghiệp,...
Về cơ bản các dữ liệu được xử lý ở đây được lấy trực tiếp từ khối các nguồn dữ liệu.
1.3.1.3 Khối tạo dựng Data Mart
Khối này dùng để tạo ra DM từ các nội dung của kho dữ liệu. Cũng giống như khối tạo dựng DW, trong khối này cũng có những chức năng như khối trên nhưng thường ở mức cao hơn và có hướng chủ đề rõ ràng. Các chức năng chính có trong khối này là:
Tinh chế và gia công lại như khối tạo dựng DW.
Sàng lọc các dữ liệu đã chắt lọc từ khối tạo dựng DW.
Tích hợp các dữ liệu vào các lĩnh vực có chủ đề cụ thể.
Tạo ra các dữ liệu tổng hợp
Kiến tạo các kho dữ liệu chuyên dùng.
1.3.1.4 Khối truy nhập và sử dụng
Khối này bao gồm hai khối con chính là khối con truy nhập và khối con phân tích và tạo báo cáo.
Khối con truy nhập có những chức năng chính sau:
Truy nhập trực tiếp vào khối tạo dựng DW.
Truy nhập vào các Data Mart.
Gia công lại và biến đổi dữ liệu thành các loại dữ liệu có cấu trúc phức tạp hơn.
Khối con phân tích và tạo báo cáo có các chức năng chính sau:
Tạo ra các công cụ chuẩn để tạo báo cáo, phân tích, mô hình hoá tác nghiệp.
Tạo ra các phần mềm trợ giúp ra quyết định, các phần mềm khai thác dữ liệu.
Cả hai khối con này đều có cơ chế quản lý siêu dữ liệu của chúng.
1.3.1.5 Lớp quản lý dữ liệu
Kho dữ liệu là một hệ thống thông tin lớn cho nên cũng giống như các hệ quản trị cơ sở dữ liệu tác nghiệp thông thường, việc quản lý dữ liệu đóng một vai trò rất quan trọng, nhất là phải quản lý một khối lượng rất lớn các dữ liệu lịch sử và hiện tại, mà các dữ liệu này bao gồm nhiều kiểu loại khác nhau rất phong phú và đa dạng được lưu trữ trong nhiều loại hình mang thông tin. Các chức năng chính của lớp quản lý dữ liệu là:
Sao lại các dữ liệu thích hợp từ nguồn dữ liệu đã chọn phục vụ cho việc tinh chế và gia công lại dữ liệu trong kho dữ liệu.
Giám sát và đáp ứng các yêu cầu cho các dữ liệu mới rút từ các nguồn dữ liệu khác nhau.
Bảo quản các dữ liệu trong các nguồn dữ liệu tác nghiệp và nạp lại hoặc cập nhật và làm sạch dữ liệu.
Như vậy có thể thấy lớp quản lý dữ liệu có những chức năng quản lý mới khác với các chức năng của hệ quản trị cơ sở dữ liệu thông thường.
1.3.1.6 Lớp quản lý siêu dữ liệu
Trong việc thiết kế các kho dữ liệu, các siêu dữ liệu thể hiện ở khắp nơi.
Các nguồn dữ liệu được đặc trưng bởi định nghĩa của các dữ liệu nhập vào. Việc bổ sung các nhãn thời gian đòi hỏi phải định nghĩa các nhãn thời gian dùng trong siêu dữ liệu. Lớp quản lý siêu dữ liệu cũng quản lý các dữ liệu mô tả đầy đủ và hoàn chỉnh các dữ liệu được lưu trữ trong DW.
1.3.1.7 Lớp chuyển tải dữ liệu
Nhiệm vụ chuyển tải dữ liệu giữa các khối do lớp này thực hiện. Lớp này thực hiện nạp, sao chép, chuyển tải dữ liệu và sử dụng các hệ thống mạng, các phần mềm lớp trung gian. Nó bảo đảm tính an toàn và phân quyền cho các nhu cầu chuyển tải dữ liệu.
Lớp chuyển tải xác định các cầu nối truyền thông cần thiết giữa các trang thiết bị phần cứng và phần mềm của DW.
1.3.1.8 Lớp kết cấu hạ tầng
(LUAN.VAN.THAC.SI).Xu.ly.phan.tich.truc.tuyen.OLAP.va.ung.dung.trong.khai.thac.kho.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xu.ly.phan.tich.truc.tuyen.OLAP.va.ung.dung.trong.khai.thac.kho.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xu.ly.phan.tich.truc.tuyen.OLAP.va.ung.dung.trong.khai.thac.kho.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Xu.ly.phan.tich.truc.tuyen.OLAP.va.ung.dung.trong.khai.thac.kho.du.lieu.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10
Quản lý các hệ thống: tìm kiếm, quản lý và xác định các phần mềm chuẩn và các phần mềm ứng dụng .
Trợ giúp cho quá trình tích hợp và các hoạt động khác để sao chép, cập nhật, kết nối, tổng hợp dữ liệu.
Thực hiện công việc lưu trữ.
Hệ thống xử lý: tạo ra các môi trường làm việc cho các khối chính.
1.3.2 Kiến trúc logic của DW
Như trên đã phân tích, dữ liệu nghiệp vụ bao gồm ba loại: dữ liệu thời gian thực, dữ liệu tương hợp và dữ liệu dẫn xuất. Mỗi loại dữ liệu này có thể ở các tầng khác nhau và mỗi tầng có cấu trúc vật lý riêng. Kiến trúc dữ liệu logic cho DW có thể xây dựng như sau [1]:
Hình 1.3 Kiến trúc ba tầng của DW
Hệ thống tác nghiệp (Operational System - OS) Hệ thống tác nghiệp
Dữ liệu dẫn xuất
Dữ liệu tương hợp
Dữ liệu thời gian thực
Kho thông tin nghiệp vụ
Kho dữ liệu =
=
=
Kho dữ liệu nghiệp vụ
Là chương trình ứng dụng để thực hiện các nghiệp vụ và các dữ liệu được lưu ở hệ thống tệp hay CSDL.
Hệ thống thao tác bao gồm các nguồn dữ liệu của DW, dữ liệu được tạo ra trong các hệ thống xử lý giao tác hàng ngày của xí nghiệp.
Kho dữ liệu nghiệp vụ (Business Data Warehouse - BDW)
Kho dữ liệu nghiệp vụ BDW là dạng cài đặt vật lý những dữ liệu tổng hợp được thiết kế để điều khiển và cung cấp dữ liệu đơn giản, nhất quán cho NSD đầu cuối.
BDW rất ít khi được NSD khai thác trực tiếp. Nó là nguồn cung cấp dữ liệu cho kho dữ liệu thông tin tác nghiệp.
Kho thông tin tác nghiệp (Business Information Warehouse - BIW) Đây là hệ thống thông tin được sử dụng để làm báo cáo, phân tích, hay dự đoán về nghiệp vụ. Nó bao gồm những thông tin quản lý, trợ giúp quyết định và các hệ thống thông tin thực thi như các hệ thống phân tích thị trường, các chương trình ứng dụng khai thác thông tin.
1.4 MÔ HÌNH DỮ LIỆU