Dữ liệu nghiệp vụ trong kho dữ liệu

Một phần của tài liệu KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU LỚN (Trang 38 - 40)

Dữ liệuDữ liệu

4.2.3.1Dữ liệu nghiệp vụ trong kho dữ liệu

ở đầu phần 4.2, dữ liệu thời gian thực, dữ liệu dẫn xuất, dữ liệu điều hoà chỉ là mức khái niệm. ở mức vật lý của kho dữ liệu, mỗi lớp này có phần vật lý tơng ứng. Tuy nhiên, chúng có thể không có các vùng vật lý riêng biệt và đợc triển khai theo nhiều cách khác nhau. Ta xét một kiểu cấu trúc logic ở mức cao đợc minh hoạ trong hình 4.5.

• Các hệ thống điều hành (thời gian thực)

Các hệ thống điều hành là các ứng dụng thực hiện các tác nghiệp và các dữ liệu đợc sử dụng ở dới dạng các tệp hoặc trong các CSDL thời gian thực. Các ứng dụng nh vậy tồn tại dới nhiều khuôn dạng khác nhau và ở nhiều vùng lu trữ khác nhau. Vì vậy, chúng vừa không đồng nhất, vừa phân tán. Các ứng dụng mới tiếp tục đợc xây dựng và thậm chí ngày càng không đồng nhất và phân tán hơn trong quá khứ. Các ứng dụng thờng đợc thực hiện trong các môi trờng khách/chủ khác nhau.

Các hệ thống điều hành là nguồn dữ liệu cung cấp cho kho dữ liệu. Dữ liệu nh vậy đợc tạo ra qua các hệ thống xử lý giao tác. Tuy nhiên, nguồn dữ liệu cung cấp cho Kho dữ liệu cũng có thể là các dữ liệu bên ngoài, dữ liệu dự báo, dữ liệu lặp và dữ liệu cá nhân. Các nguồn dữ liệu này có thể đến từ các hệ thống tác nghiệp, các kho dữ liệu và các hệ thống tơng tác khác.

• Kho dữ liệu nghiệp vụ (Business Data Warehouse - BDW)

Kho dữ liệu nghiệp vụ là thể hiện vật lý của lớp dữ liệu điều hoà. Các đặc trng của lớp dữ liệu này đã đợc mô tả trong phần trên. Đặc trng của kho dữ liệu nghiệp vụ là tính chi tiết, lịch sử, nhất quán, mô hình hoá và chuẩn hoá.

Kho dữ liệu nghiệp vụ ít khi đợc ngời sử dụng trực tiếp. Đó là nguồn dữ liệu trong kho thông tin nghiệp vụ đợc trình bày sau đây:

• Kho thông tin nghiệp vụ (Business Information Warehouse - BIW)

Kho thông tin nghiệp vụ là một tên chung cho bất kỳ hệ thống nào đợc sử dụng trong việc báo cáo, phân tích và dự báo về nghiệp vụ, bao gồm báo cáo thông tin quản lý, hỗ trợ quyết định và các hệ thống thông tin điều hành nh các hệ thống phân tích thị trờng, các ứng dụng khai phá dữ liệu, vv... Kho thông tin nghiệp vụ gắn với lớp dữ liệu dẫn xuất trong mô hình kiến trúc ba lớp. Hiện nay, hầu hết các kho thông tin nghiệp vụ đều sử dụng cấu trúc quan hệ dựa trên hàng và cột.

Kho thông tin nghiệp vụ chứa dữ liệu dẫn xuất đợc thiết kế để hỗ trợ các nhu cầu của ngời sử dụng, hoặc từng cá nhân hoặc từng nhóm, hoặc các phòng. Chúng có thể chứa dữ liệu ở mức tổng hợp hoặc mức chi tiết, dữ liệu định kỳ trong một khoảng thời gian nhất định hoặc các bản sao. Cấu trúc của kho thông tin nghiệp vụ đợc thiết kế tối u cho việc thực hiện các câu hỏi trực tuyến hoặc các truy vấn xác định trớc hoặc tuỳ biến. Kho thông tin nghiệp vụ đợc sinh ra hoặc trực tiếp từ kho dữ liệu nghiệp vụ hoặc qua một kho thông tin nghiệp vụ khác. Việc sinh ra kho thông tin nghiệp vụ trực tiếp từ kho dữ liệu nghiệp vụ dựa trên quan hệ giữa dữ liệu dẫn xuất và dữ liệu điều hoà. Kho thông tin nghiệp vụ có thể kết xuất từ một kho thông tin nghiệp vụ khác, nhng không phải là cách sử dụng tốt nhất các tài nguyên tính toán. Tuy nhiên, sự thuận lợi của việc này, cần phải cân nhắc tới nguy cơ tạo ra hiện tợng phản ứng dây chuyền khi các kho dữ liệu quá phụ thuộc vào nhau. Điều này dẫn tới việc phân loại hai kiểu kho thông tin nghiệp vụ: kho thông tin nghiệp vụ tạm thời là nguồn cho các kho thông tin nghiệp vụ khác và kho thông tin nghiệp vụ ngời sử dụng không cho phép cung cấp dữ liệu cho các kho thông tin nghiệp vụ khác. Với kho thông tin nghiệp vụ tạm thời, yêu cầu phải có sự quản lý đặc biệt để bảo đảm tính nhất quán và tính toàn vẹn của dữ liệu đợc lu trữ.

Một phần của tài liệu KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU LỚN (Trang 38 - 40)