Vấn đề về không nhất quán dữ liệu khi thực hiện truy vấn.

Một phần của tài liệu tổng hợp kho cơ sở dữ liệu (Trang 41 - 44)

Ví dụ:

Hình 4

Đây là một truy vấn gồm nhiều câu lệnh SQL, mục địch là để tính toán số tiền bán ra của mỗi loại hàng hóa và phần trăm của số tiền đó trên tổng số doanh thu.

Câu truy vấn này thực hiện như sau: tạo 2 bảng tạm TEMP1, và TEMP2, đưa dữ liệu về số lượng tiền của mỗi loại hàng hóa vào bàng TEMP1, đưa tổng số tiền bán được vào bảng TEMP2, sau đó sẽ đưa ra bảng tổng kết như khung hình bên phải.

Vấn đề ở đây là nếu sau khi thực hiện việc đưa dữ liệu vào bảng TEMP1 và chưa kịp dưa dữ liệu vào bảng TEMP2 thì xảy ra hiện tượng không đồng nhất dữ

liệu, điều này có nghĩa là tổng số phần trăm bên khung nhìn bên phải sẽ không bằng 100%.

Các giải pháp cho vấn đề này được đề xuất như sau:

+ Cách 1:sử dụng cách tiếp cận “gần thời gian thực” (near real-time): thực hiện việc cập nhật dữ liệu trong một chu kỳ nhất định, và không cho phép việc thực hiện truy vấn trong thời gian cập nhật dữ liệu.

+ Cách 2: tách dữ liệu được tổng hợp trong thời gian thực và dữ liệu lịch sử và lưu trong vùng nhớ cache, như vậy sẽ tránh được trường hợp dữ liệu không nhất quán. Khi thực hiện truy vấn, ta sẽ thực hiện truy vấn đồng thời trên cả 2 dữ liệu.

Cảnh báo thời gian thực: các hệ thống cảnh báo được sử dụng trong data warehouse chủ yếu để gửi các báo cáo đến người dùng sau khi load dữ liệu trong mỗi chu kỳ. Tuy nhiên đối với các hệ thống data warehouse hoạt động trong thời gian thực, hệ thống cảnh báo được sử dụng để thông báo khi mà điều kiện đặt ra được đáp ứng. Các giải pháp đặt ra cho vấn đề thông báo theo thời gian thực:

+ Lập lịch theo vòng n phút (n-Minute Cycle Schedule): chú ý rằng cần phải xác định ngưỡng thấp nhất của vòng lặp, vì ở một giới hạn nào đó, có thể xảy ra một số vấn đề về khả năng chịu tải của hệ thống hoặc lần cảnh báo sau bắt đầu trước khi lần cảnh báo trước kết thúc, điều này gây ra trùng cảnh báo.

+ Thông báo bằng cách theo dõi và chặn (trigger) theo thời gian thực: đặt các chặn (trigger) để kiểm tra mỗi khi có sự thay đổi dữ liệu để cảnh báo. Về phương pháp này, cần chú ý về giới hạn của phần cứng và bộ nhớ để đáp ứng các xử lý liên tục.

Chương 4. Phần mềm tích hợp dữ liệu mã nguồn mở Kettle 4.1. Giới thiệu tổng quan:

Một phần của tài liệu tổng hợp kho cơ sở dữ liệu (Trang 41 - 44)

Tải bản đầy đủ (DOCX)

(75 trang)
w