Hầu hết chúng ta đều đã quen với sản phẩm thương mại là hệ cơ sở dữ liệu quan hệ. Sản phẩm này có đặc điểm là dễ hiểu. Công việc chính trên kho dữ liệu tác nghiệp này là xử lý các giao dịch và truy vấn trực tuyến. Các hệ thống này có tên gọi là hệ thống xử lý giao dịch trực tuyến (Online Transaction Processing – OLTP). Hệ thống này bao phủ lên hầu hết các hoạt động hàng ngày của doanh nghiệp. So với môi trường data warehouse, nó có những điểm khác biệt chính được mô tả qua hình vẽ bên dưới:
Hình 8: Data warehouse và OLTP
Một trong những điểm khác nhau chính giữa hai kiểu hệ thống này là data warehouse thường được thiết kế không tuân theo chuẩn 3NF trong khi thiết kế các hệ thống OLTP thường tuân theo chuẩn này.
Ngoài ra data warehouse và hệ thống OLTP còn có những yêu cầu rất khác nhau thể hiện ở các đặc điểm sau:
Độ chịu tải: Data warehouse được thiết kế để phù hợp với các truy vấn đặc biệt. Khi truy vấn data warehouse, người dùng thường không biết trước được mức độ chịu tải của hệ thống cho nên data warehouse cần phải được thiết kế tối ưu để có thể thực hiện tốt trên nhiều các hoạt động truy vấn khác nhau.
Các hệ thống OLTP thường chỉ hỗ trợ những hoạt động đã được định nghĩa trước chi nên ứng dụng có thể được tối ưu và thiết kế ngay từ ban đầu để hỗ trợ các hoạt động đó.
Thay đổi dữ liệu: Data warehouse chỉ được cập nhật theo chù kỳ đều đặn cơ bản theo quy trình trích lọc, làm sạch và tải dữ liệu sử dụng kỹ thuật cập nhật lượng dữ liệu lớn. Người dùng cuối của với hệ thống data warehouse thì không trực tiếp thay đổi dữ liệu này.
Trái ngược với mô tả trên, trong hệ thống OLTP người dùng thường xuyên thay đổi dữ liệu thông qua các câu lệnh SQL đơn lẻ nhằm phản ánh trực tiếp các giao dịch nghiệp vụ hiện hành.
Lược đồ dữ liệu: Data warehouse thường sử dụng lược đồ dữ liệu phi chuẩn (ví dụ lược đồ hình sao) nhằm mục đích tối ưu hóa hiệu năng truy vấn.
Hệ thống OLTP thường sử dụng các lược đồ dữ liệu chuẩn hóa (thường là chuẩn 3NF) để tối ưu hiệu năng của các thao tác thêm/sửa/xóa và đảm bảo tính toàn vẹn về mặt dữ liệu.
Thao tác với dữ liệu: Các truy vấn trong data warehouse thường quét trên hàng nghìn hoặc hàng triệu dòng trong khi các thao tác trên hệ thống OLTP thường chỉ trên một lượng nhỏ các bản ghi.
Dữ liệu lịch xử: Data warehouse thường lưu dữ liệu của nhiều tháng, nhiều năm nhằm mục đích hỗ trợ các phân tích dữ liệu.
Hệ thống OLTP thường lưu dữ liệu theo tuần hoặc theo tháng. Nó chỉ lưu dữ liệu lịch xử khi cần đảm bảo thành công cho một yêu cầu nào đó của giao dịch hiện thời.
CHƯƠNG 2: KIẾN TRÚC DATA WAREHOUSE