Kho dữ liệu đƣợc định nghĩa theo nhiều cách khác nhau, nhƣng không chặt chẽ:
- Có thể đƣợc coi nhƣ một cơ sở dữ liệu hỗ trợ quyết định mà đƣợc duy trì một cách riêng biệt từ cơ sở dữ liệu tác nghiệp của một tổ chức.
- Hỗ trợ xử lý thông tin bằng cách cung cấp một nền tảng vững chắc dữ liệu lịch sử và hợp nhấtcho việc phân tích.
Một trong những định nghĩa hay gặp của kho dữ liệu của W.H .Inmon đuợc phát biểu nhƣ sau:
"Một kho dữ liệu là một bộ dữ liệu hƣớng chủ đề, tích hợp, biến động theo thời gian, và không mất đi đƣợc sử dụng để hỗ trợ quá trình ra quyết định quản lý “
Khái niệm công nghệ kho dữ liệu đƣợc dùng để chỉ quá trình xây dựng và sử dụng kho dữ liệu. Tiếp tới chúng ta cùng phân tích kỹ hơn các đặc điểm của kho dữ liệu đƣợc nêu ra trong định
nghĩa trên.
- Đặc điểm hƣớng chủ đề của khi dữ liệu đƣợc thể hiện:
o Qua việc cung cấp một khung nhìn xúc tích và đơn giản xung quanh các vấn đề của một chủ đề cụ thể. Chúng ta có thể thực hiện đặc điểm này bằng cách loại trừ các dữ liệu không hữu ích trong tiến trình hỗ trợ quyết định.
o Qua việc đƣợc tổ chức xung quanh các đối tƣợng chính, chẳng hạn nhƣ khách hàng, sảnphẩm, bán hàng.
o Qua viêc tập trung vào mô hình hóa và phân tích các dữ liệu cho những ngƣời ra quyết định, không phải cho các hoạt động tác nghiệp hàng ngày hoặc cho xử lý giao dịch.
80
o Đƣợc xây dựng bằng cách tích hợp nhiều nguồn dữ liệu không đồng nhất nhƣ cơ sở dữ liệu quan hệ, các tệp lƣu trữ bằng văn bản, các bản ghi của giao dịchtrực tuyến
o Dữ liệu đƣợc làm sạch và tích hợp bằng các kỹ thuật tích hợp dữ liệuđể đảm bảo tính nhất quán trong quy ƣớc đặt tên, mã hóa cấu trúc, các độ đo thuộc tính , v.v…giữa các nguồn dữ liệu khác nhau ví dụnhƣ Giá khách sạn bao gồmđơn vị tiền tệ, thuế,
giá ăn sáng ...
o Khi dữ liệu đƣợc chuyển đến kho, nó cần đƣợc chuyển đổisang một dạng thống nhất.
- Kho dữ liệu biến đổi theo thời gian đƣợc thể hiện ở các đặc điểm sau:
o Trục hoành chỉ thời gian trong các kho dữ liệu dài hơn đáng kể so với các hệ thống tác nghiệp vì trong cơ sở dữ liệu tác nghiệp thể hiện giá trị hiện hành của dữ liệu còn
trong kho dữ liệu cung cấp thông tin từ một khung nhìn lịch sử (ví dụ,dữ liệu qua 5-
10 năm)
o Tất cả các cấu trúc quan trọng trong kho dữ liệu đều chứa yếu tố về thời gian một cách tƣờng minh hoặc không tƣờng minh. Cách thể hiện thời gian một cách tƣờng minh là trong cấu trúc của dữ liệu có một thuộc tính thời gian, cách không tƣờng
minh thƣờng đƣợc thể hiện thông qua một số các thuộc tính khác mà không nói rõ đó là thời gian, sự không tƣờng minh đƣợc thể hiện khác nhau trong các trƣờng hợp
khác nhau. Tuy nhiên, khóa của dữ liệu tác nghiệp có thể chứa hoặc không chứa những "yếu tố thời gian".
- Kho dữ liệu là không mất đi khi tắt điện đƣợc thể hiện ở những đặc điểm sau
o Là một kho lƣu trữ riêng biệt về mặt vật lý của những dữ liệu đƣợc chuyển đổi từ
môi trƣờng tác nghiệp vào.
o Thao tác cập nhật dữ liệu tác nghiệp không nhất thiết xảy ra trong môi trƣờng kho dữ liệu. Lý do là vì
Kho dữ liệu không chứa thông tin về xử lý giao dịch, phục hồi dữ liệu và các cơ chế kiểm soát việc xảy ra đồng thời.
Thƣờng chỉ đòi hỏi có hai thao tác truy xuất dữ liệulà tải dữ liệu vào kho lúc khởi tạo và truy nhập dữ liệu có sẵn trong kho.
81
Chúng ta dễ nhầm lẫn kho dữ liệu với cơ sở dữ liệu hỗn tạp bởi cảhai đều chứa nhiều loại dữ
liệu khác nhau và các dữ liệu này đƣợc tích hợp lại trong một thể thống nhất. Tuy nhiên kho dữ
liệu khác hẳn cơ sở dữ liệu hỗn tạp về bản chất:
- Việc tích hợp cơ sở dữ liệu hỗn tạp truyền thống cần
o Xây dựng một thành phần đóng gói (trung gian, bao bọc) cho toàn bộ các dữ liệu hỗn tạp khác nhau
o Có cách tiếp cận hƣớng truy vấn có nghĩa là một truy vấn do ngƣời dùng yêu cầu đƣợc dịch sang các câu truy vấn tƣơng ứng với từng thành phần hỗn tạp; kết quả trả về sẽđƣợc tích hợp thành một tập câu trả lời toàn cục.
o Liên quan tớiviệc lọc thông tin phức tạp
o Cạnh tranh tài nguyên tại các nguồn cục bộđịa phƣơng
- Kho dữ liệu có xu hƣớng chỉ thực hiện các thao tác cập nhật vớihiệu năng cao
o Thông tin từ các nguồn hỗn tạp đƣợc tích hợp trƣớc và đƣợc lƣu trữ trong kho để phân tích và truy vấn trực tiếp.
So sánh kho dữ liệu với cơ sở dữ liệu tác nghiệp
Hai loại này khác nhau chủ yếu về cách sử dụng dữ liệu đƣợc lƣu trữ trong chúng:
- Nhiệm vụ của cơ sở dữ liệu quan hệ truyền thống là thực hiện xử lý giao dịch trực tuyến, chủ yếu thực hiện các hoạt động hàng ngày nhƣ mua bán, thống kê hàng tồn kho, giao dịch ngân hàng, quản lý sản xuất, tiền lƣơng, đăng ký, kế toán sổ sách, v.v…
- Nhiệm vụ của kho dữ liệu là thực hiện các phân tích trực tuyến, chủ yếu thực hiện các công việc phân tích và hỗ trợ ra quyết định cho một tổ chức nào đó.
- Đặc điểm phân biệt phân tích trực tuyến (OLAP) và xử lý trực tuyến (OLTP) chính là sự khác nhau cơ bản của kho dữ liệu và cơ sở dữ liệu truyền thống, đƣợc thể hiện ở những điểm
sau:
o OLTP có định hƣớng ngƣời sử dụng còn OLAP có định hƣớng hệ thống: OLTP phục vụ khách hàng còn OLAP phục vụ thị trƣờng
o Nội dung dữ liệu khác nhau: OLTP mang nội dung hiện tại, chi tiết còn OLAP mang
nội dunglịch sử, hợp nhất.
o Thiết kế cơ sở dữ liệu: OLTP sử dụng mô hình thực thể liên kết ER đi cùng với ứng dụng còn OLAP sử dụng mô hình sao cùng với chủ thể
82
o Khung nhìn dữ liệu: OLTP cung cấp khung nhìn hiện tại, cục bộ còn OLAP cung cấp khung nhìn dữ liệu cho các thao tác chỉ đọc nhƣng cho những truy vấn phức tạp.
o Các mẫu truy cập dữ liệu: OLTP cần các truy vấn cập nhật đơn giản là chính trong khi OLAP sử dụng các truy vấn chỉ đọc nhƣng phức tạp.
Tách rời kho dữ liệu khỏi cơ sở dữ liệu tác nghiệp
Cần thực hiện việc này bởi những lý do sau: - Hiệu suất cao cho cả hai hệ thống:
o Hệ quản trịcơ sở dữ liệu đã đƣợc thiết kế tốt để phục vụ cho các hoạt động xử lý trực tuyến vềcác phƣơng pháp truy cập dữ liệu, đánh chỉ mục, kiểm soát xửlý đồng thời, phục hồi dữ liệu.
o Kho dữ liệu đƣợc thiết kế tốt phục vụ các hoạt động xử lý phân tích trực tuyến bao gồm xử lý các truy vấn OLAP, tạo khung nhìn đa chiều và củng cố dữ liệu.
- Chức năng khác nhau và dữ liệu khác nhau:
o Hệ hỗ trợ quyết định mà kho dữ liệu cung cấp yêu cầu dữ liệu lịch sử trong khi đó cơ sở dữ liệu tác nghiệpthƣờng không duy trì.
o Hệ hỗ trợ quyết định cần củng cố dữ liệu (tích hợp, tổng hợp) từ các nguồn dữ liệu hỗn tạp khác nhau.
o Các nguồn khác nhau thƣờng sử dụng dữ liệu không nhất quán, mã số và các định dạng của chúng cần phải đƣợc đối chiếu.