Sử dụng kho dữ liệu

Một phần của tài liệu Luận văn: Phương pháp xử lý phân tích trực tuyến áp dụng trong xây dựng hệ trợ giúp quyết định dựa vào dữ liệu docx (Trang 26 - 28)

Chương I Khai thác dữ liệu và xử lý phân tích trực tuyến

2.2.Sử dụng kho dữ liệu

Kho dữ liệu được sử dụng theo ba cách chính:

• Theo cách khai thác truyền thống, kho dữ liệu được sử dụng để khai

thác các thông tin bằng các công cụ vấn đáp và báo cáo. Tuy nhiên, nhờ có việc xuất ra, tổng hợp và chuyển đổi từ các dữ liệu thô sang dạng các dữ liệu chất lượng cao và có tính ổn định, kho dữ liệu đã giúp nâng cao các kỹ thuật biểu diễn thông tin truyền thống (hỏi đáp và báo cáo). Bằng cách tạo ra một tầng ẩn giữa người dùng và CSDL, các dữ liệu đầu vào của kỹ thuật này được đặt vào một nguồn duy nhất. Việc hợp

nhất này loại bỏ được rất nhiều lỗi sinh ra do việc phải thu thập và biểu diễn thông tin từ rất nhiều nguồn khác nhau cũng như giảm bớt được sự chậm trễ do phải lấy các dữ liệu bị phân đoạn trong các CSDL khác nhau, tránh cho người dùng khỏi những câu lệnh phức tạp. Tuy nhiên

đây mới chỉ là cách khai thác với kỹ thuật cao để đưa ra các dữ liệu tinh

và chính xác hơn chứ chưa đưa ra được dữ liệu “tri thức”.

• Các kho dữ liệu được sử dụng để hỗ trợ cho phân tích trực tuyến

(OLAP). Trong khi ngôn ngữ truy vấn chuẩn SQL và các công cụ làm báo cáo truyền thống chỉ có thể miêu tả những gì có trong CSDL thì phân tích trực tuyến có khả năng phân tích dữ liệu, xác định xem giả thuyết đúng hay sai. Tuy nhiên phân tích trực tuyến lại khơng có khả

năng đưa ra được các giả thuyết. Hơn nữa, kích thước quá lớn và tính

chất phức tạp của kho dữ liệu làm cho nó rất khó có thể sử dụng cho những mục đích như đưa ra các giả thuyết từ các thơng tin mà chương trình ứng dụng cung cấp (ví dụ như khó có thể đưa ra được giả thuyết giải thích được hành vi của một nhóm khách hàng).

• Trước đây, kỹ thuật học máy thường được sử dụng để tìm ra những giả thuyết từ các thông tin dữ liệu thu thập được. Tuy nhiên thực nghiệm

cho thấy chúng thể hiện khả năng rất kém khi áp dụng với các tập dữ liệu lớn trong kho dữ liệu. Phương pháp thống kê tuy ra đời đã lâu

nhưng khơng có gì cải tiến để phù hợp với sự phát triển của dữ liệu. Đây chính là lý do tại sao một khối lượng lớn dữ liệu vẫn chưa được

khai thác và thậm chí được lưu chủ yếu trong các kho dữ liệu không trực tuyến (Offline). Điều này đã tạo nên một lỗ hổng lớn trong việc hỗ trợ phân tích và tìm hiểu dữ liệu, tạo ra khoảng cách giữa việc tạo ra và việc khai thác dữ liệu đó. Trong khi đó càng ngày người ta càng nhận thấy rằng nếu được phân tích thơng minh thì dữ liệu sẽ là một nguồn tài ngun q giá. Từ đó người ta đã đưa ra một phương pháp mới đáp ứng cả nhu cầu trong khoa học cũng như trong hoạt động thực tiễn, đó

chính là cơng nghệ khai phá dữ liệu (Data Mining). Đây chính là ứng dụng chính thứ ba của kho dữ liệu.

Một phần của tài liệu Luận văn: Phương pháp xử lý phân tích trực tuyến áp dụng trong xây dựng hệ trợ giúp quyết định dựa vào dữ liệu docx (Trang 26 - 28)