Công nghệ xử lý phân tích trực tuyến trong việc trợ giúp quyết định Phạm Minh Quý Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Công nghệ thông tin; Mã số: 01.01.10 Người hướng dẫn: TS. Đỗ Trung Tuấn Năm bảo vệ: 2003 Abstract: Tìm hiểu kho dữ liệu và công nghệ OLAP sử dụng để khai thác trên các kho dữ liệu. Nghiên cứu mô hình cơ sở dữ liệu đa chiều. Ứng dụng công nghệ phân tích trực tuyến vào khai thác, trợ giúp công tác quản lý, ra quyết định Keywords: Công nghệ thông tin; Cơ sở dữ liệu; Dữ liệu; Phân tích trực tuyến; Tổ chức dữ liệu Content PHẦN MỞ ĐẦU Đặt vấn đề Trong bối cảnh công nghệ thông tin phát triển mạnh mẽ, dữ liệu ngày càng được tập trung trong những cơ sở dữ liệu (CSDL) khổng lồ, nhu cầu truy nhập vào tất cả các dữ liệu để lấy ra thông tin là cần thiết. Cách tổ chức dữ liệu có hiệu quả nhất để trợ giúp nhu cầu truy nhập tìm ra thông tin cần thiết là kho dữ liệu. Ở nước ta ngày càng có nhiều kho dữ liệu được xây dựng và lượng dữ liệu ngày một lớn. Nhưng việc khai thác hiện nay chưa có hiệu quả, vì trong kho dữ liệu lớn, đa chiều thường chứa nhiều thông tin (tri thức) ẩn kín mà các công cụ truyền thống như kỹ thuật truy vấn SQL rất khó và nhiều khi không phát hiện được. Hơn thế nữa, do yêu cầu của người sử dụng liên tục thay đổi, đòi hỏi các câu trả lời phải theo thứ tự khác nhau. Yêu cầu làm thể nào có thể khai thác thông tin có hiệu quả, thoả mãn nhu cầu khai thác mức cao của người dùng, đòi hỏi phải có công nghệ khai thác thích hợp, hiện nay xử lý phân tích trực tuyến (OLAP) là một trong các phương pháp khai thác có hiệu quả trên những tập dữ liệu lớn và hỗn hợp. Trước đây công nghệ này ít được áp dụng vì nó đắt tiền, khó cài đặt, không mềm dẻo trong khai thác. Nhưng đến nay trên thế giới công nghệ OLAP thực sự đã và đang được nghiên cứu, phát triển mạnh mẽ và ngày càng đuợc sử dụng rộng rãi trong khai thác dữ liệu, hỗ trợ ra quyết định. Ở nước ta việc áp dụng công nghệ này đến nay vẫn chưa 2 được phát triển. Xuất phát từ nhu cầu thực tiễn tôi chọn hướng đề tài nghiên cứu: “Công nghệ xử lý phân tích trực tuyến trong việc trợ giúp quyết định” nhằm tìm hiểu về kho dữ liệu và công nghệ OLAP sử dụng để khai thác trên các kho dữ liệu, hướng tới xây dựng các hệ thống có khả năng ứng dụng công nghệ phân tích trực tuyến vào khai thác dữ liệu phục vụ cho công tác quản lý, hỗ trợ ra quyết định. Mục tiêu của đề tài Đề tài đề cập đến việc nghiên cứu nhằm hướng đến xây dựng các hệ thống trợ giúp quyết định sử dụng phương pháp luận OLAP. Luận văn sẽ tập trung vào các công việc chính là nghiên cứu vấn đề tổ chức, xây dựng kho dữ liệu, nhấn mạnh vào nghiên cứu mô hình CSDL đa chiều và phân tích dữ liệu trực tuyến để trợ giúp ra quyết định. Hệ trợ giúp quyết định theo tiếp cận này, có thể giúp cho nhà quản lý thiết lập một mô hình OLAP cho ứng dụng cụ thể của mình trong việc tổ chức CSDL đa chiều, và giúp cho họ dễ dàng trong hoạt động phân tích, tìm kiếm thông tin theo những khía cạnh khác nhau của dữ liệu, nhằm thu thập được tối đa những gì họ cần hiểu rõ, để từ đó có thể ra được những quyết định tốt nhất một cách nhanh chóng. Không giống với các hệ trợ giúp quyết định truyền thống thường được xây dựng với mục đích đưa ra giải pháp tối ưu cho một bài toán cụ thể, trong một phạm vi ứng dụng hẹp, công nghệ OLAP hướng đến việc giúp người sử dụng có thể khai thác được tối đa khả năng tiềm ẩn của một khối lượng dữ liệu lớn, nhằm thu được những thông tin tổng hợp ở đủ các khía cạnh khác nhau của dữ liệu, để từ đó có thể ra các quyết định một cách nhanh chóng. Do đặc điểm này, phạm vi ứng dụng của hệ trợ giúp quyết định sử dụng công nghệ OLAP dựa vào dữ liệu là rộng rãi cho các bài toán khác nhau, trong nhiều lĩnh vực khác nhau. Bố cục của luận văn Nội dung của luận văn được chia thành bốn chương: Chương 1: Nội dung chủ yếu giới thiệu lý thuyết chung về kho dữ liệu - phương pháp tổ chức, thiết kế CSDL và xây dựng kho dữ liệu. Nhấn mạnh trong việc thiết kế CSDL vật lý của kho dữ liệu bằng việc sử dụng thuật toán A* và các luật của Thumb để chọn khung nhìn và chỉ số tối ưu việc bảo trì kho dữ liệu. Chương 2: Trình bày về mô hình dữ liệu đa chiều và các dạng chuẩn dữ liệu đa chiều trong mô hình CSDL đa chiều sử dụng trong OLAP. Chương 3: Trình bày những lý thuyết cơ bản về công nghệ OLAP trong việc hỗ trợ ra quyết định, cách tổ chức lưu trữ dữ liệu, việc chỉ số hóa khung nhìn để tối ưu tốc độ truy vấn. Chương 4: Xây dựng một ứng dụng sử dụng các công cụ và công nghệ của Oracle nhằm 3 mô tả cho việc ứng dụng công nghệ OLAP trong việc hỗ trợ ra quyết định. References [1]. Đỗ Trung Tuấn, Cơ sở dữ liệu, NXB Giáo dục, 1998 [2]. Viện công nghệ thông tin, Giới thiệu về Data Warehouse, 1997 [3]. Nguyễn Thanh Thuỷ, Khai phá dữ liệu: Kỹ thuật và ứng dụng, 2000. [4]. Lê Minh Trung, Giáo trình mạng nơron nhân tạo, NXB thống kê, 1999 [5]. Nguyễn Anh Tuấn, Về Công nghệ khám phá tri thức và hệ thống thông tin khí tượng ngành hàng không, Luận án thạc sĩ khoa học, 2000 [6]. Viện Công nghệ Thông tin, Dịch vụ phân tích trực tuyến của Microsoft SQL server, 11-2000 [7]. Nguyễn Bá Tường, Cơ sở dữ liệu lý thuyết và thực hành, NXB khoa học kỹ thuật, 2001 [8]. Oracle Corporation, Oracle9i OLAP, March 2002 [9]. Oracle Corporation, Oracle9i Data Warehousing Guide, March 2002 [10]. David Marco, Building and Managing the Meta Data Repository, Wiley Computer Publishing [11]. Himanshu Gupta, Venky Harinarayan , Anand Rajaraman, Jeffrey D.Ullman, Index Selection for OLAP, Department of Computer Science Stanford University [12]. Wilburt Juan Labio, Dallan Quass, Brad Adelberg, Physical Database Design for Data Warehouses, Department of Computer Science Stanford University [13]. Thanh Binh Nguyen, A Min Tjoa, and Roland Wagner, An Object Oriented Multidimensional Data Model for OLAP, Institute of Software Technology (E188) - Vienna University of Technology. [14]. Kim, Bumsoo, Adapting On-line Analytical Processing for Decision Modeling: The Interaction Information and Decision Technology, Seoul National University – Manufacturing Automation & Intgration Lab. [15]. Using the Data Warehouse, PLATINUM Education [16]. W.Lehner, J.Albrecht, H.Wedekind, Normal Forms for Multidimention Databases, University of Erlangen-Nuremberg, Dept. of Database Systems. [17]. Thanh Binh Nguyen, A Min Tjoa, and Roland Wagner, Conceptual Multidimensional Data Model Based on MetaCube, Institute of Software Technology (E188) - Vienna University of Technology. [18]. Nebojsa Stefannovic, Design and Implementation of On-Line Analytical Processing (OLAP) of Spatial Data, Simon Fraser University [19]. Panos Vassiliadis, Data Warehouse Modeling and Quality Issues, National 4 Technical University of Athens, 01-2000. . Công nghệ xử lý phân tích trực tuyến trong việc trợ giúp quyết định Phạm Minh Quý Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Công nghệ thông tin; Mã số: 01.01.10. phân tích dữ liệu trực tuyến để trợ giúp ra quyết định. Hệ trợ giúp quyết định theo tiếp cận này, có thể giúp cho nhà quản lý thiết lập một mô hình OLAP cho ứng dụng cụ thể của mình trong việc. quyết định. Ở nước ta việc áp dụng công nghệ này đến nay vẫn chưa 2 được phát triển. Xuất phát từ nhu cầu thực tiễn tôi chọn hướng đề tài nghiên cứu: Công nghệ xử lý phân tích trực tuyến trong