ĐạI HọC QUốC GIA Hà NộI Phm Minh Quý Cụng nghệxửlýphântíchtrựctuyếnviệctrợgiúpquyếtđịnh Hà Nội, 2003 CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT Phần nhằm mục đích mơ tả từ viết tắt thuật ngữ sử dụng luận văn Một số thuật ngữ tiếng Anh phổ biến, quen thuộc có chỗ tác giả giữ nguyên, số thuật ngữ dịch sang tiếng viết có mở ngoặc thích sử dụng lần đầu Viết tắt, thuật ngữ Nội dung, ý nghĩa CSDL Cơ sở liệu Ad hoc Đặc biệt Dimention table Bảng chiều Fact table Bảng kiện Meterilized view Khung nhìn cụ thể hoá để lưu liệu Index Chỉ số (một số chỗ giữ nguyên từ tiếng Anh) View Khung nhìn (một số chỗ giữ nguyên từ tiếng Anh) DW - Data Warehouse Kho liệu DM – DataMart Kho liệu chuyên đề MOLAP - Multidimention OLAP OLAP đa chiều ROLAP - Relational OLAP OLAP quan hệ HOLAP – Hybrid OLAP OLAP lai tạp OLAP đa chiều quan hệ OLTP - Online Transaction Processing Các hệ thống xửlý giao dịch trựctuyến Data mining Khai phá liệu Query Truy vấn Select Chọn (một số chỗ giữ nguyên từ tiếng Anh) Join Kết nối (một số chỗ giữ nguyên từ tiếng Anh) Update Sửa liệu (một số chỗ giữ nguyên từ tiếng Anh) Delete Xóa liệu (một số chỗ giữ nguyên từ tiếng Anh) Insert Thuật toán Heuristic Thêm liệu (một số chỗ giữ nguyên từ tiếng Anh) Thuật toán may rủi PHẦN MỞ ĐẦU Đặt vấn đề Trong bối cảnh côngnghệ thông tin phát triển mạnh mẽ, liệu ngày tập trung sở liệu (CSDL) khổng lồ, nhu cầu truy nhập vào tất liệu để lấy thông tin cần thiết Cách tổ chức liệu có hiệu để trợgiúp nhu cầu truy nhập tìm thông tin cần thiết kho liệu Ở nước ta ngày có nhiều kho liệu xây dựng lượng liệu ngày lớn Nhưng việc khai thác chưa có hiệu quả, kho liệu lớn, đa chiều thường chứa nhiều thông tin (tri thức) ẩn kín mà cơng cụ truyền thống kỹ thuật truy vấn SQL khó nhiều không phát Hơn nữa, yêu cầu người sử dụng liên tục thay đổi, đòi hỏi câu trả lời phải theo thứ tự khác Yêu cầu làm thể khai thác thơng tin có hiệu quả, thoả mãn nhu cầu khai thác mức cao người dùng, đòi hỏi phải có cơngnghệ khai thác thích hợp, xửlýphântíchtrựctuyến (OLAP) phương pháp khai thác có hiệu tập liệu lớn hỗn hợp Trước côngnghệ áp dụng đắt tiền, khó cài đặt, không mềm dẻo khai thác Nhưng đến giới côngnghệ OLAP thực nghiên cứu, phát triển mạnh mẽ ngày đuợc sử dụng rộng rãi khai thác liệu, hỗ trợ định Ở nước ta việc áp dụng côngnghệ đến chưa phát triển Xuất phát từ nhu cầu thực tiễn chọn hướng đề tài nghiên cứu: “Công nghệxửlýphântíchtrựctuyếnviệctrợgiúp định” nhằm tìm hiểu kho liệu cơngnghệ OLAP sử dụng để khai thác kho liệu, hướng tới xây dựng hệ thống có khả ứng dụng cơngnghệphântíchtrựctuyến vào khai thác liệu phục vụ cho công tác quản lý, hỗ trợ định Mục tiêu đề tài Đề tài đề cập đến việc nghiên cứu nhằm hướng đến xây dựng hệ thống trợgiúp định sử dụng phương pháp luận OLAP Luận văn tập trung vào cơngviệc nghiên cứu vấn đề tổ chức, xây dựng kho liệu, nhấn mạnh vào nghiên cứu mơ hình CSDL đa chiều phântích liệu trựctuyến để trợgiúp định Hệ trợgiúp định theo tiếp cận này, giúp cho nhà quản lý thiết lập mơ hình OLAP cho ứng dụng cụ thể việc tổ chức CSDL đa chiều, giúp cho họ dễ dàng hoạt động phân tích, tìm kiếm thơng tin theo khía cạnh khác liệu, nhằm thu thập tối đa họ cần hiểu rõ, để từ định tốt cách nhanh chóng Khơng giống với hệ trợgiúp định truyền thống thường xây dựng với mục đích đưa giải pháp tối ưu cho toán cụ thể, phạm vi ứng dụng hẹp, côngnghệ OLAP hướng đến việcgiúp người sử dụng khai thác tối đa khả tiềm ẩn khối lượng liệu lớn, nhằm thu thơng tin tổng hợp đủ khía cạnh khác liệu, để từ định cách nhanh chóng Do đặc điểm này, phạm vi ứng dụng hệ trợgiúp định sử dụng côngnghệ OLAP dựa vào liệu rộng rãi cho toán khác nhau, nhiều lĩnh vực khác Bố cục luận văn Nội dung luận văn chia thành bốn chương: Chương 1: Nội dung chủ yếu giới thiệu lý thuyết chung kho liệu - phương pháp tổ chức, thiết kế CSDL xây dựng kho liệu Nhấn mạnh việc thiết kế CSDL vật lý kho liệu việc sử dụng thuật toán A* luật Thumb để chọn khung nhìn số tối ưu việc bảo trì kho liệu Chương 2: Trình bày mơ hình liệu đa chiều dạng chuẩn liệu đa chiều mơ hình CSDL đa chiều sử dụng OLAP Chương 3: Trình bày lý thuyết côngnghệ OLAP việc hỗ trợ định, cách tổ chức lưu trữ liệu, việc số hóa khung nhìn để tối ưu tốc độ truy vấn Chương 4: Xây dựng ứng dụng sử dụng công cụ côngnghệ Oracle nhằm mô tả cho việc ứng dụng côngnghệ OLAP việc hỗ trợ định CHƯƠNG I – KHO DỮ LIỆU Các doanh nghiệp, tổ chức kinh tế - xã hội phải đối đầu với thay đổi thị trường, thay đổi hồn thiện sách kinh tế xã hội Để đưa định đắn, trước hết phải có khả nhanh chóng truy nhập tới thơng tin mà doanh nghiệp, tổ chức có sẵn Đối với doanh nghiệp, tổ chức, muốn có định đắn, cần nghiên cứu liệu khứ tại, nhằm phântích xác định xu hướng tương lai Để phục vụ phântích liệu cần tập trung lại tạo CSDL khổng lồ Cách tổ chức liệu có hiệu để trợgiúp nhu cầu truy nhập thông tin hỗ trợ định tổ chức thành kho liệu Khái niệm kho liệu 1.1 Định nghĩa kho liệu Kho liệu (Data warehouse-DW) tập hợp CSDL tích hợp, hướng chuyên đề, thiết kế cho việc truy vấn phântíchxửlý giao dịch để hỗ trợ cho chức trợgiúp định, mà đơn vị liệu liên quan tới khoảng thời gian cụ thể [2] Kích thước kho liệu thường lớn, tổ chức, lưu trữ phântích phục vụ cho việc cung cấp thông tin liên quan đến nghiệp vụ tổ chức Kho liệu phục vụ cho việcphântích với kết mang tính thơng tin cao Các hệ thống thông tin thu thập, xửlý liệu loại gọi hệ xửlýphântíchtrựctuyến - OLAP Một kho lưu trữ liệu thường sử dụng thông tin sở cho hệ thống hỗ trợ định Nó thiết kế để khắc phục vấn đề vấp phải doanh nghiệp hay tổ chức cố gắng thực chiến lược phântích có sử dụng CSDL mà sử dụng cho xửlý giao dịch trựctuyến - OLTP 1.2 Đặc điểm liệu kho liệu 1.2.1 Dữ liệu hướng chuyên đề Kho liệu thiết kế để giúp cho việcphântích liệu Ví dụ để biết nhiều liệu bán hàng tổ chức, doanh nghiệp xây dựng kho liệu tập trung vào chuyên đề bán hàng Sử dụng kho liệu trả lời DANH MỤC TÀI LIỆU THAM KHẢO [1] Đỗ Trung Tuấn, Cơ sở liệu, NXB Giáo dục, 1998 [2] Viện côngnghệ thông tin, Giới thiệu Data Warehouse, 1997 [3] Nguyễn Thanh Thuỷ, Khai phá liệu: Kỹ thuật ứng dụng, 2000 [4] Lê Minh Trung, Giáo trình mạng nơron nhân tạo, NXB thống kê, 1999 [5] Nguyễn Anh Tuấn, Về Côngnghệ khám phá tri thức hệ thống thơng tin khí tượng ngành hàng không, Luận án thạc sĩ khoa học, 2000 [6] Viện Cơngnghệ Thơng tin, Dịch vụ phântíchtrựctuyến Microsoft SQL server, 112000 [7] Nguyễn Bá Tường, Cơ sở liệu lý thuyết thực hành, NXB khoa học kỹ thuật, 2001 [8] Oracle Corporation, Oracle9i OLAP, March 2002 [9] Oracle Corporation, Oracle9i Data Warehousing Guide, March 2002 [10] David Marco, Building and Managing the Meta Data Repository, Wiley Computer Publishing [11] Himanshu Gupta, Venky Harinarayan , Anand Rajaraman, Jeffrey D.Ullman, Index Selection for OLAP, Department of Computer Science Stanford University [12] Wilburt Juan Labio, Dallan Quass, Brad Adelberg, Physical Database Design for Data Warehouses, Department of Computer Science Stanford University [13] Thanh Binh Nguyen, A Min Tjoa, and Roland Wagner, An Object Oriented Multidimensional Data Model for OLAP, Institute of Software Technology (E188) - Vienna University of Technology [14] Kim, Bumsoo, Adapting On-line Analytical Processing for Decision Modeling: The Interaction Information and Decision Technology, Seoul National University – Manufacturing Automation & Intgration Lab [15] Using the Data Warehouse, PLATINUM Education [16] W.Lehner, J.Albrecht, H.Wedekind, Normal Forms for Multidimention Databases, University of Erlangen-Nuremberg, Dept of Database Systems [17] Thanh Binh Nguyen, A Min Tjoa, and Roland Wagner, Conceptual Multidimensional Data Model Based on MetaCube, Institute of Software Technology (E188) - Vienna University of Technology [18] Nebojsa Stefannovic, Design and Implementation of On-Line Analytical Processing (OLAP) of Spatial Data, Simon Fraser University [19] Panos Vassiliadis, Data Warehouse Modeling and Quality Issues, National Technical University of Athens, 01-2000 ... Công nghệ xử lý phân tích trực tuyến việc trợ giúp định” nhằm tìm hiểu kho liệu cơng nghệ OLAP sử dụng để khai thác kho liệu, hướng tới xây dựng hệ thống có khả ứng dụng cơng nghệ phân tích trực. .. vào cơng việc nghiên cứu vấn đề tổ chức, xây dựng kho liệu, nhấn mạnh vào nghiên cứu mơ hình CSDL đa chiều phân tích liệu trực tuyến để trợ giúp định Hệ trợ giúp định theo tiếp cận này, giúp cho... Định nghĩa kho liệu Kho liệu (Data warehouse-DW) tập hợp CSDL tích hợp, hướng chuyên đề, thiết kế cho việc truy vấn phân tích xử lý giao dịch để hỗ trợ cho chức trợ giúp định, mà đơn vị liệu liên