DSpace at VNU: Một số vấn đề liên quan đến lý thuyết tập thô tài liệu, giáo án, bài giảng , luận văn, luận án, đồ án, bà...
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Đỗ Thị Mai Hƣờng MỘT SỐ VẤN ĐỀ LIÊN QUAN ĐẾN LÝ THUYẾT TẬP THƠ Chun ngành: Cơng nghệ thông tin Mã số: 1.01.10 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS VŨ ĐỨC THI Hà nội – 2007 LỜI CẢM ƠN Để hồn thành tốt luận văn này, em có động viên, giúp đỡ nhiều người Trước tiên, em xin bày tỏ lòng kính trọng biết ơn sâu sắc tới PGS.TS Vũ Đức Thi, người hướng dẫn, giúp đỡ tạo điều kiện cho em suốt trình làm luận văn Em xin cảm ơn TS Hà Quang Thụy cho em lời khuyên quý báu giai đoạn đầu trình làm luận văn Em xin chân thành cảm ơn Thầy Khoa Công nghệ thông tin - Đại học Công nghệ Đại học Quốc gia Hà nội, Thầy Viện Công nghệ thông tin giảng dạy, truyền đạt kiến thức cho em suốt trình học tập nghiên cứu trường Cuối cùng, xin cảm ơn gia đình, bạn bè đồng nghiệp Khoa Cơng nghệ thông tin, Học viện Kỹ thuật Quân động viện, tạo điều kiện để tơi hồn thành q trình học tập hồn thành tốt luận văn Hà Nội, tháng 01 năm 2007 NGƯỜI THỰC HIỆN Đỗ Thị Mai Hường MỤC LỤC BẢNG CÁC KÍ HIỆU VIẾT TẮT DANH SÁCH CÁC BẢNG DANH SÁCH CÁC HÌNH VẼ MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ LÝ THUYẾT TẬP THÔ Error! Bookmark not defined 1.1 Khám phá tri thức Error! Bookmark not defined 1.1.1 Định nghĩa khám phá tri thức Error! Bookmark not defined 1.1.2 Các bước q trình khám phá tri thức Error! Bookmark not defined 1.1.3 Khai phá liệu Error! Bookmark not defined 1.1.4 Các tốn khai phá liệu Error! Bookmark not defined 1.1.5 Một số kỹ thuật khai phá liệu Error! Bookmark not defined 1.2 Lý thuyết tập thô Error! Bookmark not defined 1.2.1 Hệ thông tin Error! Bookmark not defined 1.2.2 Hệ định Error! Bookmark not defined 1.2.3 Quan hệ không phân biệt hệ thông tin Error! Bookmark not defined 1.2.4 Tập xấp xỉ trên, xấp xỉ miền biên Error! Bookmark not defined 1.2.5 Tập thuộc tính rút gọn tập thuộc tính nhânError! Bookmark not defined 1.2.6 Ma trận phân biệt hàm phân biệt Error! Bookmark not defined 1.2.7 Hàm thành viên thô Error! Bookmark not defined 1.2.8 Sự phụ thuộc thuộc tính Error! Bookmark not defined 1.3 Kết luận chƣơng Error! Bookmark not defined CHƯƠNG QUÁ TRÌNH KHÁM PHÁ TRI THỨC THEO CÁCH TIẾP CẬN TẬP THÔ Error! Bookmark not defined 2.1 Sự rời rạc hố dựa tập thơ lập luận logicError! Bookmark not defined 2.1.1 Khái niệm tập nhát cắt, nhát cắt bảng định Error! Bookmark not defined 2.1.2 Vấn đề rời rạc hóa Error! Bookmark not defined 2.2 Lựa chọn thuộc tính dựa tập thơ với phƣơng pháp đánh giá kinh nghiệm …… Error! Bookmark not defined 2.3 Một số phƣơng pháp khác xây dựng tập thuộc tính rút gọn Error! Bookmark not defined 2.3.1 Loại trừ thuộc tính khơng liên quan từ rút gọnError! Bookmark not defined 2.3.2 Chiến lược Xóa Error! Bookmark not defined 2.3.3 Chiến lược Thêm-Xóa Error! Bookmark not defined 2.3.4 2.3.5 Chiến lược Thêm Error! Bookmark not defined Các thuật toán tính rút gọn dựa cặp đối tượng phân biệtError! Bookmark not defined 2.3.6 Rút gọn nửa tối thiểu Error! Bookmark not defined 2.3.7 Chiến lược ngẫu nhiên Error! Bookmark not defined 2.4 Quá trình khám phá luật bảng định Error! Bookmark not defined 2.4.1 2.4.2 Luật bảng định Error! Bookmark not defined Hai đặc trưng luật: Độ mạnh độ nhiễu luậtError! Bookmark not defined 2.4.3 Khám phá luật bảng phân bố tổng quát dựa tập thô Error! Bookmark not defined 2.4.4 Thuật toán tối ưu hoá luật Error! Bookmark not defined 2.4.5 Thuật toán giải pháp gần tối ưu luật Error! Bookmark not defined 2.4.6 Tiêu chuẩn lựa chọn luật tập thô Error! Bookmark not defined 2.4.7 Một số thuật toán sinh luật khác Error! Bookmark not defined 2.5 Khám phá mẫu hệ thông tin Error! Bookmark not defined 2.6 Kết luận chƣơng Error! Bookmark not defined CHƢƠNG ỨNG DỤNG LÝ THUYẾT TẬP THƠ TRONG BÀI TỐN TƢ VẤN THI ĐẠI HỌC Error! Bookmark not defined 3.1 Bộ công cụ Rosetta Error! Bookmark not defined 3.1.1 Giới thiệu Error! Bookmark not defined 3.1.2 Các đặc trưng Rosetta Error! Bookmark not defined 3.2 Ứng dụng lý thuyết tập thô toán Tƣ vấn thi đại họcError! Bookmark not defined 3.2.1 Mơ tả tốn Error! Bookmark not defined 3.2.2 Tập thơ tốn Tư vấn thi đại họcError! Bookmark not defined 3.2.3 Quá trình phát luật Error! Bookmark not defined 3.3 Kết luận chƣơng Error! Bookmark not defined KẾT LUẬN Error! Bookmark not defined TÀI LIỆU THAM KHẢO 11 BẢNG CÁC KÍ HIỆU VIẾT TẮT Ký hiệu, viết tắt KDD Giải thích ý nghĩa Khám phá tri thức RS Tập thô A Hệ thông tin hay bảng định A, B D a Tập thuộc tính hệ thơng tin Tập thuộc tính định hệ thơng tin Một thuộc tính điều kiện tập thuộc tính điều kiện hệ thơng tin Va Tập giá trị thuộc tính điều kiện U Tập đối tƣợng (tập tổng thể) hệ thông tin Pa Tập nhát cắt tập Va RED CORE card (X) hay ||X|| Tập rút gọn Tập nhân Số lƣợng phần tử có X DANH SÁCH CÁC BẢNG Bảng1.1: Ví dụ học cho khái niệm chơi tennis 16 Bảng 1.2: Một ví dụ hệ thơng tin 19 Bảng 1.3: Ví dụ bảng định TuyenSinh 21 Bảng 2.1: Bảng thông tin A* xây dựng từ A 47 Bảng 2.2: Bảng thông tin mô tả đối tượng 50 Bảng 2.3: Trạng thái khởi tạo 51 Bảng 2.4: Các bảng thông tin tương ứng với việc chọn thuộc tính a, c, d 51 Bảng 3.1: Tiêu chí chọn trường thi đại học 76 Bảng 3.2: Danh mục môn thi khối thi đại học 77 Bảng 3.3: Dữ liệu nhát cắt 82 Bảng 3.4: Dữ liệu sau rời rạc hóa 83 Bảng 3.5: Dữ liệu thu sau sinh luật 84 Bảng 3.6: Dữ liệu luật sau xử lý 85 DANH SÁCH CÁC HÌNH VẼ Hình 1.1: Mơ hình mơ tả q trình khám phá tri thức 11 Hình 1.2: Mô tả định cho khái niệm chơi tennis 17 Hình 1.3 : Xấp xỉ tập thí sinh cần xem xét thi đại học 24 Hình 2.1: Một họ phân hoạch định nghĩa tập nhát cắt 37 Hình 2.2: Q trình rời rạc hóa 41 Hình 2.3 : Giá trị đối tượng biểu diễn đồ thị 42 Hình 2.4: Các nhát cắt đồ thị 43 Hình 2.5: Các điểm cắt thuộc tính a 44 Hình 2.6: Tập nhát cắt tối thiểu 46 Hình 3.1: Sơ đồ trình sinh luật 80 Hình 3.2 : Sơ đồ thuật tốn sinh liệu ngẫu nhiên 81 Hình 3.3: Mơ hình quan hệ sở liệu TuyenSinh 86 Hình 3.4: Giao diện nhập thơng tin dự đốn kết 87 Hình 3.5: Giao diện hiển thị kết dự đốn cho trường đại học 87 Hình 3.6: Giao diện hiển thị kết dự đoán cho nhiều trường đại học 88 MỞ ĐẦU Cùng với phát triển Công nghệ thông tin, khám phá tri thức sở dƣ liệu lớn lĩnh vực đƣợc nhiều nhà nguyên cứu ứng dụng tin học đặc biệt quan tâm Khám phá tri thức sở liệu q trình tìm thơng tin mới, thơng tin hữu ích, tiềm ẩn sở liệu Quá trình phát tri thức gồm nhiều giai đoạn, giai đoạn khai phá liệu quan trọng Đây giai đoạn tìm thơng tin sở liệu Q trình phát tri thức tiếp thu, sử dụng phát triển thành tựu nhiều lĩnh vực nghiên cứu ứng dụng tin học trƣớc nhƣ: lý thuyết nhận dạng, hệ chuyên gia, trí tuệ nhân tạo, thống kê, v.v Khám phá tri thức sử dụng nhiều thuật toán khám phá tri thức nhƣ: Sử dụng định, phƣơng pháp thống kê, mạng neural, thuật tốn di truyền, lý thuyết tập thơ Trong thập niên gần đây, lý thuyết tập thô liên tục phát triển, thu hút ngày nhiều nhóm nghiên cứu ngƣời quan tâm đến phƣơng pháp luận Lý thuyết tập thô đƣợc bắt nguồn Zdzislaw Pawlak nhƣ kết trình nghiên cứu lâu dài thuộc tính logic hệ thông tin Lý thuyết tập thô đƣợc xây dựng tảng toán học vững giúp cung cấp cơng cụ hữu ích để giải toán phân lớp liệu khai phá luật, Với đặc tính xử lý đƣợc liệu mơ hồ, không chắn tập thô tỏ hữu ích việc giải tốn thực tế Cụ thể, lý thuyết tập thơ liệu đƣợc biểu diễn thông qua hệ thông tin, hay bảng định; ý tƣởng việc phân tích liệu theo tiếp cận tập thơ xuất phát từ khái niệm xấp xỉ tập, quan hệ không phân biệt đƣợc Từ bảng liệu lớn với liệu dƣ thừa, khơng hồn hảo, liệu liên tục, hay liệu biểu diễn dƣới dạng ký hiệu, lý thuyết tập thô cho phép khám phá tri thức từ loại liệu nhƣ nhằm phát quy luật tiềm ẩn từ khối liệu Tri thức đƣợc biểu diễn dƣới dạng luật, mẫu mô tả mối quan hệ bị che dấu liệu Trong lý thuyết tập thô, chất lƣợng thông tin đƣợc đo cách sử dụng khái niệm tập xấp xỉ xấp xỉ duới Ngƣời ta tìm đƣợc tập thuộc tính nhỏ nhằm loại bỏ thơng tin dƣ thừa, không cần thiết mà giữ đƣợc ý nghĩa Sau đó, dựa vào tập thuộc tính nhỏ ngƣời ta tìm quy luật chung mẫu để biểu diễn liệu Lý thuyết tập thơ đóng vai trò quan trọng trí tuệ nhân tạo ngành khoa học khác liên quan đến nhận thức, đặc biệt lĩnh vực máy học, thu nhận tri thức, phân tích định, phát khám phá tri thức từ sở liệu, hệ chuyên gia, hệ hỗ trợ định, lập luận dựa quy nạp nhận dạng Một số ứng dụng cụ thể lý thuyết tập thô đƣợc phát triển vài năm gần lĩnh vực nhƣ y học, dƣợc học, ngân hàng, tài chính, phân tích thị trƣờng Tiếp cận tập thơ đóng vai trò quan trọng nhiều ứng dụng kỹ thuật nhƣ máy chuẩn đoán, khoa học vật liệu,… Sự công bố lý thuyết tạo điều kiện phát triển nhiều ứng dụng [19,21] Một số ứng dụng tập thơ trí tuệ nhân tạo phân tích khám phá tri thức từ liệu [25] Với ƣu điểm nhƣ lý thuyết tập thô, dành thời gian để nghiên cứu tìm hiểu phƣơng pháp luận Luận văn sâu vào tìm hiểu ý tƣởng sở toán học lý thuyết tập thơ Thơng qua tìm hiểu khai thác công cụ ROSETTA (đƣợc xây dựng Aleksander Ohrn cộng thuộc nhóm nghiên cứu tri thức thuộc khoa Khoa học máy tính thơng tin trƣờng Đại học Norwegian, Trondheim, Na-uy nhóm Logic thuộc ĐHTH Warsaw, Ba-lan), luận văn đƣa số đề xuất ứng dụng thử nghiệm lý thuyết tập thô vào việc hỗ trợ định chọn trƣờng thi phù hợp với khả cho em học sinh trƣớc kỳ thi tuyển sinh đại học Luận văn đƣợc trình bày gồm có ba chƣơng: Chƣơng 1: Giới thiệu tổng quan khám phá tri thức, toán khai phá liệu kỹ thuật khai phá liệu Giới thiệu khái niệm lý thuyết tập thô nhƣ: hệ thông tin, bảng định, khái niệm không phân biệt đƣợc, tập xỉ trên, tập xỉ dƣới miền biên, ma trận phân biệt, rút gọn, v.v Nội dung chƣơng đƣợc tổng hợp từ tài liệu [5,6,7,8,9,10,15,12,18] Chƣơng 2: Trình bày trình khám phá tri thức theo cách tiếp cận tập thô phƣơng pháp sử dụng trình khai phá liệu Chẳng hạn nhƣ rời rạc hóa liệu theo phƣơng pháp lập luận logic, rút gọn thuộc tính theo phƣơng pháp Heuristic, v.v Nội dung chƣơng đƣợc tổng hợp từ tài liệu [6,7,10,15,12,18,19,24] Chƣơng 3: Từ kết nghiên cứu trình bày chƣơng chƣơng hai, thông qua công cụ ROSETTA [11], đề xuất ứng dụng lý thuyết tập thơ vào thực tế tốn tƣ vấn thi đại học TÀI LIỆU THAM KHẢO Tiếng Việt [1] Việt Anh, Lƣơng Nga (2005), “Hơn 500.000 thí sinh dự thi đại học đợt 1”, Báo điện tử, VnExpress http://vnexpress.net/Vietnam/Xahoi/2005/07/3B9DFE60/ [2] Kiều Oanh (2006), “Tuyển sinh 2007: điểm mới”, Báo điện tử VietNamNet http://www3.vietnamnet.vn/giaoduc/tuyensinh/tintuc-sukien/2007/01/651963/ [3] TS Lê Đình Tƣ (2005), “Vì tỉ lệ thi trƣợt Việt nam cao giới”, Tạp chí Tri thức trẻ [4] Trung tâm tin học Bộ Giáo dục Đào tạo (2006), Thống kê kết thi đại học năm 2006, http://ts.edu.net.vn/index.php Tiếng Anh [5] Alan Rea (1995), Data Mining-An Introduction, The Parallel Computer Centre, The Queen’s University of Belfast [6] Andrzej Skowron, Ning Zong (2000) Rough Sets in KDD Tutorial Notes [7] Andrzej Skowron (2000) , “Rough sets and Boolean Reasoning” [8] C.J.Matheus and P.K.Chan and G.Piatetsky-Shapiro (1993), System for knowledge discovery in database, Ieee Trans On Knowledge and Data Engineering, vol 5, pp 903-913, 1993 [9] Jiawei Han and Micheline Kamber (2001): Data mining: Concepts and Techniques Academic Press 2001 [10] Jan Komorowski, Lech Polkowski, Andrzej Skowron (2000) Rough sets: A tutorial [11] Jan Komorowski, Aleksander Ohrn, Andrzej Skowron (2003) A Software System for Rough Data Analysis [12] Jerzy W Grzymala-Busse (2004) Three Approaches to Missing Attribute ValuesA Rough Set Perspective Department of Electrical Engineering and Computer Science University of Kansas, Lawrence, KS 66045, USA and Institute of Computer Science Polish Academy of Sciences, 01-237 Warsaw, Poland, November 1-4, 2004 [13] Ho Tu Bao, Introduction to Knowledge Discovery and Data Mining, National Center for Natural Science and Technology [14] Mehmed Kantardzic (2003), Data Mining: Concepts, Models, Methods, and Algorithms, John Wiley & Sons, Copyright 2003 The Institute of Electrical and Electronics Engineers, Inc [15] Ning Zhong, Juzhen Dong (2001), “Using Rough Sets with Heuristics for Feature Selection”, Journal of Intelligent Information Systems, 16, 199–214, Kluwer Academic Publishers Manufactured in The Netherlands [16] Nguyen Sinh Hoa, Nguyen Hung Son (1996), “Some Efficent Algorithms For Rough Set Methods”", Proceedings IPMU’96 (Information Processing and Management under Uncertainty), Granada, Spain, 1451–1456 [17] Nguyen, S H., (2003), "On The Decision Table With Maximal Number Of Reducts", Electronic Notes in Theoretical Computer Science 82 (No.4) [18] Pawlak, Z., (2000), "Rough Sets And Their Applications", Computational Intelligence In Theory And Practice, Springer-Verlag, 73-91 [19] Pawlak, Z (1991), Rough Sets: Theoretical Aspects of Reasoning About Data Kluwer Academic Publishers, Dordrecht [20] Son H.Nguyen & Andrzej Skowron (1997), “Quantization of Real Value attributes” [21] Slowinski, R (ed 1992.) Intelligent Decision Support: Handbook of Applications and Advances of the Rough Sets Theory Kluwer Academic Publishers, Dordrecht [22] W.J Frawley and G.Piatetsky-Shapiro and C.J.Matheus (1992), Knowledge discovery in databases – an overview, Ai Magazine, vol 13, 1992 [23] Wojciech P Ziarko (Ed., 1994) Rough Sets, Fuzzy Sets and Knowledge Discovery Proceedings of the International Workshop on Rough Sets and Knowledge Discovery (RSKD'93), Banff, Alberta, Canada, 12-15 October 1993 Springer-Verlag [24] Yiyu Yao, Yan Zhao, Jue Wang (2005) “On Reduct Construction Algorithms” [25] Ziarko, W (1991), The Discovery, Analysis and Representation of Data Dependencies in Databases In Piatesky-Shapiro, G and Frawley, W.J (eds.) Knowledge Discovery in Databases, AAAI Press/MIT Press, 1991, pp 177-195 ... tốn di truyền, lý thuyết tập thơ Trong thập niên gần đây, lý thuyết tập thô liên tục phát triển, thu hút ngày nhiều nhóm nghiên cứu ngƣời quan tâm đến phƣơng pháp luận Lý thuyết tập thô đƣợc bắt... thực tế Cụ thể, lý thuyết tập thô liệu đƣợc biểu diễn thông qua hệ thông tin, hay bảng định; ý tƣởng việc phân tích liệu theo tiếp cận tập thô xuất phát từ khái niệm xấp xỉ tập, quan hệ không phân... mô tả mối quan hệ bị che dấu liệu Trong lý thuyết tập thô, chất lƣợng thông tin đƣợc đo cách sử dụng khái niệm tập xấp xỉ xấp xỉ duới Ngƣời ta tìm đƣợc tập thuộc tính nhỏ nhằm loại bỏ thông tin