Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 12 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
12
Dung lượng
364,33 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ HỒNG HẠNH NGHIÊN CỨU CÁC TẬP RÚT GỌN VÀ LUẬT TRONG BẢNG QUYẾT ĐỊNH THEO TIẾP CẬN LÝ THUYẾT TẬP THÔ LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Hà Nội - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ HỒNG HẠNH NGHIÊN CỨU CÁC TẬP RÚT GỌN VÀ LUẬT TRONG BẢNG QUYẾT ĐỊNH THEO TIẾP CẬN LÝ THUYẾT TẬP THÔ Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60.48.05 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Người hướng dẫn: TS Nguyễn Long Giang Hà Nội - 2015 MỤC LỤC MỤC LỤC Danh mục thuật ngữ Danh sách bảng MỞ ĐẦU Chương TỔNG QUAN VỀ LÝ THUYẾT TẬP THÔ 1.1 Hệ thông tin 1.2 Mô hình tập thô Error! Bookmark not defined 1.3 Bảng định Error! Bookmark not defined 1.4 Tập rút gọn tập lõi Error! Bookmark not defined 1.5 Ma trận phân biệt hàm phân biệt Error! Bookmark not defined Chương RÚT GỌN THUỘC TÍNH VÀ TRÍCH LỌC LUẬT TRONG BẢNG QUYẾT ĐỊNH THEO TIẾP CẬN TẬP THÔ Error! Bookmark not defined 2.1 Rút gọn thuộc tính trích lọc luật bảng định Error! Bookmark not defined 2.1.1 Tổng kết, phân nhóm phương pháp rút gọn thuộc tính Error! Bookmark not defined 2.1.2 Luật định độ đo đánh giá hiệu Error! Bookmark not defined 2.1.3 Lựa chọn, so sánh, đánh giá phương pháp rút gọn thuộc tính Error! Bookmark not defined 2.2 Xây dựng phương pháp rút gọn thuộc tính bảng định sử dụng khoảng cách Error! Bookmark not defined 2.2.1 Độ đo khoảng cách Error! Bookmark not defined 2.2.2 Xây dựng khoảng cách hai tri thức tính chất Error! Bookmark not defined 2.2.3 Phương pháp rút gọn thuộc tính sử dụng khoảng cách Error! Bookmark not defined 2.2.4 Phân nhóm phương pháp rút gọn thuộc tính sử dụng khoảng cách Error! Bookmark not defined 2 Chương THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ Error! Bookmark not defined 3.1 Bài toán Error! Bookmark not defined 3.2 Phân tích, lựa chọn công cụ Error! Bookmark not defined 3.2.1 Thuật toán tìm tập rút gọn sử dụng entropy Liang Error! Bookmark not defined 3.2.2 Lựa chọn công cụ cài đặt Error! Bookmark not defined 3.3 Một số kết thử nghiệm Error! Bookmark not defined 3.3.1 Kết thử nghiệm thuật toán tìm tập rút gọn sử dụng khoảng cách Error! Bookmark not defined 3.3.2 Kết thử nghiệm trích lọc luật theo tiếp cận tập thô Error! Bookmark not defined KẾT LUẬN .Error! Bookmark not defined Tài liệu tham khảo Phụ lục Error! Bookmark not defined 3 Danh mục thuật ngữ Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh Tập thô Rough Set Hệ thông tin Information System Bảng định Decision Table Quan hệ không phân biệt Indiscernibility Relation Xấp xỉ Lower Approximation Xấp xỉ Upper Approximation Rút gọn thuộc tính Attribute Reduction Tập rút gọn Reduct Tập lõi Core Luật định Decision Rule Khoảng cách Distance Danh sách bảng Bảng 1.1 Bảng thông tin bệnh cúm Error! Bookmark not defined Bảng 1.2 Bảng định bệnh cúm Error! Bookmark not defined Bảng 2.1 Các phương pháp rút gọn thuộc tính tài liệu [1]Error! Bookmark not defined Bảng 2.2 Bảng định xe Error! Bookmark not defined Bảng 2.1 Bảng định minh họa thuật toán tìm tập rút gọnError! Bookmark not defined Bảng 3.1 Kết thực Thuật toán ELBAR Thuật toán DBARError! Bookmark not defined Bảng 3.2 Tập rút gọn Thuật toán ELBAR Thuật toán DBARError! Bookmark not defined Bảng 3.3 Kết thực Thuật toán ELBAK Thuật toán DBAKError! Bookmark not defined số liệu lớn Error! Bookmark not defined Bảng 3.7 Tập rút gọn tốt số liệu Soybean-smallError! Bookmark not defined Bảng 3.8 Các luật phân lớp bảng định rút gọn sử dụng tập thô Error! Bookmark not defined 5 MỞ ĐẦU Lý thuyết tập thô - Zdzislaw Pawlak [7] đề xuất vào năm đầu thập niên tám mươi kỷ hai mươi - xem công cụ hữu hiệu để giải toán phân lớp, phát luật…chứa liệu không đầy đủ, không chắn Từ xuất hiện, lý thuyết tập thô sử dụng hiệu bước trình khai phá liệu khám phá tri thức, bao gồm tiền xử lý số liệu, khai phá liệu đánh giá kết thu Rút gọn thuộc tính trích lọc luật định (luật phân lớp) hai ứng dụng lý thuyết tập thô khai phá liệu Rút gọn thuộc tính thuộc giai đoạn tiền xử lý liệu trích lọc luật thuộc giai đoạn khai phá liệu Mục tiêu rút gọn thuộc tính loại bỏ thuộc tính dư thừa nhằm tìm tập nhỏ tập thuộc tính điều kiện (tập rút gọn) mà bảo toàn thông tin phân lớp bảng định Dựa tập rút gọn thu được, việc sinh luật phân lớp đạt hiệu cao Trong hai thập kỷ trở lại đây, chủ đề nghiên cứu rút gọn thuộc tính bảng định theo tiếp cận lý thuyết tập thô thu hút đông đảo cộng đồng nghiên cứu tập thô tham gia [1] Có nhiều phương pháp rút gọn thuộc tính khác đề xuất sử dụng độ đo khác Các phương pháp điển hình tổng kết tài liệu [1] là: phương pháp dựa miền dương, phương pháp dựa ma trận phân biệt, phương pháp sử dụng độ đo entropy lý thuyết thông tin, phương pháp sử dụng độ đo tính toán hạt, phương pháp sử dụng độ đo khoảng cách… Với mong muốn tổng hợp kết nghiên cứu phương pháp rút gọn thuộc tính bảng định theo tiếp cận tập thô, sở xây dựng phương pháp sử dụng độ đo (độ đo khoảng cách), luận văn đặt hai mục tiêu sau đây: 1) Tổng hợp phương pháp rút gọn thuộc tính trích lọc luật bảng định theo tiếp cận lý thuyết tập thô tài liệu [1, 2], bao gồm: - Phân nhóm phương pháp rút gọn thuộc tính mối liên hệ phương pháp dựa vào định nghĩa tập rút gọn - Trích lọc luật bảng định, bao gồm: luật định độ đo đánh giá hiệu năng, thay đổi độ đo đánh giá hiệu tập rút gọn đánh giá phương pháp dựa tiêu chuẩn chất lượng phân lớp (độ hỗ trợ) tập luật 2) Xây dựng thử nghiệm phương pháp rút gọn thuộc tính sử dụng độ đo khoảng cách, bao gồm: đề xuất độ đo khoảng cách xây dựng công thức tính khoảng cách hai tập thuộc tính; định nghĩa tập rút gọn độ quan trọng thuộc tính dựa khoảng cách; xây dựng thuật toán heuristic tìm tập rút gọn tốt sử dụng khoảng cách; phân nhóm đánh giá phương pháp sử dụng khoảng cách với phương pháp có thử nghiệm phương pháp số liệu mẫu từ kho liệu UCI [12] Đối tượng nghiên cứu luận văn bảng định với kích thước trung bình kích thước lớn Phạm vi nghiên cứu luận văn tập trung vào toán rút gọn thuộc tính bước tiền xử lý số liệu trích lọc luật bước khai phá liệu trình khai phá liệu khám phá tri thức Phương pháp nghiên cứu luận văn nghiên cứu lý thuyết nghiên cứu thực nghiệm Về nghiên cứu lý thuyết: mệnh đề chứng minh chặt chẽ dựa vào kiến thức kết nghiên cứu công bố Về nghiên cứu thực nghiệm: luận văn thực cài đặt thuật toán, chạy thử nghiệm thuật toán với số liệu lấy từ kho liệu UCI [12], so sánh đánh giá kết thực nghiệm so với kết nghiên cứu lý thuyết, từ kết luận tính đắn kết nghiên cứu 7 Bố cục luận văn gồm phần mở đầu ba chương nội dung, phần kết luận danh mục tài liệu tham khảo Chương trình bày khái niệm lý thuyết tập thô Pawlak [8] sử dụng chương chương Chương trình bày hai nội dung chính, thứ tổng kết công bố phương pháp rút gọn thuộc tính trích lọc luật, bao gồm phân nhóm phương pháp rút gọn thuộc tính, luật định độ đo đánh giá hiệu năng, thay đổi độ đo đánh giá hiệu tập rút gọn phương pháp, đánh giá phương pháp dựa vào chất lượng phân lớp (độ hỗ trợ) tập luật Thứ hai xây dựng phương pháp rút gọn thuộc tính sử dụng khoảng cách, bao gồm xây dựng độ đo khoảng cách, định nghĩa tập rút gọn độ quan trọng thuộc tính dựa khoảng cách, xây dựng thuật toán heuristic tìm tập rút gọn tốt sử dụng khoảng cách; phân nhóm đánh giá phương pháp sử dụng khoảng cách với phương pháp có Chương trình bày kết thử nghiệm đánh giá phương pháp sử dụng khoảng cách số liệu mẫu từ kho liệu UCI [12] nhằm sáng tỏ kết nghiên cứu lý thuyết Cuối cùng, phần kết luận nêu đóng góp luận văn, hướng phát triển 8 Chương TỔNG QUAN VỀ LÝ THUYẾT TẬP THÔ Chương trình bày khái niệm lý thuyết tập thô Pawlak [8] đề xuất Các khái niệm kiến thức tảng để sử dụng cho chương sau luận văn 1.1 Hệ thông tin Hệ thông tin công cụ biểu diễn tri thức dạng bảng liệu gồm p cột ứng với p thuộc tính n hàng ứng với n đối tượng Một cách hình thức, hệ thông tin định nghĩa sau Định nghĩa 1.1 Hệ thông tin IS U , A U tập hữu hạn, khác rỗng đối tượng; A tập hữu hạn, khác rỗng thuộc tính Với u U , a A , ta ký hiệu giá trị thuộc tính a đối tượng u a u thay f u, a Nếu B b1 , b2 , , bk A tập thuộc tính ta ký hiệu giá trị bi u B u Như vậy, u v hai đối tượng, ta viết B u B v bi u bi v với i 1, , k Xét hệ thông tin IS U , A Mỗi tập thuộc tính P A xác định quan hệ hai U, ký hiệu IND P , xác định IND P u, v U U a P, a u a v IND P quan hệ P-không phân biệt Dễ thấy IND P quan hệ tương đương U Nếu u, v IND P hai đối tượng u v không phân biệt thuộc tính P Quan hệ tương đương IND P xác định phân hoạch U, ký hiệu U / IND P hay U / P Ký hiệu lớp tương đương phân hoạch U / P chứa đối tượng u u P , u P v U u, v IND P Tài liệu tham khảo Tài liệu tiếng Việt [1] Nguyễn Long Giang, “Khai phá liệu theo tiếp cận lý thuyết tập thô”, Luận án Tiến sĩ Toán học, Viện Công Nghệ Thông Tin, 2012 [2] Nguyễn Long Giang, Phạm Hoàng Tuyên, Nghiên cứu thay đổi giá trị độ đo đánh giá hiệu tập luật định tập rút gọn, Kỷ yếu Hội thảo Quốc gia lần thứ XV “Một số vấn đề chọn lọc Công nghệ thông tin truyền thông”, Hà Nội 11/2012, 2013, Tr 295-301 Tài liệu tiếng Anh [3] Andrzej Skowron and Rauszer C (1992), “The Discernibility Matrices and Functions in Information Systems”, Interlligent Decision Support, Handbook of Applications and Advances of the Rough Sets Theory, Kluwer, Dordrecht, pp 331-362 [4] Deza M M and Deza E., “Encyclopedia of Distances”, Springer, 2009 [5] Liang J.Y, Chin K.S., Dang C.Y and Richard C.M.YAM, “New method for measuring uncertainty and fuzziness in rough set theory”, International Journal of General Systems 31, 2002, pp 331-342 [6] Long Giang Nguyen, “Metric Based Attribute Reduction in Decision Tables”, The 2012 International Workshop on Rough Sets Applications (RSA’2012), FedCSIS Proceedings, IEEE, 2012, pp 333338 [7] Pawlak Z (1982), “Rough sets”, International Journal of Computer and Information Sciences, 11(5): 341-356 [8] Pawlak Z., Rough sets: Theoretical Aspects of Reasoning About Data, 10 Kluwer Aca-demic Publishers, 1991 [9] Qian Y.H., Liang J.Y., Li D.Y., Zhang H.Y and Dang C.Y (2008), “Measures for Evaluating The Decision Performace of a Decision Table in Rough Set Theory”, Information Sciences, Vol.178, pp.181-202 [10] Wang F., Liang J Y, Qian Y H., “Attribute reduction: A dimension incremental strategy”, Knowledge-Based Systems, Volume 39, 2013, pp 95–108 [11] Z Y Xu, Z P Liu, B R Yang, W Song., “A quick attribute reduction algorithm with complexity of max(O(|C||U|), O(|C|2|U/C|))”, Journal of Computer, Vol 29, no 3, pp 391-398, 2006 [12] The UCI machine learning repository, [...]... Nguyễn Long Giang, “Khai phá dữ liệu theo tiếp cận lý thuyết tập thô , Luận án Tiến sĩ Toán học, Viện Công Nghệ Thông Tin, 2012 [2] Nguyễn Long Giang, Phạm Hoàng Tuyên, Nghiên cứu sự thay đổi giá trị các độ đo đánh giá hiệu năng tập luật quyết định trên các tập rút gọn, Kỷ yếu Hội thảo Quốc gia lần thứ XV “Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông”, Hà Nội 11/2012, 2013, Tr 295-301... Interlligent Decision Support, Handbook of Applications and Advances of the Rough Sets Theory, Kluwer, Dordrecht, pp 331-362 [4] Deza M M and Deza E., “Encyclopedia of Distances”, Springer, 2009 [5] Liang J.Y, Chin K.S., Dang C.Y and Richard C.M.YAM, “New method for measuring uncertainty and fuzziness in rough set theory”, International Journal of General Systems 31, 2002, pp 331-342 [6] Long Giang... Journal of Computer and Information Sciences, 11(5): 341-356 [8] Pawlak Z., Rough sets: Theoretical Aspects of Reasoning About Data, 10 Kluwer Aca-demic Publishers, 1991 [9] Qian Y.H., Liang J.Y., Li D.Y., Zhang H.Y and Dang C.Y (2008), “Measures for Evaluating The Decision Performace of a Decision Table in Rough Set Theory”, Information Sciences, Vol.178, pp.181-202 [10] Wang F., Liang J Y, Qian Y H.,