Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 13 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
13
Dung lượng
221,39 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Đinh Quang Thắng MỘT SỐ ỨNG DỤNG CỦA HẠT DỮ LIỆU LUẬN VĂN THẠC SĨ Hà Nội – 2005 -1- ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Đinh Quang Thắng MỘT SỐ ỨNG DỤNG CỦA HẠT DỮ LIỆU Ngành : Công nghệ thông tin Chuyên ngành: Mã số: 1.01.1 LUẬN VĂN THẠC SĨ NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS HOÀNG CHÍ THÀNH Hà Nội - 2005 -2- MỤC LỤC MỞ ĐẦU CHƢƠNG 1: TỔNG QUAN VỀ TÍNH TOÁN HẠT .9 1.1 Khái niệm tính toán hạt 1.2 Tại nghiên cứu tính toán hạt 10 1.3 Những vấn đề tính toán hạt 10 1.4 Một số mô hình tính toán hạt Error! Bookmark not defined 1.4.1 Các tập mờ Error! Bookmark not defined 1.4.2 Các tập thô Error! Bookmark not defined 1.4.3 Một mô hình dựa lý thuyết tập hợp tính toán hạt Error! Bookmark not defined 1.4.3.1 Đại số luỹ thừa Error! Bookmark not defined 1.4.3.2 Đại số khoảng Error! Bookmark not defined 1.4.3.3 Đại số tập khoảng Error! Bookmark not defined 1.5 Kết luận Error! Bookmark not defined CHƢƠNG 2: BÀI TOÁN QUYẾT ĐỊNH VÀ PHƢƠNG PHÁP GIẢI QUYẾT DỰA VÀO HẠT DỮ LIỆU Error! Bookmark not defined 2.1 Các cách kết hạt từ tập Error! Bookmark not defined 2.1.1 Kết hạt quan hệ tƣơng đƣơng Error! Bookmark not defined 2.1.2 Kết hạt quan hệ đồng dạng Error! Bookmark not defined 2.2 Giới thiệu tập thô Error! Bookmark not defined 2.2.1 Giới thiệu Error! Bookmark not defined 2.2.2 Các định nghĩa tập thô Error! Bookmark not defined 2.2.2.1 Định nghĩa hƣớng phần tử Error! Bookmark not defined 2.2.2.2 Định nghĩa hƣớng hạt Error! Bookmark not defined 2.2.2.3 Định nghĩa hƣớng hệ thống Error! Bookmark not defined 2.2.2.4 Các hàm thuộc thô Error! Bookmark not defined 2.2.2.5 Một số tính chất xấp xỉ Error! Bookmark not defined 2.2.2.6 Sự phân lớp thô Error! Bookmark not defined 2.3 Mô hình lý thuyết định sử dụng tập thô Error! Bookmark not defined 2.3.1 Khái quát thủ tục định Bayes Error! Bookmark not defined -3- 2.3.2 Mô hình lý thuyết định sử dụng tập thô Error! Bookmark not defined 2.4 Kết luận Error! Bookmark not defined CHƢƠNG 3: KHAI PHÁ TRI THỨC TRONG CƠ SỞ DỮ LIỆU SỬ DỤNG CÁC TẬP THÔ Error! Bookmark not defined 3.1 Tổng quan khai phá tri thức Error! Bookmark not defined 3.1.1 Giới thiệu Error! Bookmark not defined 3.1.2 Khai phá tri thức khai phá liệu Error! Bookmark not defined 3.1.2.1 Quá trình KDD Error! Bookmark not defined 3.1.2.2 Khai phá liệu Error! Bookmark not defined 3.2 Các tập thô khai phá tri thức sở liệu Error! Bookmark not defined 3.2.1 Làm liệu tiền xử lý Error! Bookmark not defined 3.2.1.1 Rút gọn liệu Error! Bookmark not defined 3.2.1.2 Quản lý giá trị không Error! Bookmark not defined 3.2.1.3 Lựa chọn trích chọn đặc trƣng Error! Bookmark not defined 3.2.2 Khai phá liệu Error! Bookmark not defined 3.3 Khai phá luật kết hợp Error! Bookmark not defined 3.3.1 Các luật kết hợp Error! Bookmark not defined 3.3.2 Thuật giải Apriori Error! Bookmark not defined 3.3.3 Các thuật giải song song phân tán Error! Bookmark not defined 3.3.3.1 Các kỹ thuật khai phá liệu phân tán Error! Bookmark not defined 3.3.3.1.1 Kỹ thuật sinh tập ứng cử Error! Bookmark not defined 3.3.3.1.2 Phép tỉa cục tập ứng cử Error! Bookmark not defined 3.3.3.1.3 Phép tỉa toàn cục tập ứng cử Error! Bookmark not defined 3.3.3.1.4 Bầu kiểu kiểm phiếu Error! Bookmark not defined 3.3.3.2 Thuật giải 1: Phân tán tính toán Error! Bookmark not defined 3.3.3.3 Thuật giải 2: Phân tán liệu Error! Bookmark not defined 3.3.3.4 Thuật giải 3: Phân tán ứng cử viên Error! Bookmark not defined 3.3.3.5 Sinh luật song song Error! Bookmark not defined 3.3.3.6 Thuật giải nhanh khai phá phân tán luật kết hợp FDM Error! Bookmark not defined 3.3.3.7 Sinh luật Apriori phân tán Error! Bookmark not defined 3.4 Kết luận Error! Bookmark not defined CHƢƠNG 4: CHƢƠNG TRÌNH THỬ NGHIỆM Error! Bookmark not defined -4- 4.1 Thuật giải Apriori ……………………………………………………………… Error! Bookmark not defined 4.2 Cấu trúc liệu T-tree Error! Bookmark not defined 4.3 Giới thiệu chƣơng trình Error! Bookmark not defined 4.4 Kết thử nghiệm Error! Bookmark not defined 4.4 Kết luận Error! Bookmark not defined KẾT LUẬN Error! Bookmark not defined CÁC KẾT QUẢ ĐÃ ĐƢỢC BÁO CÁO TẠI CÁC HỘI THẢO QUỐC GIA Error! Bookmark not defined TÀI LIỆU THAM KHẢO 11 -5- MỞ ĐẦU Trong năm gần đây, tính toán hạt đƣợc áp dụng nhiều lĩnh vực nhƣ trí tuệ nhân tạo, phân tích khoảng, lƣợng tử hoá, lý thuyết tập thô, phân tích cụm, học máy, sở liệu số lĩnh vực khác Cho đến nay, tính toán hạt có phát triển nhanh chóng ngày có nhiều ngƣời tập trung nghiên cứu ứng dụng Tính toán hạt thuật ngữ lý thuyết, phƣơng pháp, kỹ thuật công cụ sử dụng hạt (là nhóm, lớp, cụm tập) để giải toán Đề tài hạt thông tin mờ đƣợc Zadeh đề xuất vào năm 1979 đƣợc ông tiếp tục phát triển báo công bố năm 1997 Đặc biệt, Zadeh trình bày mô hình tổng quát tính toán hạt dựa lý thuyết tập mờ Các hạt đƣợc xây dựng định nghĩa dựa phép toán suy rộng Mối quan hệ hạt đƣợc biểu diễn đồ thị mờ luật nếu-thì mờ Mặc dù công thức khác với nghiên cứu trí tuệ nhân tạo, nhƣng ý tƣởng chúng giống Zadeh xác định ba khái niệm tính toán hạt theo cách nhận thức ngƣời, cụ thể phƣơng pháp kết hạt, phƣơng pháp tổ chức hạt phƣơng pháp lập luận với hạt Sau lý thuyết tính toán với hạt thông tin mờ đƣợc nghiên cứu cách kết hạt thông tin lập luận với chúng Sự cần thiết việc kết hạt thông tin tính dễ nhận đƣợc thông tin từ hạt thông tin giải toán lý thực tế cho tính phổ biến tính toán hạt Trong nhiều tình huống, toán không đầy đủ, không chắn thông tin không rõ ràng khó để phân biệt phần tử cách riêng biệt nghiên cứu tập phần tử Trong số trƣờng hợp khác, nhận đƣợc thông tin chi tiết, nhƣng sử dụng hạt để giảm chi phí cách đáng kể Điều mở định hƣớng logic mờ: “Khai thác độ không chắn tính phận để có đƣợc khả dễ kiểm soát, tính mạnh mẽ, chi phí thấp phù hợp với thực tế hơn” Những nguyên tắc hƣớng tới nhiều mô hình vật lý để giải toán giới thực: thay cho việc tìm kiếm lời giải tối ƣu, ta tìm kiếm lời giải xấp xỉ tốt Nhƣ cần thiết khảo sát toán mức kết hạt mịn với nhiều thông tin chi tiết Tính toán hạt đƣợc nghiên cứu rộng rãi lý thuyết tập thô Nhƣ tảng cụ thể tính toán hạt, mô hình tập thô cho phép định nghĩa cách xác phân tích nhiều khái niệm tính toán hạt Các kết nghiên cứu mang lại cách hiểu thấu đáo tính toán hạt -6- Luận văn tập trung vào nghiên cứu tính toán hạt dựa lý thuyết tập thô Cụ thể, luận văn có nội dung nhƣ sau sau: Chƣơng 1: Tổng quan tính toán hạt: Trong chƣơng này, trình bày thuật ngữ chung, yếu tố vấn đề tính toán hạt số ứng dụng chúng Luận văn trình bày cách xây dựng, cách hiểu cách biểu diễn hạt nhƣ yếu tố phép toán để tính loán lập luận với hạt Phần cuối chƣơng giới thiệu khái quát ba mô hình tồn tính toán hạt: mô hình dựa tập thông thƣờng, mô hình dựa lý thuyết tập thô mô hình dựa lý thuyết tập mờ Chƣơng 2: Bài toán định phƣơng pháp giải dựa vào hạt liệu: Luận văn giới thiệu cách tổng quát hai cách kết hạt tập, định nghĩa tập thô Với xấp xỉ tập thô, tập tổng thể đƣợc phân thành ba vùng POS, NEG vùng biên BND Bài toán định làm thể để xác định đƣợc ba vùng cách hiệu Một phƣơng pháp thƣờng hay đƣợc sử dụng để giải toán định sử dụng thủ tục định Bayes Luận văn trình bày tóm tắt thủ tục định Bayes xây dựng mô hình lý thuyết định sử dụng hạt liệu dựa lý thuyết tập thô Chƣơng 3: Khai phá tri thức sở liệu sử dụng tập thô: Với hạt xấp xỉ thô, luận văn nghiên cứu toán khai phá luật kết hợp sở liệu quan hệ Thuật giải Apriori đƣợc trình bày Sau đó, luận văn trình bày tới ý tƣởng song song hoá thuật giải Tốc độ thuật giải tăng đáng kể thực thuật giải song song với liệu đƣợc tổ chức môi trƣờng liệu phân tán Chƣơng 4: Chƣơng trình thử nghiệm: Luận văn trình bày cấu trúc liệu mới, cấu trúc liệu T-tree Cấu trúc phù hợp để cài đặt thuật giải Apriori cho phép tìm kiếm tập mục nhanh tiết kiệm không gian lƣu trữ liệu Thuật giải Apriori đƣợc cài đặt sử dụng cấu trúc liệu ngôn ngữ lập trình Java Luận văn đƣợc thực dƣới hƣớng dẫn PGS.TS Hoàng Chí Thành, Bộ môn Tin học, Khoa Toán-Cơ-Tin học trƣờng Đại học Khoa học Tự nhiên, Đại học Quốc Gia Hà Nội Em xin bày tỏ lòng biết ơn sâu sắc tới Thầy hƣớng dẫn có ý kiến dẫn quí báu trình em làm luận văn Em xin chân thành cảm ơn Thầy giáo, TS Hà Quang Thuỵ cho em nhiều ý kiến quí báu để em hoàn thiện luận văn Em xin cảm ơn Thầy Cô giáo Bộ môn Tin học, đồng nghiệp Khoa Toán-Cơ-Tin học, Trƣờng Đại học Khoa học Tự nhiên, Thầy Cô giáo Khoa Công Nghệ Thông tin, Trƣờng Đại học Công nghệ, Đại học Quốc Gia Hà Nội tạo điều kiện giúp đỡ em trình hoàn thành luận văn Cuối xin bày tỏ lòng -7- cảm ơn tới ngƣời thân gia đình, bạn bè động viên giúp đỡ hoàn thành luận văn -8- CHƢƠNG 1: TỔNG QUAN VỀ TÍNH TOÁN HẠT 1.1 Khái niệm tính toán hạt Những ý tƣởng phƣơng pháp tính toán hạt đƣợc áp dụng số lĩnh vực nhƣ phân tích khoảng, lƣợng tử hoá, lý thuyết tập thô, phân tích cụm, học máy, sở liệu số lĩnh vực khác Chủ đề phƣơng pháp kết hạt thông tin mờ đƣợc trình bày Zadeh vào năm 1979 [6] Các ứng dụng tính toán hạt đƣợc phát triển cách nhanh chóng đóng vai trò quan trọng phát triển logic mờ, lý thuyết tập thô ứng dụng chúng [6] Những khái niệm thành phần tính toán hạt thực tế phát triển nhiều lĩnh vực, nhƣng đến chƣa có định nghĩa tổng quát tính toán hạt [3] [5] [6] Tuy vậy, thông qua phƣơng pháp giải số toán thực tế, khái quát đƣợc thành phần tính toán hạt [3, 7] Do đó, nghiên cứu tính toán hạt dựa việc tập trung giải toán sử dụng tính chất chung hạt, quan sát kết hạt, tính chất hạt hệ thống phân cấp lớp hạt Khi đó, ta coi tính toán hạt nhƣ nghiên cứu lý thuyết tổng quát để giải toán dựa mức khác tính chất hạt [3, 6] Những khái niệm dƣới Zadeh giúp hiểu rõ phạm vi ứng dụng lập luận với hạt: “Phƣơng pháp kết hạt đối tƣợng A hình thành tập hạt A, với hạt cụm điểm (các đối tƣợng) đƣợc ghép lại với theo quan hệ “không phân biệt đƣợc”, “quan hệ tƣơng tự”, “quan hệ xấp xỉ” “quan hệ có chức năng”” [3], (Zadel 1997) “Lý thuyết phƣơng pháp kết hạt thông tin mờ đƣợc xây dựng theo cách thức ngƣời kết hạt thông tin lập luận với chúng” [3] (Zadeh, 1997) “Lý thuyết phƣơng pháp kết hạt thông tin mờ xây dựng máy tồn phƣơng pháp kết hạt thông tin mờ logic mờ nhƣng mang tới mức cao tính tổng quát, thống nghiên cứu đề xuất hƣớng nghiên cứu mới” [3] (Zadeh, 1997) “Tính toán hạt khái niệm lý thuyết phƣơng pháp kết hạt thông tin mờ, lý thuyết tập thô tính toán khoảng phần toán học tính toán với hạt” [3] (Zadeh, 1997) Có thể thấy ý tƣởng chung tính toán hạt sử dụng nhóm, lớp cụm phần tử đƣợc gọi hạt [3, 7] Mặc dù có ứng dụng cụ thể sử dụng tính toán hạt, khó đƣa định nghĩa xác Chúng ta -9- coi tính toán hạt thuật ngữ lý thuyết, phƣơng pháp, kỹ thuật công cụ sử dụng hạt trình giải toán Dựa cách hiểu trực giác trên, xem xét số vấn đề số giải pháp 1.2 Tại nghiên cứu tính toán hạt Có nhiều lý để nghiên cứu tính toán hạt Zadeh xác định ba vấn đề tính toán hạt: phƣơng pháp kết hạt, tổ chức hạt lập luận với hạt “Phƣơng pháp kết hạt bao gồm việc phân chia tập tổng thể thành phần, tổ chức hạt bao gồm việc tích hợp phần tập tổng thể lập luận với hạt thực việc sử dụng mối quan hệ hạt để từ điều kiện ban đầu tới kết mong muốn” [3] Trong việc giải toán, sử dụng hạt thông tin thƣờng đơn giản sử dụng thông tin chi tiết có lẽ lý để phát triển tính toán hạt Khi toán có độ không chắn, tính không đầy đủ thông tin không rõ ràng, khó để phân biệt khác phần tử hƣớng tới nghiên cứu hạt Một ví dụ điển hình lý thuyết tập thô [3, 7] Tình trạng thiếu thông tin cho phép xác định đƣợc hạt thay cho việc xác định phần tử cụ thể Trong số tình huống, thông tin chi tiết có đƣợc, nhƣng sử dụng hạt mang lại tính hiệu lời giải thiết thực Những nhân tố tính toán hạt định hƣớng tới phát triển logic mờ: “ Khai thác tính chấp nhận đƣợc với liệu có tính không xác, không chắn tính phận để nhận đƣợc tính dễ kiểm soát, tính mạnh mẽ, chi phí cho lời giải thấp phù hợp với thực tế hơn” Nhƣ vậy, thay cho việc tìm kiếm lời giải tối ƣu, ta tìm kiếm lời giải xấp xỉ tốt Chỉ cần thiết có điều kiện thuận lợi ta nghiên cứu toán mức kết hạt mịn với nhiều thông tin chi tiết Tuy nhiên, thấy nghiên cứu tính toán hạt bổ xung cho nghiên cứu đòi hỏi tính xác cao phƣơng pháp tính toán không kết hạt 1.3 Những vấn đề tính toán hạt Những vấn đề tính toán hạt đƣợc nghiên cứu theo hai khía cạnh: phƣơng pháp xây dựng hạt phƣơng pháp tính toán với hạt Phƣơng pháp xây dựng hạt nghiên cứu hình thành công thức, phép biểu diễn cách hiểu hạt, phƣơng pháp tính toán với hạt nghiên cứu tiện ích sử dụng hạt giải toán [3] [4] [6] - 10 - TÀI LIỆU THAM KHẢO [1] [Yao 2004] Yao,Y.Y A partition model of granular computing, LNCS Transactions on Rough Sets [2] [Lin, 1999b] Lin, T.Y (1999b) Granular computing: Fuzzy logic and rough sets In Zadeh, L and Kacprzyk, J., editors, Computing with Words in Information/Intelligent Systems, pages 183–200 Physica-Verlag [3] [Lin 2003] T Y Lin, "Granular Computing: Structures, Representations, Applications and Future Directions." In: the Proceedings of 9th International Conference, RSFDGrC 2003, Chongqing, China,May 2003, Lecture Notes on Artificial Intelligence LNAI 2639, Springer-Verlag, 16-24 [4] [Zadeh, 1997] Zadeh, L.A (1997) Towards a theory of fuzzy information granulation and its centrality in human reasoning and fuzzy logic Fuzzy Sets and Systems, 19:111–127 [5] Lin, T.Y.: Granular computing Rough Sets, Fuzzy Sets, Data Mining, and Granular Computing, Proceedings of the 9th International Conference, Lecture Notes in Artificial Intelligence 2639 (2003) 16-24 [6] Yao, Y.Y.: Granular computing: basic issues and possible solutions Proceedings of the 5th Joint Conference on Information Sciences (2000) 186-189 Yao, Y.Y.: Information granulation and rough set approximation International Journal of Intelligent Systems 16 (2001) 87-104 [Wang 2004] Wang,D.W.,Liau, C.J.,Hsu, T.-S (2004), Medical privacy protection based on granular computing, Artificial Intelligence in Medicine, 32(2), 137-149 Y.Y Yao Information Granulation and Approximation in a Decision-theoretic [7] [8] [9] Model of Rough Sets, 2002 [10] Yiyu Yao and Jingtao Yao A Decision-Theoretic Rough Set Model, Department of Computer Science University of Regina Regina, Saskatchewan, Canada S4S 0A2, 2002 [11] Hirano, S., Inuiguchi, M and Tsumoto, S (Eds.), Proceedings of International Workshop on Rough Set Theory and Granular Computing, a special issue of the Bulletin of International Rough Set Society, Vol 5, No 1-2, 2001 [12] Lin T.Y., Yao, Y.Y and Zadeh, L.A (Eds.) Rough Sets, Granular Computing and Data Mining, Physica-Verlag, Heidelberg, 2001 [13] Skowron, A and Stepaniuk, J Information granules: towards foundations of granular computing, International Journal of Intelligent Systems, 16, 57-85, 2001 - 11 - [14] Matteo Magnani Technical report on Rough Set Theory for Knowlege Discovery in Data Bases, July 1, 2003 [15] [DGN] I Dauntsch, G Gediga, and H.S Nguyen Rough set data analysis in the KDD process URL: citeseer.nj.nec.com/387773.html [16] [FPSSU96] Usama M Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, and Ramasamy Uthurusamy, editors Advances in knowledge discovery & data mining, chapter 1, pages 136 MIT Press, Cambridge, MA, 1996 [17] Sankar K Pal, Pabitra Mitra Data Mining in Soft Computing Framework: A Survey, IEEE, 2003 [18] Y Q Zhang, M D Fraser, R A Gagliano, and A Kandel, \Granular neural networks for numerical-linguistic data fusion and knowldege discovery," IEEE Transactions on Neural Net-works, vol 11, pp 658{667, 2000 [19] Tomasz Strkowski,Henryk Rybiski A Distributed Version of Apriori Rule, Generation Based on Rough Set Theory, Institute of Computer Science Warsaw University of Technology, Warsaw [20] Agrawal R., Srikant R.: Fast Algorithms for Mining Association Rules in Large Databases VLDB 1994, 487-499 [21] Jan G.Bazan, Hung Son Nguyen, Sinh Hoa Nguyen, Piotr Synak, Jakub Wroblewski Rought algorithms in Classification problem, 1998 [22] Agrawal, R Mannila, H Srikant, R Toivonen, H Verkamo: Fast Discovery of Association Rules, Proceedings of the Advances in Knowlwdge Discovery and Data Mining, AAAT Press/The MIT Press, CA (1996), pp 307-328 [23] Rakesh Agrawal, John C.Shafer Parallel Mining of Association Rules, IBM Almaden Research Center, CA 95120 [24] J.Han and Y.Fu: Discovery of multiple-level association rules from large [25] [26] [27] [28] databases In Proc of 21st Int’s Conference on Very Large Databases, Zurich, Switzerland, September 1995 Andrew Kusiak Rough Set Theory: A Data Mining Tool for Semiconductor Manufacturing, IEEE, 2001 [Wan] Guoyin Wang Extension of rough set under incomplete information systems [DG00] I Dauntsch and G Gediga Rough set data analysis, 2000 URL: citeseer nj.nec.com/dntsch00rough.html G.Wang and F Liu The inconsistency in rough set based rule generation [29] P Lingras and Y.Y Yao Time complexity of rough clustering: Gas versus kmeans Rough Sets and Current Trends in Computing, volume 2475 of Lecture Notes in Computer Science Springer, 2002 - 12 - [30] Mahesh V Joshi, Eui-Hong Han, George Karypis and Vipin Kumar Efficient parallel algorithms for mining associations Department of Computer Science, University of Minesota, Minneapolis, MN 55455, USA [31] Coenen, F., Goulbourne, G and Leng, P., (2003) Tree Structures for Mining association Rules In the journal of Data Mining and Knowledge Discovery [32] Weka-Parallel 3.2.3, Java Programs for Machine Learning, http://www.mathcs.carleton.edu/weka/ - 13 - [...]...TÀI LIỆU THAM KHẢO [1] [Yao 2004] Yao,Y.Y A partition model of granular computing, LNCS Transactions on Rough Sets [2] [Lin, 1999b] Lin, T.Y (1999b) Granular computing: Fuzzy logic and rough sets In Zadeh,