1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai thác k mẫu tuần tự tối đại

86 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 86
Dung lượng 1,22 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM NGUYỄN THỊ QUYÊN KHAI THÁC K MẪU TUẦN TỰ TỐI ĐẠI LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin Mã ngành: 60480201 TP HỒ CHÍ MINH, tháng 10 năm 2015 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM NGUYỄN THỊ QUYÊN KHAI THÁC K MẪU TUẦN TỰ TỐI ĐẠI LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin Mã ngành: 60480201 GIẢNG VIÊN HƯỚNG DẪN: PGS TS LÊ HOÀI BẮC TP HỒ CHÍ MINH, tháng 10 năm 2015 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hướng dẫn khoa học: PGS TS LÊ HOÀI BẮC Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM (HUTECH) ngày 03 tháng 10 năm 2015 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: Họ Tên TT Chức danh Hội đồng PGS.TSKH Nguyễn Xuân Huy PGS.TS Quản Thành Thơ Phản biện TS Võ Đình Bảy Phản biện TS Cao Tùng Anh TS Nguyễn Thị Thúy Loan Chủ tịch Ủy viên Ủy viên, Thư ký Chủ tịch Hội đồng đánh giá LV TRƯỜNG ĐH CƠNG NGHỆ TP HCM CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÒNG QLKH – ĐTSĐH Độc lập – Tự – Hạnh phúc TP HCM, ngày 03 tháng 04 năm 2015 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Thị Quyên Giới tính: Nữ Ngày, tháng, năm sinh: 10 – 02 – 1982 Nơi sinh: Bến Tre Chuyên ngành: Công Nghệ Thông Tin MSHV: 1341860051 I - Tên đề tài: KHAI THÁC K MẪU TUẦN TỰ TỐI ĐẠI II- Nhiệm vụ nội dung: Nghiên cứu triển khai thuật toán khai thác mẫu Cải tiến thuật toán khai thác k mẫu đóng để tối ưu thời gian thực nhớ sử dụng Đề xuất thuật toán khai thác k mẫu tối đại dựa thuật tốn khai thác k mẫu đóng nhằm nâng cao tính hiệu thuật tốn, giúp người sử dụng dễ dàng tìm số mẫu cần khai thác mà không cần phải tinh chỉnh giá trị minsup số lượng mẫu thu không tồn mẫu III - Ngày giao nhiệm vụ: Ngày 03 tháng 04 năm 2015 IV- Ngày hoàn thành nhiệm vụ: Ngày 17 tháng 09 năm 2015 V- Cán hướng dẫn: Phó Giáo Sư Tiến Sĩ Lê Hoài Bắc CÁN BỘ HƯỚNG DẪN KHOA QUẢN LÝ CHUYÊN NGÀNH i LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng Các số liệu, kết đánh giá, nhận xét đề xuất cải tiến nêu Luận văn trung thực chưa cơng bố cơng trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn trích dẫn hay tài liệu học thuật tham khảo cảm ơn đến tác giả hay ghi rõ ràng nguồn gốc thơng tin trích dẫn Luận văn Học viên thực Luận văn Nguyễn Thị Quyên ii LỜI CÁM ƠN Trước hết, cho gửi lời cảm ơn đến hướng dẫn giúp đỡ tận tình PGS.TS Lê Hoài Bắc suốt thời gian nghiên cứu thực Luận văn Tôi xin cảm ơn q Thầy Cơ nhiệt tình giảng dạy, truyền đạt cho chúng tơi kiến thức bổ ích qua mơn học chương trình cao học Tơi xin gởi lời cảm ơn đến gia đình, bạn bè người thân quan tâm giúp đỡ suốt thời gian học tập nghiên cứu hồn thành Luận văn Luận văn khơng thể tránh khỏi sai sót, mong nhận ý kiến đóng góp người cho Luận văn hồn thiện Tôi xin chân thành cảm ơn TP Hồ Chí Minh, năm 2015 iii TĨM TẮT Khai thác mẫu nghiên cứu rộng rãi cộng đồng khai thác liệu Hầu hết nghiên cứu trước đòi hỏi phải tinh chỉnh ngưỡng hỗ trợ tối thiểu để thực việc khai thác Tuy nhiên, thực tế điều gây khó khăn cho người sử dụng để lựa chọn giá trị ngưỡng thích hợp Để khắc phục nhược điểm này, thuật toán khai thác k mẫu đóng (TSP) đề xuất phương pháp giới hạn số lượng mẫu cần khai thác thời gian thực nhớ sử dụng cao Do đó, luận văn đề xuất thuật tốn TSP cải tiến (ITSP) để tối ưu thời gian nhớ sử dụng Tuy nhiên, TSP ITSP tồn mẫu mẫu thu Xuất phát từ vấn đề Luận văn đề xuất thuật toán TMSP dựa thuật toán ITSP để khai thác mẫu có giá trị cho số lượng mẫu thu khơng tồn mẫu Để trình bày khả hiệu ITSP TMSP chúng áp dụng với hai liệu so sánh với TSP MaxSP Kết thực nghiệm cho thấy ITSP tốt TSP mặt thời gian thực nhớ sử dụng thuật toán TMSP tốt MaxSP mặt nhớ sử dụng giúp người sử dụng dễ dàng tìm số lượng mẫu mong muốn mà không cần tinh chỉnh giá trị minsup chạy với loại liệu lớn khác iv ABSTRACT Sequential pattern mining has been studied extensively in data mining community Most previous studies require the specification of a minimum support threshold to perform the mining However, it is difficult for users to provide an appropriate threshold in reality To overcome this difficulty, the TSP algorithm had proposed method to limit the number of sequential patterns to be mined but a running time and usage memory of this algorithm is high Therefore, this thesis proposes an improved TSP algorithm (ITSP) to overcome this problem However, the results obtained from both ITSP and TSP still exit subpatterns So, the thesis also proposes a new algorithm namely mining top-k maximal sequential patterns (TMSP) based on ITSP to mine sequential patterns such that there exists no subpattern in sequential patterns obtained To demonstrate the performance and effectiveness of the proposed methods using ITSP and TMSP they are applied to two databases and compared the results with those of TSP and MaxSP The experimental results show that ITSP is better than TSP in terms time and memory efficient and TMSP is better than MAXSP in term memory efficient and easier for users to find the number of required patterns without adjusting minsup compared with MaxSP and it is suitable for big database types v MỤC LỤC TÓM TẮT .iii ABSTRACT .iv DANH MỤC CÁC TỪ VIẾT TẮT vii DANH MỤC CÁC BẢNG viii DANH MỤC CÁC HÌNH ix Chương TỔNG QUAN 1.1 Giới thiệu 1.1.1 Mục tiêu đề tài 1.1.2 Bố cục đề tài 1.2 Khai thác chuỗi liệu 1.3 Đặc điểm liệu chuỗi 1.4 Một số ví dụ liệu chuỗi 1.5 Các kỹ thuật khai thác liệu chuỗi 1.6 Đóng góp luận văn Chương KHAI THÁC K MẪU TUẦN TỰ DỰA TRÊN TẬP TỐI ĐẠI 2.1 Giới thiệu 2.2 Các khái niệm chuỗi liệu 2.3 Khai thác mẫu 11 2.3.1 Các cách tổ chức liệu 11 2.3.2 Các hướng tiếp cận 13 2.3.3 Thuật toán PrefixSpan 17 2.3.3.1 Lý thuyết phân hoạch 17 vi 2.3.3.2 Thuật toán PrefixSpan 18 2.3.3.3 Ví dụ Minh họa 19 2.3.3.4 Đánh giá 25 2.4 Bài toán khai thác k mẫu tối đại 25 2.4.1 Dữ liệu toán 25 2.4.2 Các khái niệm 25 2.4.3 Phát biểu toán 27 2.4.4 Thuật toán TSP 27 2.4.4.1 Cấu trúc PDB_Tree 28 2.4.4.2 Thuật toán TSP 29 2.4.5 Thuật toán ITSP 43 2.4.6 Thuật toán TMSP 53 2.4.7 Đánh giá 64 Chương KẾT QUẢ THỰC NGHIỆM VÀ HƯỚNG PHÁT TRIỂN 65 3.1 Giới thiệu 65 3.2 Kết thực nghiệm TSP ITSP 65 3.3 Kết thực nghiệm MaxSP TMSP 68 3.4 Kết luận 70 3.5 Hướng phát triển 71 TÀI LIỆU THAM KHẢO 73 59  Chiều dài mẫu = 3, dừng đệ qui PrefixSpanWSR(, 1, D|, F) Thực đệ qui mẫu : 2, ta tìm mẫu phổ biến tối đại có độ dài 3:  SavePattern() lưu vào tập F SIDSum() = chưa có bảng Hash  Tập F: : 4, SIDSum = 10 : 2, SIDSum = : 2, SIDSum =  Chiều dài mẫu = 3, dừng đệ qui PrefixSpanWSR(, 1, D|, F) Thực đệ qui : 1, ta tìm mẫu phổ biến tối đại có độ dài 3:  SavePattern() mẫu khơng lưu vào tập F mẫu tồn item c mở rộng độ hỗ trợ  Chiều dài mẫu = 3, dừng đệ qui PrefixSpanWSR(, 1, D|, F) Thực đệ qui mẫu : 1, ta tìm mẫu phổ biến tối đại có độ dài 3:  SavePattern() lưu vào tập F SIDSum() = chưa có bảng Hash  Tập F: : 4, SIDSum = 10 : 2, SIDSum = : 2, SIDSum = : 1, SIDSum =  Chiều dài mẫu = 3, dừng đệ qui PrefixSpanWSR(, 1, D|, F) Thực đệ qui mẫu : 1, ta tìm mẫu phổ biến tối đại có độ dài 3: 60  SavePattern() lưu vào tập F SIDSum() = chưa có bảng Hash  Tập F: : 4, SIDSum = 10 : 2, SIDSum = : 2, SIDSum = : 1, SIDSum = : 1, SIDSum =  Chiều dài mẫu = 3, dừng đệ qui PrefixSpanWSR(, 1, D|, F) Thực đệ qui : 4, ta tìm mẫu phổ biến tối đại có độ dài 2:  SavePattern(), khơng lưu vào tập F tồn chuỗi cha

Ngày đăng: 05/03/2021, 15:26

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] P. Tzvetkov, X. Yan, and J. Han (2005). “TSP: Mining top-k closed sequential patterns,” Knowl. Inf. Syst., vol. 7, no. 4, pp. 438 – 457 Sách, tạp chí
Tiêu đề: TSP: Mining top-k closed sequential patterns,” "Knowl. Inf. Syst
Tác giả: P. Tzvetkov, X. Yan, and J. Han
Năm: 2005
[2] P. Fournier-Viger, C. W. Wu, and V. S. Tseng (2013). “Mining maximal sequential patterns without candidate maintenance,” Lect. Notes Comput. Sci.(including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol.8346 LNAI, no. PART 1, pp. 169 – 180 Sách, tạp chí
Tiêu đề: Mining maximal sequential patterns without candidate maintenance,” "Lect. Notes Comput. Sci. "(including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics)
Tác giả: P. Fournier-Viger, C. W. Wu, and V. S. Tseng
Năm: 2013
[3] R. Agrawal and R. Srikant (1995). “Mining sequential patterns,” Proc. 11th Int. Conf. Data Eng., pp. 3 – 14 Sách, tạp chí
Tiêu đề: Mining sequential patterns,” "Proc. 11th Int. Conf. Data Eng
Tác giả: R. Agrawal and R. Srikant
Năm: 1995
[4] R. Srikant and R. Agrawal (1996). “Mining Sequential Patterns: Generalizations and Performance Improvements,” Proc. 5th Int. Conf.Extending Database Technol. Adv. Database Technol., pp. 3 – 17 Sách, tạp chí
Tiêu đề: Mining Sequential Patterns: Generalizations and Performance Improvements,” "Proc. 5th Int. Conf. "Extending Database Technol. Adv. Database Technol
Tác giả: R. Srikant and R. Agrawal
Năm: 1996
[5] J. P. J. Pei, J. H. J. Han, B. Mortazavi-Asl, H. Pinto, Q. C. Q. Chen, U. Dayal, and M.-C. H. M.-C. Hsu (2001). “PrefixSpan,: mining sequential patterns efficiently by prefix-projected pattern growth,” Proc. 17th Int. Conf. Data Eng Sách, tạp chí
Tiêu đề: PrefixSpan,: mining sequential patterns efficiently by prefix-projected pattern growth,”
Tác giả: J. P. J. Pei, J. H. J. Han, B. Mortazavi-Asl, H. Pinto, Q. C. Q. Chen, U. Dayal, and M.-C. H. M.-C. Hsu
Năm: 2001
[6] M. J. Zaki (2001). “SPADE: An efficient algorithm for mining frequent sequences,” Mach. Learn., vol. 42, no. 1 – 2, pp. 31 – 60, 2001 Sách, tạp chí
Tiêu đề: SPADE: An efficient algorithm for mining frequent sequences,” "Mach. Learn
Tác giả: M. J. Zaki
Năm: 2001
[7] J. Ayres, J. Gehrke, T. Yiu, and J. Flannick (2002). “Sequential pattern mining using a bitmap representation,” Proc. eighth ACM SIGKDD Int. Conf. Knowl.Discov. data Min., pp. 429 – 435 Sách, tạp chí
Tiêu đề: Sequential pattern mining using a bitmap representation,” "Proc. eighth ACM SIGKDD Int. Conf. Knowl. "Discov. data Min
Tác giả: J. Ayres, J. Gehrke, T. Yiu, and J. Flannick
Năm: 2002
[8] M. J. Zaki and W. Meira JR. (2014). Data mining and analysis: fundamental concepts and algorithms. Cambridge University Press, New York Sách, tạp chí
Tiêu đề: Data mining and analysis: fundamental concepts and algorithms
Tác giả: M. J. Zaki and W. Meira JR
Năm: 2014
[9] S. Guha, R. Rastogi, and R. K. Shim (2009). “A robust clustering algorithm for categorical attributes,” In ICDE’99, pp. 512 – 521 Sách, tạp chí
Tiêu đề: A robust clustering algorithm for categorical attributes,” "In ICDE’99
Tác giả: S. Guha, R. Rastogi, and R. K. Shim
Năm: 2009
[10] H. Mannila, H. Toivonen, and A. Verkamo (1997). “Discovery of frequent episodes in event sequences,” Data Min. Knowl. …, vol. 289, pp. 259 –289 Sách, tạp chí
Tiêu đề: Discovery of frequent episodes in event sequences,” "Data Min. Knowl. …
Tác giả: H. Mannila, H. Toivonen, and A. Verkamo
Năm: 1997
[11] R. Agrawal, T. Imieliński, and A. Swami (1993). “Mining association rules between sets of items in large databases,” ACM SIGMOD Rec., vol. 22, no. 2, pp. 207 – 216 Sách, tạp chí
Tiêu đề: Mining association rules between sets of items in large databases,” "ACM SIGMOD Rec
Tác giả: R. Agrawal, T. Imieliński, and A. Swami
Năm: 1993
[12] X. Yan, J. Han, and R. Afshar (2003). “CloSpan: Mining closed sequential patterns in large datasets,” Proc. 2003 SIAM Int’l Conf. Data Min., pp. 166 –177 Sách, tạp chí
Tiêu đề: CloSpan: Mining closed sequential patterns in large datasets,” "Proc. 2003 SIAM Int’l Conf. Data Min
Tác giả: X. Yan, J. Han, and R. Afshar
Năm: 2003
w