Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 86 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
86
Dung lượng
1,26 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM NGUYỄN THỊ QUYÊN KHAI THÁC K MẪU TUẦN TỰ TỐI ĐẠI LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin Mã ngành: 60480201 TP HỒ CHÍ MINH, tháng 10 năm 2015 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM NGUYỄN THỊ QUYÊN KHAI THÁC K MẪU TUẦN TỰ TỐI ĐẠI LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin Mã ngành: 60480201 GIẢNG VIÊN HƯỚNG DẪN: PGS TS LÊ HOÀI BẮC TP HỒ CHÍ MINH, tháng 10 năm 2015 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hướng dẫn khoa học: PGS TS LÊ HOÀI BẮC Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM (HUTECH) ngày 03 tháng 10 năm 2015 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: Họ Tên TT Chức danh Hội đồng PGS.TSKH Nguyễn Xuân Huy PGS.TS Quản Thành Thơ Phản biện TS Võ Đình Bảy Phản biện TS Cao Tùng Anh TS Nguyễn Thị Thúy Loan Chủ tịch Ủy viên Ủy viên, Thư ký Chủ tịch Hội đồng đánh giá LV TRƯỜNG ĐH CÔNG NGHỆ TP HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÒNG QLKH – ĐTSĐH Độc lập – Tự – Hạnh phúc TP HCM, ngày 03 tháng 04 năm 2015 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Thị Quyên Giới tính: Nữ Ngày, tháng, năm sinh: 10 – 02 – 1982 Nơi sinh: Bến Tre Chuyên ngành: Công Nghệ Thông Tin MSHV: 1341860051 I - Tên đề tài: KHAI THÁC K MẪU TUẦN TỰ TỐI ĐẠI II- Nhiệm vụ nội dung: Nghiên cứu triển khai thuật toán khai thác mẫu Cải tiến thuật toán khai thác k mẫu đóng để tối ưu thời gian thực nhớ sử dụng Đề xuất thuật toán khai thác k mẫu tối đại dựa thuật toán khai thác k mẫu đóng nhằm nâng cao tính hiệu thuật toán, giúp người sử dụng dễ dàng tìm số mẫu cần khai thác mà không cần phải tinh chỉnh giá trị minsup số lượng mẫu thu không tồn mẫu III - Ngày giao nhiệm vụ: Ngày 03 tháng 04 năm 2015 IV- Ngày hoàn thành nhiệm vụ: Ngày 17 tháng 09 năm 2015 V- Cán hướng dẫn: Phó Giáo Sư Tiến Sĩ Lê Hoài Bắc CÁN BỘ HƯỚNG DẪN KHOA QUẢN LÝ CHUYÊN NGÀNH i LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng Các số liệu, kết đánh giá, nhận xét đề xuất cải tiến nêu Luận văn trung thực chưa công bố công trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn trích dẫn hay tài liệu học thuật tham khảo cảm ơn đến tác giả hay ghi rõ ràng nguồn gốc thông tin trích dẫn Luận văn Học viên thực Luận văn Nguyễn Thị Quyên ii LỜI CÁM ƠN Trước hết, cho gửi lời cảm ơn đến hướng dẫn giúp đỡ tận tình PGS.TS Lê Hoài Bắc suốt thời gian nghiên cứu thực Luận văn Tôi xin cảm ơn quý Thầy Cô nhiệt tình giảng dạy, truyền đạt cho kiến thức bổ ích qua môn học chương trình cao học Tôi xin gởi lời cảm ơn đến gia đình, bạn bè người thân quan tâm giúp đỡ suốt thời gian học tập nghiên cứu hoàn thành Luận văn Luận văn tránh khỏi sai sót, mong nhận ý kiến đóng góp người cho Luận văn hoàn thiện Tôi xin chân thành cảm ơn TP Hồ Chí Minh, năm 2015 iii TÓM TẮT Khai thác mẫu nghiên cứu rộng rãi cộng đồng khai thác liệu Hầu hết nghiên cứu trước đòi hỏi phải tinh chỉnh ngưỡng hỗ trợ tối thiểu để thực việc khai thác Tuy nhiên, thực tế điều gây khó khăn cho người sử dụng để lựa chọn giá trị ngưỡng thích hợp Để khắc phục nhược điểm này, thuật toán khai thác k mẫu đóng (TSP) đề xuất phương pháp giới hạn số lượng mẫu cần khai thác thời gian thực nhớ sử dụng cao Do đó, luận văn đề xuất thuật toán TSP cải tiến (ITSP) để tối ưu thời gian nhớ sử dụng Tuy nhiên, TSP ITSP tồn mẫu mẫu thu Xuất phát từ vấn đề Luận văn đề xuất thuật toán TMSP dựa thuật toán ITSP để khai thác mẫu có giá trị cho số lượng mẫu thu không tồn mẫu Để trình bày khả hiệu ITSP TMSP chúng áp dụng với hai liệu so sánh với TSP MaxSP Kết thực nghiệm cho thấy ITSP tốt TSP mặt thời gian thực nhớ sử dụng thuật toán TMSP tốt MaxSP mặt nhớ sử dụng giúp người sử dụng dễ dàng tìm số lượng mẫu mong muốn mà không cần tinh chỉnh giá trị minsup chạy với loại liệu lớn khác iv ABSTRACT Sequential pattern mining has been studied extensively in data mining community Most previous studies require the specification of a minimum support threshold to perform the mining However, it is difficult for users to provide an appropriate threshold in reality To overcome this difficulty, the TSP algorithm had proposed method to limit the number of sequential patterns to be mined but a running time and usage memory of this algorithm is high Therefore, this thesis proposes an improved TSP algorithm (ITSP) to overcome this problem However, the results obtained from both ITSP and TSP still exit subpatterns So, the thesis also proposes a new algorithm namely mining top-k maximal sequential patterns (TMSP) based on ITSP to mine sequential patterns such that there exists no subpattern in sequential patterns obtained To demonstrate the performance and effectiveness of the proposed methods using ITSP and TMSP they are applied to two databases and compared the results with those of TSP and MaxSP The experimental results show that ITSP is better than TSP in terms time and memory efficient and TMSP is better than MAXSP in term memory efficient and easier for users to find the number of required patterns without adjusting minsup compared with MaxSP and it is suitable for big database types v MỤC LỤC TÓM TẮT .iii ABSTRACT .iv DANH MỤC CÁC TỪ VIẾT TẮT vii DANH MỤC CÁC BẢNG viii DANH MỤC CÁC HÌNH ix Chương TỔNG QUAN 1.1 Giới thiệu 1.1.1 Mục tiêu đề tài 1.1.2 Bố cục đề tài 1.2 Khai thác chuỗi liệu 1.3 Đặc điểm liệu chuỗi 1.4 Một số ví dụ liệu chuỗi 1.5 Các kỹ thuật khai thác liệu chuỗi 1.6 Đóng góp luận văn Chương KHAI THÁC K MẪU TUẦN TỰ DỰA TRÊN TẬP TỐI ĐẠI 2.1 Giới thiệu 2.2 Các khái niệm chuỗi liệu 2.3 Khai thác mẫu 11 2.3.1 Các cách tổ chức liệu 11 2.3.2 Các hướng tiếp cận 13 2.3.3 Thuật toán PrefixSpan 17 2.3.3.1 Lý thuyết phân hoạch 17 vi 2.3.3.2 Thuật toán PrefixSpan 18 2.3.3.3 Ví dụ Minh họa 19 2.3.3.4 Đánh giá 25 2.4 Bài toán khai thác k mẫu tối đại 25 2.4.1 Dữ liệu toán 25 2.4.2 Các khái niệm 25 2.4.3 Phát biểu toán 27 2.4.4 Thuật toán TSP 27 2.4.4.1 Cấu trúc PDB_Tree 28 2.4.4.2 Thuật toán TSP 29 2.4.5 Thuật toán ITSP 43 2.4.6 Thuật toán TMSP 53 2.4.7 Đánh giá 64 Chương KẾT QUẢ THỰC NGHIỆM VÀ HƯỚNG PHÁT TRIỂN 65 3.1 Giới thiệu 65 3.2 Kết thực nghiệm TSP ITSP 65 3.3 Kết thực nghiệm MaxSP TMSP 68 3.4 Kết luận 70 3.5 Hướng phát triển 71 TÀI LIỆU THAM KHẢO 73 59 Chiều dài mẫu = 3, dừng đệ qui PrefixSpanWSR(, 1, D|, F) Thực đệ qui mẫu : 2, ta tìm mẫu phổ biến tối đại có độ dài 3: SavePattern() lưu vào tập F SIDSum() = chưa có bảng Hash Tập F: : 4, SIDSum = 10 : 2, SIDSum = : 2, SIDSum = Chiều dài mẫu = 3, dừng đệ qui PrefixSpanWSR(, 1, D|, F) Thực đệ qui : 1, ta tìm mẫu phổ biến tối đại có độ dài 3: SavePattern() mẫu không lưu vào tập F mẫu tồn item c mở rộng độ hỗ trợ Chiều dài mẫu = 3, dừng đệ qui PrefixSpanWSR(, 1, D|, F) Thực đệ qui mẫu : 1, ta tìm mẫu phổ biến tối đại có độ dài 3: SavePattern() lưu vào tập F SIDSum() = chưa có bảng Hash Tập F: : 4, SIDSum = 10 : 2, SIDSum = : 2, SIDSum = : 1, SIDSum = Chiều dài mẫu = 3, dừng đệ qui PrefixSpanWSR(, 1, D|, F) Thực đệ qui mẫu : 1, ta tìm mẫu phổ biến tối đại có độ dài 3: 60 SavePattern() lưu vào tập F SIDSum() = chưa có bảng Hash Tập F: : 4, SIDSum = 10 : 2, SIDSum = : 2, SIDSum = : 1, SIDSum = : 1, SIDSum = Chiều dài mẫu = 3, dừng đệ qui PrefixSpanWSR(, 1, D|, F) Thực đệ qui : 4, ta tìm mẫu phổ biến tối đại có độ dài 2: SavePattern(), không lưu vào tập F tồn chuỗi cha [...]... tự, k t quả nghiên cứu khai thác các mẫu tuần tự hiện nay Trình bày phương pháp khai thác k mẫu tuần tự đóng (TSP), cải tiến phương pháp khai thác k mẫu tuần tự đóng (ITSP) và phương pháp khai thác k mẫu tuần tự tối đại (TMSP) Bao gồm khái niệm, định nghĩa, tính chất trong phương pháp khai thác k mẫu tuần tự tối đại Chương 3 K t quả thực nghiệm và hướng phát triển Trình bày k t quả thử nghiệm và đánh... (minsup), khai thác mẫu tuần tự là để tìm tất cả các mẫu phổ biến có độ hỗ trợ không thấp hơn minsup Khai thác mẫu tuần tự được ứng dụng trong nhiều lĩnh vực như: phân tích thị trường, phân tích mẫu truy cập web, dự đoán nhu cầu mua sắm của khách hàng… Khi khai thác mẫu tuần tự tồn tại một số vấn đề như sau: Khai thác mẫu tuần tự thường tạo ra một số lượng lớn các mẫu, vấn đề đó không thể tránh khỏi khi... tin khác 5 1.5 Các k thuật khai thác dữ liệu chuỗi Khai thác dữ liệu phụ thuộc vào loại tri thức mà hệ thống khai thác tri thức và khai thác dữ liệu tìm kiếm Mỗi nhiệm vụ khai thác dữ liệu có đặc tính riêng của nó và thực hiện theo các bước trong quá trình khai thác tri thức Sau đây là các nhiệm vụ khai thác dữ liệu thường được sử dụng phổ biến trong ứng dụng khai thác dữ liệu chuỗi [8] Khai thác. .. triển khai thác dữ liệu chuỗi hiện nay 1.1.2 Bố cục đề tài Chương 1 Tổng quan Giới thiệu mục đích của đề tài và tổng quan về khai thác cơ sở dữ liệu (CSDL) chuỗi, một số k thuật khai thác dữ liệu chuỗi; đồng thời nêu lên hướng tiếp cận nghiên cứu và đóng góp của đề tài Chương 2 Khai thác k mẫu tuần tự dựa trên tập tối đại Trình bày cơ sở lý thuyết và phân tích các phương pháp khai thác mẫu tuần tự, k t... 22 Bảng 2.9 K t quả CSDL chiếu và mẫu tuần tự 23 Bảng 2.10 Cơ sở dữ liệu chuỗi 25 Bảng 2.11 Mẫu tuần tự đóng 26 Bảng 2.12 Mẫu tuần tự tối đại 27 Bảng 2.13 K mẫu tuần tự tối đại 27 Bảng 2.14 K t quả thuật toán TSP với k = 3, min_l = 1 43 Bảng 2.15 K t quả thuật toán ITSP với k = 3, min_l = 1 52 Bảng 2.16 K t quả thuật toán ITSP với k = 3, min_l... với các loại dữ liệu khác nhau 7 Chương 2 KHAI THÁC K MẪU TUẦN TỰ DỰA TRÊN TẬP TỐI ĐẠI 2.1 Giới thiệu Trong lĩnh vực khai thác dữ liệu trên CSDL chuỗi Khai thác mẫu tuần tự là một nhiệm vụ khai thác dữ liệu quan trọng đã được nghiên cứu rộng rãi [3], [7], [9], [10], [5], [6] Cho một tập các chuỗi, trong đó mỗi chuỗi bao gồm một danh sách các tập phổ biến, và một ngưỡng hỗ trợ tối thiểu do người dùng... hay còn gọi là khai thác mẫu tuần tự (miningfrequent subsequence hoặc mining sequential pattern) Khai thác mẫu tuần tự là khai thác các mẫu phổ biến liên quan đến thời gian hoặc các sự kiện khác, với yêu cầu là các mẫu phổ biến là những chuỗi con trong CSDL chuỗi mà sự xuất hiện của chúng lớn hơn ngưỡng hỗ trợ do người dùng chỉ ra Phân lớp các chuỗi (classification) Khai thác có hay không một phần... trong các cụm khác nhau là nhỏ nhất Khai thác luật (mining rules) Khai thác luật là quá trình tìm kiếm những mối quan hệ theo thời gian giữa các sự kiện tuần tự Một luật mô tả mẫu tuần tự có dạng X⟶Y phản ánh sự xuất hiện của biến cố X sẽ dẫn đến sự xuất hiện của biến cố Y k tiếp 6 1.6 Đóng góp của luận văn Luận văn nghiên cứu các thuật toán khai thác mẫu tuần tự chọn ra phương pháp tối ưu nhất Đề... tiếp cận Bài toán khai thác mẫu tuần tự được đề xuất đầu tiên bởi Agrawal và Srikant vào năm 1995 AprioriAll [3] là thuật toán đầu tiên được thiết k để giải quyết bài toán khai thác mẫu tuần tự trên CSDL chuỗi giao dịch AprioriAll dựa trên thuật toán khai thác mẫu phổ biến Apriori [11], là thuật toán nền tảng làm cơ sở cho các thuật toán về sau Thuật toán AprioriAll Để tìm mẫu tuần tự, thuật toán AprioriAll... quá trình khai thác k mẫu tuần tự đóng K t quả thực hiện được so sánh với thuật toán TSP cho thấy thuật toán ITSP tối ưu hơn về mặt thời gian và bộ nhớ Đề xuất TMSP giúp giảm bộ nhớ sử dụng và dễ dàng tìm được số lượng mẫu cần khai thác K t quả thực hiện được so sánh với thuật toán MaxSP cho thấy thuật toán TMSP tối ưu hơn về mặt bộ nhớ và giúp người sử dụng dễ dàng tìm được số mẫu cần khai thác với ... pháp khai thác mẫu tuần tự, k t nghiên cứu khai thác mẫu Trình bày phương pháp khai thác k mẫu đóng (TSP), cải tiến phương pháp khai thác k mẫu đóng (ITSP) phương pháp khai thác k mẫu tối đại. .. 1341860051 I - Tên đề tài: KHAI THÁC K MẪU TUẦN TỰ TỐI ĐẠI II- Nhiệm vụ nội dung: Nghiên cứu triển khai thuật toán khai thác mẫu Cải tiến thuật toán khai thác k mẫu đóng để tối ưu thời gian thực nhớ... nghĩa 2.9 (Mẫu tối đại) : Mẫu f mẫu tối đại không tồn mẫu f’ cho f ⊆ f’ Ví dụ 2.10: Xét CSDL bảng 2.1, độ hỗ trợ tối thiểu minsup = Ta tìm mẫu tối đại sau: 27 Bảng 2.12 Mẫu tối đại Mẫu tối đại Độ