Luận văn ThS: Khai thác tập mục lợi ích cao tài liệu, giáo án, bài giảng , luận văn, luận án, đồ án, bài tập lớn về tất...
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM VÕ TẤN ANH KIÊÊT KHAI THÁC TẬP MỤC LỢI ÍCH CAO LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin Mã ngành: 60480201 TP HỒ CHÍ MINH, tháng 10 năm 2015 .Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM VÕ TẤN ANH KIÊÊT KHAI THÁC TẬP MỤC LỢI ÍCH CAO LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin Mã ngành: 60340102 Cán hướng dẫn khoa học: PGS TS LÊ HOÀI BẮC TP HỒ CHÍ MINH, tháng 10 năm 2015 Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CƠNG NGHÊÊ TP HỜ CHÍ MINH Cán hướng dẫn khoa học: PGS TS LÊ HOÀI BẮC Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày 17 tháng 10 năm 2015 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: TT Họ Tên Chức danh Hội đồng PGS TSKH Nguyễn Xuân Huy Chủ tịch PGS TS Quản Thành Thơ Phản biê Ên TS Nguyễn Thị Thúy Loan Phản biê Ên TS Võ Đình Bảy TS Cao Tùng Anh Ủy viên Ủy viên, Thư ky Xác nhận Chủ tịch Hội đồng đánh giá luận văn sau luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án TRƯỜNG ĐH CƠNG NGHỆ TP HCM CỘNG HỊA Xà HỘI CHỦ NGHĨA VIỆT NAM PHÒNG QLKH – ĐTSĐH Độc lập – Tự – Hạnh phúc TP HCM, ngày 03 tháng 04 năm 2015 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên : Võ Tấn Anh Kiê êt Giới tính: Nam Ngày, tháng, năm sinh : 12 – 06 – 1976 Nơi sinh: TP Hồ Chí Chuyên ngành : Công Nghệ Thông Tin MSHV : 1341860042 Minh I- Tên đề tài: KHAI THÁC TẬP MỤC LỢI ÍCH CAO II- Nhiệm vụ nội dung: - Nghiên cứu về khám phá tri thức khai thác liệu cho Cơ Sở Dữ Liệu lớn có lợi ích kèm - Nghiên cứu triển khai thuật toán khai thác itemset lợi ích - Lập trình kiểm thử so sánh hai thuật toán HUI-Miner FHM III- Ngày giao nhiệm vụ: 03/04/2015 IV- Ngày hoàn thành nhiệm vụ: 07/09/2015 V- Cán hướng dẫn: Phó Giáo Sư Tiến Sĩ Lê Hoài Bắc CÁN BỘ HƯỚNG DẪN Tà i liệu Há»— trợ ôn táºp com KHOA QUẢN LÝ CHUYÊN NGÀNH Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án PGS TS LÊ HOÀI BẮC Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng tôi.Các số liệu, kết đánh giá, nhận xét đề xuất cải tiến nêu Luận văn trung thực chưa cơng bố bất kỳ cơng trình khác Tơi xin cam đoan giúp đỡ cho việc thực luận văn trích dẫn hay tài liệu học thuật tham khảo cảm ơn đến tác giả hay ghi rõ ràng nguồn gốc thơng tin trích dẫn Luận văn Học viên thực Luận văn Võ Tấn Anh Kiê êt Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án LỜI CÁM ƠN Trước hết, cho gửi lời cảm ơn đến hướng dẫn giúp đỡ tận tình PGS.TS Lê Hồi Bắc Xin cảm ơn Thầy/Cô Khoa Công Nghệ Thông Tin Đại Học Công Nghệ TP HCM sát cánh cung cấp cho tơi kiến thức q báu suốt thời gian học tâ êp nghiên cứu thực hiê ên luâ ên văn Tôi xin gởi lời cảm ơn đến gia đình, bạn bè người thân quan tâm giúp đỡ suốt thời gian học tập nghiên cứu hoàn thành luận văn Luận văn khơng thể tránh khỏi sai sót, rất mong nhận ý kiến đóng góp người cho luận văn hồn thiện Tơi xin chân thành cảm ơn TP Hồ Chí Minh, tháng 10 năm 2015 Võ Tấn Anh Kiê êt Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án TĨM TẮT Khai thác tập có ích cao mơ êt nhiệm vụ mang tính thử thách khai thác mẫu tuần tự, lĩnh vực có nhiều ứng dụng rộng rãi Thuật tốn điển hình HUIMiner[7] Thuật tốn sử dụng phương pháp tìm kiếm theo chiều sâu để tìm mẫu tính tốn lợi ích chúng mà khơng tốn chi phí cho việc duyệt CSDL Dù hướng tiếp cận có hiệu quả, việc khai thác tập có ích cao cịn tốn HUI-Miner[7] phải thực thao tác kết item tạo thủ tục tìm kiếm Trong luâ ên văn này, tập trung nghiên cứu mô êt thuật tốn khai thác tập lợi ích cao với chiến lược cắt giảm khơng gian tìm kiếm có hiệu mà khơng phải thực phép kết có tên FHM[13] Thuâ êt toán dễ triển khai có hiệu thuật tốn trước HUI-Miner[7] Ba th êt tốn có liên quan Twophase[8], TWU-Mining[12] HUI-Miner[7] tìm hiểu .Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án ABTRACT High utility itemset mining is a challenging task in frequent pattern mining, which has wide applications The state-of-the-art algorithm is HUI-Miner[7] It adopts a vertical representation and performs a depth fỉrst search to discover patterns and calculate their utility without performing costly database scans Although, this approach is efective, mining high-utility itemsets remains computationally expensive because HUI-Miner[7] has to perform a costly join operation for each pattern that is generated by its search procedure In this thesis, I address the algorithm of HUIM that named FHM[13] with the effective prunning stategy based on the analysis of item co-occurrences to reduce the number of join operations FHM[13] is easy to deploy and more efective than HUI-Miner[7] Three related algorithms: Two- phase[8], TWU-Mining[12] HUI-Miner[7] discovered .Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án are also .Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Mục Lục CHƯƠNG GIỚI THIÊêU TỔNG QUAN 1.1 GIỚI THIÊêU ĐỀ TÀI 1.2 TỔNG QUAN VỀ KHAI THÁC DỮ LIỆU 1.3 KHÁM PHÁ TRI THỨC VÀ KHAI THÁC DỮ LIÊêU Quá trình khai phá liệu .5 Các loại liệu khai thác Các ứng dụng khai thác liệu CHƯƠNG KHAI THÁC TÂêP MỤC LỢI ÍCH CAO 2.1 Khai thác liệu truyền thống 2.2 Lịch sử phát triển khai thác tập lợi ích cao .9 2.3 Giới thiệu tốn khai thác tập lợi ích cao 2.4 Các cách tiếp cận khai thác tập lợi ích cao 10 2.5 Các định nghĩa quy ước khai thác tâ êp mục lợi ích cao 11 2.5.1 Định nghĩa (cơ sở liệu giao tác) .11 2.5.2 Định nghĩa (lợi ích itemset CSDL) 12 2.5.3 Định nghĩa (Lợi ích itemset CSDL) 12 2.5.4 Định nghĩa (định nghĩa vấn đề) 12 2.5.5 Định nghĩa (Lợi ích giao tác) 13 2.5.6 Định nghĩa (Lợi ích trọng số giao dịch) .13 2.5.7 Định nghĩa (danh sách giá trị lợi ích UL) 14 2.6 Thuâ êt toán Two-phase [8] .15 Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án Tà i liệu Há»— trợ ôn táºp com Luáºn văn Luáºn án 30 (Estimated Utility Co-occurrence Structure) Cấu trúc định nghĩa có dạng (a, b, c) I*x I* x Bộ (a, b, c) TWU({ a,b }) = c ¡ EUCS triển khai ma trận chiều mô tả bảng Bảng 2.24 bảng băm với có dạng (a, b, c) cho c giữ lại Tác giả sử dụng cấu trúc để đạt hiệu về nhớ cao tác giả quan sát thấy có item xuất với item khác Xây dựng EUCS rất nhanh chiếm nhớ, giới hạn khoảng |I*| x |I*|, dù thực tiễn kích thước nhỏ nhiều số lượng giới hạn cặp item xuất đồng thời giao tác Sau xây dựng EUCS, thuật tốn tìm kiếm theo chiều sâu bắt đầu gọi thủ tục đệ quy Search với itemset rỗng = ∅ , tập item đơn I*, minutil cấu trúc EUCS Giải thuâ Êt : Thuâ Êt toán Search Đầu vào: P: tâ êp item P ExtensionofP: tâ êp phần mở rô êng củaP minutil: giá trị ngưỡng EUCS: cấu trúc EUCS Đầu ra: Tất tâ êp mục có giá trị lợi ích cao Với Px thuô êc phần mở rô êng tâ êp P ta tính giá trịiulti, Px.UL iulti ≥ minulti : xuất kết Px Nếu SUM(Px.UL iulti) + SUM(Px.UL rulti) ≥ minutil: 2.1 Gán ExtensionofP = ∅ 2.2 Duyêtê qua phần tử Py ∈ ExtensionofP: + Nếu ∋ ( x , y , c ) ∈ EUCS m a` ≥ minutil : - Px