KHAI THÁC TẬP MỤC HỮU ÍCH CAO TRÊN CƠ SỞ DỮ LIỆU TĂNG TRƯỞNGKHAI THÁC TẬP MỤC HỮU ÍCH CAO TRÊN CƠ SỞ DỮ LIỆU TĂNG TRƯỞNGKHAI THÁC TẬP MỤC HỮU ÍCH CAO TRÊN CƠ SỞ DỮ LIỆU TĂNG TRƯỞNGKHAI THÁC TẬP MỤC HỮU ÍCH CAO TRÊN CƠ SỞ DỮ LIỆU TĂNG TRƯỞNGKHAI THÁC TẬP MỤC HỮU ÍCH CAO TRÊN CƠ SỞ DỮ LIỆU TĂNG TRƯỞNGKHAI THÁC TẬP MỤC HỮU ÍCH CAO TRÊN CƠ SỞ DỮ LIỆU TĂNG TRƯỞNGKHAI THÁC TẬP MỤC HỮU ÍCH CAO TRÊN CƠ SỞ DỮ LIỆU TĂNG TRƯỞNG
CHUẨN Y CỦA HỘI ĐỒNG BẢO VỆ LUẬN VĂN o0o Luận văn tựa đề “KHAI THÁC TẬP MỤC HỮU ÍCH CAO TRÊN CƠ SỞ DỮ LIỆU TĂNG TRƯỞNG” Võ Thiện Khoa thực nộp nhằm thỏa yêu cầu tốt nghiệp Thạc sĩ ngành Khoa Học Máy Tính Ngày bảo vệ luận văn, TPHCM, ngày 05 tháng 12 năm 2015 Chủ tịch Hội đồng GS.TSKH Hoàng Văn Kiếm Đại học Quốc tế Hồng Bàng Ngày tháng năm 20 Hiệu Trưởng PGS.TS Thái Bá Cần Ngày tháng năm 20 Người hướng dẫn PGS.TS Võ Đình Bảy Đại học Công Nghệ - TpHCM Ngày tháng năm 20 Viện Đào Tạo Sau Đại Học GS TSKH Hoàng Văn Kiếm Ngày tháng năm 20 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC QUỐC TẾ HỒNG BÀNG Luận văn thạc sĩ: Khai thác tập mục hữu ích cao sở liệu tăng trưởng Do học viên: Võ Thiện Khoa - Cao học khóa: – Đợt - Ngành: Khoa học máy tính thực Người hướng dẫn: PGS TS Võ Đình Bảy Đã bảo vệ trước Hội đồng, ngày: 05/12/2015 theo Quyết định số ……., / ngày / Hiệu trưởng ĐH Quốc Tế Hồng Bàng Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: TT Họ tên Chức danh Hội đồng GS.TSKH Hoàng Văn Kiếm Chủ tịch PGS.TS Trần Công Hùng Phản biện PGS.TS Lê Hoàng Thái Phản biện TS Nguyễn Hòa Ủy viên TS Lê Xuân Trường Ủy viên, Thư ký Chủ tịch Hội đồng đánh giá Luận văn GS.TSKH Hoàng Văn Kiếm LÝ LỊCH CÁ NHÂN SƠ LƯỢC LÝ LỊCH - Họ tên : Võ Thiện Khoa - Ngày sinh : 16/10/1983 - Nơi sinh : Thành Phố Hồ Chí Minh - Tốt nghiệp THPT : Trường THPH Bà Điểm, xã Bà Điểm, huyện Hóc Môn, TP.HCM QUÁ TRÌNH HỌC TẬP Thời gian Nơi học tâp 2001 - 2003 Học trường Trung cấp Giao Thông Vận Tải khu vực 2004 - 2006 Học trường Cao đẳng Công Nghiệp 2007 - 2009 Học trường Đại học Kỹ Thuật Công Nghệ QUÁ TRÌNH CÔNG TÁC Thời gian Nơi công tác 2009 - 2010 Làm việc Công ty phát triển phần mềm Khoa Việt 2011 - Làm việc Bệnh viện Chợ Rẫy - Địa liên lạc: 8/5D tổ ấp Bắc Lân, xã Bà Điểm, huyện Hóc Môn, TP HCM - Email: vokhoa1610@gmail.com - Điện thoại di động: 0908.650.611 i LỜI CAM ĐOAN Tôi cam đoan luận văn “Khai thác tập mục hữu ích cao sở liệu tăng trưởng” nghiên cứu Ngoại trừ tài liệu tham khảo trích dẫn luận văn này, cam đoan phần lại luận văn chưa công bố hay sử dụng để nhận cấp nơi khác Không có sản phẩm hay nghiên cứu người khác sử dụng luận văn mà không trích dẫn theo quy định TP HCM, ngày tháng năm 2015 Tác giả luận văn Võ Thiện Khoa ii LỜI CẢM ƠN Lời đầu xin chân thành cảm ơn TS Võ Đình Bảy tận tình truyền đạt hướng dẫn suốt thời gian thực luận văn Thầy tận tâm giúp đỡ, định hướng cho suốt thời gian nghiên cứu khoa học Thầy giúp tiếp cận với khoa học biết cách sáng tạo khoa học, với điều xã hội đạt thành công nghiên cứu Tiếp theo xin bày tỏ lòng biết ơn đến Ban Giam hiệu, quí thầy cô Viện đào tạo Sau Đại học trường Đại học Quốc tế Hồng Bàng cung cấp kiến thức quý báu cho suốt trình học tập nghiên cứu trường Cuối cùng, chân thành gởi lời cảm ơn đến gia đình, bạn bè người thân quan tâm giúp đỡ suốt thời gian học tập nghiên cứu hoàn thành luận văn Vì thời gian có hạn kiến thức hạn chế, nên luận văn khó tránh khỏi thiếu sót, mong nhận đóng góp ý kiến quý báu quý thầy cô, anh chị bạn iii TÓM TẮT Khai thác liệu trình khám phá thông tin tìm ẩn mối liên hệ lẫn có sở liệu lớn Khai thác liệu truyền thống thường dạng tĩnh xử lý liệu thực hàng loạt Nhưng thực tế, sở liệu thường xuyên biến động cách không hiệu gây lãng phí lượng nhỏ liệu thêm vào sở liệu lớn Do đó, Hong đồng [11] đề xuất khái niệm tập gần phổ biến để khai thác tập phổ biến sở liệu tăng trưởng Tác giả xử dụng hai ngưỡng phổ biến là: ngưỡng phổ biến (tương đương với ngưỡng phổ biến tối thiểu, minSup) ngưỡng phổ biến để giảm số lần duyệt lại sở liệu gốc Thuật toán Pre-HUI thuật toán khai thác tập mục hữu ích cáo sở liệu tăng trưởng đề xuất vào năm 2014 [7] Luận văn đề xuất thuật toán khai thác tập mục hữu ích cao sở liệu trưởng dựa cấu trúc WIT (Weighted Itemset-Tidset tree) cách tỉa ứng viên có độ hữu ích thấp cải tiến bước sinh tập ứng viên trước sử dụng phương pháp khai thác liệu đề xuất Do đó, thuật toán cải thiện tốt thời gian nhớ sử dụng trình khai thác tập mục hữu ích cao iv ABSTRACT Data mining is the process of discovering hidden information and mutual relationships in large databases Traditional data mining is often static and data is processed in batch mode But in reality, the database is constantly fluctuating so this approach is inefficient when a small amount of data is added to the database Therefore, Hong and colleagues [11] have proposed the concept of “Pre-large” to discover nearly frequent itemsets in incremental databases The authors have used two bounds: upper bound utility and lower bound utility to reduce the number of scans on the original database Pre-HUI is an algorithm for mining high itemset utility in incremental databases [7] Thesis proposes a new algorithm for mining high itemset utility in incremental databases based on the WIT tree (Weighted itemset-Tidset tree) by pruning the low utility candidates Therefore, this new algorithm will improve the time and memory used in the process of mining high itemset utility v NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN -o0o vi NHẬN XÉT CỦA GIẢNG VIÊN PHẢN BIỆN -o0o vii NHẬN XÉT CỦA GIẢNG VIÊN PHẢN BIỆN -o0o viii 4.2.2 So sánh thời gian chạy thực nghiệm Để so sánh đánh giá kết thực thuật toán Pre-HUI thuật toán cải tiến tác giả đưa ngưỡng SU = 1,4 ngưỡng SL = 0,6 Để trình thực nghiệm dễ hiểu tác giả xét giao dịch từ đến 130.000 Tác giả chia trường hợp để thấy chi tiết trình thực nghiệm: Thử nghiệm 1: Giả sử CSDL ban đầu có giao dịch từ đến 120.000 10.000 giao dịch lại sẻ chia làm lần thêm vào lần 2.000 giao dịch dùng để đánh giá thời gian thực thuật toán Bảng 4.1: Thời gian thực nghiệm CSDL bán thuốc với lần thêm 2.000 giao dịch Lần Từ Trans Đến Trans 120.001 122.000 122.001 124.000 124.001 126.000 126.001 128.000 128.001 130.000 Tổng thời gian thực Thời gian TT Pre-HUI TT cải tiến 66 32 67 34 65 35 65 36 67 34 330 171 Thuật toán Pre-HUI Thuật toán cải tiến 80 Thời gian (giây) 70 60 50 40 30 20 10 122k 124k 126k 128k Số lượng giao dịch 130k Hình 4.1: Thực nghiệm CSDL bán thuốc thêm 2.000 giao dịch cho lần Trang 53 Thử nghiệm 2: Giả sử CSDL ban đầu có giao dịch từ đến 110.000 20.000 giao dịch lại sẻ chia làm lần thêm vào lần 4.000 giao dịch dùng để đánh giá thời gian thực thuật toán Bảng 4.2: Thời gian thực nghiệm CSDL bán thuốc với lần thêm 4.000 giao dịch Lần Từ Trans Đến Trans 110.001 114.000 114.001 118.000 118.001 122.000 122.001 126.000 126.001 130.000 Tổng thời gian thực Thời gian TT Pre-HUI TT cải tiến 65 32 66 35 65 36 67 36 65 36 328 175 Thuật toán Pre-HUI Thuật toán cải tiến 80 70 Thời gian (giây) 60 50 40 30 20 10 114k 118k 122k 126k Số lượng giao dịch 130k Hình 4.2: Thực nghiệm CSDL bán thuốc thêm 4000 giao dịch cho lần Thử nghiệm 3: Giả sử CSDL ban đầu có giao dịch từ đến 105.000 25.000 giao dịch lại sẻ chia làm lần thêm vào lần 5.000 giao dịch dùng để đánh giá thời gian thực thuật toán Trang 54 Bảng 4.3: Thời gian thực nghiệm CSDL bán thuốc với lần thêm 5.000 giao dịch Lần Từ Trans Đến Trans 105.001 110.000 110.001 115.000 115.001 120.000 120.001 125.000 125.001 130.000 Tổng thời gian thực Thời gian TT Pre-HUI TT cải tiến 65 31 65 34 65 35 67 35 65 35 327 170 Thuật toán Pre-HUI Thuật toán cải tiến Thời gian (giây) 80 60 40 20 110k 115k 120k 125k 130k Số lượng giao dịch Hình 4.3: Thực nghiệm CSDL bán thuốc thêm 5.000 giao dịch cho lần Nhận xét: dựa vào kết thực nghiệm CSDL bán thuốc ta thấy thời gian thực thuật toán cải tiến nhanh đáng kể so với thuật toán PreHUI Khi chạy hai thuật toán ngưỡng phổ biến ngưỡng phổ biến dưới, số lượng giao dịch thêm vào nhiều thuật toán cải tiến chứng tỏ hiệu nhiều so với thực toán Pre-HUI từ cho thấy khả tỉa ứng viên thuật toán cải tiến hiệu thuật toán gốc Bên cạnh số lần quét toàn liệu thuật toán gốc góp phần làm chậm thuật toán Trong thuật toán cải tiến quét lại toàn liệu dựa Tidset việc quét CSDL tốn thời gian nhiều so với thuật toán gốc Trang 55 4.3 Thực nghiệm CSDL chuẩn Ngoài CSDL bán thuốc tác giả tiếp tục tiến hành thực nghiệm CSDL chuẩn có nguồn góc từ “http://fimi.ua.ac.be/data/” để thấy đa dạng liệu, CSDL nhiều tác giả nhiều công trình nghiên cứu trước sử dụng để đánh giá thuật toán mà họ nghiên cứu lĩnh vực khai thác tập mục hữu ích cao Để thực nghiệm CSDL chuẩn tác giả chọn CSDL là: Retail MBS-POS Bảng 4.4: Các CSDL thực nghiệm chuẩn Số mục Tên CSDL Retail BMS-POS Số giao dịch 16.469 88.162 1.656 515.597 4.3.1 Thực nghiệm CSDL Retail Để so sánh đánh giá kết thực thuật toán Pre-HUI thuật toán cải tiến tác giả đưa ngưỡng SU = 1,8 ngưỡng SL = 0,9 Để trình thực nghiệm dễ hiểu tác giả xét giao dịch từ đến 80.000 Tác giả chia trường hợp để thấy chi tiết trình thực nghiệm: Thử nghiệm 1: Giả xử CSDL ban đầu có giao dịch từ đến 75.000 5.000 giao dịch lại sẻ chia làm lần thêm vào lần 1.000 giao dịch dùng để đánh giá thời gian thực thuật toán Bảng 4.5: Thời gian thực nghiệm CSDL Retail với lần thêm 1.000 giao dịch Lần Từ Trans Đến Trans 75.001 76.000 76.001 77.000 77.001 78.000 78.001 79.000 79.001 80.000 Tổng thời gian thực Thời gian TT Pre-HUI 72 76 82 82 77 389 Trang 56 TT cải tiến 7 37 Thuật toán Pre-HUI Thuật toán cải tiến 90 80 Thời gian (giây) 70 60 50 40 30 20 10 76k 77k 78k 79k Số lượng giao dịch 80k Hình 4.4: Thực nghiệm CSDL Retail thêm 1.000 giao dịch cho lần Thử nghiệm 2: Giả xử CSDL ban đầu có giao dịch từ đến 70.000 10.000 giao dịch lại sẻ chia làm lần thêm vào lần 2.000 giao dịch dùng để đánh giá thời gian thực thuật toán Bảng 4.6: Thời gian thực nghiệm CSDL Retail với lần thêm 2.000 giao dịch Lần Từ Trans Đến Trans 70.001 72.000 72.001 74.000 74.001 76.000 76.001 78.000 78.001 80.000 Tổng thời gian thực Thời gian TT Pre-HUI TT cải tiến 76 76 75 84 79 390 35 Trang 57 Thuật toán Pre-HUI Thuật toán cải tiến 90 80 Thời gian (giây) 70 60 50 40 30 20 10 72k 74k 76k 78k Số lượng giao dịch 80k Hình 4.5: Thực nghiệm CSDL Retail thêm 2.000 giao dịch cho lần Thử nghiệm 3: Giả xử CSDL ban đầu có giao dịch từ đến 65.000 10.000 giao dịch lại sẻ chia làm lần thêm vào lần 3.000 giao dịch dùng để đánh giá thời gian thực thuật toán Bảng 4.7: Thời gian thực nghiệm CSDL Retail với lần thêm 2.000 giao dịch Lần Từ Trans Đến Trans 65.001 68.000 68.001 71.000 71.001 74.000 74.001 77.000 77.001 80.000 Tổng thời gian thực Thời gian TT Pre-HUI TT cải tiến 68 71 74 76 78 367 36 Trang 58 Thuật toán Pre-HUI Thuật toán cải tiến 90 80 Thời gian (giây) 70 60 50 40 30 20 10 68k 71k 74k 77k Số lượng giao dịch 80k Hình 4.6: Thực nghiệm CSDL Retail thêm 3.000 giao dịch cho lần Nhận xét: dựa vào kết thực nghiệm CSDL Retail ta thấy thời gian thực thuật toán cải tiến nhanh nhiều so với thuật toán Pre-HUI số lượng mục (item) với CSDL Retail lớn nhiều so với CSDL bán thuốc Việc tỉa ứng viên quét liệu cách sử dụng Tidset tỏa hiệu số lượng mục lớn 4.3.2 Thực nghiệm CSDL BMS-POS Để so sánh đánh giá kết thực thuật toán Pre-HUI thuật toán cải tiến tác giả đưa ngưỡng SU = ngưỡng SL = Để trình thực nghiệm dễ hiểu tác giả xét giao dịch từ đến 500.000 Tác giả chia trường hợp để thấy chi tiết trình thực nghiệm: Thử nghiệm 1: Giả xử CSDL ban đầu có giao dịch từ đến 450.000 50.000 giao dịch lại sẻ chia làm lần thêm vào lần 10.000 giao dịch dùng để đánh giá thời gian thực thuật toán Trang 59 Bảng 4.8: Thời gian thực nghiệm CSDL BMS-POS với lần thêm 10.000 giao dịch Thời gian Lần Từ Trans Đến Trans TT Pre-HUI TT cải tiến 94 290 100 88 134 706 65 209 65 48 93 480 450.001 460.000 460.001 470.000 470.001 480.000 480.001 490.000 490.001 500.000 Tổng thời gian thực Thời gian (giây) Thuật toán Pre-HUI Thuật toán cải tiến 350 300 250 200 150 100 50 460k 470k 480k 490k Số lượng giao dịch 500k Hình 4.7: Thực nghiệm CSDL BMS-POS thêm 10.000 giao dịch cho lần Thử nghiệm 2: Giả xử CSDL ban đầu có giao dịch từ đến 400.000 100.000 giao dịch lại sẻ chia làm lần thêm vào lần 20.000 giao dịch dùng để đánh giá thời gian thực thuật toán Trang 60 Bảng 4.9: Thời gian thực nghiệm CSDL BMS-POS với lần thêm 20.000 giao dịch Từ Trans Lần Đến Trans Thời gian TT Pre-HUI TT cải tiến 74 155 110 182 97 618 50 122 81 145 63 461 400.001 420.000 420.001 440.000 440.001 460.000 460.001 480.000 480.001 500.000 Tổng thời gian thực Thuật toán Pre-HUI Thuật toán cải tiến 200 180 Thời gian (giây) 160 140 120 100 80 60 40 20 420k 440k 460k 480k Số lượng giao dịch 500k Hình 4.8: Thực nghiệm CSDL BMS-POS thêm 20.000 giao dịch cho lần Thử nghiệm 3: Giả xử CSDL ban đầu có giao dịch từ đến 350.000 150.000 giao dịch lại sẻ chia làm lần thêm vào lần 30.000 giao dịch dùng để đánh giá thời gian thực thuật toán Trang 61 Bảng 4.10: Thời gian thực nghiệm CSDL BMS-POS với lần thêm 30.000 giao dịch Thời gian Lần Từ Trans Đến Trans TT Pre-HUI TT cải tiến 69 93 152 174 102 590 50 63 107 128 62 410 350.001 380.000 380.001 410.000 410.001 440.000 440.001 470.000 470.001 500.000 Tổng thời gian thực Thời gian (giây) Thuật toán Pre-HUI Thuật toán cải tiến 200 180 160 140 120 100 80 60 40 20 380k 410k 440k 470k Số lượng giao dịch 500k Hình 4.9: Thực nghiệm CSDL BMS-POS thêm 30.000 giao dịch cho lần Nhận xét: dựa vào kết thực nghiệm CSDL BMS-POS ta thấy thời gian thực thuật toán cải tiến nhanh so với thuật toán PreHUI Độ lệnh pha hai thuật toán tương đối thấp so với thực nghiệm CSDL thực nghiệm CSDL Retail Trang 62 4.4 Kết thực nghiệm Nhìn chung, thời gian thực thuật toán cải tiến nhanh so với thuật toán Pre-HUI CSDL thực nghiệm CSDL chuẩn: Trên CSDL thực nghiệm, số lượng giao dịch tương đối lớn số lượng item mức trung bình số lượng item tham gia giao dịch trung bình item thời gian thực thuật toán cải tiến nhanh gần gấp hai lần so với thuật toán Pre-HUI Số lượng item lớn thời gian thực thuật toán cải tiến hiệu so với thuật toán Pre-HUI so sánh CSDL Retail với số lượng item 16.469 Số lượng giao dịch lớn số lượng item mức trung bình CSDL BMS-POS thời gian thực thuật toán cải tiến nhanh so với thuật toán gốc Tuy nhiên độ lệch pha so với kết thực nghiệm CSDL Retail Trang 63 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận Luận văn đáp ứng nội dung đăng ký đề cương Cụ thể luận văn đạt số kết sau: Tìm hiểu tổng quan KTDL, khai thác luật kết hợp, khai thác tập mục hữu ích cao thuật toán khai thác tập mục hữu ích cao như: Two-Phase TWU-Mining Tìm hiểu khai thác tập mục hữu ích cao sở liệu tăng trưởng Nghiên cứu thuật toán khai thác tập mục hữu ích cao sở liệu tăng trưởng Nghiên cứu mặt hạn chế thuật toán Pre-HUI từ đề xuất thuật toán khai thác tập mục hữu ích cao sở liệu tăng trưởng dựa cấu trúc WIT(Weighted Itemset-Tidset tree) nhằm tăng hiệu thuật toán Thử nghiệm thành công CSDL giao dịch thực tế nhà thuốc số CSDL chuẩn lớn khác nhiều nhà nghiên cứu sử dụng, kết thực nghiệm cho thấy thời gian thuật toán cải tiến nhanh thuật toán gốc Luận văn đóng góp thuật toán mặt khoa học lĩnh vực KTDL đặc biệt khai thác tập mục hữu ích cao CSDL tăng trưởng với thời gian thực giảm bớt kế với số lượng item lớn 5.2 Hạn chế đề tài Về vấn đề thực tế liệu nghiên cứu thu thập thời điểm việc nghiên cứu hạn chế Để đạt kết tốt ta cần thu thập nhiều liệu để việc kiểm chứng xác hiệu Mặc dù thuật toán cải tiến cải thiện đáng kể mặt thời gian so với thuật toán Pre-HUI số hạn chế như: số lượng ứng viên phát sinh Trang 64 nhiều làm để giảm số lượng ứng viên phát sinh từ làm giảm thời gian hướng phát triển đề tài 5.3 Hướng phát triển Trên sở nghiên cứu trình bày luận văn, tác giả tiếp tục nghiên cứu sâu thuật toán khai thác tập mục hữu ích cao CSDL tăng trưởng Hiện thuật toán Pre-HUI thuật toán cải tiến nghiên cứu việc thêm giao dịch vào CSDL gốc Ngoài ra, thực tế CSDL bị xóa bớt dòng liệu cập nhật Đó vấn đề cần quan tâm giải Bên cạnh phát triển không ngừng liệu đòi hỏi thuật toán phải phát triển thời gian xử lý hạn chế sử dụng tài nguyên hệ thống Chính hướng khai thác tập mục hữu ích cao CSDL tăng trưởng hướng nghiên cứu thú vị thực tế Trang 65 DANH MỤC TÀI LIỆU THAM KHẢO Tài liệu tiếng việt [1] Đại học Kinh Doanh Công Nghệ Thông Tin Hà Nội, "Giáo trình Data Mining" http://el.hubt.edu.vn/giao-trinh-dataminingkhai-pha-du-lieu.htm, (28/05/2015) [2] TS Đỗ Phúc, “Giáo trình Khai thác liệu”, Trường Đại học Công Nghệ Thông Tin - Đại học quốc gia TPHCM, 2009 [3] Hoàng Kiếm, Đỗ Văn Nhơn, Đỗ Phúc “Giáo trình hệ sở tri thức” NXB Đại học Quốc gia TP Hồ Chí Minh, 2002 [4] Ngô Tân Khai, “Nghiên cứu phương pháp ứng viên toán khai thác tập mục hữu ích cao”, Luận văn thạc sĩ , Trường Đại học Quốc Tế Hồng Bàng, 2014 [5] Phạm Thị Hân, “Khai phá luật kết hợp CSDL phân tán”, Luận văn thạc sĩ, Trường Học Viện Công Nghệ Bưu Chính Viễn Thông, 2012 Tài liệu tiếng anh [6] B Le, H Nguyen, T A Cao, B Vo, “A Novel Algorithm for Mining High Utility Itemsets”, In Proceedings of 1st Asian Conference on Intelligent Information and Database Systems, Quang Binh, Vietnam (IEEE press), pp 13 – 17, 2009 [7] C.-W Lin, T.-P Hong, G.-C Lan, J.-W Wong, W.-Y Lin: “Incrementally mining high utility patterns based on pre-large concept” Applied Intelligence, 40(2), 343-357 (2014) [8] J Han, M Kamber, “Data Mining: Concepts and Techniques”, 2nd edition, Morgan Kaufmann, 2006 [9] J Han, J Pei, and Y Yin, “Mining frequent patterns without candidate generation”, in ACM-SIGMOD Int'l Conference on Management of Data, pp 1-12, 2000 Trang 66 [10] R Agrawal, R Srikant, “Fast algorithms for mining association rules”, In VLDB'94, pp 487 – 499, 1994 [11] TP Hong , CY Wang, Tao YH (2001), “A new incremental data mining algorithm using pre-large itemsets”, Intell Data Anal 5: 111-129 [12] Y Liu , W-k Liao, A Choudhary, “A two-phase algorithm for fast discovery of high utility itemsets”, in PAKDD 2005, LNAI3518, pp 689-695 Trang 67 [...]... trong khai thác dữ liệu nhằm khám phá ra những tập mục có độ hữu ích hay lợi nhuận cao 2.3 Giới thiệu về khai thác tập mục hữu ích cao Khai thác tập mục hữu ích cao là bài toán mở rộng và tổng quát của khái thác tập phổ biến Trong khai thác tập mục hữu ích cao, giá trị của item trong giao tác được quan tâm nhiều nhất (như số lượng đã bán của mặt hàng), ngoài ra còn có bảng lợi ích cho biết lợi ích mang... về khai thác dữ liệu (KTDL), khai thác luật kết hợp và phương pháp khai thác tập phổ biến Giới thiệu về khai thác tập mục hữu cao và thuật toán Nghiên cứu bài toán khai thác tập mục hữu ích cao từ cơ sở dữ liệu tăng trưởng và thuật toán Pre-HUI - Chương 3: Nghiên cứu mặt hạn chế của thuật toán Pre-HUI Nghiên cứu và đề xuất thuật toán cải tiến nhằm nâng cao hiệu quả về mặt thời gian khai thác dựa trên. .. cả tập mục hữu ích cao một cách hiệu quả là một thách thức lớn trong khai thác tính hữu ích [4] Mô hình khai thác tập mục hữu ích cao đã được Liu và các đồng sự đề xuất với thuật toán Two-Phase, trong thuật toán Two-Phase có đề cập đến lợi ích của giao tác và lợi ích của tập mục theo các giao tác chứa nó Tuy nhiên, thuật toán Two-Phase đã mất rất nhiều thời gian khi khai thác tập mục hữu ích cao trên. .. kỹ thuật khai thác dữ liệu 7 2.1.4 Ứng dụng trong khai thác dữ liệu 7 2.1.5 Những thách thức trong khai thác dữ liệu 8 2.2 Tổng quan về khai thác luật kết hợp 8 2.3 Giới thiệu về khai thác tập mục hữu ích cao 12 2.4 Khai thác tập mục hữu ích cao trên cơ sở dữ liệu tăng trưởng .21 2.4.1 Tổng quan .21 x 2.4.2 Một số định nghĩa của bài toán .24 2.4.3... mới, hữu ích tiềm ẩn trong các cơ sở dữ liệu lớn Việc khai thác tập phổ biến thường được mô tả là một quá trình lấy thông tin có giá trị từ cơ sở dữ liệu lớn, nó bắt nguồn từ dạng mẫu có sẵn tồn tại trong cơ sở dữ liệu, các mẫu này có khuynh hướng gom nhóm lại với nhau và được định nghĩa như là một mô hình khai thác Khai thác tập mục hữu ích cao (high-utility itemset) là một mở rộng của bài toán khai thác. .. đơn vị hàng đó Lợi ích của một tập mục là số đo lợi nhuận của tập mục đó đóng góp trong CSDL, nó có thể là tổng lợi nhuận hay tổng chi phí của tập mục Khai thác tập mục hữu ích cao là khám phá ra tất cả các tập mục có lợi ích không nhỏ hơn ngưỡng phổ biến tối thiểu do người dùng qui định Mục ích chính của các bài toán khai thác tập mục hữu ích cao là làm giảm thiểu kích thước của tập ứng viên và làm... tăng trưởng Nghiên cứu thuật toán Pre-HUI trong việc khai thác tập mục hữu ích cao Phát triển thuật toán mới cho khai thác tập mục hữu ích cao trên cơ sở dữ liệu tăng trưởng Áp dụng vào thực tế với CSDL bán thuốc của bệnh viện 1.4 Những nội dung chính yếu cần nghiên cứu - Tìm hiểu về những xu hướng hiện nay trong khai thác dữ liệu - Tìm hiểu một số kỹ thuật và thuật toán đang được sử dụng trong khai thác. .. để khai thác tập mục trên CSDL lớn và thường xuyên thay đổi? Có cách nào để cập nhật lại tập mục khi dữ liệu thay đổi? Làm thế nào để giảm số lần duyệt lại CSDL gốc trong quá trình khai thác dữ liệu? Bài toán có thể áp dụng trong khai thác dữ liệu bán thuốc tại bệnh viện ở Thành phố Hồ Chí Minh hay không? 1.3 Mục tiêu nghiên cứu Nghiên cứu bài toán khai thác tập phổ biến trên cơ sở dữ liệu tăng. .. số kỹ thuật và thuật toán đang được sử dụng trong khai thác dữ liệu - Các thuật toán khai thác tập hữu ích cao (high utility itemset – HUI) - Nghiên cứu bài toán khai thác tập mục hữu ích cao trên CSDL tăng trưởng - Nghiên cứu và đề xuất thuật toán cải tiến nhằm nâng cao hiệu quả về mặt thời gian khai thác - Thực nghiệm trên các cơ sở dữ liệu chuẩn để minh chứng tính hiệu quả của thuật toán cải tiến... sở dữ liệu Data base H_PTWU Tập các tập mục có trọng Large (high) and Pre-large số độ hữu ích lớn và tiền transaction-weighted utilization lớn của giao dịch HTWU Tập các tập mục có trọng Large (high) số độ hữu ích lớn của giao transaction-weighted dịch utilization HU Tập các tập mục có độ High-utility itemset hữu ích cao Itemset Tập mục KDD Khám phá tri thức trong Knowledge Discovery in cơ sở dữ liệu