Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 67 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
67
Dung lượng
839,96 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ======= ====== NGUYỄN NGỌC QUỲNH CHÂU MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ LUẬT KẾT HỢP TRÊN CƠ SỞ DỮ LIỆU GIA TĂNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ======= ====== NGUYỄN NGỌC QUỲNH CHÂU MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ LUẬT KẾT HỢP TRÊN CƠ SỞ DỮ LIỆU GIA TĂNG Ngành : Công nghệ thông tin Chuyên ngành : Kỹ thuật phần mềm Mã số : 60480103 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Người hướng dẫn khoa học: GS TS.Vũ Đức Thi Hà Nội - 2015 LỜI CAM ĐOAN Tôi xin cam đoan kết luận văn sản phẩm riêng cá nhân Trong toàn nội dung luận văn, điều trình bày cá nhân tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tôi xin hoàn toàn chịu trách nhiệm theo quy định cho lời cam đoan Hà Nội, ngày 15/5/2015 Người cam đoan Nguyễn Ngọc Quỳnh Châu LỜI CẢM ƠN Trước tiên, xin chân thành cảm ơn tới thầy cô giáo Khoa Công nghệ thông tin, Đại học công nghệ, Đại học quốc gia nhiệt tình giảng dạy, truyền đạt kiến thức Tôi xin bày tỏ lời cảm ơn sâu sắc tới thầy giáo GS Vũ Đức Thi tận tình hướng dẫn, định hướng giải vấn đề luận văn Tôi xin cảm ơn Ban lãnh đạo đồng nghiệp Khoa Công nghệ thông tin, Đại học Thủy Lợi tạo điều kiện cho suốt trình học tập Cuối cùng, xin cảm ơn gia đình, bạn bè đồng hành trình học tập MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC HÌNH VẼ DANH MỤC BẢNG BIỂU CHƯƠNG 1: KHAI PHÁ LUẬT KẾT HỢP 1.1 Tổng quan khai phá liệu 1.2 Giới thiệu khai phá luật kết hợp 10 1.3 Một số khái niệm [3, 5, 7] 11 1.3.1 Cơ sở liệu giao tác 11 1.3.2 Tập mục thường xuyên 13 1.3.3 Luật kết hợp 14 1.4 Một số thuật toán khai phá luật kết hợp 16 1.4.1 Thuật toán AIS 16 1.4.2 Thuật toán Apriori 18 CHƯƠNG 2: KHAI PHÁ LUẬT KẾT HỢP TRÊN CƠ SỞ DỮ LIỆU GIA TĂNG 21 2.1 Mở đầu 21 2.2 Thuật toán xử lý liệu gia tăng theo chiều dọc - Thuật toán Gia tăng 21 2.2.1 Ý tưởng thuật toán 21 2.2.2 Chuyển đổi sở liệu sang chiều dọc 23 2.2.3 Các thủ tục phụ trợ 24 2.2.4 Tìm tập mục ứng viên 27 2.2.5 Tính độ hỗ trợ tập mục ứng viên 28 2.2.6 Khai phá tập thường xuyên 29 2.2.7 Xử lý liệu gia tăng 31 2.2.8 Ví dụ minh họa 32 2.2.9 Nhận xét thuật toán gia tăng 34 2.3 Thuật toán xử lý liệu gia tăng theo chiều ngang – Thuật toán Gia tăng 35 2.3.1 2.3.2 2.3.3 2.3.4 2.3.5 2.3.6 2.3.7 Ý tưởng thuật toán 35 Xây dựng gia tăng 36 Khai phá tập thường xuyên 39 Lưu trữ khôi phục gia tăng 41 Ví dụ minh họa 44 Nhận xét thuật toán Gia tăng 47 Đề xuất ý tưởng cải tiến cấu trúc gia tăng 47 CHƯƠNG 3: CÀI ĐẶT CHƯƠNG TRÌNH THỬ NGHIỆM 53 3.1 Mô tả chương trình chạy 53 3.2 Thử nghiệm đánh giá thuật toán Gia tăng 56 3.2.1 Thử nghiệm đánh giá thuật toán nội dung 1, 56 3.2.2 Thử nghiệm đánh giá thuật toán nội dung 60 3.3 Kết luận 62 KẾT LUẬN 64 TÀI LIỆU THAM KHẢO 65 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Ký hiệu xi tj I T X={ sup(X) S0 ||X|| CSDL ,…, } Ý nghĩa Mục liệu thứ i Giao tác thứ j Tập hợp gồm n mục liệu {xi, …, xn} Cơ sở liệu giao tác I tập hợp gồm m giao tác T= {t1, …, tm} Tập mục liệu X gồm k mục liệu Độ hỗ trợ tập mục liệu X Ngưỡng hỗ trợ tối thiểu cho trước Tập tập thường xuyên theo ngưỡng S0 Độ dài tập X = số phần tử X Cơ sở liệu DANH MỤC HÌNH VẼ Hình 1-1: Ví dụ minh họa thuật toán AIS 18 Hình 1-2: Ví dụ thuật toán Apriori 20 Hình 2-1: Cấu trúc gia tăng 36 Hình 2-2: Cây gia tăng với giao tác thêm vào 46 Hình 2-3: Cây gia tăng sau khôi phục 47 Hình 2-4: Cây gia tăng mục 2.3.4 sau sử dụng thuật toán cải tiến có cấu trúc nhỏ gọn 52 Hình 3-1: Kết chạy thử nghiệm ban đầu Gia tăng 54 Hình 3-2: Cơ sở liệu test cho Apriori Gia tăng 54 Hình 3-3: Kết chạy Apriori Gia tăng liệu ban đầu hình 3.2 55 Hình 3-4: Dữ liệu tăng thêm T’ 55 Hình 3-5: Kết chạy Apriori Gia tăng T+T’ 56 Hình 3-6: Thời gian chạy Apriori Gia tăng CSDL 1, 2, 3,4 ban đầu 58 Hình 3-7: Thời gian chạy Apriori Gia tăng CSDL 1, 2,3, sau gia tăng 58 Hình 3-8: Thời gian chạy Apriori Gia tăng CSDL 5, 6, 7, ban đầu 59 Hình 3-9: Thời gian chạy Apriori Gia tăng CSDL 5, 6, 7, sau gia tăng 60 Hình 3-10: Kết chạy Apriori Gia tăng trường hợp 61 Hình 3-11: Kết chạy Apriori Gia tăng trường hợp 61 Hình 3-12: Kết chạy Apriori Gia tăng trường hợp 62 DANH MỤC BẢNG BIỂU Bảng 1.1: Ma trận giao tác sở liệu giao tác T 12 Bảng 1.2: Biểu diễn ngang sở liệu giao tác T 12 Bảng 1.3: Biểu diễn dọc sở liệu giao tác T 13 Bảng 3.1: Giải thích tiêu đề 57 Bảng 3.2: Bộ sở liệu thứ 57 Bảng 3.3: Kết thu sở liệu thứ 57 Bảng 3.4: Bộ sở liệu thứ hai 58 Bảng 3.5: Kết thu sở liệu thứ hai 59 Bảng 3.6: Kết chạy Apriori Gia tăng trường hợp 60 Bảng 3.7: Kết chạy Apriori Gia tăng trường hợp 61 Bảng 3.8: Kết chạy Apriori Gia tăng trường hợp 61 MỞ ĐẦU Khai phá liệu nhằm phát tri thức giúp ích cho hoạt động người trở thành lĩnh vực quan trọng Nhiều hướng tiếp cận khác khai phá liệu phân lớp, phân cụm, hồi quy, luật kết hợp Khai phá luật kết hợp kỹ thuật quan trọng sử dụng khai phá liệu Khai phá luật kết hợp nhằm tìm tập phần tử thường xuất đồng thời sở liệu hay gọi tập mục thường xuyên (frequent patterns), từ rút luật ảnh hưởng tập phần tử dẫn đến xuất tập phần tử khác Khitìm tập mục thường xuyên với ngưỡng hỗ trợ khác nhau, công việc tìm kiếm lại phải bắt đầu lại từ đầu Điều lãng phí Ngoài ra, thực tế, sở liệu bổ sung gia tăng theo thời gian Do yêu cầu cần có thuật toán hiệu cho việc phát luật kết hợp liệu tăng thêm Xuất phát từ nhu cầu tìm hiểu số phương pháp khai phá luật kết hợp bối cảnh gia tăng liệu, học viên chọn đề tài “Một số phương pháp khai phá luật kết hợp sở liệu gia tăng” Nội dung luận văn chia thành chương: Chương 1: Khai phá luật kết hợp Chương giới thiệu khai phá liệu, bước khai phá liệu, số kỹ thuật sử dụng khai phá liệu Tiếp theo, chương đưa khái niệm khai phá luật kết hợp nhưtập mục liệu, sở liệu giao tác, độ hỗ trợ, độ tin cậy luật kết hợp Hai thuật toán khai phá luật kết hợp đề cập chương AIS Apriori Chương 2: Khai phá luật kết hợp sở liệu gia tăng Chương tập trung vào nghiên cứu hai thuật toán khai phá liệu sở liệu gia tăng: thuật toán khai phá luật kết hợp sở liệu gia tăng theo chiều dọc thuật toán khai phá luật kết hợp sở liệu gia tăng theo chiều ngang Trong chương này, học viên đề xuất thuật toán cải tiến cấu trúc gia tăng thuật toán Gia tăng Chương 3: Cài đặt chương trình thử nghiệm Chương trình bày cài đặt hai thuật toán Apriori thuật toán Gia tăng 1.Sau phần chạy thử nghiệm hai thuật toán số sở liệu nhằm đánh giá hai thuật toán ba nội dung: thử nghiệm sở liệu ban đầu, thử nghiệm sở liệu gia tăng, thử nghiệm sở liệu ổn định với ngưỡng khai phá khác Từ rút so sánh, nhận xét đánh giá tính hiệu thuật toán Gia tăng liệu gia tăng 51 ABCDE, ABCDE, ADE, E, - ACD, BCE, C, AD, Xuất t5 = ABD, t4⊂Root.ItemSet t5∩ADE = AD t5∩BCE = B t5∩ACD = AD ABCDE, ABCDE, ADE, E, AD, ACD, BCE, C, B, Xuất t6 = CEH, t2⊄ Root.ItemSet Root.ItemSet = Root.ItemSet ∪ t6 = ABCDEH t6∩ADE = E t6∩BCE = CE t6∩ACD = C ABD, 52 ABCDEH, ABCDE, ADE, E, AD, CEH, ACD, BCE, CE, ABD, B, C, Hình 2-4: Cây gia tăng mục 2.3.4 sau sử dụng thuật toán cải tiến có cấu trúc nhỏ gọn 53 CHƯƠNG 3: CÀI ĐẶT CHƯƠNG TRÌNH THỬ NGHIỆM Trong chương luận văn trình bày cài đặt thử nghiệm thuật toán Apriori thuật toán Gia tăng Sau phần chạy thử nghiệm hai thuật toán số sở liệu nhằm đánh giá hai thuật toán ba nội dung: thử nghiệm sở liệu ban đầu, thử nghiệm sở liệu gia tăng, thử nghiệm sở liệu ổn định với ngưỡng khai phá khác Từ rút so sánh, nhận xét đánh giá tính hiệu thuật toán Gia tăng liệu gia tăng 3.1 Mô tả chương trình chạy Học viên sử dụng ngôn Java IDE Netbean cài đặt hai thuật toán Apriori Gia tăng Chương trình chạy thuật toán Gia tăng 1đọc liệu từ file txt kết ghi file txt Những file đầu vào gồm: File config.txt cho biết số mục liệu số giao tác Đây file bắt buộc phải có File transa.txt chứa sở liệu giao tác dạng ma trận giao tác Đây file bắt buộc phải có File transa_comp chứa sở liệu tăng thêm File không bắt buộc phải có File outputtsc chứa tập SC File không bắt buộc phải có File outputtn chứa giá trị ngưỡng hỗ trợ tối thiểu khai thác File không bắt buộc phải có S0 ngưỡng hỗ trợ tối thiểu người dùng chọn lựa Sau chạy ghi file: File outputtn chứa giá trị ngưỡng hỗ trợ tối thiểu khai thác File outputtsc chứa tập SC File output chứa tập mục liệu thường xuyên theo ngưỡng hỗ trợ tối thiểu S0 54 Chạy chương trình với S0 =5, file config.txt, file transa.txt Kết sau với tập ứng viên SC tập ngưỡng FSup sau: Hình 3-1: Kết chạy thử nghiệm ban đầu Gia tăng Chạy thử nghiệm Apriori Gia tăng 1:file liệu giao tác ban đầu hình 3.2, ngưỡng S0=3: Hình 3-2: Cơ sở liệu test cho Apriori Gia tăng Kết chạy thuật toán Apriori Gia tăng hình3.3 55 Hình 3-3: Kết chạy Apriori Gia tăng 1dữ liệu ban đầu hình 3.2 Sau chạy hai thuật toán liệu tăng thêm hình: Hình 3-4: Dữ liệu tăng thêm T’ Kết chạy hai thuật toán hình 3.5: 56 Hình 3-5: Kết chạy Apriori Gia tăng T+T’ Cả hai thuật toán cho kết tập mục thường xuyên Lk giống nhau, tập ứng viên Ck khác Điều phù hợp với lý thuyết thứ tự xếp tập mục liệu Lk hai thuật toán khác nên ghép nối dẫn đến Ck khác 3.2 Thử nghiệm đánh giá thuật toán Gia tăng Mục đích việc chạy thử nghiệm nhằm so sánh đánh giá thuật toán Gia tăng 1với thuật toán Apriori ba nội dung: 1) Đánh giá thuật toán chạy sở liệu ban đầu 2) Đánh giá thuật toán chạy sở liệu gia tăng 3) Đánh giá thuật toán chạy sở liệu ổn định, lần khai phá với ngưỡng hỗ trợ tối thiểu khác 3.2.1 Thử nghiệm đánh giá thuật toán nội dung 1, Học viên cho chạy thử nghiệm hai thuật toán Apriori Gia tăng hai sở liệu bảng 3.2 bảng 3.3 Quá trình thử nghiệm sau: Cơ sở liệu T có m giao tác, n mục liệu Số mục liệu lớn giao tác M, số mục liệu trung bình giao tác A Chạy hai thuật toán với ngưỡng độ hỗ trợ 57 S0, thu tập thường xuyên sở liệu ban đầu FS0, thời gian Sec giây Sau liệu gia tăng thêm m’ giao tác, chạy hai thuật toán liệu m+m’, thu tập thường xuyên sở liệu gia tăng FS1, thời gian Sec1 giây Ngưỡng hỗ trợ chọn thỏa mãn điểu kiện = Bảng 3.1: Giải thích tiêu đề Tiêu đề m n m’ M A S0 S1 ||SC|| ||SC1|| SecGT1 SecApriori Sec1GT1 Sec1Apriori Diễn giải Số giao tác sở liệu ban đầu Số mục liệu Số giao tác tăng thêm Số mục liệu lớn giao tác Số mục liệu trung bình giao tác Ngưỡng tối thiểu ban đầu m Ngưỡng tối thiểu gia tăng m+m’ Sô tập ứng viên GT1 m Số tập ứng viên GT1 m+m’ Thời gian chạy thuật toán GT1 ban đầu m Thời gian chạy thuật toán Apriori ban đầu m Thời gian chạy thuật toán GT1 m+m’ Thời gian chạy thuật toán Apriori m+m’ Số mục liệu thường xuyên m+m’ ||FS1|| Bảng 3.2: Bộ sở liệu thứ Tiêu đề m n m’ M A S0 S1 CSDL 100 10 100 CSDL 200 10 200 10 12 CSDL 300 10 300 10 18 CSDL 500 10 500 15 30 Bảng 3.3: Kết thu sở liệu thứ Tiêu đề SecGT1 SecApriori ||SC|| Sec1GT1 Sec1Apriori ||SC1|| ||FS1|| CSDL 0.32 0.4 597 0.25 0.81 747 525 CSDL 0.64 0.88 734 0.25 1.06 744 536 CSDL 0.73 0.95 664 0.28 1.56 716 539 CSDL 1.37 1.24 734 0.30 2.22 768 645 58 1.6 1.4 Thời gan chạy (s) 1.2 0.8 Gia tăng 0.6 Apriori 0.4 0.2 CSDL CSDL CSDL CSDL Hình 3-6: Thời gian chạy Apriori Gia tăng CSDL 1, 2, 3,4 ban đầu 2.5 Thời gian chạy (s) 1.5 Gia tăng 1 Apriori 0.5 CSDL CSDL CSDL CSDL Hình 3-7: Thời gian chạy Apriori Gia tăng CSDL 1, 2,3, sau gia tăng Bảng 3.4: Bộ sở liệu thứ hai Tiêu đề m n m’ M A S0 S1 CSDL 400 20 200 17 10 12 18 CSDL 1000 20 500 17 10 25 37 CSDL 2000 20 1000 17 10 50 75 CSDL 3000 20 3000 17 10 75 150 59 Bảng3.5: Kết thu sở liệu thứ hai Tiêu đề SecGT1 SecApriori ||SC|| ban đầu Sec1GT1 Sec1Apriori ||SC1|| ||FS1|| CSDL 787 670 29158 459 770 34468 15161 CSDL 2368 2203 45505 1449 3152 58879 20776 CSDL 4822 4356 53121 1881 6148 61275 21245 CSDL 7035 6139 67876 2461 12192 70654 23543 8000 7000 Thời gian chạy (s) 6000 5000 Gia tăng 4000 Apriori 3000 2000 1000 CSDL CSDL CSDL CSDL Hình 3-8: Thời gian chạy Apriori Gia tăng CSDL 5, 6, 7, ban đầu 14000 12000 Thời gian chạy (s) 10000 8000 Gia tăng Apriori 6000 4000 2000 CSDL CSDL CSDL CSDL 60 Hình 3-9: Thời gian chạy Apriori Gia tăng CSDL 5, 6, 7, sau gia tăng Kết thu bảng 3.3 bảng 3.5 Một số nhận xét đánh giá rút sau chạy thử nghiệm: Khi chạy sở liệu ban đầu chưa gia tăng, với sở liệu nhỏ (như sở liệu 1, 2, 3), Gia tăng chạy nhanh Apriori (hình 3.6) Nhưng với sở liệu lớn dần (như sở liệu 4, 5, 6, 7, 8) Gia tăng chạy chậm Apriori (hình 3.6 3.8) Điều hai lý do: Khi liệu nhỏ, thời gian đọc ghi tệp SC thuật toán Gia tăng không đáng kể Tuy nhiên, liệu lớn, tập SC lớn, dẫn đến thời gian đọc ghi tệp SC tăng lên đáng kể Thuật toán Gia tăng 1luôn phải đọc tệp SC để kiểm tra xem tập mục ứng viên có thuộc SC Điều làm cho thời gian chạy Gia tăng tăng lên Khi chạy sở liệu gia tăng, thuật toán Gia tăng hiệu hẳn Apriori trường hợp (hình 3.7 hình 3.9) Thực nghiệm phù hợp với lý thuyết liệu gia tăng, thuật toán Gia tăng tính toán liệu tăng thêm, đồng thời kế thừa tập SC từ lần khai phá trước Như thuật toán Gia tăng hiệu cho việc khai phá tập thường xuyên sở liệu gia tăng 3.2.2 Thử nghiệm đánh giá thuật toán nội dung Học viên chạy thử nghiệm thuật toán Gia tăng Apriori sở liệu sinh ngẫu nhiên vơi 1000 giao tác, 10 mục liệu Học viên chạy thử nghiệm với trường hợp: Trường hợp 1: trường hợp tốt với ngưỡng hỗ trợ tăng dần (bảng 3.6) Kết thu dược hình 3.10 Trường hợp 2: trường hợp tồi với ngưỡng hỗ trợ giảm dần (bảng 3.7) Kết thu hình 3.11 Trường hợp 3: trường hợp với ngưỡng hỗ trợ (bảng 3.8) Kết thu hình 3.12 Bảng 3.6: Kết chạy Apriori Gia tăng trường hợp Gia tăng Apriori S0 = 7.1 3.4 S1 = 3.2 S2 = 3.1 S3 = 15 2.8 61 Gia tăng Apriori 15 Ngưỡng hỗ trợ tối thiểu Hình 3-10: Kết chạy Apriori Gia tăng trường hợp Bảng 3.7: Kết chạy Apriori Gia tăng trường hợp Gia tăng Apriori S0 = 15 5.7 3.2 S1 = 1.1 3.4 S2 = 0.7 3.5 S3 = 0.8 3.4 Thời gian chạy (s) Thời gian chạy (s) Gia tăng Apriori 15 Ngưỡng hỗ trợ tối thiểu Hình 3-11: Kết chạy Apriori Gia tăng trường hợp Bảng 3.8: Kết chạy Apriori Gia tăng trường hợp Gia tăng Apriori S0 = 7.5 3.5 S1 = 3.3 S2 = 0.8 3.5 S3 = 15 62 Thời gian chạy (s) Gia tăng Apriori 15 Ngưỡng hỗ trợ tối thiểu Hình 3-12: Kết chạy Apriori Gia tăng trường hợp Từ kết thu hình 3.10, hình 3.11, hình 3.12, ta nhận thấy rằng: Trường hợp 1: ngưỡng hỗ trợ tối thiểu ban đầu nhỏ ngưỡng hỗ trợ tối thiểu lần khai phá sau lần khai phá sau, thời gian chạy thuật toán Gia tăng không đáng kể (xấp xỉ giây) Điều hoàn toàn phù hợp với lý thuyết: sở liệu, ngưỡng khai thác ban đầu đủ nhỏ lần khai phá tập thường xuyên sau đơn giản lọc tập mục X SC thỏa sup(X)≥ mà không cần phải tính toán lại từ đầu Trường hợp 3: lần khai phá sau, thời gian chạy thuật toán Gia tăng giảm đáng kể nhờ vào việc kế thừa tập SC lần khai phá trước Như vậy, thuật toán Gia tăng hiệu cho việc khai phá tập thường xuyên sở liệu ngưỡng hỗ trợ tối thiểu thay đổi 3.3 Kết luận Trong phần học viên cài đặt hai thuật toán Apriori Giải thuật Gia tăng để nhằm đánh giá thực nghiệm thuật toán Gia tăng Sau chạy thử nghiệm rút nhận xét: Thuật toán Gia tăng hiệu khai phá luật kết hợp liệu gia tăng Thuật toán Gia tăng hiệu khai phá luật kết hợp sở liệu vơi ngương hỗ trợ khác Về phần cài đặt, chương trình học viên cài đặt chạy chậm máy tính PC, với sở liệu đạt khoảng tối đa 10000 mục Như [3], Nguyễn Hữu Trọng công bố thuật toán Gia tăng chạy 2941 giây với 106 giao tác, 50 mục liệu; 2921 giây với 10.106 giao tác, 20 mục liệu; 4594 giây với 20.106 giao tác, 63 20 mục liệu Điều kỹ thuật cài đặt khác nhau, sử dụng cấu trúc liệu thủ tục xử lý khác 64 KẾT LUẬN Kết luận văn đạt được: - Trình bày khái niệm khai phá luật kết hợp: tập mục liệu, sở liệu giao tác, độ hỗ trợ tập mục liệu, độ tin cậy tập mục liệu - Trình bày toán quan trọng khai phá luật kết hợp: cho biết sở liệu giao tác, tìm tập mục thường xuyên theo ngưỡng độ hỗ trợ tối thiểu cho trước Trong phần này, luận văn trình bày hai thuật toán sở giải toán khai phá tập mục thường xuyên AIS Apriori - Đi sâu vào nghiên cứu hai thuật toán đề xuất để tìm tập mục thường xuyên liệu tăng lên: Thuật toán Gia tăng Thuật toán Gia tăng Thuật toán Gia tăng khai phá tập thường xuyên liệu gia tăng theo chiều dọc Thuật toán Gia tăng khai phá tập thường xuyên liệu gia tăng theo chiều ngang - Đề xuất ý tưởng cải tiến cấu trúc gia tăng thuật toán Gia tăng - Cài đặt hai thuật toán Apriori Gia tăng Từ kết chạy thử nghiệm số sở liệu khác nhau, luận văn đưa nhận xét, đánh giá thuật toán Gia tăng Hạn chế - Hai thuật toán Apriori Gia tăng học viên cài đặt chạy chấp nhận với sở liệu nhỏ Khi liệu lớn (số giao tác >10000, số mục liệu >20) chương trình chạy chậm, khó khả thi Điều kỹ thuật cài đặt chưa tối ưu Việc sử dụng cấu trúc liệu thủ tục xử lý gây ảnh hưởng đến tốc độ xử lý chương trình - Chưa kịp cài đặt thuật toán Gia tăng để có nhìn thực nghiệm bên thuật toán duyệt theo chiều rộng (Gia tăng 1) bên thuật toán duyệt theo chiều sâu (Gia tăng 2) Hướng phát triển - Tối ưu lại mã nguồn Gia tăng phép chạy sở liệu lớn - Hoàn thiện ý tưởng cải tiến cấu trúc gia tăng thuật toán Gia tăng - Cài đặt thuật toán Gia tăng 2, chạy thử nghiệm Gia tăng Gia tăng sở liệu khác để tiến hành so sánh, đánh giá thực nghiệm bên thuật toán duyệt theo chiều rộng (Gia tăng 1) bên thuật toán duyệt theo chiều sâu (Gia tăng 2) - Cài đặt thuật toán Gia tăng với thuật toán cải thiện cấu trúc gia tăng - Áp dụng thuật toán vào toán thực tiễn 65 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn Xuân Huy, Đoàn Văn Ban, Nguyễn Hữu Trọng, (2007) “Thuật toán khai thác liệu tăng trưởng”, Tạp chí Khoa học Công nghệ, Viện Khoa học công nghệ Việt Nam, Số 2, tập 45, trang 9-18 [2] Nguyễn Hữu Trọng (2007), “Thuật toán khai phá tập mục liệu thường xuyên sở liệu gia tăng dựa phân lớp liệu”, Tạp chí Khoa học Công nghệ, Viên Khoa học Công nghệ Việt Nam, Số 3, tập 45, trang 15-26 [3] Nguyễn Hữu Trọng (2007), “Một số thuật toán khai phá luật kết hợp sở liệu tăng trưởng”, Luận án tiến sĩ toán học, Viện công nghệ thông tin [4] Vũ Ðức Thi (2012),“Một số vấn đề tính toán liên quan đến sở liệu khai phá liệu", Tạp chí Khoa học Công nghệ, Viện Khoa học Công nghệ Việt Nam, số 6, tập 50, trang 679-703 Tiếng Anh [5] RakeshAgrawal, Tomasz Imielinski T, Arun Swami (1993) “Mining association rules between sets of items in large database” In: Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data, pp 207–216 [6] Rakesh Agrawal, Ramarkrishnan Srikant (1994) “Fast algorithms for mining association rules” In: Proceedings of the 20thVLDB conference, pp 487–499 [7] Jiawei Han, Michelin Kamber, Jian Pei, “Data Mining: Concepts and Techniques”, Third Edition, Morgan Kaufmann, pp 243-278 [8] Jiawei Han, Michelin Kamber, Jian Pei, Slide “Concepts and Techniques, 3re ed – Chapter 6” [...]... khai phá luật kết hợp này có một đặc điểm là chỉ khai phá trên cơ sở dữ liệu tĩnh, nghĩa là số lượng các giao tác trong cơ sở dữ liệu là ổn định, không có sự biến động Trên thực tế, số lượng các giao tác tăng lên hằng giờ, hằng ngày Một cơ sở dữ liệu mà các giao tác (hoặc các mục dữ liệu) tăng lên theo thời gian như vậy được gọi là cơ sở dữ liệu gia tăng hoặc cơ sở dữ liệu tăng trưởng (incremental database).Do... 2: KHAI PHÁ LUẬT KẾT HỢP TRÊN CƠ SỞ DỮ LIỆU GIA TĂNG Nội dung chính của chương này sẽ trình bày chi tiết về hai thuật toán được sử dụng cho khai phá luật kết hợp trên cơ sở dữ liệu gia tăng Mỗi thuật toán đại diện cho một cách tiếp cận của bài toán: thuật toán Gia tăng 1 đại diện cho cách tiếp cận duyệt cơ sở dữ liệu theo chiều rộng, thuật toán Gia tăng 2 đại diện cho cách tiếp cận duyệt cơ sở dữ liệu. .. các luật kết hợp đã được tính toán không còn giá trị trên tập dữ liệu mới Khi đó phải tiến hành lại công việc từ đầu trên cơ sở dữ liệu sau khi gia tăng Chương này tập trung đi sâu vào vào hai thuật toán khai phá luật kết hợp trên cơ sở dữ liệu gia tăng: Thuật toán xử lý dữ liệu gia tăng theo chiều dọc [2,3] Thuật toán xử lý dữ liệu gia tăng theo chiều ngang[1,3] 2.2 Thuật toán xử lý dữ liệu gia tăng. ..9 CHƯƠNG 1: KHAI PHÁ LUẬT KẾT HỢP Nắm được những kiến thức cơ bản về khai phá dữ liệu và những khái niệm liên quan đến khai phá luật kết hợp như: tập mục dữ liệu, cơ sở dữ liệu giao tác, biểu diễn của cơ sở dữ liệu giao tác, độ hỗ trợ và độ tin cậy của tập mục dữ liệu, tập mục thường xuyên, bài toán khai phá luật kết hợpv.v…Trong phần tiếp theo của chương này, học... toán Gia tăng 1 2.2.1 Ý tưởng thuật toán Thuật toán khai phá cơ sở dữ liệu gia tăng theo chiều dọc còn được gọi là Thuật toán Gia tăng 1 Cơ sở dữ liệu theo chiều dọc là biểu diễn của cơ sở dữ liệu giao tác trong đó các giao tác được biểu diễn theo từng giao tác (xem mục 1.1.3) Theo thời gian, các giao tác mới sẽ được thêm vào cơ sở dữ liệu giao tác (chú ý rằng các mục dữ liệu là vẫn giữ nguyên, không tăng. .. dự báo trong các tập dữ liệu lớn Theo [7]: Khai phá dữ liệu là một quá trình phức tạp để tìm kiếm những mẫu hoặc những tri thức có giá trịtừ một lượng lớn dữ liệu Các nguồn dữ liệu có thể bao gồm cơ sở dữ liệu, kho dữ liệu, các trang web, các kho thông tin khác, hoặc dữ liệu được nhập vào hệ thống một cách tự động Khai phá dữ liệu gồm những bước sau [7]: 1 Làm sạch dữ liệu: dữ liệu sau khi thu thập... hai phương pháp này đều có chung đặc điểm là khi dữ liệu gia tăng thì chỉ tính toán trên dữ liệu gia tăng mà không cần phải tính toán lại từ đầu Trong phần cuối của chương, học viên đề xuất ý tưởng cải tiến cấu trúc cây gia tăng của thuật toán Gia tăng 2 2.1 Mở đầu Khai phá luật kết hợp là một lĩnh vực được nhiều người quan tâm và có nhiều kết quả công bố Tuy nhiên những thuật toán khai phá luật kết hợp. .. các tập mục dữ liệu trong I rồi lưu trữ trong tập = , ⊆ } Theo thời gian, số lượng các giao tác tăng đần, thuật toán chỉ việctính độ hỗ trợ của tập mục dữ liệu trên dữ liệu tăng thêm, mà không cần phải duyệt lại toàn bộ cơ sở dữ liệu Trên một cơ sở dữ liệu giao tác ổn định, thuật toán Gia tăng 1 cũng cho phép tìm được tập mục dữ liệu thường xuyên theo các ngưỡng hỗ trợ tối thiểu bất kỳ một cách nhanh... mâu thuẫn.Những dữ liệu dạng này được xem như thông tin dư thừa, gây nên những kết quả sai lệch Do đó, cần phải làm sạch dữ liệu như gán các giá trị còn thiếu, sửa chữa các dữ liệu nhiễu/lỗi 2 Tích hợp dữ liệu: dữ liệu từ nhiều nguồn có thể được tích hợp với nhau 3 Trích lọc dữ liệu: lấy ra những tập dữ liệu từ cơ sở dữ liệu ban đầu theo một số tiêu chí nhất định 4 Chuyển đổi dữ liệu: dữ liệu được chuyển... các luật kết hợp được gọi là khai phá luật kết hợp Luật kết hợp là dạng luật khá đơn giản nhưng mang lại khá nhiều ý nghĩa Thông tin mà luật kết hợp cung cấp hỗ trợ đáng kể trong quá trình đưa ra quyết định Các giải thuật khai phá luật kết hợp tìm kiếm các mối liên kết giữa các phần tử dữ liệu, ví dụ như nhóm các món hàng thường được mua kèm với nhau trong siêu thị Những nghiên cứu về luật kết hợp ... gia tăng liệu, học viên chọn đề tài Một số phương pháp khai phá luật kết hợp sở liệu gia tăng Nội dung luận văn chia thành chương: Chương 1: Khai phá luật kết hợp Chương giới thiệu khai phá. .. toán khai phá luật kết hợp đề cập chương AIS Apriori Chương 2: Khai phá luật kết hợp sở liệu gia tăng Chương tập trung vào nghiên cứu hai thuật toán khai phá liệu sở liệu gia tăng: thuật toán khai. .. nên ta có luật kết hợp (A→B) Dạng luật gọi luật kết hợp trình tìm luật kết hợp gọi khai phá luật kết hợp Luật kết hợp dạng luật đơn giản mang lại nhiều ý nghĩa Thông tin mà luật kết hợp cung cấp