KHAI THÁC TOP RANK k tập PHỔ BIẾN ĐÓNG

61 111 0
KHAI THÁC TOP RANK k tập PHỔ BIẾN ĐÓNG

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  TRỊNH ĐỒNG THẠCH TRÚC KHAI THÁC TOP-RANK-K TẬP PHỔ BIẾN ĐÓNG LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 TP HỒ CHÍ MINH – NĂM 2015 ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  TRỊNH ĐỒNG THẠCH TRÚC KHAI THÁC TOP-RANK-K TẬP PHỔ BIẾN ĐÓNG LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH Mã số: 60.48.01.01 NGƯỜI HƯỚNG DẪN KHOA HỌC TS PHẠM THỊ THIẾT TP HỒ CHÍ MINH – NĂM 2015 LỜI CAM ĐOAN Tơi xin cam đoan luận văn Thạc sĩ “Khai thác top-rank-k tập phổ biến đóng” ngành Khoa học máy tính cơng trình thân tơi Luận văn có sử dụng thơng tin trích dẫn từ nhiều nguồn khác nhau, thơng tin trích dẫn ghi rõ nguồn gốc TP.HCM, tháng 09 năm 2015 Tác giả luận văn Trịnh Đồng Thạch Trúc LỜI CẢM ƠN Đầu tiên, xin gửi lời cảm ơn chân thành sâu sắc đến Phạm Thị Thiết thầy Võ Đình Bảy, người tận tình hướng dẫn giúp đỡ tơi suốt thời gian thực đề tài Tôi xin cảm ơn đến quý Thầy/Cô trường Đại học Công nghệ Thơng tin tận tình dạy dỗ truyền đạt kiến thức cho tơi suốt khố học Trường Tôi xin cảm ơn đến bạn bè, đồng nghiệp, người sát cánh động viên tạo điều kiện tốt để tơi học tập hoàn thành luận văn Con xin cảm ơn Ba Mẹ, anh chị hết lòng thương yêu, động viên, giúp đỡ vượt qua khó khăn tạo điều kiện thuận lợi để hồn thành cơng việc học tập Mặc dù cố gắng để hoàn thành luận văn, hạn chế thời gian kiến thức nên luận văn không tránh khỏi khiếm khuyết định Rất mong nhận ý kiến góp ý quý báu quý thầy cô Trịnh Đồng Thạch Trúc MỤC LỤC MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC HÌNH VẼ, ĐỒ THỊ MỞ ĐẦU .6 CHƯƠNG 1: 1.1 TỔNG QUAN Khai thác liệu 1.1.1 Tổng quan khai thác liệu .8 1.1.2 Quy trình phát tri thức từ sở liệu 1.1.3 Các kỹ thuật khai thác liệu 11 1.1.4 Kiến trúc hệ thống khai thác liệu 12 1.1.5 Một số ứng dụng khai thác liệu 12 1.2 Mục tiêu luận văn 13 1.3 Đối tượng nghiên cứu 13 1.4 Phạm vi nghiên cứu .13 1.5 Đóng góp luận văn 13 1.6 Kết luận chương 14 CHƯƠNG 2: 2.1 CƠ SỞ LÝ THUYẾT 15 Khai thác tập phổ biến đóng [2] 15 2.1.1 Khái niệm tập phổ biến đóng 15 2.1.2 Các cách tổ chức liệu .17 2.1.3 Các phương pháp khai thác tập phổ biến đóng [14] .18 2.2 Thuật toán khai thác tập phổ biến đóng DCI_PLUS 19 2.2.1 BitTable 19 2.2.2 Một số định nghĩa, tính chất liên quan [12] 19 2.2.3 Thuật toán DCI_PLUS 21 2.2.4 Ví dụ minh họa .25 2.3 Bit-Vector động (DBV) thuật toán giao hai DBV 26 2.3.1 Bit-Vector động [14] 26 -1- 2.3.2 Thuật toán giao hai DBV [14] 28 2.3.3 Cách tính độ hỗ trợ DBV .29 2.4 Khai thác top-rank-k mẫu phổ biến .29 2.4.1 Một số định nghĩa mẫu phổ biến 30 2.4.2 Thuật toán iNTK 31 CHƯƠNG 3: KHAI THÁC TOP-RANK-K TẬP PHỔ BIẾN ĐÓNG 36 3.1 Nêu toán 36 3.2 Các định nghĩa .36 3.3 Thuật toán khai thác top-rank-k tập phổ biến đóng .37 3.3.1 Ý tưởng 37 3.3.2 Thuật toán .37 3.3.3 Minh họa thuật toán 42 3.3.4 Cải tiến thuật toán TRK_BitTable 44 CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM 47 4.1 Cơ sở liệu môi trường thực nghiệm 47 4.2 So sánh thời gian thực .47 4.3 So sánh nhớ sử dụng 50 4.4 Tổng kết chương 53 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .54 5.1 Kết luận 54 5.2 Hướng phát triển 54 TÀI LIỆU THAM KHẢO .56 -2- DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Từ viết tắt Tiếng Anh Tiếng Việt CSDL Dataset Cơ sở liệu minsup Minimum support Độ hỗ trợ tối thiểu Sup Support Độ hỗ trợ DM/KTDL Data Mining Khai thác liệu FCI Frequent Closed Itemset Tập phổ biến đóng DBV Dynamic Bit-Vector Bit-Vector động -3- DANH MỤC CÁC BẢNG Bảng 2-1: Cơ sở liệu giao dịch D .15 Bảng 2-2 CSDL D biểu diễn theo cách 17 Bảng 2-3 Bảng liệu sử dụng mô tả BitTable cho CSDL D .19 Bảng 2-4 Bảng BitTable biểu diễn dạng thập phân 19 Bảng 2-5 BitTable (mã hóa 32bit) closure item phổ biến xếp tăng dần theo support 25 Bảng 2-6: Tập phổ biến đóng độ hộ trợ tương ứng 26 Bảng 2-7: Cho tập liệu ví dụ DBE 31 Bảng 2-8: Hạng (Rank) độ phổ biến tất mẫu tập DBE 31 Bảng 2-9 Tập hợp mẫu 1-pattern tập subsume chúng DBE 34 Bảng 2-10 Kết lưu Tabk sau bước 34 Bảng 2-11: Tập mẫu 2-pattern ứng viên subsume index chúng 35 Bảng 2-12: Kết lưu Tabk sau bước 35 Bảng 2-13: Kết cuối lưu Tabk 35 Bảng 3-1 Các item, BitTable support tương ứng D 42 Bảng 3-2 Closure item .43 Bảng 3-3 Top-rank-k tập phổ biến đóng sinh theo thuật tốn TRK_BitTable 44 Bảng 3-4 Các giá trị DBV, closure support tương ứng .46 -4- DANH MỤC HÌNH VẼ, ĐỒ THỊ Hình 1-1: Quy trình phát tri thức từ sở liệu [5] Hình 1-2 Kiến trúc hệ thống khai thác liệu điển hình [5] .12 Hình 2-1: Kết nối Galois [2] 16 Hình 2-2 Thuật tốn DCI_PLUS cho khai thác tập phổ biến đóng 22 Hình 2-3 Thuật toán DCI_CLOSED+ [12] gọi DCI_PLUS 24 Hình 2-4: Bit vector dài 40 bytes 27 Hình 2-5: Đại diện DBV cho bit vector 27 Hình 2-6: Ví dụ tính giao hai DBV 28 Hình 2-7: Thuật tốn giao DBV [14] .29 Hình 2-8: Bảng tính số bit giá trị [14] .29 Hình 2-9 Thuật toán khai thác tập top-rank-k mẫu phổ biến iNTK [6] 34 Hình 3-1 Thuật tốn TRK_BitTable, khai thác top-rank-k FCI .39 Hình 3-2 Thuật toán DCI_CLOSED++ .41 Hình 3-3 Thuật tốn TRK_DBV 46 Hình 4-1 Thời gian thực thi TRK_DBV TRK_BitTable CSDL Accidents 48 Hình 4-2 Thời gian thực thi TRK_DBV TRK_BitTable CSDL Chess 49 Hình 4-3 Thời gian thực thi TRK_DBV TRK_BitTable CSDL Pumbs 49 Hình 4-4 Bộ nhớ sử dụng TRK_DBV TRK_BitTable CSDL Accidents 51 Hình 4-5 Bộ nhớ sử dụng TRK_DBV TRK_BitTable CSDL Chess 52 Hình 4-6 Bộ nhớ sử dụng TRK_DBV TRK_BitTable CSDL pumbs 52 -5- MỞ ĐẦU Lời mở đầu Khai thác luật kết hợp nhiệm vụ quan trọng khai thác liệu, ứng dụng nhiều lĩnh vực khác như: phân tích thị trường chứng khốn, tài chính, tìm rối loạn gen sinh học… Tuy nhiên, khai thác luật kết hợp từ sở liệu có kích thước vừa phải sinh số lượng lớn luật Kết là, nhiều luật số dư thừa, thực tế chúng trở nên vô dụng Để khắc phục vấn đề này, phương pháp khai thác luật không dư thừa đặt Khai thác luật kết hợp từ tập phổ biến đóng khắc phục nhược điểm Tập phổ biến đóng (FCI) đóng vai trò quan trọng việc cắt tỉa luật dư thừa Luận văn tập trung nghiên cứu giải pháp tối ưu cho toán khai thác tập phổ biến đóng Dựa số cơng trình nghiên cứu lĩnh vực khai thác tập phổ biến đóng cơng bố năm gần đây, từ luận văn trình bày vấn đề sau đây: - Kỹ thuật khai thác tập phổ biến đóng hướng tiếp cận năm gần - Trình bày thuật tốn khai thác tập phổ biến đóng dựa mơ hình liệu BitTable đề cập thuật tốn DCI_PLUS [12] - Trình bày mơ hình liệu DBV [14] sử dụng cho trình khai thác tập phổ biến đóng - Đề xuất thuật tốn khai thác top-rank-k tập phổ biến đóng dựa vào cách tiếp cận thuật toán DCI_PLUS với thuật toán đề xuất TRK_BitTable TRK_DBV - Kết thực nghiệm số sở liệu để so sánh rút kết luận việc áp dụng hai mơ hình liệu vào thuật tốn đề xuất Bố cục đề tài Chương 1: Tổng quan -6- Bảng 3-2 Closure item Item A C D H E F G BitTable 520 520 355 919 879 879 763 Closure ACEFG CEFG DEF H EF F G Support 0.2 0.2 0.5 0.7 0.8 0.8 0.8 Kết POST_SET = {ACEFG, CEFG, DEF, H, EF, F, G} Chi tiết item, support, closure giá trị BitTable chúng đưa Bảng 3-2 Thủ tục DCI_CLOSED++ gọi với đối số là: PRE_SET = ∅, POST_SET CLOSED_SET = ∅, minsup =support(A) =0.2 Phần tử ACEFG POST_SET lấy gán cho I PRE_SET rỗng, độ hỗ trợ ACEFG minsup, FCI, đưa vào tabk với đầu mục (entry) độ hỗ trợ FCI (0.2), khơng cần phải tính closure Sau ACEFG thêm vào PRE_SET Tiếp theo, itemset CEFG xử lý Độ hỗ trợ CEFG minsup, giá trị BitTable tập BitTable itemset ACEFG PRE_SET Do đó, cắt tỉa, khơng tính closure Khi DEF xử lý, độ hỗ trợ lớn so với minsup, giá trị BitTable không tập giá trị BitTable itemset PRE_SET Giá trị BitTable DEF không tập giá trị BitTable itemset J⊈ DEF với DEF ≺ J DEF FCI, chèn DEF vào tabk với đầu mục support DEF (0.5) thủ tục DCI_CLOSED++ gọi đệ quy đối số PRE_SET = {ACEFG}, CLOSED_SETnew = DEF, POST_SETnew = {H, G} EF F không POST_SETnew chúng thuộc CLOSED_SET Khi CLOSED_SET khác rỗng, DEF kết hợp với H để tạo thành newgen DEFH Tương tự, ta có DEFH FCI, chèn vào tabk với đầu mục 0.3 Thủ tục gọi đệ quy với đối số PRE_SET = {ACEFG}, CLOSED_SETnew = DEFH, POST_SETnew = {G} Bây giờ, CLOSED_SET khác rỗng, tập sinh DEFHG hình thành Vì khơng có itemset PRE_SET mà BitTable DEFHG tập FCI, chèn vào tabk với đầu mục 0.2 POST_SET rỗng Vì vậy, DEF thêm vào PRE_SET Việc thi hành trở -43- lại với DEF kết hợp với G để hình thành DEFG, lặp lại thủ tục tương tự, ta có DEFG FCI chèn vào tabk với đầu mục 0.4 Sau q trình này, thuật tốn newgen H, thủ tục lặp lặp lại tương tự, ta có H FCI, đưa H vào tabk với đầu mục 0.7 Lúc tổng đầu mục tabk ngưỡng k Lần lượt FCI sinh chèn vào tabk HEF (đầu mục 0.5), HEFG (đầu mục 0.3), HG (đầu mục 0.5) EF FCI với support 0.8 không tồn đầu mục tabk lớn đầu mục nhỏ 0.2 tabk nên tabk gỡ bỏ đầu mục 0.2 thêm EF vào, minsup lúc gán 0.3 (đầu mục nhỏ tabk) Thuật toán tiếp tục kết cho bảng 3-3 Bảng 3-3 Top-rank-k tập phổ biến đóng sinh theo thuật tốn TRK_BitTable k SUPp Tập phổ biến đóng 0.8 {EF},{G} 0.7 {H} 0.6 {EFG}, 0.5 {DEF}, {HEF}, {HG}, 0.4 {DEFG} 3.3.4 Cải tiến thuật toán TRK_BitTable Thuật toán TRK_BitTable phát triển dựa thuật toán DCI_PLUS, thuật tốn sử dụng mơ hình liệu BitTable Trong [14] có đề cập đến mơ hình liệu khác DBV, mơ hình tỏ hiệu việc tính tốn liệu thưa Cho nên tác giả thấy thay sử dụng BitTable thuật tốn gốc, ta sử dụng DBV để thay nhằm tăng hiệu tính toán sử dụng nhớ Thuật toán đề xuất TRK_DBV thực sau Thuật toán TRK_DBV: Input Dataset D, ngưỡng k Output: Tập top-rank-k FCI thỏa ngưỡng k for each transaction t  D -44- for each item i  t BitMatrix[i][t] =1; end for end for F1  item (F1 chứa tồn item có D) Chuyển BitMatrix sang DBV Sắp xếp F1 theo chiều giảm support thứ tự từ điển Call Filter_Itemset(F1, k, F2) // lọc item có khả 10 Sắp xếp F2 theo chiều tăng support thứ tự từ điển 11 minsup = supp phần tử F2 (bước 12 -20 tính closure item F2) 12 for each item i  F2 13 Si = Si  {i}; {khởi tạo Si rỗng} 14 for each item j  F2 với i ≺ j 15 if(DBV[i] DBV[j]) then Si =Si  {j}; 16 17 end if 18 end for 19 POST_SET =POST_SET Si; 20 end for 21 CLOSED_SET =; 22 PRE_SET =; 23 Call DCI_CLOSED++ (CLOSED_SET, PRE_SET, POST_SET, minsup); 24 End procedure 25 Function Filter_Item(F1, k, F2) 26 27 top =1; while (top < k && top

Ngày đăng: 23/12/2018, 06:16

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan