Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 74 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
74
Dung lượng
1,06 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CNTT&TT - ĐỖ THỊ HẢI YẾN KHAI PHÁ TẬP MỤC LỢI ÍCH CAO TRONG CƠ SỞ DỮ LIỆU LỚN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN - 2011 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Tai ngay!!! Ban co the xoa dong chu nay!!! http://www.lrc-tnu.edu.vn ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CNTT&TT - ĐỖ THỊ HẢI YẾN KHAI PHÁ TẬP MỤC LỢI ÍCH CAO TRONG CƠ SỞ DỮ LIỆU LỚN CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 60 48 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH HƢỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN THANH TÙNG THÁI NGUYÊN - 2011 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CAM ĐOAN Tôi xin cam đoan Luận văn "Khai phá tập mục lợi ích cao sở liệu lớn" công trình nghiên cứu riêng tơi hướng dẫn PGS.TS Nguyễn Thanh Tùng Kết đạt luận văn sản phẩm riêng cá nhân tôi, khơng chép lại người khác Trong tồn luận văn, điều trình bày cá nhân tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn hợp pháp Tơi xin chịu hồn tồn trách nhiệm chịu hình thức kỷ luật theo quy định cho lời cam đoan Thái Nguyên, ngày 30 tháng năm 2011 Ngƣời cam đoan Đỗ Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CẢM ƠN Lời xin gửi lời cảm ơn chân thành biết ơn sâu sắc tới PGS.TS Nguyễn Thanh Tùng - Viện Công nghệ thông tin, người thầy bảo hướng dẫn tận tình cho tơi suốt q trình nghiên cứu khoa học thực luận văn Tôi xin chân thành cảm ơn dạy bảo, giúp đỡ, tạo điều kiện khuyến khích tơi q trình học tập nghiên cứu thầy cô giáo Viện Công nghệ thông tin, Trường Đại học Công nghệ thông tin Truyền thông - Đại học Thái Nguyên Và cuối cùng, xin gửi lời cảm ơn tới gia đình, người thân bạn bè người ln bên tơi lúc khó khăn nhất, ln động viên tơi, khuyến khích tơi sống cơng việc Tôi xin chân thành cảm ơn! Thái Nguyên, ngày 30 tháng năm 2011 Tác giả Đỗ Thị Hải Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn i MỤC LỤC Trang Trang bìa phụ Lời cảm ơn Lời cam đoan Mục lục i Danh mục từ, ký hiệu viết tắt iii Danh mục bảng iv Danh mục hình v LỜI MỞ ĐẦU Chƣơng KHÁI QUÁT VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN KHAI PHÁ TẬP MỤC THƢỜNG XUYÊN 1.1 Khai phá liệu 1.2 Khai phá tập mục thường xuyên 1.2.1 Cơ sở liệu giao tác 1.2.2 Tập mục thường xuyên luật kết hợp 10 1.2.3 Bài toán khai phá luật kết hợp 11 1.3 Các cách tiếp cận khai phá tập mục thường xuyên 12 1.3.1 Thuật toán Apriori 13 1.3.2 Thuật toán FP-growth 17 1.4 Mở rộng toán khai phá tập mục thường xuyên 23 1.5 Kết luận chương 24 Chƣơng KHAI PHÁ TẬP MỤC LỢI ÍCH CAO: BÀI TOÁN VÀ BA THUẬT GIẢI KIỂU APRIORI 25 2.1 Mở đầu 25 2.2 Bài tốn khai phá tập mục lợi ích cao 26 2.3 Ba thuật tốn khai phá tập mục lợi ích cao kiểu Apriori 30 2.3.1 Thuật toán UMining 30 2.3.2 Thuật toán UMining-H 32 2.3.3 Thuật toán hai pha HUMining 34 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ii 2.4 Kết luận chương 41 Chƣơng THUẬT TOÁN HIỆU QUẢ KHAI PHÁ TẬP MỤC LỢI ÍCH CAO KIỂU FP-GROWTH 42 3.1 Mở đầu 42 3.2 Thuật toán COUI-Mine 42 3.2.1 Xây dựng TWUI-tree 44 3.2.2 Khai phá TWUI-tree 48 3.2.3 Đánh giá độ phức tạp thuật toán COUI-Mine 55 3.2.4 Nhận xét thuật toán COUI-Mine 58 3.2.5 Khai phá tương tác với TWU-tree 59 3.3 Kết luận chương 60 KẾT LUẬN 62 TÀI LIỆU THAM KHẢO 64 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iii DANH MỤC CÁC TỪ VIẾT TẮT Nghĩa cụm từ viết tắt STT Cụm từ viết tắt CNTT Công nghệ thông tin CSDL Cơ sở liệu KDD Khám phá tri thức sở liệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn iv DANH MỤC CÁC BẢNG Trang Bảng 1.1: Biểu diễn ngang sở liệu giao tác Bảng 1.2: Biểu diễn dọc sở liệu giao tác Bảng 1.3: Ma trận giao tác sở liệu bảng 1.1 10 Bảng 1.4: Cơ sở liệu giao tác minh hoạ thực thuật toán Apriori 16 Bảng 1.5: Cơ sở liệu giao tác minh hoạ thực thuật toán COFI-tree 19 Bảng 1.6: Các mục liệu độ hỗ trợ 20 Bảng 1.7: Các mục liệu thường xuyên thứ tự 20 Bảng 1.8: Các mục liệu giao tác giảm dần theo độ hỗ trợ 21 Hình 1.4: Các bước khai phá D-COFI-tree 23 Bảng 2.1 Cơ sở liệu giao tác 27 Bảng 2.2 Giá trị lợi ích chủ quan mục bảng 27 Hình 2.1 Dàn tập mục sở liệu bảng 29 Bảng 3.1: Lợi ích giao tác sở liệu 45 Bảng 3.2: Lợi ích TWU mục liệu 45 Bảng 3.3: Các mục liệu có lợi ích TWU cao giảm dần theo twu 46 Bảng 3.4: Các mục liệu giao tác giảm dần theo lợi ích TWU 46 Hình 3.7: Cây D-COUI-tree 50 Bảng 3.5: Lợi ích tập mục ứng viên 53 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn v DANH MỤC CÁC HÌNH Trang Hình 1.1 Các bước thực trình khai phá liệu Hình 1.2: Cây FP-tree CSDL bảng 1.5 21 Hình 1.3: Cây COFI-tree mục D 21 Hình 2.2 Khơng gian tìm kiếm tập mục lợi ích cao theo thuật tốn UMining 32 Hình 2.3 Khơng gian tìm kiếm tập mục lợi ích cao theo thuật tốn UMining-H 33 Hình 2.4 Khơng gian tìm kiếm tập mục lợi ích cao theo thuật tốn HUMining 39 Hình 3.1: Cây TWUI-tree sau lưu thao tác T1 47 Hình 3.2: Cây TWUI-tree sau lưu thao tác T1 T2 47 Hình 3.3: Cây TWUI-tree sở liệu bảng 3.1 3.2 47 Hình 3.4: Cây C-COUI-tree sau lưu mẫu CBE 49 Hình 3.5: Cây C-COUI-tree sau lưu mẫu CBE CE 50 Hình 3.6: Cây C-COUI-tree sau xây dựng xong 50 Hình 3.8: Cây B-COUI-tree 51 Hình 3.9: Các bước khai phá D-COUI-tree 52 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI MỞ ĐẦU Trong năm gần đây, với phát triển vượt bậc công nghệ thông tin, truyền thông, khả thu thập lưu trữ thông tin hệ thống thông tin không ngừng nâng cao Với lượng liệu khổng lồ gia tăng theo thời gian, rõ ràng phương pháp phân tích liệu truyền thống khơng cịn hiệu quả, gây tốn dễ dẫn đến kết sai lệch Để khai thác hiệu sở liệu lớn, lĩnh vực khoa học đời: Khám phá tri thức sở liệu (Knowledge Discovery in Databases – KDD) Khai phá liệu (Data Mining) cơng đoạn qúa trình khám phá tri thức, nhằm tìm kiếm, phát tri thức mới, hữu ích tiềm ẩn sở liệu lớn Khai phá luật kết hợp nhiệm vụ quan trọng khai phá liệu Bài toán truyền thống (hay cịn gọi tốn nhị phân) khai phá luật kết hợp R Agrawal, T Imielinski A N Swami đề xuất nghiên cứu lần vào năm 1993 phân tích sở liệu siêu thị Mục tiêu phát tập mục thường xuyên, từ tạo luật kết hợp phản ánh hành vi mua hàng khách hàng Những thông tin giúp nhà quản lý lựa chọn phương án tiếp thị, kinh doanh hiệu Cho đến nay, tốn khai phá luật kết hợp truyền thống có nhiều ứng dụng, tập mục thường xuyên mang ngữ nghĩa thống kê nên mơ hình tốn truyền thống đáp ứng phần nhu cầu ứng dụng thực tiễn Thật ra, kinh doanh, điều mà người quản lý quan tâm phát khách VIP, đem lại lợi nhuận cao Trong thực hành, có tập mục thường xuyên đóng góp phần nhỏ, ngược lại có tập mục khơng thường xun lại đóng góp phần đáng kể vào lợi nhuận chung công ty Gần đây, nhằm khắc phục hạn chế toán truyền thống khai phá luật kết hợp, nhà nghiên cứu mở rộng theo nhiều hướng khác nhau, có vấn đề khai phá tập mục lợi ích cao Lợi ích tập mục số đo lợi nhuận mà mang lại kinh doanh, tính tốn dựa giá trị khách quan Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 51 Hình 3.8: Cây B-COUI-tree Cây C-COUI-tree chứa mục liệu xuất với C giao tác.Cây D-COUI-tree chứa mục liệu xuất với D không chứa C Cây B-COUI-tree chứa mục liệu xuất với B không chứa C D Các không xây dựng đồng thời mà lần lượt, thời điểm xây dựng cây, sau khai phá xong thuật tốn loại bỏ xây dựng Ta minh hoạ khai phá COUI-tree qua xét D-COUI-tree hình 3.7 Khai phá D-COUI-tree tìm mẫu chứa mục D Đầu tiên ta kết nạp mục liệu D vào tập mẫu ứng viên CP (Candidate Patterns), CP = {D:241} Tiếp đến, tỉa mục liệu có lợi ích TWU thấp (giá trị cục D-COUItree): xét mục liệu bảng đầu mục từ lên, mục E, cuối đến mục B, khơng có mục có lợi ích TWU thấp, khơng có mục bị tỉa Lưu ý có mục liệu có lợi ích TWU thấp mẫu chứa khơng thể tập mục lợi ích cao, cần tỉa mục bảng đầu mục nút tương ứng Từ trỏ mục E bảng đầu mục tìm nút có nhãn E Đường từ nút E thứ lên nút gốc xác định mẫu EBD với twu = 182 Kết nạp mẫu mẫu có chứa D vào tập ứng viên CP, nhận CP = {D:241, EBD:182, ED:182, BD:182} Trường twu nút nhãn E, B, D đường giảm 182 (bước 1) Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 52 Hình 3.9: Các bước khai phá D-COUI-tree Đường từ nút E thứ hai lên nút gốc xác định mẫu ED với twu = 59 Kết nạp mẫu vào tập CP Trong tập CP có mẫu ED: 182 nên ta điều chỉnh mẫu thành ED: 241 nhận CP ={ D:241, EBD:182, ED:241, BD:182} Trường twu nút nhãn E D đường giảm 59 (bước 2) Xét tiếp mục B bảng đầu mục, từ trỏ mục B bảng đầu mục tìm nút có nhãn B, nút có trường twu = 0, khơng sinh mẫu (bước 3) Hình 3.9 minh hoạ bước khai phá D-COUI-Tree Khai phá tương tự COUI-Tree lại Kết thúc khai phá TWUItree hình 3.3, tập ứng viên CP nhận gồm tập mục ứng viên: CP = {C:161, EC: 161, D:241, EBD:182, ED:241, BD:182, B:274, EB:274, E:354} Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 53 Bước tiếp theo, thuật toán duyệt lại sở liệu lần thứ để tính lợi ích thực tập mục ứng viên này, với tập mục X CP, u(X) ≥ minutil X tập mục lợi ích cao X kết nạp vào tập tập mục lợi ích cao HU Bảng 3.5 biểu diễn kết tính lợi ích tập mục ứng viên: Bảng 3.5: Lợi ích tập mục ứng viên TT Tập mục ứng viên Lợi ích TWU Lợi ích Tập mục Lợi ích cao C 161 48 Không EC 161 83 Không D 241 36 Không EBD 182 182 Có ED 241 56 Khơng BD 182 172 Có B 274 240 Có EB 274 240 Có E 354 50 Khơng Kết thúc q trình khai phá, thuật tốn tìm tập tập mục lợi ích cao HU = { EBD(182), BD(172), EB(240), B(240) } Sau thuật toán khai phá TWUI-tree: Thuật toán (khai phá TWUI-tree) Input: Cây TWUI-tree, ngưỡng lợi ích minutil Output: Tập CP gồm tất tập mục lợi ích TWU cao Method: CP := Ø;// khởi tạo tập chứa mẫu ứng viên rỗng Xét từ lên bảng đầu mục TWUI-tree, biến A nhận mục liệu đầu tiên; repeat Tạo nút gốc (A)-COUI-tree có nhãn A trường twu 0; for each (nút N TWUI-tree có nhãn A) // tìm theo trỏ từ bảng đầu mục Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 54 begin Xác định mẫu [A|L]:twu từ đường từ nút N lên gốc cây; // mẫu [A|L]có A mục liệu đầu, L phần lại Chèn mẫu [A|L]:twu vào (A)-COUI-tree; end; 10 Gọi hàm MineCOUI-tree (A); // lưu kết khai phá vào tập CP 11 Xoá (A)-COUI-tree; 12 Biến A nhận mục liệu bảng đầu mục TWUI-tree; 13 until (A mục liệu cuối bảng đầu mục TWUI-tree); 14 CP := CP {A};// Đưa vào CP mục cuối bảng đầu mục TWUI-tree; // Khai phá xong TWUI-tree, tập CP chứa tập mục ứng viên 15 Return CP; Hàm khai phá (A)-COUI-tree sau: Function: MineCOUI-tree (A);// hàm thực khai phá (A)-COUI-tree Method: CP := CP {A};// kết nạp mục A nhãn nút gốc vào tập CP Tỉa cây: duyệt bảng đầu mục (A)-COUI-tree, tỉa mục DL có twu < minutil;//tỉa bảng đầu mục nút tương tự for each (mục liệu B bảng đầu mục (A)-COUI-tree)// từ lên Begin for each (nút N (A)-COUI-tree có nhãn B)// tìm theo trỏ bảng đầu mục begin Xác định mẫu X: twu từ đường từ nút N lên nút gốc cây; Kết nạp X mẫu X có chứa A vào tập CP; Giảm trường twu nút đường từ nút N lên nút gốc cây; end; end; // hoàn thành khai phá (A)-COUI-tree Return CP; Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 55 Thuật toán tìm tập mục lợi ích cao từ tập ứng viên CP sau: Thuật tốn (Tìm tập tập mục lợi ích cao HU) Input: Cơ sở liệu DB, tập ứng viên CP, hàm lợi ích, ngưỡng lợi ích minutil Output: Tập HU chứa tất tập mục lợi ích cao sở liệu DB Method: HU:=Ø; //khởi tạo tập chứa tập mục lợi ích cao rỗng for each (T DB) //Duyệt lần sở liệu DB for each X CP //duyệt tập mục ứng viên tập CP if X T then begin Tính lợi ích tập mục X giao tác T, u(X,T); Điều chinh lợi ích tập mục X, u(X) := u(X) + u(X,T); end; for each X CP // duyệt tập mục ứng viên tập CP 10 if u(X) ≥ minutil then HU := HU {X}; //chọn tập mục lợi ích cao 11 Return HU; 3.2.3 Đánh giá độ phức tạp thuật toán COUI-Mine Bƣớc xây dựng TWUI-tree: Cho sở liệu giao tác DB với n mục liệu, m giao tác ngưỡng lợi ích minutil (1) Thuật tốn cần duyệt sở liệu hai lần để xây dựng TWUI-tree (2) Chi phí chèn giao tác T vào O T U , U tập mục liệu có lợi ích TWU cao DB (3) Kích thước chiều cao đánh sau: Mệnh đề 3.2: Cho sở liệu giao tác DB, ngưỡng lợi ích minutil Khơng kể nút gốc, kích thước TWUI-tree (số nút) có cận T X m.n , chiều T DB Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 56 cao có cận max T U n , n số mục liệu m số giao T DB tác sở liệu, n =│I│, m =│DB│ Chứng minh: Theo cách xây dựng cây, giao tác T DB ứng với nhánh Trường hợp tốt nhất, tất giao tác có chung tập mục liệu, lúc có nhánh cây, số nút số nút nhánh (bằng số mục liệu có lợi ích TWU cao DB) Trường hợp xấu nhất, giao tác chứa tập mục liệu riêng biệt, khơng có mục liệu chung, lúc số nút tối đa tổng số mục liệu có lợi ích TWU cao xuất giao tác, tức T U m.n T DB Các giao tác lưu thành đường nút gốc, mục tiền tố chia sẻ chung nút, chiều cao số mục liệu có lợi ích TWU cao giao tác có nhiều mục lợi ích TWU cao nhất, tức max T U n T DB (4) Thông thường, giao tác dùng chung với số nút nên kích thước TWU-tree thường nhỏ kích thước sở liệu Cơ sở liệu dày kích thước TWU-tree nhỏ so với sở liệu gốc Theo nghiên cứu gần [25-29] , sử dụng hàng gigabyte nhớ để khai phá hiệu tập mục thường xuyên dựa tiền tố (prefix tree) Cây TWU-tree thuật tốn COUI-Mine có cấu trúc giống FP-tree, kích thước hai giống nhau, khai phá dựa TWU-tree thuật toán COUI-Mine khả thi hiệu Bƣớc khai phá TWU-tree Mệnh đề 3.3: Thuật toán COUI-Mine đảm bảo tính dừng tìm tập tất tập mục lợi ích cao Ta lý giải cho mệnh đề 3.3 sau: - Bước xây dựng TWU-tree hữu hạn thao tác, đánh giá qua mệnh đề 3.2 - Bước khai phá TWU-tree: Xây dựng COUI-tree cho mục liệu cần duyệt số nhánh TWU-tree liên quan đến mục nên số Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 57 nhánh cần duyệt nhỏ Cây COUI-tree xây dựng giống TWU-tree Số COUI-tree cần xây dựng khai phá hữu hạn, số mục có lợi ích TWU cao trừ 1, tức u n Thơng thường, kích thước COUI-tree nhỏ so với kích thước TWUtree Kích thước COUI-tree có cận kích thước TWU-tree, trường hợp TWU-tree có nhánh nhất, có COUItree cần xây dựng khai phá Khai phá COUI-tree theo phương pháp không đệ quy công bố [5,6], ta thay độ hỗ trợ mục liệu lợi ích TWU Tập mục lợi ích TWU cao có tính chất phản đơn điệu, đó, thay độ hỗ trợ lợi ích TWU phương pháp khai phá cho kết tập mục lợi ích TWU cao Thuật toán cần duyệt lại sở liệu lần thứ để tính lợi ích thực tập mục lợi ích TWU cao Mệnh đề 3.4 sau rõ tính hiệu thuật toán qua so sánh số tập mục ứng viên với thuật toán kiểu Apriori Mệnh đề 3.4: Số tập mục ứng viên sinh thuật tốn COUI-Mine khơng lớn số tập mục ứng viên sinh thuật toán khai phá tập mục lợi ích cao theo kiểu sinh ứng viên kiểm tra buộc (như cách thuật toán Apriori) Chứng minh: Trong thuật toán phát triển dựa thuật toán Apriori, trước tiên, ktập mục X ứng viên lợi ích TWU cao tất tập độ dài (k-1) X tập mục lợi ích TWU cao Mặc dù vậy, duyệt lại sở liệu tập mục X lại khơng xuất có giá trị twu(X) thấp, twu(X) < minutil Trong thuật toán COUI-Mine, tập mục X khơng có mặt sở liệu khơng xuất nhánh TWU-tree, khơng thể sinh Hơn nữa, xác định X có lợi ích TWU thấp bị tỉa Vì vậy, số ứng viên sinh thuật toán COUI-Mine khơng bao gìờ lớn số ứng viên sinh thuật tốn kiểu Apriori Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 58 Tính hiệu thuật tốn COUI-Mine, tập mục X khơng có mặt sở liệu khơng xuất nhánh TWU-tree, tập ứng viên CP tìm khác rỗng thuật tốn cần duyệt lại sở liệu lần thứ để tìm tập mục lợi ích cao tập ứng viên CP Trong đó, với thuật tốn kiểu Apriori, độ dài tập mục ứng viên dài N thuật toán cần duyệt sở liệu N lần, thuật toán Hai pha cần duyệt N+1 lần Khi ngưỡng lợi ích giảm, số ứng viên độ dài cực đại chúng tăng lên, đó, thời gian thực thuật toán kiểu Apriori rõ ràng tăng lên nhanh 3.2.4 Nhận xét thuật toán COUI-Mine - Thuật toán COUI-Mine khai phá tập mục lợi ích cao với tối đa ba lần duyệt sở liệu: hai lần để xây dựng TWU-tree lần để tìm tập mục lợi ích cao từ tập ứng viên lợi ích TWU cao Quá trình khai phá chia thành hai bước giống ý tưởng thuật toán hai pha Y.Liu đề xuất hiệu Thuật tốn khơng sinh khối lượng khổng lồ ứng viên thuật toán Hai pha phương pháp tìm tập mục lợi ích TWU cao giải theo cách giao tác lợi ích TWU nén lên TWU-tree, sau khai phá hiệu theo ý tưởng thuật tốn COFI-tree - Cây TWU- tree có cấu trúc giống FP-tree, trường độ hỗ trợ nút FP-tree thay thành lợi ích TWU mục liệu, coi kích thước nút hai nhau, kích thước hai giống Cây TWU-tree có cấu trúc đơn giản, dễ dàng xây dựng xử lý - Các COUI-tree thực chất kết chiếu TWU-tree cho mục liệu Cây COUI-tree mục liệu x biểu diễn mục liệu có lợi ích TWU lớn lợi ích TWU x xuất với x giao tác sở liệu Cách làm chia toán thành nhiều toán nhỏ đơn giản - Thụât toán COUI-Mine phát triển dựa cấu trúc FP-tree phương pháp khai phá thuật toán COFI-tree nên chắn đảm bảo tính dừng hiệu Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 59 Với nhận xét kết luận thuật tốn COUI-Mine thuật tốn hiệu để khai phá tập mục lợi ích cao 3.2.5 Khai phá tƣơng tác với TWU-tree Thực tế nhiều đòi hỏi phải khai phá sở liệu với ngưỡng lợi ích khác theo yêu cầu người sử dụng Cho sở liệu DB, sau khai phá xong tập mục lợi ích cao với ngưỡng δ1, người sử dụng có nhu cầu khai phá với ngưỡng δ2 Đã có số nghiên cứu giải vấn đề khai phá tương tác tập mục thường xun, song cịn tác giả đề cập đến khai phá tương tác tập mục lợi ích cao Ở đây, luận văn đề xuất cách khai phá tương tác tập mục lợi ích cao dựa cấu trúc TWUI-tree thuật toán COUI-Mine Trước tiên, ta nhận xét mục liệu TWUI-tree không thiết phải xếp theo tiêu chí Các mục liệu bảng đầu mục TWUI-tree xếp theo số cách sau: - Sắp giảm dần theo giá trị TWU mục liệu sở liệu (như mơ tả thuật tốn COUI-Mine) - Sắp giảm dần theo số lần xuất mục liệu sở liệu (như thứ tự FP-tree) Sắp mục liệu theo thứ tự tăng khả giảm kích thước nhánh dùng chung nhiều nút - Theo thứ tự đó, ví dụ theo trật tự từ điển tên mục liệu Khai phá tương tác thực cấu trúc TWUI-tree với vài thay đổi nhỏ Thuật toán COUI-Mine cần thay đổi số bước sau trở thành thuật toán hiệu để khai phá tương tác tập mục lợi ích cao: * Bước xây dựng TWUI-tree: thứ tự mục liệu theo cách trình bày khơng tỉa mục liệu Nếu theo số lần xuất mục liệu thực sau: - Duyệt sở liệu lần thứ nhất, đếm số lần xuất tính giá trị TWU mục liệu Sau xếp mục liệu theo thứ tự giảm dần số lần xuất tạo bảng đầu mục Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 60 - Duyệt sở liệu lần thứ hai, giao tác đọc ra, mục liệu giao tác theo thứ tự bảng đầu mục chèn danh sách lên Như vậy, sau xây dựng xong, toàn sở liệu nén lên TWUI-tree * Bước khai phá: Khi khai phá với ngưỡng lợi ích δ1, thuật toán xây dựng khai phá TWUI-tree, tìm tập ứng viên CP1 có lợi ích TWUcao Sau thuật tốn duyệt lại sở liệu để tìm tập mục lợi ích cao HU1 CP1 Bây cần khai phá với ngưỡng lợi ích δ2, rõ ràng ta khơng cần xây dựng lại TWUI-tree Nếu δ2> δ1 tập ứng viên CP2 tập ứng viên cũ, CP2 CP1, khơng cần khai phá TWU-tree để tìm tập ứng viên CP2 mà ta cần duyệt lại sở liệu lần để tìm tập mục lợi ích cao theo ngưỡng δ2 từ tập ứng viên cũ CP1 Nếu δ2< δ1 tập ứng viên CP2 tập cha tập ứng viên cũ, CP2 CP1, ta cần khai phá lại TWUI-tree để tìm tập ứng viên CP2 Bước tiếp theo, duyệt lại sở liệu để tìm tập mục lợi ích cao theo ngưỡng δ2 ta cần tính lợi ich thực ứng viên xuất hiện, tức ứng viên thuộc CP2 - CP1, lợi ích ứng viên CP1 tính lần khai phá trước Như vậy, TWUI-tree xây dựng lần, sử dụng khai phá nhiều lần Với sở liệu DB, sau khai phá với ngưỡng lợi ích đó, thời gian khai phá với ngưỡng lợi ích khác giảm nhiều, khơng cịn thời gian xây dựng TWUI-tree 3.3 Kết luận chƣơng Chương luận văn trình bày thuật tốn COUI-Mine khai phá tập mục lợi ích cao kiểu FP-growth, dựa ý tưởng thuật toán COFI-tree khai phá tập mục thường xuyên Thuật toán COUI-Mine gồm bước: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 61 - Bước thứ tìm tập mục lợi ích TWU cao (tập coi tập tập mục ứng viên) - Bước thứ hai, duyệt lại sở liệu để tính lợi ích thực tập mục ứng viên, từ xác định tập tập mục lợi ích cao Để tìm tập tập mục lợi ích TWU cao, liệu nén lên cấu trúc gọi TWUI-tree (Transaction Weighted Utility Itemsets Tree) dựa ý tưởng cấu trúc FP-tree Cây TWUI-tree chứa đủ thông tin để khai phá tập mục lợi ích TWU cao Khai phá TWUI-tree dùng cấu trúc liệu phụ trợ gọi COUI-tree (Co-Occurrence Utility Items tree) Sau phần trình bày thuật tốn, đánh giá độ phức tạp, nhận xét ưu điểm bật thuật toán COUI-Mine, vấn đề khai phá tương tác với TWUtree đề cập Số hóa Trung tâm Học liệu – Đại học Thái Ngun http://www.lrc-tnu.edu.vn 62 KẾT LUẬN Mơ hình tốn khai phá tập mục thường xun có nhiều ứng dụng thực tiễn có hạn chế, khơng đáp ứng nhu cầu người sử dụng tình định Ràng buộc độ hỗ trợ tập mục thường xuyên mang ngữ nghĩa thống kê, không phản ánh mức độ quan trọng khác thuộc tính đặc tính liệu vốn có chúng sở liệu Nhằm khắc phục hạn chế mơ hình tốn khai phá tập mục thường xuyên, nhà nghiên cứu mở rộng theo nhiều hướng khác nhau, có việc thay ràng buộc độ hỗ trợ buộc lợi ích Khai phá tập mục lợi ích cao khám phá tất tập mục X sở liệu đem lại lợi ích u X , ngưỡng quy định người sử dụng Đáng tiếc ràng buộc lợi ích cao khơng thoả mãn tính chất Aprioi Do đó, việc tìm kiếm, phát tập mục lợi ích cao khơng thể thực khai phá tập mục thường xuyên Cần phải nghiên cứu tìm thuật tốn hiệu cho việc phát tập mục lợi ích cao Trong năm gần đây, vấn đề thu hút nhiều nhà nghiên cứu nước Luận văn học viên nhằm nghiên cứu mơ hình tốn với số thuật toán quan trọng khai phá tập mục lợi ích cao sở liệu lớn Với ba chương nội dung, luận văn đề cập vấn đề sau: - Khái quát khai phá liệu, bao gồm định nghĩa khai phá liệu, tóm tắt q trình khai phá, kỹ thuật, ứng dụng thách thức - Trình bày tốn khai phá tập mục thường xuyên với hai thuật toán quan trọng Aprioi FP-Growth, làm sở cho việc nghiên cứu thuật toán khai phá tập mục lợi ích cao - Trình bày chi tiết mơ hình tốn khai phá tập mục lợi ích cao - Nghiên cứu bốn thuật toán quan trọng khai phá tập mục lợi ích cao, đại diện cho hai cách tiếp cận: kiểu Aprioi kiểu FP-Growth Đó thuật toán Umining, Umining-H, HUMining COUI-Mine Các thuật toán tìm hiểu cách Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 63 kỹ lưỡng sở lý thuyết thuật tốn Chúng minh hoạ ví dụ cụ thể Chúng tơi thực phân tích mặt lý thuyết thuật toán, từ đưa đánh giá tính hiệu quả, ưu, nhược điểm chúng Hiện nay, khai phá tập mục lợi ích cao trở thành kỹ thuật quan trọng khai phá liệu tính khả dụng nhiều lĩnh vực Theo tài liệu [2,11,15,18], số bốn thuật toán khai phá tập mục lợi ích cao luận văn trình bày thuật toán COUI-Mine đánh giá thuật toán hiệu Mặc dù có ý định việc thực việc lập trình tiến hành tính tốn thử nghiệm thuật toán COUIMine tập liệu thực tiễn, gặp phải khó khăn khách quan thời gian hạn hẹp, tác giả luận văn chưa thực ý định Hướng đề tài là: - Nghiên cứu cài đặt thuật toán HUMining COUI-Mine, đồng thời thực tính tốn thử nghiệm số sở liệu lớn có sẵn internet - Nghiên cứu vấn đề song song hoá thuật toán khai phá tập mục lợi ích cao - Nghiên cứu phát triển tốn khai phá tập mục lợi ích cao có yếu tố thời gian Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 64 TÀI LIỆU THAM KHẢO [1] Nguyễn Thanh Tùng (2007), Khai phá tập mục lợi ích cao sở liệu Tạp chí Tin học Điều khiển học, tập 23, số 4, trang 364-373 [2] Nguyễn Huy Đức (2009), Khai phá tập mục cổ phần cao lợi ích cao sở liệu Luận án tiến sĩ, Viện Công nghệ Thông tin, Hà Nội 2009 [3] R Agrawal, T Imielinski, and A N Swami (1993), Mining association rules between sets of items in large databases In Proceedings of the 1993 ACM [4] SIGMOD International Conference on Management of Data, Washington, D.C R Agrawal and R Srikant (1994), Fast algorithms for mining association rules In Proceedings of 20th International Conference on [5] Very Large Databases, Santiago, Chile El-Hajj M and Zaiane Osmar R (2003), “Non recursive generation of frequent k-itemsets from frequent pattern tree representations”, In Proc of [6] [7] 5th International Conference on Data Warehousing and Knowledge Discovery (DaWak’2003), pp.371-380 El-Hajj M and Zaiane Osmar R (2003), “COFI-tree Mining: A New Approach to Pattern Growth with Reduced Candidacy Generation”, In Proc 2003 Int’l Conf on Data Mining and Knowledge Discovery (ACM SIGKDD), Chicago, Illinois, USA Grahne G and Zhu J (2003), “Efficient using prefix-tree in mining frequent itemsets”, in Proc IEEE ICDM Workshop on Frequent Itemset Mining Implementations, Melbourne, FL [8] H Mannila (1996), Data mining: machine learning, statistics, and databases Eight International Conference on Scientific and Statistical Database Management, Stockholm June 18-20, 1996, p 1-8 [9] Han J., and Kamber M (2000), Data Mining: Concepts and Techniques, Morgan Kanufmann [10] Han J (2004), “Mining Frequent Patterns without Candidate Generation: A Frequent-Pattern Tree Approach”, Data Mining and Knowledge Discovery, Vol 8, pp 53–87 [11] Han J., Cheng H., Xin D., Yan X (2007), “Frequent pattern mining: current status Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 65 and future directions” Data Min Knowl Disc, Vol 15, pp 55-86 [12] Han J., Pei J., and Yin Y (2000), “Mining frequent patterns without candidate generation”, In ACM SIGMOD Int Conference on Management of Data, pp 1-12 [13] Liu Y., W Liao K., and Choudhary A (2005), “A fast high utility itemsets mining algorithm”, in Proc 1st Intl Conf on Utility-Based Data Mining, Chicago Chicago Illinois, pp.90-99, USA [14] R Chan, Q Yang, and Y D Shen (2003), Mining High Utility Itemsets In In Proceedings of 3rd IEEE International conference on Data Mining, Melbourne, Florida [15] Yao H., Hamilton H J (2006), “Mining Itemsets Utilities from Transaction Databases”, Data and Knowledge Engeneering, Vol 59, issue [16] Yao H., Hamilton H J., and Butz C J (2004), “A foundational Approach to Mining Itemset Utilities from Databases”, Proceedings of the 4th SIAM International Conference on Data Mining, Florida, USA [17] Yao H., Hamilton H J., and Geng L (2006), “A Unified Framework for Utility Based Measures for Mining Itemsets”, UBDM’06 Philadelphia, Pennsylvania, USA [18] Chowdhury Farhan Ahmed, Syed Khairuzzaman Tanbeer, Byeong-Soo Jeong, Young-Koo Lee (2011), HUC-Prune: an efficient candidate pruning technique to mine high utility patterns, Applied Intelligence , Vol 34, Nr 181-198 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn