CLOSET +:Nghiên cứu chiến lược tốt nhất để khai thác tập phổ biến đóng

32 569 1
CLOSET +:Nghiên cứu chiến lược tốt nhất để khai thác tập phổ biến đóng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

CLOSET+ tích hợp những ưu điểm của các chiến lược đề xuất trước đó và đạt được một vài hiệu quả như một số thuật toán được phát triển gần đây. Trên hết, hiệu suất toàn diện của thuật toán được thể hiện rõ nét nhất qua một số kết quả thực nghiệm trên các tập dữ liệu tổng hợp và thực tế để cho thấy những ưu điểm của CLOSET+ vượt qua so với các thuật toán khai thác dữ liệu tồn tại hiện nay, bao gồm CLOSET, CHARM và OP, về mặt thời gian thực thi, sử dụng bộ nhớ và khả năng mở rộng.

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN ĐOÀN MINH KHUÊ - 1512005 ĐỒ ÁN MÔN HỌC DATAMINING ĐỀ TÀI: CLOSET+: Nghiên cứu chiến lược tốt để khai thác tập phổ biến đóng DỰA TRÊN TÀI LIỆU: CLOSET+: Searching for the Best Strategies for Mining Frequent Closed Itemsets Jianyong Wang - Jiawei Han - Jian Pei TP.HCM – 2/2016 MỤC LỤC CHƯƠNG 1: KHÁI NIỆM VÀ CÁC VẤN ĐỀ LIÊN QUAN 1.1 Khái niệm tập phổ biến đóng 1.2 Các vấn đề liên quan CHƯƠNG 2: CHIẾN LƯỢC KHAI THÁC TẬP PHỔ BIẾN ĐÓNG 2.1 Tìm kiếm BFS so với DFS 2.2 Định dạng theo chiều ngang so với định dạng theo chiều dọc 2.3 Kỹ thuật nén liệu 2.4 Kỹ thuật loại bỏ để khai thác tập phổ biến đóng CHƯƠNG 3: CLOSET+: MỘT PHƯƠNG PHÁP HIỆU QUẢ CHO KHAI THÁC TẬP PHỎ BIẾN ĐÓNG 3.1 Tổng quan CLOSET+ 3.2 Phương pháp chiếu lai 3.2.1 Phép chiếu thực từ lên 3.2.2 Chiếu ảo từ xuống 3.3 Kỹ thuật item skipping 12 3.4 Tính hiệu Kiểm tra Subset 13 3.4.1 Kiểm tra subset kết 13 3.4.2 Cây kết gồm cấp mục 14 3.4.3 Kiểm tra subset FP 15 3.5 Thuật toán CLOSET+ 17 CHƯƠNG 4: ĐÁNH GIÁ HIỆU SUẤT 18 4.1 Môi trường thử nghiệm tập liệu 18 4.2 Kết thực nghiệm 20 4.3 Kiểm tra khả mở rộng 24 CHƯƠNG 5: KẾT LUẬN 26 TÀI LIỆU THAM KHẢO 27 BẢNG CHÚ GIẢI BẢNG BIỂU Bảng – Cơ sở liệu giao dịch TDB Bảng - Đặc điểm Dataset 18 Bảng - Số tập phổ biến đóng với ngưỡng hỗ trợ tương đối 19 BẢNG CHÚ GIẢI HÌ NH VẼ Hình – Các thiết lập tập phổ biến đóng FP Hình - Chiếu thực từ lên Hình - Chiếu ảo từ xuống 10 Hình - Chiếu ảo từ xuống cho f: 12 Hình - Cây kết có cấp mục 14 Hình - Thời gian thực thi (mushroom) 19 Hình - Thời gian thực thi (gazelle) 19 Hình - Hiệu suất thời gian thực thi (bộ liệu connect) 20 Hình - Sử dụng nhớ (bộ liệu connect) 20 Hình 10 - Hiệu suất thời gian thực thi (pumsb *) 21 Hình 11 - Sử dụng nhớ (Pumsb *) 21 Hình 12 - Hiệu suất thực thi (mushroom) 22 Hình 13 - Sử dụng nhớ (mushroom) 22 Hình 14 - Hiệu suất thời gian thực thi (gazelle) 22 Hình 15 - Sử dụng nhớ (gazelle) 22 Hình 16 - Hiệu suất theo thời gian chạy (retail-chain) 23 Hình 17 - Sử dụng nhớ (retail-chain) 23 Hình 18 - Hiệu suất thời gian chạy (big-market) 24 Hình 19 - Sử dụng nhớ (big-market) 24 Hình 20 - Kiểm tra khả mở rộng (T10I4DxP1k) 25 Hình 21 - Kiểm tra khả mở rộng (T10I4D100kPx) 25 BẢNG CHÚ GIẢI THUẬT NGỮ VÀ CÁC KÍ HIỆU Tiế ng Anh Closed Association Rules Mining Tiế ng Viêṭ Kí hiệu Khai thác luật kết hợp đóng CHARM Transaction Database Cơ sở liệu giao dịch TDB Minimum support Độ hỗ trợ cực tiểu minSup Depth-first search Tìm kiếm theo chiều sâu DFS Breadth-first search Tìm kiếm theo chiều rộng BFS Database Cơ sở liệu CSDL Frequent Closes Itemset Tập tập phổ biến đóng FCI STT TÓM TẮT ĐỒ ÁN Khai thác tập phổ biến đóng cung cấp kết đầy đủ để phân tích mô hình phổ biến Các nghiên cứu mở rộng đề xuất nhiều chiến lược khác để khai thác tập phổ biến đóng có hiệu quả, chẳng hạn tìm kiếm theo chiều rộng với tìm kiếm theo chiều sâu, định dạng dọc so với định dạng ngang, cấu trúc với cấu trúc liệu khác, duyệt theo từ xuống so với từ lên, phép chiếu ảo so với chiếu thực sở liệu có điều kiện … Hầu hết thuật toán khai thác mô hình phổ biến nghiên cứu khai thác toàn tập phổ biến, Apriori, FP-growth, H-mine, OP Các thuật toán có hiệu suất tốt ngưỡng hỗ trợ cao không gian mẫu thưa thớt Tuy nhiên, ngưỡng hỗ trợ giảm, số lượng tập phổ biến tăng lên đáng kể hiệu suất thuật toán xấu nhanh chóng sinh số lượng lớn mẫu trình phân tích Hơn nữa, hiệu việc khai thác toàn tập hợp bị giảm tạo nhiều mô hình dư thừa Một ví dụ đơn giản sở liệu có giao dịch có chiều dài 100, tạo 2100 - tập phổ biến minSup thiết lập Trong vài năm gần đây, nghiên cứu mở rộng đề xuất nhiều thuật toán cho khai thác tập phổ biến đóng, chẳng hạn A-close, CLOSET, MAFIA CHARM Tuy nhiên, chưa có so sánh đánh giá ưu khuyết điểm chiến lược tìm kiếm làm chọn tích hợp chiến lược tốt để đạt hiệu suất cao trường hợp tổng quát Trong báo này, để giải vấn đề hạn chế tác giả J.Wang, J.Han, J.Pei đưa chiến lược nghiên cứu phát triển thuật toán, thuật toán CLOSET+ CLOSET+ tích hợp ưu điểm chiến lược đề xuất trước đạt vài hiệu số thuật toán phát triển gần Trên hết, hiệu suất toàn diện thuật toán thể rõ nét qua số kết thực nghiệm tập liệu tổng hợp thực tế thấy ưu điểm CLOSET+ vượt qua so với thuật toán khai thác liệu tồn nay, bao gồm CLOSET, CHARM OP, mặt thời gian thực thi, sử dụng nhớ khả mở rộng Bố cu ̣c báo cáo đươ ̣c chia làm các chương sau: Chương 1: Trình bày lại định nghĩa khai thác tập phổ biến đóng vấn đề liên quan khác Chương 2: Trình bày tổng quan chiến lược tìm kiếm ưu nhược điểm chúng Chương 3: Trình bày thuật toán CLOSET+ Chương 4: Đánh giá hiệu xuất thuật toán CLOSET+ so với vài thuật toán phát triển gần Chương 5: Đưa kế t luâ ̣n và nêu nhữ ng hướng phát triể n tương lai CHƯƠNG 1: KHÁI NIỆM VÀ CÁC VẤN ĐỀ LIÊN QUAN 1.1 Khái niệm tập phổ biến đóng TDB (Transaction Database) tập hợp giao dịch, giao dịch, ký hiệu {tid, X}, chứa item (ví dụ, X) kết hợp với tid giao dịch Cho I = {i1, i2, , in} item riêng biệt xuất TDB Một itemset Y tập khác rỗng I gọi l-itemset có chứa item l Một itemset {x1, , xl} ký hiệu x1, , xl Một giao dịch {tid, X} cho chứa itemset Y Y ⊂ X Số lượng giao dịch TDB chứa itemset Y gọi độ hỗ trợ tập phổ biến Y, ký hiệu sup(Y) Cho ngưỡng hỗ trợ tối thiểu, minSup, itemset Y phổ biến sup(Y) ≥ minSup Định nghĩa (Tập phổ biến đóng): Một tập Y tập phổ biến đóng phổ biến không tồn tập cha Y’⊃ Y sup(Y’) = sup(Y) Ví dụ 1: Hai cột Bảng thể TDB Giả sử minSup = 2, tìm kiếm xếp danh sách item phổ biến theo độ hỗ trợ giảm dần Danh sách item xếp gọi f_list Trong ví dụ f_list = {f: 4, c: 4, a: 3, b: 3, m: 3, p: 3} Các item phổ biến giao dịch xếp theo f_list hiển thị cột thứ ba bảng Tập fc tập phổ biến gồm item với độ hỗ trợ 3, tập đóng, có tập cha fcam mà độ hỗ trợ Vậy fcam tập phổ biến đóng Tid 100 200 300 400 500 Tập items a, c, f, m, p a, c, d, f, m, p a, b, c, f, g, m b, f, i b, c, n, p Danh sách xếp theo độ hỗ trợ f, c, a, m, p f, c, a, m, p f, c, a, b, m f, b c, b, p Bảng 1: Cơ sở liệu giao dịch TDB 1.2 Các vấn đề liên quan Giải thuật tiêu biểu cho khai thác tập phổ biến đóng bao gồm A-close, CLOSET, MAFIA CHARM A-close áp dụng tìm kiếm theo chiều rộng để tìm mô hình phổ biến đóng Trong liệu dày đặc liệu với mẫu dài, duyệt theo chiều rộng gặp phải khó khăn có nhiều ứng cử viên cần phải quét sở liệu nhiều lần CLOSET mở rộng thuật toán FP-growth, xây dựng FP đệ quy có điều kiện FP từ lên Mặc dù CLOSET sử dụng số kỹ thuật tối ưu hóa để nâng cao hiệu hoạt động khai thác, hiệu chưa cao liệu thưa thớt ngưỡng hỗ trợ thấp Thuật toán CHARM thuật toán thực duyệt không gian tập phổ biến không gian tập định danh Thuật toán tránh việc tính toán để tìm tất tập có tập phổ biến đóng tìm tập phổ biến đóng CHARM cho thấy hiệu suất tốt so với A-close, Pascal, MAFIA, CLOSET nhiều liệu dày đặc CHƯƠNG 2: CHIẾN LƯỢC KHAI THÁC TẬP PHỔ BIẾN ĐÓNG Trong phần trình bày nhìn tổng quan chiến lược khai thác tập phổ biến BFS, DFS, FP, , phân tích ưu nhược điểm chúng Một nguyên tắc cần thiết cho khai thác tập phổ biến theo Apriori là: "Mỗi tập tập phổ biến phải phổ biến" Theo đó, tập phổ biến bao gồm item phổ biến Cho tập phổ biến F, tập đầy đủ tập phổ biến có F phần tử Hình 1(a) thành phần tập phổ biến đóng: Hình 1: Các thành phần tập phổ biến đóng FP 2.1 Tìm kiếm BFS so với DFS Phương pháp BFS sử dụng tập phổ biến cấp với chiều dài k để tạo ứng viên cấp với chiều dài k+1, quét database cần thiết để đếm độ hỗ trợ ứng viên với chiều dài k+1 Bởi quét database nhiều lần nên không thích hợp để khai thác mô hình dài Ngược lại, phương pháp DFS tìm kiếm tập hợp tập tập phổ biến Khi tập phổ biến trở nên dài hơn, DFS thu nhỏ không gian tìm kiếm cách nhanh chóng Kết là, phương pháp DFS thường tốt BFS khai thác liệu dài 2.2 Định dạng theo chiều ngang so với định dạng theo chiều dọc Định dạng theo chiều dọc: tid-list giữ cho item, tid-list lớn liệu dày đặt Để tìm tập phổ biến, cần phải tìm giao tid-list với (rất tốn chi phí), với tập giao tìm có tập phổ biến Định dạng theo chiều ngang: giao dịch ghi nhận danh sách item Chúng đòi hỏi không gian, với lần quét sở liệu, chúng tìm thấy nhiều tập phổ biến cục mà sử dụng để phát triển tập tiền tố để tạo tập phổ biến 2.3 Kỹ thuật nén liệu Một sở liệu giao dịch thường lớn Nếu sở liệu nén thông tin liên quan đến việc khai thác giữ, khai thác có hiệu Cây FP Diffset hai ví dụ điển hình Cây FP TDB tiền tố danh sách item phổ biến giao dịch Ý tưởng minh họa ví dụ sau Ví dụ 2: Cây FP xây dựng sau: Quét sở liệu lần để tìm item phổ biến xếp chúng với độ hỗ trợ giảm dần để có f_list (xem Ví dụ 1) Để chèn giao dịch vào FP, item không phổ biến xóa hạng mục lại giao dịch xếp theo thứ tự f_list, tức là, mục phổ biến lá, item với độ hỗ trợ cao cấp cao FP Hình (b) cho thấy FP Cấu trúc FP có số lợi khai thác tập phổ biến Trước hết, FP thường có tỉ lệ nén cao biểu diễn tập CSDL vì: - Những danh mục không đủ độ phổ biến loại từ đầu, việc tìm tập phổ biến thao tác số lượng danh mục nhỏ nhiều so với toàn danh mục - Nhiều giao dịch nén chung FP-tree việc giúp giảm bớt nhiều thao tác trình xác định độ phổ biến tập danh mục - Cấu trúc FP-tree cho phép thực tìm kiếm theo chiều sâu áp dụng mô hình chia để trị hiệu Diffset thuật nén tid-set hiệu cho phương pháp áp dụng định dạng liệu theo chiều dọc Đối với thuật toán định dạng theo chiều dọc giống CHARM, tính toán hỗ trợ đòi hỏi nút giao tidsets, tidset lớn, không tidsets tiêu tốn nhiều nhớ, tập giao tidset gây tốn nhớ Để tránh điều đó, CHARM phát triển kỹ thuật Diffset giữ lại khác biệt tid tập ứng viên sản sinh tập phổ biến 2.4 Kỹ thuật loại bỏ để khai thác tập phổ biến đóng Bổ đề 2.1 (Item merging) Giả sử X tập phổ biến tất giao dịch Trans có chứa tập danh mục X, đồng thời giao dịch chứa tập danh mục Y ≠ ∅ với Y ∩ X = ∅ không tồn tập Y’ tương tự Y với Y ⊂ Y’ (có nghĩa Y tập lớn có) Thì kết luận tập X ∪ Y tập phổ biến đóng có sup (X ∪ Y) =⏐Trans⏐; tập phổ biến chứa X mà không chứa Y tập phổ biến đóng Ví dụ 3: Trong ví dụ hiển thị Bảng 1, sở điều kiện cho tập tiền tố fc: {(a, m, p), (a, m, p), (a, b, m)} (mục d g không phổ biến bị loại), từ thấy giao dịch chứa itemset am tập cha am Itemset am sáp nhập với fc để tạo thành tập phổ biến fcam: 3, ta không cần phải khai thác tập phổ biến đóng chứa fc không chứa am Bổ đề 2.2 (sub-itemset pruning): Xét X tập phổ biến Nếu X tập hợp tập phổ biến đóng Y sup (X) = sup (Y) X tất tập X tập phổ biến đóng loại bỏ Ví dụ 4: Nhiều thuật toán khai thác mô hình phổ biến theo mô hình chia để trị Trong ví dụ hình 1(b), mô hình chia để trị từ xuống theo thứ tự f_list thể Ví dụ (ngược lại, mô hình chia để trị từ lên làm theo thứ tự ngược lại f_list): (1) khai thác mẫu có chứa mục f, (2) khai thác mẫu có chứa mục c f, (3) khai thác mô hình có chứa item item a, m, p Hfc: có độ hỗ trợ giống item Hf: 4, nên item loại bỏ cách an toàn từ H f: 3.4 Tính hiệu Kiểm tra Subset Khi có tập tiền tố phổ biến mới, cần phải làm hai loại kiểm tra tập đóng: superset-checking kiểm tra tập phổ biến có phải tập cha số tập ứng viên đóng với độ hỗ trợ, subset-checking kiểm tra tập phổ biến tìm thấy có tập ứng viên tập phổ biến đóng tìm thấy với độ hỗ trợ không? Bởi hai phép chiếu thực từ lên chiếu ảo từ xuống dựa framework chia để trị tìm kiếm theo chiều sâu, theo định lý sau CLOSET+ cần làm subset-checking để đảm bảo itemset tìm thấy tập đóng Định lý 3.1 (Kiểm tra Subset- subset-checking) Dựa framework chia để trị sử dụng phương pháp item merging giới thiệu bổ đề 2.1, tập phổ biến tìm thấy CLOSET+ phải tập đóng gộp vào với tập phổ biến đóng khác tìm thấy trước Từ định lý 3.1, ta biết tập phổ biến vừa tìm thấy gộp vào với tập phổ biến tìm thấy sau Như vậy, gộp vào với tập đóng tìm thấy trước đó, phải tập đóng Để trợ giúp “subset-checking”, có hai kỹ thuật hiệu quả: “cây kết có hai cấp mục” (Twolevel hash-indexed result tree) “chiếu ảo dựa vào kiểm tra hướng lên” (Pseudoprojection based upward checking) 3.4.1 Kiểm tra subset kết Giống FP, lưu trữ tất tập phổ biến đóng “cây kết nén” sử dụng kết để kiểm tra superset subset Ở sử dụng “cây kết nén” để thực “kiểm tra subset” để đảm bảo tập vừa tìm thấy tập đóng đóng chèn vào kết 13 Bây cần phải xem xét làm để “kiểm tra subset” hiệu dựa kết Trong CLOSET +, ta cố gắng khai thác vài đặc trưng tập đóng để giảm không gian tìm kiếm Nếu tập phổ biến S c gộp với tập phổ biến đóng Sa tìm thấy trước đó, chúng phải có mối quan hệ sau đây: (1) Sc Sa có độ hỗ trợ; (2) độ dài Sc nhỏ so với Sa; (3) tất item Sc phải chứa Sa Hình 5: Cây kết có cấp mục 3.4.2 Cây kết gồm cấp mục Sử dụng heuristic, ta cải thiện cấu trúc kết Cây kết cấu trúc liệu dùng để lưu trữ tập phổ biến đóng, bao gồm cấp mục: - Một tên item theo thứ tự f-list - Hai độ hỗ trợ item, độ hỗ trợ lớn item tập phổ biến đóng tham gia vào Chèn tập đóng vào kết quả: ta chèn tập đóng vào kết theo thứ tự f_list, nút ta ghi nhận chiều dài đường từ nút đến nút gốc Hàm CheckSubset_ResultTree ( ) INPUT: Cây kết RTree lưu trữ tập phổ biến đóng, tập phổ biến X OUTPUT: Kết luận tập X có phải tập phổ biến đóng hay không Các bước thực hiện: 14 Bước 1: Chọn item cuối tập item X, xác định vị trí xuất xem nút có độ hỗ trợ trùng với sup(X) Bước 2: Xác định nút duyệt dần gốc để kiểm tra xem tất item X có xuất hết hay không? Bước 3: Nếu không hết, kết luận X tập phổ biến đóng phải bổ sung vào RTree Ngược lại tập phổ biến đóng Hình (a) Tập phổ biến đóng Ví dụ Dựa vào tìm kiếm theo chiều sâu, tập đóng thể hình 1(a) khai thác chèn vào kết theo thứ tự sau: f: 4, fcam: 3, fcamp: 2, fb: 2, c: 4, cb: 2, cp: 3, b: Hình mô tả tình trạng kết sau chèn tập đóng c: Với nút cần lưu lại itemId, độ hỗ trợ, chiều dài (liên quan đến nút gốc) tương ứng Điểm khác với cấu trúc FP, bổ sung tập phổ biến đóng vào cách thêm nút vào cây, nút có lấy độ hỗ trợ có giá trị lớn thay tính tổng độ hỗ trợ Tại trạng thái thể hình 5, ta có sau tập phổ biến ca:3 Bằng việc sử dụng itemID a độ hỗ trợ theo sau liên kết tương ứng, ta tìm thấy nút nhãn “a:3,3” có chiều dài lớn 2, sau ta kiểm tra tập phổ biến ca:3 gộp vào đường từ nút “a:3,3” đến gốc (có độ hỗ trợ chiều dài nhỏ hơn) Không may vượt qua việc kiểm tra không chèn vào kết 3.4.3 Kiểm tra subset FP 15 Mặc dù kết nén tập đóng nhiều, tiêu thụ nhiều nhớ hiệu không gian với liệu thưa thớt Như biết, FP toàn cục có đầy đủ thông tin toàn tập phổ biến đóng, ta dùng FP toàn cục để kiếm tra tập phổ biến vừa tìm đóng Trong cách này, ta không cần bổ sung bất kỷ nhớ để lưu tập đóng khai thác trước lần tập item tìm được kiểm tra, lưu trực tiếp vào file kết F Vậy làm để kiểm tra subset dựa FP Như biết, phép chiếu ảo từ xuống, với tập tiền tố X tất nút prefix path tương ứng chúng w.r.t truy tìm cách theo sau trỏ liên kết ghi lại header table Có thể sử dụng bổ đề 3.2 sau để đánh giá liệu tập phổ biến vừa tìm thấy có tập đóng Bổ đề 3.2: Nếu tồn item có thứ tự nhỏ thứ tự lớn tập item chiếu đồng thời item xuất giao dịch chứa tập item chiếu kết luận tập item chiếu tập phổ biến đóng Hàm CheckSubset_FPtree( ) INPUT: Cây FP-Tree toàn cục, tập phổ biến X OUTPUT: Kết luận tập X có phải tập phổ biến đóng hay không Các bước thực hiện: Bước 1: Gán max = thứ tự lớn số item X theo f-list Bước 2: Duyệt giao dịch Ti có chứa tập phổ biến X dựa FPtree ghi nhận item có thứ tự nhỏ max theo f-list tích lũy độ hỗ trợ item Bước 3: Nếu có item bước có độ hỗ trợ sup(X) X tập phổ biến đóng Ngược lại X tập đóng 16 Ở đây, ta sử dụng vài ví dụ để minh hoạ “kiểm tra subset” (subsetchecking) Giả sử có tập tiền tố X=c:4, ta định vị trí nút c:1 c:3 cách theo trỏ liên kết item c hình 3(b) tìm thấy item f, xuất đường tiền tố đến gốc tập item tiền tố c:4 f xuất lúc lần với tập tiền tố c:4 Hơn nữa, item phổ biến cục tập tiền tố c:4 có độ hỗ trợ cả, nên c:4 tập đóng lưu file kết F Dùng phương pháp này, ta dễ dàng luận tiền tố am:3 tập đóng, đường tiền tố nút m:2 m:1 tiến gốc, có hai item khác f c xuất với am lần 3.5 Thuật toán CLOSET+ Bằng cách kết hợp kỹ thuật trên, suy thuật toán CLOSET+như sau: Đầu vào: Cơ sở liệu giao dịch TDB ngưỡng hỗ trợ minSup Đầu ra: Tập tập phổ biến đóng FCI Các bước thực hiện: Bước 1: Quét TDB lần để tìm item phổ biến toàn cục xếp chúng theo thứ tự giảm dần độ hỗ trợ Danh sách item phổ biến xếp tạo thành f_list Bước 2: Quét TDB xây dựng FP sử dụng f_list Lưu ý: Trong trình xây dựng cây, tính số lượng trung bình nút FP Sau xây dựng, đánh giá tập liệu dày đặc hay thưa thớt theo số lượng trung bình nút FP: với tập liệu dày đặc, chọn phương pháp chiếu thực từ lên; tập liệu thưa thớt, sử dụng phương pháp chiếu ảo từ xuống Khởi tạo header table toàn cục tùy theo phương pháp chiếu chọn Bước 3: Với mô hình chia để trị tìm kiếm theo chiều sâu, khai thác tập phổ biến đóng từ FP theo cách từ xuống cho liệu thưa thớt từ lên cho liệu dày đặc Trong suốt trình khai thác, sử dụng kỹ thuật item merging, item skipping, sub-itemset pruning để giảm không gian tìm kiếm Với 17 tập phổ biến đóng ứng viên, sử dụng phương pháp lập kết cho liệu dày đặc kiểm tra FP cho liệu thưa thớt để làm kiểm tra tính đóng Bước 4: Dừng tất item header table toàn cục khai thác Các tập đầy đủ tập phổ biến đóng tìm thấy từ kết file F CHƯƠNG 4: ĐÁNH GIÁ HIỆU SUẤT 4.1 Môi trường thử nghiệm tập liệu Trong phần đánh giá CLOSET+ so với ba thuật toán OP, CHARM CLOSET Tất thí nghiệm thực máy IBM ThinkPad R31 với nhớ 384 MB cài đặt Windows XP Có sáu liệu thực tế để đánh giá hiệu suất sử dụng nhớ, số liệu nhân tạo để kiểm tra khả mở rộng cách thay đổi kích thước sở liệu số lượng mặt hàng riêng biệt Các đặc tính tập liệu hiển thị Bảng (cột cuối chiều dài trung bình lớn giao dịch) Tập liệu thực tế: Trong sáu liệu thực tế có ba dày đặc ba thưa thớt (xem phân bố tập phổ biến đóng theo ngưỡng hỗ trợ Bảng 3) Các liệu connect có chứa thông tin trạng thái trò chơi, liệu mushroom có chứa đặc điểm loài nấm khác nhau, pumsb* chứa liệu điều tra dân số Bảng 2: Đặc điểm Dataset Bộ liệu gazelle có chứa liệu click-stream từ Gazelle.com Hai liệu khác, retail-chain big-market liệu giao dịch bán lẻ khác 18 Tập liệu nhân tạo: Các liệu tổng hợp tạo tạo liệu IBM, với chiều dài trung bình giao dịch 10 chiều dài trung bình tập phổ biến Để kiểm tra khả mở rộng với kích thước bản, ta tạo hàng loạt liệu T10I4DxP1k cách thay đổi số lượng giao dịch từ 200K đến 1400K sửa số lượng mặt hàng đặc biệt 1k Để kiểm tra khả mở rộng số lượng mặt hàng riêng biệt, liệu T10I4D100kPx tạo cách sửa chữa số giao dịch 100k thiết lập số lượng mặt hàng đặc biệt 4333, 13.845, 24.550, 29.169 (tạo cách thiết lập tham số nitems tương ứng 5k, 25k, 125k, 625k) Bảng 3: Số tập phổ biến đóng với ngưỡng hỗ trợ tương đối Hình Thời gian thực thi (mushroom) 19 Hình Thời gian thực thi (gazelle) 4.2 Kết thực nghiệm Thí nghiệm cho thấy tạo số lượng lớn tập phổ biến, thuật toán khai thác tập phổ biến tốt OP cạnh tranh với CLOSET+ Hình hình hiển thị kết thực nghiệm cho liệu mushroom gazelle Như nhìn thấy hình 6, liệu dày đặc mushroom, CLOSET+ luôn nhanh so với OP ngưỡng hỗ trợ giảm, CLOSET+ nhanh OP Đối với liệu thưa thớt gazelle (xem hình 7), độ hỗ trợ cao nhiều tập phổ biến, chi phí phát sinh cách kiểm tra tập đóng CLOSET+, OP nhanh chút so với CLOSET+ Nhưng ngưỡng hỗ trợ hạ xuống đến điểm định, có gia tăng bùng nổ số lượng tập phổ biến (ví dụ, với độ hỗ trợ 0,05%, ngưỡng hỗ trợ không thấp cho tập liệu thưa thớt gazelle, tập phổ biến đóng dài có chiều dài 45, suy có 45 - tập phổ biến tạo ra), sử dụng phương pháp loại bỏ làm cho CLOSET+ nhanh so với OP Hình Hiệu suất thời gian thực thi Hình 9: Sử dụng nhớ (bộ liệu (bộ liệu connect) connect) 20 Hình 10: Hiệu suất thời gian thực Hình 11: Sử dụng nhớ (Pumsb *) thi (pumsb *) Thí nghiệm sử dụng liệu thực tế để kiểm tra hiệu suất sử dụng nhớ CLOSET+ với CHARM CLOSET Đối với liệu dày đặc connect, kết hiển thị Hình Hình Hình cho thấy CLOSET+ nhanh CLOSET Khi độ hỗ trợ không thấp (tức cao so với 20%), CLOSET+ nhanh CHARM nhiều lần Khi ngưỡng hỗ trợ hạ thấp nữa, chúng có hiệu suất tương tự, hỗ trợ 10%, CHARM chạy báo lỗi “REALLOC: Not enough core” Hình cho thấy CLOSET+ sử dụng nhớ CHARM Ví dụ, vùng hỗ trợ 85%, CLOSET+ tiêu thụ khoảng 1MB CHARM tiêu thụ khoảng 15MB Pumsb* liệu dày đặc Kết mô tả Hình 10 Hình 11 Cả CLOSET+ CHARM có hiệu suất tốt đáng kể so với CLOSET độ hỗ trợ thấp 20%, CLOSET kết thúc chạy Nhìn chung CLOSET+ CHARM có hiệu suất giống ngưỡng hỗ trợ không thấp Tại ngưỡng hỗ trợ thấp 15%, CHARM làm tốt CLOSET+ Hình 11 cho thấy CLOSET+ sử dụng nhớ CHARM 21 Hình 12 Hiệu suất thực thi Hình 13: Sử dụng nhớ (mushroom) (mushroom) Hình 12 Hình 13 chứng minh kết cho liệu mushroom Chúng ta nhìn thấy CLOSET có cường độ chậm so với CLOSET+ CHARM, CLOSET chí hoàn thành chạy độ hỗ trợ 0,1% Nhưng CLOSET+ CHARM lại thuật toán chiến thắng rõ ràng: ngưỡng hỗ trợ cao, CLOSET+ nhanh nhiều lần CHARM; ngưỡng hỗ trợ thấp, CHARM tốt chút so với CLOSET+ Nhưng CLOSET+ sử dụng nhớ CHARM Hình 14 Thời gian thực thi (gazelle) Hình 15: Sử dụng nhớ (gazelle) 22 Hình 14 Hình 15 trình bày kết đánh giá cho liệu thưa thớt gazelle Hình 14 cho thấy CLOSET+ CHARM nhanh so với CLOSET Khi độ hỗ trợ cao, CLOSET+ CHARM có hiệu suất tương tự, độ hỗ trợ thấp, CHARM nhanh so với CLOSET+ nhiều lần, tiếp tục hạ thấp ngưỡng hỗ trợ xuống 0.005%, CHARM báo lỗi “REALLOC: Not enough core” Tại Hình 15, thấy CHARM tiêu thụ nhiều nhớ CLOSET+ độ hỗ trợ thấp Hình 16 Hiệu suất theo thời gian Hình 17: Sử dụng nhớ (retail- chạy (retail-chain) chain) Hình 16 Hình 17 kết liệu retail-chain CLOSET+ chạy nhanh số ba thuật toán sử dụng nhớ CHARM: Khi ngưỡng hỗ trợ thiết lập 0.005%, CLOSET+ chạy nhanh gần lần so với CHARM, sử dụng 1/9 nhớ mà CHARM tiêu thụ 23 Hình 18 Hình 19 kết cho liệu big-market Chúng ta thấy CLOSET+ nhanh ba thuật toán sử dụng nhớ CHARM Nó chạy nhanh nhiều lần so với CHARM sử dụng nhớ Hình 18 Hiệu suất thời gian chạy Hình 19: Sử dụng nhớ (big- (big-market) market) 4.3 Kiểm tra khả mở rộng Để kiểm tra khả mở rộng CLOSET+ so sánh với CHARM CLOSET, tác giả sử dụng số liệu tổng hợp IBM Đầu tiên thử nghiệm khả mở rộng kích thước sở liệu cách sử dụng liệu T10I4DxP1k với kích thước từ 200k đến 1400k ngưỡng hỗ trợ 0,005% Từ Hình 20 thấy rằng, CLOSET có khả mở rộng nhất, chí chạy liệu chứa 600K So với CHARM, CLOSET+ không chạy nhanh nhiều, có khả mở rộng tốt nhiều kích thước sở: tỷ lệ độ dốc CHARM cao nhiều so với CLOSET+ Để kiểm tra khả mở rộng CLOSET+ số hạng mục riêng biệt cách sử dụng hàng loạt T10I4D100KPx với item riêng biệt đặt 4333, 13.845, 24.550 29.169 tương ứng, độ hỗ trợ tối thiểu 0,005% Từ Hình 21, 24 thấy ban đầu ba thuật toán có hiệu suất giống số lượng item riêng biệt nhỏ, số lượng item riêng biệt tăng lên, thời gian chạy CHARM CLOSET lớn nhiều so với CLOSET+, có nghĩa CLOSET+ có khả mở rộng tốt so với CHARM CLOSET số lượng item riêng biệt Hình 20: Kiểm tra khả mở Hình 21: Kiểm tra khả mở rộng (T10I4DxP1k) rộng (T10I4D100kPx) Các kết thực nghiệm cho thấy: - Mặc dù CHARM sử dụng kỹ thuật Diffset mà làm giảm không gian sử dụng đáng kể, tiêu thụ nhiều nhớ CLOSET+, số trường hợp, sử dụng nhiều nhớ CLOSET+ - Do kỹ thuật phát triển, chẳng hạn khai thác liệu phương pháp chiếu, phương pháp item-skipping, kỹ thuật subset-checking (tức kiểm tra subset kết hay FP), CLOSET+ nhanh CLOSET, hiệu với độ hỗ trợ thấp, trường hợp CLOSET CHARM chạy - CLOSET+ có khả mở rộng tuyến tính có nhiều khả mở rộng so với CHARM CLOSET kích thước sở số lượng item riêng biệt 25 CHƯƠNG 5: KẾT LUẬN Trong nghiên cứu báo này, tác giả kiểm tra lại số phương pháp khai thác tập phổ biến đóng trước chủ yếu tập trung vào kỹ thuật phát triển cho CLOSET+, khả mở rộng, thời gian chạy sử dụng nhớ với liệu dày đặc thưa thớt, phân bố liệu ngưỡng hỗ trợ khác Việc đánh giá hiệu toàn diện nghiên cứu cho thấy rằng: - Đối với khai thác tập phổ biến đóng, ta nên khai thác mô hình đóng thay tất mô hình phổ biến ý nghĩa không thay đổi khiến cho kết nhỏ gọn, có ý nghĩa dường hiệu tốt - Có nhận định là: Các thuật toán dựa định dạng dọc tốt so với định dạng ngang Qua nghiên cứu cho thấy thuật toán dựa định dạng dọc cần để xác định tids có khả nhiều nhớ thuật toán dựa FP - Hơn nữa, tích hợp kỹ thuật tối ưu hóa cho database projection, giảm không gian tìm kiếm, mô hình closure-checking cần thiết cho việc khai thác mô hình hiệu suất cao Thông thường, đặc điểm liệu khác yêu cầu phương pháp khai thác khác nhau, ví dụ CLOSET+, chiếu ảo từ xuống kiểm tra subset FP cho liệu thưa thớt, liệu dày đặc dùng phương pháp chiếu thực từ lên kiểm tra kết Hiện CLOSET+ sử dụng thành công để khai thác luật kết hợp không sinh ứng viên Trong tương lai, tác giả khám phá nhiều ứng dụng hơn, kết hợp dựa phân lớp, gom cụm phân tích tính lệ thuộc/ liên kết tập liệu lớn 26 TÀI LIỆU THAM KHẢO [1] Jianyong Wang, Jiawei Han, Jian Pei, CLOSET+: Searching for the Best Strategies for Mining Frequent Closed Itemsets*, 2003, pp 236-245 [2] J Pei, J Han, and R Mao CLOSET: An efficient algorithm for mining frequent closed itemsets In DMKD'00, May 2000 [3] M Zaki and C Hsiao CHARM: An efficient algorithm for closed itemset mining In SDM'02, April 2002 27 [...]... tìm tập phổ biến đóng với tiền tố pmc: 2, pmf: 2, hoặc pma: 2 8 (2) Thứ hai, chúng ta sẽ không tìm tập đóng với tiền tố pa: 2 Bởi vì pa: 2 là một tập con riêng của tập đã được khai thác pmafc: 2 với độ hỗ trợ bằng nhau, theo phương pháp “sub-itemset pruning”, không cần khai thác tập đóng với tiền tố pa: 2 (3) Tương tự như vậy, tiền tố pf: 2 có thể không được sử dụng để khai thác bất kỳ một tập đóng. .. không khai thác tập phổ biến với tiền tố pc: 3, bởi theo con trỏ liên kết item c của Hình 2(b), có thể thấy cơ sở điều kiện của nó là rỗng, chúng ta chỉ cần xuất tiền tố pc: 3 như một ứng viên cho tập phổ biến đóng Cho đến bây giờ tất cả các tập phổ biến đóng cho tiền tố p: 3 đã được khai thác Tương tự như vậy, chúng ta có thể xây dựng phép chiều thực cây FP cục bộ từ cây FP toàn cục và khai thác tập phổ. .. thể khai thác tập phổ biến đóng với tiền tố fa: 3 nhưng không có c Tương tự, chúng ta có thể khai thác tập đóng với tiền tố fb nhưng không có c và a, với fm nhưng không có c, a và b, và chỉ với fp Như minh họa trong ví dụ trên, chúng ta cần phải làm hai bước trong quá trình khai thác tập phổ biến đóng cho một tiền tố nhất định: (1) Tìm cây con của nó bằng cách đi theo con trỏ liên kết và khai thác. .. quả của Kiểm tra Subset Khi chúng ta có được một tập tiền tố phổ biến mới, chúng ta cần phải làm hai loại kiểm tra tập đóng: superset-checking kiểm tra tập phổ biến mới này có phải là tập cha của một số tập ứng viên đóng với cùng độ hỗ trợ, trong khi subset-checking kiểm tra tập phổ biến mới được tìm thấy có là một tập con của một ứng viên tập phổ biến đóng đã tìm thấy với cùng độ hỗ trợ không? Bởi vì... c, , Và cuối cùng là khai thác các mô hình chỉ chứa p Tại một số điểm mà chúng ta muốn khai thác các mô hình với tiền tố ca: 3, chúng ta sẽ tìm thấy rằng ca:3 là một tập hợp con riêng của tập phổ biến đóng fcam: 3 đã tìm thấy với cùng độ hỗ trợ, ta có thể dừng khai thác các mô hình đóng với tiền tố ca: 3 6 CHƯƠNG 3: CLOSET+ : MỘT PHƯƠNG PHÁP HIỆU QUẢ CHO KHAI THÁC TẬP PHỎ BIẾN ĐÓNG Trong phần này sẽ... như vậy, chúng ta không cần phải khai thác tập đóng với tiền tố fcm: 3, nhưng các nút con ở dưới các nút m: 2 và m: 1 nên được liên kết từ Hfc: 3, như thể hiện trong Hình 4 (d) Khi ta khai thác của tập đóng với tiền tố fcamp: 2, ta tìm thấy những cây con dưới nút p: 2 là rỗng, ta sẽ xuất fcamp: 2 như là một ứng cử viên tập phổ biến đóng và dừng khai thác tập phổ biến đóng với tiền tố fc: 3 Thứ hai,... kết luận X là tập phổ biến đóng và phải bổ sung vào cây RTree Ngược lại thì không phải là tập phổ biến đóng Hình 1 (a) Tập phổ biến đóng Ví dụ 5 Dựa vào tìm kiếm theo chiều sâu, tập đóng thể hiện trong hình 1(a) sẽ được khai thác và chèn vào cây kết quả theo thứ tự sau: f: 4, fcam: 3, fcamp: 2, fb: 2, c: 4, cb: 2, cp: 3, và b: 3 Hình 5 mô tả tình trạng của cây kết quả sau khi chèn tập đóng c: 4 Với... mọi giao dịch chứa tập item đang chiếu thì kết luận tập item đang chiếu không thể là tập phổ biến đóng Hàm CheckSubset_FPtree( ) INPUT: Cây FP-Tree toàn cục, tập phổ biến X OUTPUT: Kết luận tập X có phải là tập phổ biến đóng hay không Các bước thực hiện: Bước 1: Gán max = thứ tự lớn nhất trong số các item trong X theo f-list Bước 2: Duyệt lần lượt các giao dịch Ti có chứa tập phổ biến X dựa trên cây... lên, chúng ta sẽ khai thác các tập phổ biến đóng với tiền tố p: 3 từ cây FP chiếu này (1) Trước tiên, chúng ta khai thác tập đóng với tiền tố pm: 2 Bằng việc theo con trỏ liên kết của “m” trong Hình 2 (b), chúng ta xây dựng cơ sở điều kiện của tiền tố pm:2 là TDB|pm:2= {cfa : 2} Theo kỹ thuật “item merging”, tiền tố pm:2 có thể được sáp nhập với tập cfa:2 để tạo thành một tập phổ biến đóng pmcfa: 2,... toàn cục có đầy đủ thông tin về toàn bộ tập phổ biến đóng, do đó ta có thể dùng cây FP toàn cục để kiếm tra một tập phổ biến mới vừa tìm được là đóng Trong cách này, ta không cần bổ sung bất kỷ bộ nhớ nào để lưu tập đóng đã được khai thác trước đó và một lần một tập item mới tìm được được kiểm tra, nó sẽ được lưu trực tiếp vào một file kết quả F Vậy làm thế nào để kiểm tra subset dựa trên cây FP Như ... vài 3.1 Tổng quan CLOSET+ CLOSET+ xậy dựng dựa theo mô hình chia để trị tìm kiếm theo chiều sâu Nó sử dụng kỹ thuật nén FP Tìm kiếm theo chiều sâu chiều ngang dựa phương pháp CLOSET+ tính toán... cạnh tranh với CLOSET+ Hình hình hiển thị kết thực nghiệm cho liệu mushroom gazelle Như nhìn thấy hình 6, liệu dày đặc mushroom, CLOSET+ luôn nhanh so với OP ngưỡng hỗ trợ giảm, CLOSET+ nhanh... suất sử dụng nhớ CLOSET+ với CHARM CLOSET Đối với liệu dày đặc connect, kết hiển thị Hình Hình Hình cho thấy CLOSET+ nhanh CLOSET Khi độ hỗ trợ không thấp (tức cao so với 20%), CLOSET+ nhanh CHARM

Ngày đăng: 26/03/2016, 16:23

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan