Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 23 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
23
Dung lượng
0,97 MB
Nội dung
TRƯỜNG ĐẠI HỌC BÁCH TIỂU LUẬN MÔN KHOA HỌC HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN TRÍ TUỆ NHÂN TẠO NÂNG CAO Nội dung: Phương pháp học tăng cường ứng dụng TIỂU LUẬN MÔN HỌC Giáo viên hướng dẫn: TS Nguyễn Thanh Thủy TRÍ TUỆ NHÂN NÂNG Nhóm học viên thực TẠO hiện: Nguyễn Trung CAO Kiên Nội dung: Lớp cao học CNTT : 10B CNTT-HV PHƯƠNG PHÁP KHAI PHÁ LUẬT KẾT HỢP SONG SONG TRONG KHAI PHÁ DỮ LIỆU Giáo viên hướng dẫn : GS.TS Nguyễn Thanh Thủy Nhóm học viên thực : Đinh Thái Sơn Phạm Đức Thọ Lớp cao học CNTT : 10B CNTT-HV PHÚ THỌ 12-2010 PHƯƠNG PHÁP KHAI PHÁ LUẬT KẾT HỢP SONG SONG TRONG KHAI PHÁ DỮ LIỆU I.Các thuật toán song song 1.1 Nguyên lý thiết kế thuật toán song song Những thuật toán, có số thao tác thực đồng thời gọi thuật toán song song Tổng quát hơn, thuật toán song song tập tiến trình tác vụ thực đồng thời trao đổi liệu với để kết hợp giải toán đặt Có năm nguyên lý việc thiết kế thuật toán song song: 1 Các nguyên lý lập lịch: Giảm thiểu xử lý sử dụng thuật toán cho thời gian tính toán không tăng (xét theo khía cạnh độ phức tạp) 2 Nguyên lý hình ống: Nguyên lý áp dụng toán xuất dãy thao tác {T1, T2,…, Tn}, Ti+1 thực sau Ti kết thúc 3 Nguyên lý chia để trị: Chia toán thành phần nhỏ hơn, tương đối độc lập với giải chúng cách song song 4 Nguyên lý đồ thị phụ thuộc liệu: Phân tích mối quan hệ liệu tính toán để xây dựng đồ thị phụ thuộc liệu dựa vào để xây dựng thuật toán song song 5 Nguyên lý điều khiển tranh đua: Nếu hai tiến trình muốn truy cập vào liệu chúng phải tương tranh với nhau, nghĩa chúng cản trở lẫn Ngoài ra, thiết kế thuật toán song song cần quan tâm đến vấn đề sau: - Hiệu thực thuật toán song song khác nhau, mà yếu tố quan trọng ảnh hưởng tới độ phức tạp tính toán cấu hình tôpô liên kết mạng đơn vị xử lý - Thuật toán song song phải thiết kế dựa kiến thức kiến trúc máy tính, ngôn ngữ lập trình song song phương pháp tính toán 1.2 Hướng tiếp cận thiết kế thuật toán khai phá luật kết hợp song song Hai hướng tiếp cận thiết kế thuật toán khai phá luật kết hợp song song là: (1) Mô hình song song liệu (2) Mô hình song song thao tác 1.2.1 Mô hình song song liệu Hình 1.1 Mô hình song song liệu Mô hình song song liệu thực thi thao tác giống hay thực thi lệnh tập liệu thời điểm Tất xử lý thực chương trình giống Tuy nhiên, chương trình này, ta sử dụng cấu trúc điều khiển if – then – else để định lệnh thực thi với xử lý nào, tức số phần chương trình thực một vài xử lý Trong mô hình song song liệu, liệu cần phải phân chia thành tập liệu để tăng tốc đạt cách giảm khối lượng liệu cần xử lý xử lý Thuật toán thiết kế dựa vào mô hình song song liệu dễ dàng thực thi, phụ thuộc vào kiến trúc máy tính song song suất cao Tuy nhiên, gặp khó khăn việc cân tải công việc chênh lệch liệu 1.2.2 Mô hình song song thao tác Trong mô hình song song thao tác, xử lý thực thi tập thị khác Các chương trình phối hợp với để hoàn thành mục tiêu Ý tưởng mô hình song song giao tác giảm độ phức tạp giao tác cách chia thao tác thành thao tác nhỏ để thực thi Tập liệu hoạt động chương trình không thiết giống Các thuật toán song song thiết kế dựa vào mô hình song song thao tác có độ phức tạp tính toán nhỏ so với thuật toán thao tác chia thành thao tác nhỏ để dễ xử lý Tuy nhiên, việc thực thi thuật toán lại phụ thuộc vào kiến trúc máy tính song song mang tính chuyên dụng 1.3 Một số thuật toán khai phá luật kết hợp song song 1.3.1 Thuật toán Count Distribution (CD) Thuật toán sử dụng kiến trúc không chia sẻ, xử lý có xử lý nhớ phụ riêng Các xử lý kết nối với mạng truyền thông truyền thông tin cho việc truyền thông điệp Dựa mô hình song song liệu, liệu phân hoạch cho xử lý, xử lý thực thi công việc giống thuật toán Apriori thông tin xử lý phân hoạch liệu Số đếm hỗ trợ tổng thể thiết lập thông qua môi trường truyền thông điệp MPI Hình 1.2 Sơ đồ thuật toán Count Distribution Các kí hiệu sử dụng thuật toán I: Tập mục phân biệt CSDL giao dịch D D1, D2,…, Dp: Các phân hoạch CSDL, p số xử lý minsup: Độ hỗ trợ tối thiểu L: Tập tập mục phổ biến Nội dung thuật toán: Dữ liệu vào: I, minsup, D1, D2, , Dp Ra: L Phương pháp: C1 = I; for (k=1; Ck ≠ φ; k++) begin // bước 1: Tính số đếm hỗ trợ cục count(Ck, Di); // xử lý thứ i // bước 2: Trao đổi số đếm hỗ trợ với xử lý khác để // thu số đếm hỗ trợ D forall tập mục X ∈ Ck begin p X.count = ∑ j =1 Xj.Count ; end; // bước 3: Xác định tập mục phổ biến sinh tập mục // ứng viên Ck+1 Lk = {c c ∈ Ck |c,count ≥ minsup *| D ∪ D2 ∪ … ∪ Dp}; Ck+1 = apriori_gen(Lk); end; return L = L ∪ L2 ∪ … ∪ Lk; Giải thích thuật toán Trong thuật toán CD,CSDL D phân hoạch thành {D1, D2,…, Dp} phân bố cho xử lý Pi (1 ≤ i ≤ p) Thuật toán gồm bước sau: Bước 1: Mỗi xử lý Pi quét phân hoạch CSDL cụ Di để tính số đếm hỗ trợ cục cho tập mục ứng cử C k Bước 2: Mỗi xử lý trao đổi số đếm hỗ trợ cục tập mục ứng cử CSDL D cách sử dụng lệnh MPI_Allreduce MPI Bước 3: Các tập mục phổ biến tổng thể Lk xác định dựa vào ngưỡng hỗ trợ minsup tập mục ứng cử Ck+1 sinh từ Lk cách áp dụng thuật toán apriori_gen() xử lý cách độc lập Thuật toán CD lặp lại bước → không tập mục ứng cử sinh Ví dụ: Cho CSDL giao dịch D, minsup = 33% Phân hoạch D cho xử lý P0, P1 P2, xử lý có hai giao dịch (bảng a), k số vòng lặp Hình 1.3 Phát tập mục phổ biến thuật toán song song CD 1.3.2 Thuật toán Data Distribution (DD) Trong thuật toán DD, CSDL D phân hoạch thành {D1, D2,…, Dp} nên xử lý làm việc với tập liệu không đầy đủ, việc trao đổi liệu xử lý cần thiết Ngoài ra, tập mục ứng cử phân hoạch phân bố cho tất xử lý, xử lý làm việc với tập mục ứng cử Ci khác Hình 1.4 Sơ đồ mô tả thuật toán Data Distribution Nội dung thuật toán: Dữ liệu vào: I, minsup, D1, D2,…, Dp Dữ liệu ra: L Phương pháp: C 1j =1/p * | I |; for (k=1; ≠ φ; k++) begin // bước 1: tính số đếm hỗ trợ cục j count(C k , Di); // xử lý thứ i // bước 2: truyền phân hoạch sở liệu cục đến // xử lý khác, nhận CSDL cục từ xử lý truyền đến, // quét Dj (1 ≤ i ≤ p, j ≠ i) để tính số đếm hỗ trợ tổng thể broadcast(Dj); for (j=1; (j≤ p and j ≠ i); j++) begin receive(Dj); //từ xử lý j count(C kj , Dj); end; i i // bước 3: xác định tập mục phổ biến L k từ C k , // trao đổi với xử lý để thu tập mục phổ biến L k // sinh tập mục ứng cử Ck+1 // phân hoạch Ck+1 phân bố cho tất xử lý L ik = {c | c ∈ C ik | c.count ≥ s * |D1 ∪ D2 ∪ … ∪ Dp|}; p Lk = L ik ; i =1 Ck+1 = apriori_gen(Lk); i C k +1 = 1/p * | Ck+1|; // phân hoạch lại tập mục ứng viên end; return L = L1 ∪ L2 ∪ … ∪ Lk; Thuật toán Data Disbution có bước sau: Bước 1: Mỗi xử lý quét phân hoạch CSDL cục để tính số đếm hỗ trợ cục tập mục ứng cử phân bổ cho Bước 2: Mỗi xử lý truyền phân hoạch CSDL đến xử lý khác nhận phân hoạch CSDL từ xử lý khác truyền đến, Sau quét phân hoạch CSDL nhận được, để tính số đếm hỗ trợ tổng thể tập mục ứng cử CSDL D Bước 3: Mỗi xử lý định tập mục phổ biến từ phân hoạch tập mục ứng cử nó, trao đổi với xử lý khác để nhận tất tập mục phổ biến Lk sau sinh tập mục ứng cử Ck+1 từ Lk, từ phân hoạch Ck+1 phân bố phân hoạch ứng cử cho tất lý Thuật toán DD lặp lại bước → không tập mục ứng cử sinh Phân bố liệu cục thuật toán Thuật toán thông báo đến p-1 hàm nhận đồng MPI để nhận liệu từ xử lý Nếu liệu tập mục nhận từ xử lý khác, trước tiên xử lý xử lý liệu nhận trước xử lý liệu cục Điều tránh tắc nghẽn liệu đường truyền thông hay đệm Nếu liệu nhận, xử lý đọc tập mục (giao dịch) từ liệu cục cập nhật số đếm hỗ trợ cho tập mục ứng cử Khi tất liệu sử dụng để cập nhật tập mục ứng cử cục bộ, giai đoạn tìm tập mục ứng cử cho xử lý Ví dụ: Cho CSDL giao dịch D, minsup = 33% Phân hoạch D cho xử lý P0, P1 P2, xử lý có hai giao dịch (bảng a), k số vòng lặp Thuật toán DD thực (theo thứ tự a, b, c, d, e, f, g, h, i) sau: Hình 1.5: Sơ đồ luồng thuật toán Data Distribution 1.3.3 Thuật toán Candidate Distribution Thuật toán Candidate Distribution thực phân hoạch liệu lẫn tập mục ứng cử Theo cách này, xử lý xử lý độc lập Trong l giai đoạn ( l giá trị heuristic), thuật toán chia tập mục phổ biến L l −1 cho xử lý cho xử lý Pi sinh C im (m ≥l ) độc lập với xử lý khác (C im ∩ C mj = φ, i ≠ j) Trong thời điểm, liệu phân chia lại cho xử lý sinh tập mục ứng cử cách độc lập với tất xử lý khác Tùy vào tính tối ưu việc phân chia tập mục, số phần sở liệu có số xử lý Hình 1.6: Phát tập mục phổ biến thuật toán song song Nội dung thuật toán Giai đoạn k l : 1) Bộ xử lý Pi tập hợp tất tập mục phổ biến mà xử lý khác chuyển đến Chúng sử dụng bước cắt tỉa sinh tập mục ứng cử không sử dụng bước kết nối Các tập mục nhận từ xử lý Pj có độ dài k-1 nhỏ k-1 (nếu xử lý P j chậm hơn) lớn k-1 (nếu xử lý Pj nhanh hơn) Bộ xử lý Pi lưu giữ phần tập mục phổ biến chuyển đến cho xử lý P j Các đệm dùng để nhận tập mục phổ biến phản hồi lại sau xử lý j 2) Pi sinh C kj cách sử dụng L k −1 cục Ta biết Pi j không nhận L k −1 từ tất xử lý khác, nên Pi phải thận trọng lúc cắt tỉa Nó cần phải nhận biết tập mục (một tập k-1-itemset tập mục ứng cử) mặt với tập mục có j mặt số L k −1 tập chưa nhận xử lý Pi Pi nhận j biết cách khảo sát L l −1 sử dụng phần tiền tố với độ dài 1-1 tập j mục cần xem xét, cách tìm kiếm xử lý trả lời kiểm tra L k −1 nhận từ xử lý 3) Pi thiết lập giai đoạn Di đếm Sau Pi sinh L ik từ C ik truyền dị L ik đến xử lý khác N-1 phép chuyển dị Phân hoạch CSDL Có thể mô tả thuật toán phân hoạch Lk qua ví dụ sau: Cho L3 {ABC, ABD, ABE, ACD, ACE, BCD, BCE, BDE, CDE} Sau đó: L4 = {ABCD, ABCE, ABDE, ACDE, BCDE} L5 = {ABCDE}; L6 = {} Để ý đến tập L3, Z = {ABC, ABD, ABE} có phần tiền tố chung AB tập ứng cử ABCD, ABCE, ABDE, ABCDE có phần tiền tố AB Hàm apriori_gen() sinh tập mục ứng cử cách nối item Z Do đó, giả sử rằng, mục tập mục thứ tự, ta phân chia tập mục L3 dựa vào phần tiền tố chung có độ dài (k-1) Đảm bảo phân hoạch gán cho nhiều xử lý sinh tập mục ứng cử cách độc lập (chưa tính đến bước cắt tỉa) Việc phân chia lại CSDL giao dịch theo cách: Bất kỳ bó giao dịch mà hỗ trợ cho tập mục chứa Lk mà tập mục gán cho xử lý bó giao dịch chép sang ổ đĩa cục xử lý Chính mà xử lý xử lý toàn dị bội 1.3.4 Thuật toán song song Fp-Growth Thuật toán này, ta xây dựng số Fp-tree cục môi trường nhớ phân tán sử dụng mô hình “Chủ - Tớ” Dựa chiến lược lập lịch làm việc động giai đoạn hợp mẫu điều kiện sở giai đoạn khai phá để cân khối lượng công việc trình thực thi Khai phá tập mục song song Thuật toán khai phá mẫu phổ biến song song gồm hai nhiệm vụ sau: (1) Xây dựng song song FP-Tree Giai đoạn đầu thuật toán khai phá song song xây dựng FP-Tree đồng thời xử lý Tương tự thuật toán CD, ta chia CSDL giao dịch D cho P xử lý Đảm bảo xử lý có N/P giao dịch (DN/P), N P tổng số giao dịch CSDL số xử lý Việc phân hoạch CSDL D cho P xử lý thực cách ngẫu nhiên Sau phân hoạch liệu, công việc xác định 1- itemset phổ biến (F1-itemset) trước xây dựng FP-Tree cục bộ, Mỗi xử lý tính toán đếm hỗ trợ (flocal(i)) mục i cách quét phân hoạch CSDL cục DN/P, tất xử lý đếm flocal(i) cục đến xử lý Chủ Bộ xử lý Chủ tập hợp tất mục kết hợp chúng lại để sinh số đếm hỗ trợ tổng thể (fglocal(i)) Sau đó, mục có hỗ trợ nhỏ ngưỡng hỗ trợ minsup lược bỏ Tập 1-itemset phổ biến thu truyền cho tất xử lý nhóm Bước xây dựng FP-Tree cục bộ, Mỗi xử lý quét CSDL cục DN/P chèn mục phổ biến vào FP-Tree, Việc xây dựng FP-Tree xử lý với CSDL cục giống thuật toán Ví dụ: Cho CSDL với 12 giao dịch 10 mục (0, 1,…, 9) hình 1.7 CSDL D phân hoạch cho xử lý P0, P1, P2 Mỗi xử lý có số giao dịch Với ngưỡng hỗ trợ 6, ta xác định nhanh số đếm hỗ trợ cho mục sau {3:11, 8:9, 5:8, 6:7, 0:7, 7:7} Hình 1.7 FP-Tree cục ban đầu xây dựng P0, P1, P2 Hình 1.7: Các phân hoạch CSDL FP-Tree cục ban đầu (2) Khai phá song song sinh tập mục phổ biến Phương pháp khai phá bao gồm số giai đoạn sau: Trong giai đoạn đầu, ta xét toàn FP-Tree tạo mẫu điều kiện sở Trong giai đoạn tiếp theo, ta tập hợp mẫu điều kiện sở từ xử lý để xây dựng FPTree điều kiện sở (CFPT) cho mục phổ biến Giai đoạn cuối thực thi việc khai phá cách xây dựng đệ qui mẫu điều kiện sở CFPTs sinh tất tập mục phổ biến Xây dựng mẫu điều kiện sở Mỗi xử lý thăm bảng tiêu đề (1-itemset phổ biến cục bộ) theo hướng từ xuống tạo mẫu điều kiện sở cho mục phổ biến Quá trình xây dựng mẫu điều kiện sở minh họa bảng 1.8 Xây dựng FP-Tree điều kiện sở Khi tất mẫu điều kiện sở tìm được, FP-Tree điều kiện xây dựng cách hợp mẫu điều kiện sở Với mục phổ biến, mẫu điều kiện sở hợp cho số đếm hỗ trợ mục giống tăng lên để tính số đếm hỗ trợ tổng thể Nếu số đếm hỗ trợ tổng thể mục mà nhỏ ngưỡng hỗ trợ tối thiểu, mục lược bỏ khỏi FP-Tree điều kiện Quá trình minh họa bảng 1.8 với ngưỡng hỗ trợ tối thiểu 6.0 Để sinh FP-Tree điều kiện ta sử dụng mô hình Chủ - Tớ Bộ xử lý Chủ chuyển mục cần khai phá cho xử lý Tớ Các xử lý Tớ sinh FP-Tree điều kiện cho mục đó, xử lý Tớ hoàn thành việc sinh FP-Tree điều kiện, chuyển mã thông báo đến xử lý Chủ yêu cầu mục Nhiệm vụ xử lý chủ lắng nghe yêu cầu đến từ xử lý Tớ Nó trả lời cách chuyển mục đến xử lý Tớ Khi mà xử lý Tớ nhận mục từ xử lý Chủ chuyển đến, bắt đầu sinh CFPT cho mục Chi phí truyền thông thuật toán tương đối thấp xử lý chuyển mã thông báo Hơn nữa, khối lượng công việc cân xử lý nhóm xử lý Tớ hoàn thành nhiệm vụ nhận nhiệm vụ khác Items Các mẫu điều kiện sở Các FP-Tree điều kiện P0 P1 983:10659 83:1063:1 P2 065983: 165:1 Trước lượt bỏ Sau lượt bỏ : (3:6, 8:5, 9:5, (3 : 6) 3:1 5:4, 6:5, 0:4) 65983:16 3:1 593:165 983:1 83:165983: 1983:1 (3:7, 8:5, 9: 5, 5:4, 6:4 ) (3 : 7) 5983:23:1 5983:1 5:1 5983:2 (3:6, 8:5, 9:5, 5:6) (3:6, 5:6) 983:2 93:198 3:2 983:2 (3:7, 8:6, 9:7) (3:7, 8:6, 9:7) 83:3 3:183:2 83:3 (3:9, 8:8) (3:9, 8:8) 3:3 ∅ 3:2 ∅ 3:4 ∅ (3 : 9) ∅ (3 : 9) ∅ Bảng 1.8: Các mẫu điều kiện sở FP-Tree điều kiện sở Sinh tập mục phổ biến Sinh tập mục phổ biến cách xây dựng lầm lượt mẫu điều kiện sở điều kiện FP-Tree xử lý Khi nhánh FP-Tree điều kiện xây dựng, ta thu tập hợp mục khả thuật toán FP-Growth Mô hình song song áp dụng mô hình Chủ - Tớ Bộ xử lý Chủ chuyển mục sở cần khai phá cho mục sinh tập mục phổ biến Trong mô hình này, xử lý Tớ hoàn thành nhiệm vụ, nhận nhiệm vụ khác lập tức, điều làm cho xử lý bận kết thúc trình khai phá Ở đây, việc cân đối khối lượng công việc xảy thời gian thực thi (runtime) Mô hình Chủ - Tớ trì tất tập mục phổ biến sinh ứng với mục phổ biến F1-itemset Sau tất xử lý Tớ chuyển tập mục phổ biến mà sinh đến xử lý Chủ, giai đoạn khai phá kết thúc Tương ứng với mục i ∈ F1-itemset, tập mục phổ biến sinh đệ quy mẫu điều kiện sở FP-Tree điều kiện hình 1.9 Ở đây, ta có xử lý xử lý Tớ P1, P2 sinh tập mục phổ biến; Hình 1.9 tập mục phổ biến CSDL D Hình1.9: Quá trình sinh tập phổ biến xử lý P1 P2 Nội dung thuật toán FP-Growth Vào: Các phân hoạch CSDL DN/P minsup Ra: Tập mục phổ biến Phương pháp: 1) Quét CSDL cục DN/P; 2) Tính số đếm hỗ trợ cục mục i f local(i); 3) if (Bộ xử lý chủ) then 4) for (mỗi Bộ xử lý Tớ) 5) Nhận flocal(i); 6) Gán F1-itemset = {i| ∑flocal(i); ≥ minsup, ∀ i} truyền F1-itemset đến Bộ xử lý Tớ 7) else Chuyển flocal(i), ∀ i đến Bộ xử lý chủ Nhận 1-itemset phổ biến F1-itemset; 8) Xây dựng FP-Tree cục FPTlocal mục F1-itemset cách quét DN/P cục 9)Duyệt toàn FPTlocal sinh mẫu điều kiện sở truyền đến tất xử lý; 10)if (Bộ xử lý chủ) then begin 11) for(mỗi mục phổ biến i ∈ F1-itemset) // Lập lịch tạo CFPTs 12) Nhận yêu cầu Bộ xử lý Tớ chuyển mục i; 13) for(mỗi mục phổ biến i ∈ F1-itemset) // Lập lịch cho việc khai phá 14) Nhận yêu cầu Bộ xử lý Tớ chuyển mục i cần khai phá; 15) for(mỗi Bộ xử lý Tớ) 16) Tập hợp tập mục phổ biến xuất tất tập mục phổ biến; 17) end 18) else //hợp mẫu điều kiện sở 19) Yêu cầu mục i sinh FP-Tree điều kiện CFPTi cho mục i; 20) until (hết mục phổ biến); 21) Truyền CFPTs đến tất Bộ xử lý (từ Bộ xử lý Chủ) nhận tất CFPTs; 22) 23) Yêu cầu mục i gọi FP-Growth-OneItem (CFPTs, null i); 24) until (hết mục phổ biến); 25) Chuyển tập mục phổ biến đến Bộ xử lý Chủ; Thủ tục FPGrowth-OneItem (Tree, α, i) Phương pháp: 1) if(Tree chứa đường dẫn đơn) and (i ≠ null) then 2) Sinh tập mục có độ hỗ trợ ≥ minsup tổ hợp nút đường dẫn 3) else if(i ≠ null) then 4) Sinh tập mục β = i ∪ α Xây dựng mẫu điều kiện sở β CFPTβ 5) else for i bảng tiêu đề Cây 6) Sinh tập mục β = i ∪ α Xây dựng mẫu điều kiện sở β CFPTβ 7) if CFPTβ ≠ ∅ then FP-Growth-OneItem(CFPTβ, β, null); 3.3.5 Thuật toán song song Eclat 1) Nhóm tập mục giao dịch Phương pháp để nhóm tập mục phổ biến có liên quan với cách sử dụng lược đồ phân chia lớp tương đương Mỗi lớp tương đương chứa tập mục ứng cử quan hệ tương đương với Bên cạnh, ta sử dụng kỹ thuật tổ chức CSDL theo chiều dọc để nhóm giao dịch có liên quan với Phân lớp tương đương Gọi Lk tập itemset phổ biến Không tính tổng quát, giả sử L k xếp theo thứ tự từ điển Ta phân hoạch tập mục L k thành lớp tương đương sau: Nếu phần tử L k có k – thành viên giống chúng thuộc lớp Ký hiệu: Lớp tương đương chứa a Sa = [a] Trong phạm vi lớp, ta sinh k-itemset ứng cử cách kết nối tất | Si |(| Si |-1)/2 cặp với tiền tố định danh lớp Trong đó: |S i| số phần tử lớp có định danh i Các k- itemset ứng cử ứng cử sinh ta từ lớp khác độc lập với Tổ chức sở liệu Thuật toán Eclat sử dụng cách tổ chức liệu theo chiều dọc Với tổ chức liệu theo chiều dọc, CSDL gồm danh sách mục Mỗi mục xác định danh sách định danh giao dịch có chứa mục đó, ký hiệu tid-List Những ưu điểm cách tổ chức theo chiều dọc: - Nếu tid-List theo thứ tự tăng dần độ hỗ trợ k-itemset ứng cử tính toán phép lấy giao tid-List hai (k-1)-subset bất kỳ, Với cách tổ chức này, thuật toán không cần phải trì cấu trúc liệu phức tạp, không băm sinh tất k-subset giao dịch thực thao tác tìm kiếm băm - Các tid-List chứa tất thông tin liên quan tập mục, vậy, tính độ hỗ trợ cho tập mục không cần phải quét toàn CSDL Vì tất thông tin lớp tương đương nhóm nên sinh tập mục phổ biến trước chuyển sang lớp Ví dụ: Giả sử tid-List AB, AC là: T(AB) = {1, 5, 7, 10, 50}; T(AC) = {1, 4, 7, 10, 11} Thì T(AB) ∩ T(AC) cho T(ABC) = {1, 7, 10} Ta tính độ hỗ trợ cách đếm số phần tử tid-List, số phần tử tid-List lớn độ hỗ trợ tối thiểu chèn ABC vào L 2) Thuật toán song song Eclat Nội dung thuật toán Begin /* Pha khởi tạo*/ 1) Duyệt qua phân hoạch CSDL cục 2) Tính toán số đếm hỗ trợ cục cho tất 2-itemset 3) Xây dựng số đếm hỗ trợ tổng thể cho tập mục chứa L2 /*Pha biến đổi*/ 4) Phân hoạch L2 thành lớp tương đương 5) Lập lịch L2 tập xử lý 6) Tổ chức phân hoạch liệu cục theo chiều dọc 7) Truyền tid-List có liên quan tới xử lý khác 8) L2 cục = nhận tid-List từ xử lý khác /*Pha đồng thời*/ 9) forparallel lớp tương E2 L2 cục Compute_Frequent(E2) /*Pha rút gọn*/ 10) Tập hợp kết đưa kết hợp end Giải thích thuật toán 1) Phần khởi tạo Pha khởi tạo bao gồm việc tính toán tất 2-itemset phổ biến CSDL cần khai phá Ta không cần tính số đếm hỗ trợ 1-itemset việc xác định số đếm hỗ trợ 2-itemset đạt lần duyệt CSDL Để tính toán cho 2-itemset, xử lý sử dụng mảng cục tiến hành số hóa mục CSDL theo hai chiều Mặt khác, xử lý tính số đếm hỗ trợ cục cho 2-itemset thực phép lấy tổng rút gọn (sum-reduction) tất xử lý để xây dựng số đếm hỗ trợ tổng thể Kết thúc pha khởi tạo, tất xử lý có số đếm hỗ trợ tổng thể tất 2-itemset phổ biến L CSDL 2) Pha biến đổi gồm bước Bước 1: Đầu tiên L2 phân hoạch thành lớp tương đương Sau lớp tương đương gán cho xử lý cho cân Bước 2: CSDL biến đổi từ định dạng theo chiều ngang thành chiều dọc phân phối lại Do đó, nhớ cục xử lý, tid-List tất 2-itemset lớp tương đương gán cho Lập lịch phân lớp tương đương Đầu tiên, ta phân hoạch L2 thành lớp tương đương cách sử dụng tiền tố chung mô tả Tiếp theo, phân chia cho xử lý lớp tương đương Mỗi lớp tương đương gán trọng số dựa vào số phần tử lớp Vì phải khảo sát tất cặp bước lặp tiếp theo, nên ta gán trọng số cho lớp với m số phần tử lớp tương đương tương ứng Sắp xếp lớp dựa theo trọng số gán cho xử lý nạp nhất, nghĩa xử lý có trọng số toàn phần lớp nhỏ Nếu ước lượng tốt số tập mục phổ biến mà nhận từ lớp tương đương sử dụng ước lượng làm trọng số Trong phạm vi lớp, lấy độ hỗ trợ trung bình tập mục làm trọng số Biến đổi CSDL theo chiều dọc Sau phân hoạch lớp tương đương cân xử lý, ta biến đổi CSDL cục từ định dạng theo chiều ngang theo chiều dọc Điều thực bước: Bước 1: Mỗi xử lý duyệt CSDL cục xây dựng tid-List cục cho tất 2-itemset Bước 2: Mỗi xử lý cần xây dựng tid-List toàn cục cho tập mục lớp tương đương Do đó, phải gửi tid-List cho xử lý khác nhận tid-List từ xử lý khác gửi đến 3) Pha đồng thời Cơ sở liệu phân bố lại, tid-List tất 2itemset lớp tương đương cục thường trú đĩa cục Mỗi xử lý tính toán tất tập mục phổ biến cách độc lập Nó đọc trực tiếp từ nhớ cục tid-List 2-itemset, sau sinh tất tập mục phổ biến trước chuyển sang bước tiếp theo, bước bao gồm việc quét phân hoạch CSDL cục biến đổi lần Trong phạm vi lớp tương đương, cần khảo sát tất cặp 2itemset thực lấy giao tid-List tương ứng Nếu số phần tử tid-List kết lớn độ hỗ trợ tối thiểu tập mục bổ sung vào L3 Sau đó, tiếp tục phân hoạch L3 thành lớp tương đương dựa tiền tố chung độ dài Quá trình lặp lại thủ tục thực sau: Begin Compute_Frequent(Ek-1) for tất itemset I1 I2 Ek-1 if((I1.tidList ∩ I2tidList) ≥ minsup) Bổ sung (I1 ∪ I2) vào Lk; Phân hoạch Lk thành lớp tương đương; forparallel lớp tương đương Ek Lk Compute_Frequent(Ek); End Compute_Frequent 4) Pha rút gọn Tại thời điểm cuối pha đồng thời, trích rút kết từ xử lý đưa kết Quá trình thực bước truyền thông khác thuật toán *) Giai đoạn khởi tạo: Khi thu số đếm hỗ trợ tất 2-itemset, ta cần thực phép lấy tổng rút gọn để tính số đếm tổng thể Ta định mảng kích thước (m số mục) vùng kênh nhớ dùng chung, sau xử lý truy cập mảng chung (theo phương thức loại từ lẫn nhau) để tăng số đếm hỗ trợ hành lên số đếm hỗ trợ cục đợi rào chắn xử lý cuối thực xong việc truy cập mảng dùng chung để tăng số đếm hỗ trợ Các số đếm hỗ trợ cục sử dụng để xây dựng tid-List đảo toàn cục *) Giai đoạn biến đổi Mỗi xử lý quét phân hoạch CSDL cục lần thứ hai xây dựng tid-List theo chiều dọc tất 2-itemset phổ biến L Vì CSDL gốc ban đầu phân hoạch theo dạng khối nên CSDL đảo xử lý gồm vùng định danh không liên tiếp Ta sử dụng thông tin với thông tin số đếm hỗ trợ cục để đặt tid-List xử lý khác gửi đến vào khoảng trống thích hợp, tid-List toàn cục thu xuất theo thứ tự từ điển, Với lưu giữ này, tiết kiệm chi phí xếp cho tid-List giao dịch phân tán cách ngẫu nhiên Quá trình biến đổi hoàn thành qua bước sau: Bước 1: Biến đổi tid-List cục Trước tiên, ta chia L2 thành hai nhóm Các tập mục thuộc lớp tương đương mà gán cho xử lý cục bộ, kí hiệu G, tập mục lại thuộc lớp tương đương khác, kí hiệu R Với xử lý P i, nhớ dành vùng nhớ có kích thước Với g ∈ G, r ∈ R: tập mục partial_count(r, Pi): Số đếm hỗ trợ tập mục r xử lý Pi Sau đó, xử lý thực việc biến đổi ghi tid-List phần tử G vào khoảng trống thích hợp Các phần tử R để trống Hình 1.10 mô tả bước biến đổi CSDL ba xử lý: Phân chia L2 thành lớp tương đương gán cho xử lý P 0, P1, P2 P0 – (12, 13, 15); P1 – (23, 25); P2 – (34, 35) Kí hiệu: tid- List P0, P1, P2 là: Hình 1.10: Quá trình chuyển đổi CSDL theo chiều dọc Bước 2: Truyền tid-List Một việc biến đổi CSDL cục hoàn thành, ta cần phải nhận tidList tất 2-itemset G từ xử lý khác truyền đến truyền tid-List R đến xử lý khác Các tid-List đến chép vào khoảng trống thích hợp Vì phần giao dịch phân biệt tăng đều, tid-List tập mục G viết đĩa, R bị loại bỏ Để truyền tid-List cục qua kênh nhớ, sử dụng lợi việc truyền thông điệp nhanh mức người sử dụng Mỗi xử lý xác định kích thước đệm (2MB) cho vùng truyền, vùng nhận dùng chung định danh Việc truyền thông tiến hành theo cách khóa luân phiên pha ghi đọc Trong pha ghi, xử lý ghi tid-List tập mục P vào vùng truyền đạt đến giới hạn không gian đệm Tại thời điểm này, vào pha đọc, quét vùng nhận xử lý đặt tid-List G vào khoảng trống thích hợp Khi vùng đọc quét xong, vào pha ghi Quá trình lặp lại nhận tất tid-List phận Tại thời điểm cuối pha này, CSDL định dạng theo chiều dọc Sau đó, xử lý vào pha đồng thời tính toán tập mục phổ biến mô tả Việc phép rút gọn cuối thực tương tự phép rút gọn pha khởi tạo 1.4 Phân tích, đánh giá so sánh việc thực thuật toán 1.4.1 Phân tích đánh giá thuật toán song song Đánh giá thuật toán chủ yếu vào thời gian thực tính theo hàm kích cỡ liệu vào (input) Hàm gọi độ phức tạp tính toán thời gian f(n) thuật toán ký hiệu O(f(n)) Một cách hình thức, O() định nghĩa sau: Một thuật toán có độ phức tạp tính toán tính toán f(n) = O(g(x)) Tồn số dương C số nguyên x0 cho ≤ f(x) ≤ C * g(x), với số lượng liệu vào x ≥ x0 O(1) ký hiệu cho số Ngoài ra, độ phức tạp tính toán thuật toán song song phụ thuộc vào kiến trúc máy tính song song số lượng xử lý phép sử dụng hệ thống phụ thuộc vào thời gian trao đổi liệu xử lý Độ phức tạp thời gian thước đo quan trọng đánh giá mức độ hiệu thuật toán song song Giả sử mô hình tính toán có p xử lý; dẫn đến mức độ song song có giới hạn; ngược lại, không bị giới hạn số lượng xử lý không bị chặn Mức độ hiệu thuật toán thể mức độ song song thuật toán Là số lượng cực đại phép toán độc lập thực đồng thời thời điểm thực thuật toán Ký hiệu p(w) độ song song thuật toán, thuật toán đạt hiệu để giải toán có kích cỡ w thuật toán cần sử dụng nhiều p(w) xử lý Độ phức tạp thời gian thuật toán song song sử dụng p xử lý để giải toán có kích cỡ n hàm f(n, p) xác định thời gian cực đại trôi qua điểm bắt đầu thực thuật toán xử lý thời điểm kết thúc xử lý liệu vào Có hai thao tác khác thuật toán song song: Các phép toán sở như: +, -, *, /, AND, OR,… Các phép truyền liệu kênh truyền Vì độ phức tạp thời gian thuật toán song song xác định số phép toán sở số bước truyền tải liệu xử lý với Nên từ suy ra, độ phức tạp thời gian thuật toán song song không phụ thuộc vào mô hình tính toán mà phụ thuộc vào xử lý sử dụng Định nghĩa liên quan đến độ phức tạp giải thuật song song là: Định nghĩa 1.1: Một thuật toán song song có độ phức tạp tính toán O(t) với p xử lý thực nhiều O(t * p) phép toán sở Định nghĩa 1.2: Một thuật toán song song có độ phức tạp tính toán O(t) sử dụng nhiều xử lý để thực O(e) phép toán sở cài đặt với p xử lý có độ phức tạp thời gian O([e/p]+t) Định nghĩa 1.3: Một thuật toán song song có độ phức tạp tính toán O(t) với p xử lý cài đặt với [p/f] xử lý (1≤ f ≤ p) có độ phức tạp thời gian O(f * t) Ngoài ra, đánh giá thuật toán song song cần phải xét tới độ tăng tốc hiệu suất 1.4.2 So sánh việc thực thuật toán Dựa vào việc thực thi thuật toán CSDL khác cho thấy thuật toán FP-Growth thực thi nhanh nhất, tiếp đến thuật toán Eclat, thuật toán Candidate distribution, CD, DD Việc theo thứ hạng mang tính tương đối, thuật toán có ưu điểm nhược điểm riêng Trong số thuật toán khai phá liệu luật kết hợp song song, thuật toán song song cài đặt dựa thuật toán Apriori (chẳng hạn thuật toán CD, DD, Candidate distribution) sử dụng phổ biến thực thi chúng đơn giản dễ dàng Hơn nữa, luật kết hợp sinh trực tiếp dựa vào cách thức khai phá tập mục Bởi tập mục ứng cử sinh ta tất thông tin tập tính toán Tốc độ thực thuật toán tỉ lệ với số lượng giao dịch gặp khó khăn việc xử lý nhiều mục nhiều mẫu CSDL lớn Thuật toán song song Eclat có ưu điểm tính toán nhanh độ hỗ trợ thông qua tập giao dịch tid-List Thuật toán thiết kế dựa mô hình song song thao tác, có tốc độ thực thi nhanh hệ thống đa xử lý nhớ phân tán Hạn chế chủ yếu thuật toán chúng cần phải sinh phân bố lại tid-List Hơn nữa, với tập mục phổ biến có kích thước lớn, phần chung chủ yếu tid-List lấy giao lặp lại nhiều lần tất tập Để giảm bớt tình trạng này, cách thiết lập tối ưu khác kiểm tra thay đổi tid-List thay cho việc lưu giữ tidList toàn cục thông qua vòng lặp cho giảm đáng kể khối lượng liệu tính toán Thuật toán FP-Growth xử ký lượng lớn CSDL hiệu có tốc độ thực thi tỷ lệ hiệu so với lượng giao dịch lớn, lặp lại nhiều lần hay lặp lại nhiều lần cục giao dịch kết hợp lại tạo thành nhánh FP-Tree Tuy nhiên ích lợi không tăng tăng thêm số lượng xử lý nhiều FP-Tree cho tập giao dịch khác hoàn toàn dư thừa Lợi ích hạn chế CSDL rải rác Thuật toán xử lý số lượng lớn mục việc gán mục cho nhiều xử lý mà không quan tâm không gian lưu trữ tập mục II.KẾT LUẬN Kết đạt Khai phá liệu công đoạn tiến trình lớn , tiến trình khám phá tri thức từ CSDL Phương pháp khai phá liệu là: phương pháp sử dụng định luật, phương pháp quy nạp, phương pháp phát luật kết hợp, phương pháp dựa mẫu, mô hình phụ thuộc dựa đồ thị xác suất, phương pháp phân lớp hồi quy phi tuyến tính…, phương pháp áp dụng liệu thông thường tập mờ Về thuật toán khai phá luật kết hợp tiểu luận trình bày chi tiết thuật toán song song Count Distribution, Data Distribution, Candidate Distribution, Eclat, FP-Growth Việc đánh giá thuật toán làm rõ chất luật kết hợp nội dung trình bày tiểu luận Hướng nghiên cứu Trên sở nghiên cứu trình bày tiểu luận,nhóm tiếp tục nghiên cứu sâu thuật toán khai phá luật kết hợp song song , tìm cách cải tiến nhằm khắc phục nhược điểm thuật toán song song có thuật toán khai phá liệu song song khác để áp dụng vào số toán khai phá liệu phù hợp cho giai đoạn như: quy luật thị trường, chứng khoán bất động sản, dự đoán rủi ro tín dụng, định hướng kinh doanh, y tế… Trong trình học tập, tìm hiểu nghiên cứu với khoảng thời gian làm tiểu luận, nhóm cố gắng tập trung tìm hiểu tham khảo tài liệu liên quan Tuy nhiên thời gian nghiên cứu có hạn nên không tránh khỏi thiếu sót mong nhận nhận xét đóng góp ý kiến thầy để tiểu luận hoàn thiện III.TÀI LIỆU THAM KHẢO Tiếng việt 1 Nguyễn Thanh Thủy (2003), Phát tri thức khai phá liệu: Công cụ, phương pháp ứng dụng, Hà Nội Nguyễn Thanh Bình (2007), Khai phá liệu: Khái niệm kỹ thuật, Huế Đỗ Phúc (2006), Giáo trình khai phá liệu, Nxb Đại học Quốc gia TP Hồ Chí Minh Hồ Thuần, Hồ Cẩm Hà (2006), Các hệ sở liệu Lý thuyết Thực hành, Tập 2, Nxb Giáo dục Đoàn Văn Ban, Nguyên Mậu Hân (2006) Xử lý song song phân tán, Nxb Khoa học & Kỹ thuật, Hà Nội Tiếng Anh A Savaere, E Omiecinski and S.Navathe (1995), An efficient algorihm for mining association rules in large databases, In 21st VLDB Con& Agrawal and J.Shafer (1996), Parallel mining of association rules, In IEEE Trans, on Knowledge and Data Engg, pages 8(6): 962 – 969 CAI, Chun Hing (1998), Mining Association Rules With Weighted Items, The Chinese University of Hong Kong, August H.Mannila, H Toivonen and I.Verkamo (1994), efficient algorithms for discovering association rules, In AAAI Wkshp, Knowledge Discoverry in Databases, July 10 J.Han, J.Pei and Y.Yin (2000), Mining Frequent Pattens Without Candidate Generation, In ACM SIGMOD 6 11 J.S.Park, M.Chenand P.S.Yu (1995), Efficient parallel data mining for association rules, In ACM Intl, Conf Information and Knowledge Management, November 12 Jiamwei Li, Ying Lui, Wei-Keng Liao, Alok Choudhay (2006), Parallel Data Mining Algorithms for Association Eules and Clustering, by CRC Press, LLC 13 Kwok-Leung Tsui, Victoria C,P Chen, Wei Jiang, Y Alp Aslandogan, (2001), Data Minning Methods and applications Địa Internet 14 http://www.cs.cmu.edu/~scandal/nesl/algorithms.html 15 http://computing.llnl.gov/tutorials/parallel_comp/index.html 16 MPI home page.http://www.mcs.anl.gov/mpi [...]... II.KẾT LUẬN 1 Kết quả đạt được Khai phá dữ liệu là một công đoạn trong tiến trình lớn , tiến trình khám phá tri thức từ CSDL Phương pháp khai phá dữ liệu có thể là: phương pháp sử dụng cây quyết định và luật, phương pháp quy nạp, phương pháp phát hiện luật kết hợp, các phương pháp dựa trên mẫu, mô hình phụ thuộc dựa trên đồ thị xác suất, các phương pháp phân lớp và hồi quy phi tuyến tính…, các phương. .. cơ sở những nghiên cứu đã được trình bày trong tiểu luận,nhóm tiếp tục nghiên cứu sâu hơn các thuật toán khai phá luật kết hợp song song , tìm cách cải tiến nhằm khắc phục các nhược điểm của các thuật toán song song hiện có và các thuật toán khai phá dữ liệu song song khác để áp dụng vào một số bài toán khai phá dữ liệu phù hợp cho giai đoạn hiện nay như: quy luật thị trường, chứng khoán và bất động... Phát hiện tri thức và khai phá dữ liệu: Công cụ, phương pháp và ứng dụng, Hà Nội 2 Nguyễn Thanh Bình (2007), Khai phá dữ liệu: Khái niệm và kỹ thuật, Huế 2 3 Đỗ Phúc (2006), Giáo trình khai phá dữ liệu, Nxb Đại học Quốc gia TP Hồ Chí Minh 3 4 Hồ Thuần, Hồ Cẩm Hà (2006), Các hệ cơ sở dữ liệu Lý thuyết và Thực hành, Tập 2, Nxb Giáo dục 4 5 Đoàn Văn Ban, Nguyên Mậu Hân (2006) Xử lý song song và phân tán,... có những ưu điểm và nhược điểm riêng Trong số các thuật toán khai phá dữ liệu luật kết hợp song song, các thuật toán song song được cài đặt dựa trên thuật toán Apriori (chẳng hạn như thuật toán CD, DD, Candidate distribution) được sử dụng phổ biến bởi vì thực thi chúng đơn giản và dễ dàng Hơn nữa, các luật kết hợp có thể được sinh trực tiếp dựa vào cách thức khai phá tập mục Bởi vì các tập mục ứng cử... phi tuyến tính…, các phương pháp trên có thể áp dụng trên dữ liệu thông thường và trên tập mờ 1 Về thuật toán khai phá luật kết hợp tiểu luận đã trình bày chi tiết các thuật toán song song như Count Distribution, Data Distribution, Candidate Distribution, Eclat, FP-Growth Việc đánh giá thuật toán làm rõ bản chất của luật kết hợp cũng là một trong những nội dung được trình bày trong tiểu luận 2 Hướng nghiên... FP-Tree cục bộ ban đầu (2) Khai phá song song và sinh tập mục phổ biến Phương pháp khai phá bao gồm một số giai đoạn sau: Trong giai đoạn đầu, ta xét toàn bộ FP-Tree và tạo ra các mẫu điều kiện cơ sở Trong giai đoạn tiếp theo, ta tập hợp các mẫu điều kiện cơ sở từ các bộ xử lý để xây dựng FPTree điều kiện cơ sở (CFPT) cho mỗi mục phổ biến Giai đoạn cuối cùng là thực thi việc khai phá bằng cách xây dựng... mọi số lượng dữ liệu vào x ≥ x0 O(1) ký hiệu cho một hằng số bất kỳ Ngoài ra, độ phức tạp tính toán của thuật toán song song còn phụ thuộc vào kiến trúc máy tính song song và số lượng bộ xử lý được phép sử dụng trong hệ thống và do vậy phụ thuộc vào thời gian trao đổi dữ liệu giữa các bộ xử lý Độ phức tạp thời gian là thước đo quan trọng nhất đánh giá mức độ hiệu quả của thuật toán song song Giả sử... gian của thuật toán song song được xác định bởi số các phép toán cơ sở và số các bước truyền tải dữ liệu giữa các bộ xử lý với nhau Nên từ đó suy ra, độ phức tạp thời gian của thuật toán song song không chỉ phụ thuộc vào mô hình tính toán mà còn phụ thuộc vào bộ xử lý được sử dụng Định nghĩa liên quan đến độ phức tạp của giải thuật song song là: Định nghĩa 1.1: Một thuật toán song song có độ phức tạp... được các tập hợp các mục khả năng như trong thuật toán FP-Growth tuần tự Mô hình song song được áp dụng là mô hình Chủ - Tớ Bộ xử lý Chủ chuyển các mục cơ sở cần được khai phá cho các mục này và sinh các tập mục phổ biến Trong mô hình này, khi một bộ xử lý Tớ hoàn thành nhiệm vụ, nó nhận được nhiệm vụ khác ngay lập tức, điều này làm cho các bộ xử lý bận cho đến khi kết thúc quá trình khai phá Ở đây,... gian của thuật toán song song sử dụng p bộ xử lý để giải một bài toán có kích cỡ n là hàm f(n, p) xác định thời gian cực đại trôi qua giữa điểm bắt đầu thực hiện thuật toán bởi một bộ xử lý và thời điểm kết thúc của các bộ xử lý đối với bộ dữ liệu vào bất kỳ Có hai thao tác khác nhau trong các thuật toán song song: Các phép toán cơ sở như: +, -, *, /, AND, OR,… Các phép truyền dữ liệu trên kênh truyền ... khai phá luật kết hợp song song là: (1) Mô hình song song liệu (2) Mô hình song song thao tác 1.2.1 Mô hình song song liệu Hình 1.1 Mô hình song song liệu Mô hình song song liệu thực thi thao... LUẬT KẾT HỢP SONG SONG TRONG KHAI PHÁ DỮ LIỆU I.Các thuật toán song song 1.1 Nguyên lý thiết kế thuật toán song song Những thuật toán, có số thao tác thực đồng thời gọi thuật toán song song Tổng... thực thi Khai phá tập mục song song Thuật toán khai phá mẫu phổ biến song song gồm hai nhiệm vụ sau: (1) Xây dựng song song FP-Tree Giai đoạn đầu thuật toán khai phá song song xây dựng FP-Tree đồng