1. Trang chủ
  2. » Công Nghệ Thông Tin

Một phương pháp khai phá luật kết hợp hiệu quả trong môi trường phân tán

11 21 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Bài báo này đề xuất một thuật toán mới được gọi là EDMAR (an Efficient Distributed algorithm for Mining Association Rules) . Thuật toán này sử dụng thuật toán FP-Growth và cấu trúc FP-Tree để khai phá tập phổ biến cục bộ tại các điểm đã làm giảm số lần quét cơ sở dữ liệu, từ đó tăng hiệu quả khai phá tại các điểm cục bộ.

JOURNAL OF SCIENCE OF HNUE FIT., 2011, Vol 56, pp 29-39 MỘT PHƯƠNG PHÁP KHAI PHÁ LUẬT KẾT HỢP HIỆU QUẢ TRONG MƠI TRƯỜNG PHÂN TÁN Nguyễn Thế Bình(∗) , Lương Thế Dũng Trung Tâm CNTT - Ban Cơ yếu Chính phủ Nguyễn Mạnh Hùng Học viện Kỹ thuật quân Email: (∗) nguyenthebinh81@yahoo.com Tóm tắt Khai phá luật kết hợp môi trường phân tán hướng nghiên cứu quan trọng lĩnh vực khai phá liệu, số thuật toán khai phá luật kết hợp phân tán đề xuất Tuy nhiên việc phát triển thuật toán hiệu vấn đề dành nhiều quan tâm Bài báo đề xuất thuật toán gọi EDMAR (an Efficient Distributed algorithm for Mining Association Rules) Thuật toán sử dụng thuật toán FP-Growth cấu trúc FP-Tree để khai phá tập phổ biến cục điểm làm giảm số lần quét sở liệu, từ tăng hiệu khai phá điểm cục Hơn nữa, EDMAR giảm thiểu số lượng tập ứng cử toàn cục, sử dụng bước đồng bộ, làm tăng hiệu trình khai phá Mở đầu Khai phá luật kết hợp nội dung quan trọng khai phá liệu (KPDL), khởi xướng từ năm 1993 [1] thời điểm có nhiều thuật tốn khai phá luật kết hợp tác giả đưa Quá trình khai phá luật kết hợp chia thành hai tốn: Tìm tất tập mục phổ biến có sở liệu (CSDL) dựa vào ngưỡng độ hỗ trợ tối thiểu tạo luật mong muốn từ tập mục phổ biến với điều kiện chúng thỏa mãn ngưỡng độ tin cậy tối thiểu Trong hai tốn tốn thứ hai đơn giản hơn, hầu hết nghiên cứu luật kết hợp tập trung toán thứ Một thuật toán tiếng Apriori [1], sau có vài thuật toán phát triển dựa Apriori [2, 3] Thuật toán thực bước lặp, bước lặp dùng tập phổ biến (k-1 ) phần tử để tạo tập ứng cử k phần tử, sau duyệt CSDL để đối sánh mẫu đếm số lần xuất của 29 Nguyễn Thế Bình, Lương Thế Dũng, Nguyễn Mạnh Hùng ứng cử viên Từ tìm tập phổ biến k phần tử Q trình lặp kết thúc khơng có tập phổ biến tạo Hạn chế thuật toán Apriori thuật toán dựa vào Apriori việc phải tạo lượng lớn tập ứng cử viên phải duyệt CSDL nhiều lần, số phần tử tập phổ biến có độ dài dài n thuật tốn phải qt CSDL (n+1 ) lần Điều dẫn đến thuật toán hoạt động hiệu Các thuật toán phát triển dựa Apriori có nhiều cải tiến chưa giải tốt vấn đề Gần đây, thuật toán khai phá tập phổ biến FP-Growth [4] sử dụng cấu trúc FP-Tree phát triển JIA WEI HAN có hiệu tốt so sánh với thuật toán Apriori Ý tưởng thuật toán dùng đệ quy để gia tăng độ dài mẫu phổ biến dựa FP-Tree mẫu phân hoạch Ưu điểm thuật tốn khơng tạo tập ứng cử phải quét CSDL hai lần, lần quét thứ để tìm tập phổ biến phần tử lần quét thứ hai để xây dựng FP-Tree Nói chung đến thời điểm thuật tốn FP-Growth đánh giá thuật toán hoạt động hiệu Ngày với phát triển mạnh mẽ công nghệ tính tốn cơng nghệ mạng dẫn đến việc phân tán nguồn liệu Khi liệu lưu trữ CSDL phân tán, thuật toán khai phá liệu phân tán lại cần thiết để khai phá luật kết hợp Khai phá luật kết hợp môi trường phân tán vấn đề phải giải việc sử dụng thuật tốn phân tán mà khơng cần phải trao đổi liệu thô bên tham gia Đến có nhiều thuật tốn khai phá luật kết hợp môi trường phân tán đề xuất, ví dụ thuật tốn phổ biến CD [9], FDM [7], PMFI [6] DMAR [8] Nhìn chung thuật toán thường sử dụng thủ tục (Ví dụ: Apriori_gen) để sinh tập ứng cử phổ biến toàn cục từ liệu cục Sau đó, sử dụng kỹ thuật như: Cắt tỉa cục tập ứng cử, cắt tỉa toàn cục tập ứng cử nên số lượng tập ứng cử giảm từ số lượng truyền thơng cần trao đổi điểm giảm Mặc dù số thuật toán đánh giá hiệu quả, số lượng truyền thông lớn số lần đồng nhiều Do đó, vấn đề triển khai thuật toán cho ứng dụng thực tế đặc biệt ứng dụng mà có tập liệu lớn cịn gặp nhiều hạn chế, việc phát triển phương pháp hiệu vấn đề nhiều người quan tâm Vấn đề đặt xây dựng thuật toán khai phá phân tán làm để giảm thiểu xử lý điểm, giảm số lần quét CSDL, giảm thiểu khối lượng truyền thông điểm điểm với điểm giảm thiểu số lần đồng Bài báo chúng tơi đề xuất thuật tốn hiệu cho việc khai phá luật kết hợp môi trường phân tán EDMAR Ý tưởng EDMAR sử dụng thuật toán FP-Growth để khai phá tập phổ biến điểm, 30 Một phương pháp khai phá luật kết hợp hiệu môi trường phân tán điểm cần hai lần quét CSDL Trong trình xây dựng FP-treei điểm Si , thuật toán sử dụng danh sách tập phổ biến toàn cục 1-phần tử F’, điều làm giảm đáng kể thời gian xử lý điểm Thuật toán sử dụng số lần đồng tương đối (năm lần) giảm thiểu chi phí truyền thông cách sử dụng kỹ thuật điểm để tạo tập phổ biến tồn cục từ giảm bớt số lượng tập mục ứng cử toàn cục phải gửi trả lại điểm để tính tốn lại EDMAR cài đặt để thử nghiệm, đánh giá so sánh ngôn ngữ OpenMP thông qua luồng, luồng khai phá CSDL riêng biệt Nội dung nghiên cứu 2.1 Một số vấn đề kỹ thuật 2.1.1 Vấn đề khai phá luật kết hợp môi trường phân tán Cho tập mục I = {i1 , i2 , , im } CSDL giao dịch DB, giao dịch T tập mục T ⊆ I Mỗi giao dịch T có trường khóa gọi TID Trong T chứa tập mục P , P ⊆ I P ⊆ T Độ hỗ trợ tập mục P số lượng giao dịch có chứa P DB Chúng ta nói P tập mục phổ biến độ hỗ trợ P lớn ngưỡng hỗ trợ tối thiểu minsup Chúng ta khảo sát q trình khai phá luật kết hợp mơi trường phân tán Cho CSDL DB với D giao dịch, giả sử có n điểm S1 , S2 , , Sn hệ thống phân tán sở liệu DB phân mảnh ngang vào n điểm (DB1 , DB2 , , DBn ), DB = n DBi , kích cỡ DBi Di với i i=1 = 1, 2, , n X.sup độ hỗ trợ toàn cục tập X DB X.supi độ hỗ trợ cục tập X DBi điểm Si Với ngưỡng độ hỗ trợ tối thiểu cho trước minsup, X tập phổ biến tồn cục (trên DB) X.sup ≥ minsup×D X tập phổ biến cục (trên DBi ) X.supi ≥ minsup × Di Chúng ta ký hiệu GFI (global frequent itemsets) tập phổ biến toàn cục DB LF I i (local frequent itemsets) tập phổ biến cục DBi Nhiệm vụ thuật tốn tìm tập mục phổ biến toàn cục GFI, từ sinh tập luật kết hợp mong muốn, ký hiệu AR (association rules) 2.1.2 Một số khái niệm Bài báo sử dụng số bổ đề khái niệm sau [6]: Bổ đề 2.1 Nếu tập mục X phổ biến toàn cục tồn Si (i = 31 Nguyễn Thế Bình, Lương Thế Dũng, Nguyễn Mạnh Hùng 1, 2, , n) với X tập phổ biến cục Si Hệ quả: Si - Một tập X phổ biến tồn cục X phổ biến cục - Nếu X khơng phổ biến cục Si chắn X khơng phổ biến tồn cục Bổ đề 2.2 Nếu tập mục X ∈ n LF I i X tập phổ biến i=1 toàn cục Hệ quả: Nếu X phổ biến cục Si X tập phổ biến tồn cục Định nghĩa 2.1 Với X ∈ n i=1 LFIi − n LFIi X tập ứng cử viên i=1 (candidate) phổ biến tồn cục Kí hiệu CGFI (candidate global frequent itemsets) Hệ quả: X ứng cử viên phổ biến toàn cục X phổ biến cục Si (Nhưng khơng phải phổ biến cục Si , X phổ biến toàn cục rồi) Bổ đề 2.3 Với X ∈ CGFI, n i=1 X.supi ≥ minsup × D X phổ biến tồn cục Từ bổ đề 2.2, tập mục X phổ biến cục điểm X phải phổ biến toàn cục Từ bổ đề 2.1 định nghĩa 2.1, ta xây dựng tập ứng cử phổ biến toàn cục Tập ứng cử phổ biến toàn cục tập mà phổ biến cục điểm, đồng thời loại bỏ tập mà chúng phổ biến cục điểm Từ bổ đề 2.3, điều kiện bổ đề 2.2 không thỏa mãn, độ hỗ trợ X lớn độ hỗ trợ tồn cục X phổ biến tồn cục Nếu độ hỗ trợ X nhỏ độ hỗ trợ tồn cục, phải tính lại độ hỗ trợ X điểm mà khơng phổ biến cục để định tính chất Việc áp dụng bổ đề vào thuật toán làm giảm số lượng tập ứng cử tồn cục, giảm số lượng thơng điệp phải truyền thơng điểm Điều góp phần làm tăng hiệu thuật toán 32 Một phương pháp khai phá luật kết hợp hiệu môi trường phân tán 2.1.3 Các thuật toán tảng Bài báo sử dụng số giải thuật sau đây: Giải thuật xây dựng FP-treei [4]: Giải thuật xây dựng FP-tree từ CSDL phục vụ cho việc tìm tập mục phổ biến Giải thuật FP-Growth [4]: Giải thuật sử dụng FP-treei làm đầu vào kết tìm tập mục phổ biến Giải thuật tạo luật kết hợp GenRules [2]: Giải thuật sinh luật kết hợp thỏa mãn điều kiện minconf từ đầu vào tập mục phổ biến Chi tiết giải thuật: Giải thuật xây dựng FP-treei Input: DBi (i = 1, 2, , n), minsup, F ’ //F ’: Danh sách tập phổ biến toàn cục 1-phần tử Output: FP-treei Sắp xếp F ’ theo thứ tự giảm dần độ hỗ trợ, ta thu danh sách L - Tạo nút gốc R FP-treei với nhãn “null” - Tạo bảng Header có |F ’| dịng, đặt node-link trỏ đến null For each giao tác T ∈ DBi { - Chọn phần tử T có xuất F ’ đưa vào P ; - Sắp phần tử P theo trật tự L; - Call Insert_Tree (P , R); } Procedure Insert_Tree(P , R) Đặt P =[p|P - p], với p phần tử P − p phần lại danh sách if (R có N cho N.item-name = p) N.count++; else { Tạo nút N; N.count = 1; N.item-name = p; N.parent = R; // Tạo node-link đến item, H bảng Header N.node-link = H[p].head; H[p].head = N; } //Tăng biến count p bảng Header thêm H [p].count ++; 33 Nguyễn Thế Bình, Lương Thế Dũng, Nguyễn Mạnh Hùng If ((P − p) != null) Call Insert_Tree(P − p, N) ; Giải thuật FP-Growth Input: FP-treei , minsup Output: LFI i Procedure FP_Growth(FP-treei , α) LFI I = φ; If (FP-treei chứa đường dẫn đơn P ) for each tổ hợp β nút P { phát sinh mẫu p = β ∪ α; support_count(p) = minsup nút β; LFI i = LFI i ∪ p;} else for each Header FP-treei { Phát sinh mẫu β = ∪ α; support_count (β) = support_count; LFI i = LFI i ∪β; Xây dựng sở có điều kiện β; Xây dựng FP-Tree có điều kiện FP-treei β β; If (FP-treei β φ) Call FP_Growth(FP-treei , β);} Giải thuật tạo luật kết hợp GenRules Input: GFI, minconf Output: AR Procedure GenRules(GFI, minconf) forall tập mục phổ biến lk ∈ GFI, k ≥ Call Gen(lk , lk ); Procedure Gen(lk : k-itemset phổ biến; am : m-itemset phổ biến) A = {(m − 1) − itemsetam−1 |am−1 ⊂ am ; forall am−1 ∈ A { conf = sup(lk )sup(am−1 ); if (conf ≥ minconf) { Xuất luật am−1 ⇒ (lk − am−1 ); if ((m − 1) > 1) Call Gen(lk , am−1 ); }} 2.2 Đề xuất thuật toán hiệu khai phá luật kết hợp phân tán EDMAR đề xuất báo thực thông qua bảy bước: 34 Một phương pháp khai phá luật kết hợp hiệu môi trường phân tán Bước 1: Được thực điểm Tại điểm, thuật toán quét CSDL lần để đếm độ hỗ trợ tập 1-phần tử Sau điểm gửi độ hỗ trợ tập 1-phần tử vừa tìm lên điểm Bước 2: Được thực điểm Tại bước này, thuật tốn tổng hợp độ hỗ trợ tập 1-phần tử mà điểm gửi lên, từ tìm tập phổ biến tồn cục 1-phần tử F ’ Sau điểm gửi F ’ tới điểm Bước 3: Được thực điểm Tại điểm, thuật toán xây dựng FP-treei từ danh sách F ’ CSDL DB i , sau sử dụng giải thuật FP-Growth để tìm tập phổ biến cục LF I i Kết thúc bước này, điểm gửi lên điểm danh sách LF I i Bước 4: Được thực điểm Thuật tốn sử dụng bổ đề để tìm tập phổ biến toàn cục GF I mà phổ biến cục điểm Tiếp theo thuật toán sử dụng định nghĩa để xây dựng tập ứng cử phổ biến toàn cục CGF I Áp dụng bổ đề để tìm tập GF I từ tập CGF I Với tập X ∈ CGF I mà không thỏa mãn bổ đề gửi điểm mà khơng phổ biến cục bổ để tính lại độ hỗ trợ, từ định tính chất Bước 5: Được thực điểm Với tập X ∈ CGF I vừa nhận từ điểm chính, X ∈ / LF I i thuật tốn tính lại độ hỗ trợ X gửi độ hỗ trợ X lên điểm Bước 6: Được thực điểm Với tập X ∈ CGF I, thuật tốn tính lại độ hỗ trợ để định tính chất Nếu tổng độ hỗ trợ X lớn ngưỡng độ hỗ trợ tồn cục X tập phổ biến toàn cục Kết thúc bước này, ta thu tập phổ biến toàn cục GF I Bước 7: Được thực điểm Thuật tốn sinh luật kết hợp AR từ tập phổ biến toàn cục GF I thỏa mãn ngưỡng tin cậy tối thiểu minconf Điểm thuật toán nằm bước 1, Theo thuật tốn trình bày [6], khai phá LF I i Si , điểm quét CSDL DBi lần để tìm danh sách tập phổ biến cục 1-phần tử Fi , sau thuật tốn sử dụng danh sách Fi để xây dựng FP-treei Vấn đề nảy sinh bước ta cần tính lại độ hỗ trợ X ∈ CGF I điểm mà khơng phổ biến cục Vậy làm để điểm Si tìm độ hỗ trợ phần tử X có độ hỗ trợ nhỏ ngưỡng cho phép Để giải điều có hai cách sau: Hoặc chúng phải hạ thấp ngưỡng hỗ trợ tối thiểu để xây dựng lại cây, sau tìm độ hỗ trợ phần tử X cần tìm Như thế, phí xây dựng lại Hoặc từ đầu, điểm Si xây dựng với độ hỗ trợ tối thiểu 0, sau khai phá với giá trị minsup ngưỡng yêu cầu để tìm LFI i Như 35 Nguyễn Thế Bình, Lương Thế Dũng, Nguyễn Mạnh Hùng lại phí lớn xây dựng từ đầu với ngưỡng hỗ trợ tối thiểu tăng trưởng nhanh Để giải vấn đề này, thuật toán báo thêm hai bước Nhiệm vụ hai bước tìm danh sách tập phổ biến toàn cục 1-phần tử F ’, bước điểm Si sử dụng danh sách F ’ để xây dựng FP-treei Điều đảm bảo thuật tốn khơng bỏ xót tập phổ biến toàn cục Si hạ thấp ngưỡng hỗ trợ để xây dựng lại xây từ đầu với ngưỡng Với cải tiến này, thuật toán phải thêm hai bước đồng bộ, số lần quét CSDL giữ nguyên hai lần Đây điểm mấu chốt để làm nên tính hiệu thuật tốn Giải thuật chính: Input: DBi (i = 1, 2, , n), minsup, minconf Output: AR (Tập luật kết hợp) Bước 1: //Thực Si For i = to n do{ Đếm độ hỗ trợ phần tử 1-phần tử; Gửi tới điểm chính; } Bước 2: //Thực điểm Tổng hợp độ hỗ trợ phần tử 1-phần tử để tìm tập phổ biến 1-phần tử tồn cục F ’; Gửi F’ Si ; Bước 3: //Khai phá LF I i Si For i = to n do{ Xây dựng FP-treei dựa tập phổ biến 1-phần tử toàn cục F ’; Khai phá LFI i dựa FP-treei (FP-Growth); Gửi LFI i tới điểm chính;} Bước 4: //Khai phá GFI CGFI, thực điểm Tính GF I = n LF I i , CGF I = i=1 i=1 For all X ∈ CGF I: If ( n n i=1 LF I i − n LF I i ; i=1 X supi ≥ sup × D ){ GF I = GF I ∪ {X}; CGF I = CGF I˘{X}; } Gửi CGF I tới Si ; Bước 5: //Tính lại độ hỗ trợ cục X.supi X CGFI 36 Một phương pháp khai phá luật kết hợp hiệu môi trường phân tán //Thực Si For i = to n { For all X ∈ CGF I { if (X ∈ / LF I i ) { - Tính lại giá trị X.supi ; - Gửi X.supi tới điểm chính; } } } Bước 6: //Tính độ hỗ trợ tồn cục X.sup X ∈ CGF I, thực điểm For all X ∈ CGF I: If ( X.sup = n i=1 X supi ≥ sup × D ){ GF I = GF I ∪ {X}; } Bước 7: // Tạo tập luật kết hợp AR từ tập tập mục phổ biến GFI, thực điểm Tạo tập luật AR cách gọi thủ tục GenRules(GF I, minconf); 2.3 Kết thử nghiệm Môi trường cơng cụ phát triển: tốn Sử dụng ngơn ngữ C++ môi trường OpenMP để thực cài đặt thuật Lý sử dụng OpenMP: OpenMP giao diện lập trình ứng dụng, chứa tập hàm, lệnh cho phép dễ dàng cài đặt thuật toán song song cho hai trường hợp sử dụng chung CSDL sử dụng CSDL riêng biệt (phân tán) Dữ liệu kiểm thử: Thuật toán chạy thử nghiệm CSDL sinh ngẫu nhiên có kích thước khác độ hỗ trợ, độ tin cậy CSDL tổ chức thành bốn CSDL riêng biệt, CSDL file txt Loại phần tử từ I1 ⇒ I100 Mỗi hàng (giao dịch) file txt có 50 phần tử Kích thước CSDL (Bao gồm bốn CSDL riêng biệt) là: D = 4000 (giao dịch); D = 24000; D = 40000 D = 80000 Thuật toán chạy thử nghiệm máy PC IntelR CoreT M Duo CPU T6600 @ 2.2 GHz, GB RAM, máy cài đặt hệ điều hành Microsoft Windows XP Professional Theo hiểu biết chúng tơi PMFI thuật toán hiệu việc khai phá luật kết hợp phân tán Vì vậy, báo này, tiến hành so sánh trực tiếp hiệu EDMAR với thuật toán PMFI Để so 37 Nguyễn Thế Bình, Lương Thế Dũng, Nguyễn Mạnh Hùng sánh, tiến hành chạy thử nghiệm hai thuật toán với Minsup = 0,4; Minconf = 0,8 Thuật toán thứ PMFI, thuật tốn khơng sử dụng hai bước 2, thuật toán xây dựng FP-treei dựa vào danh sách tập phổ biến cục 1-phần tử Fi với ngưỡng độ hỗ trợ từ ban đầu Thuật tốn thứ hai EDMAR trình bày báo Kết chạy thử nghiệm hai thuật tốn thể đồ thị hình Theo quan sát đồ thị thấy rằng, thuật toán EDMAR nhanh đáng kể so với thuật toán PMFI, đặc biệt kích thước CSDL lớn Điều cho thấy rằng, việc xây dựng F P − treei điểm Si danh sách tập phổ biến toàn cục 1-phần tử F ’ tiết kiệm nhiều thời gian, thuật toán EDMAR phải thêm hai bước đồng Chính điều mà thuật toán EDMAR cải thiện hiệu khai phá luật kết hợp Hình : Biến thiên thời gian theo kích thước CSDL Kết luận Trong báo này, thuật toán khai phá luật kết hợp phân tán EDMAR đề xuất EDMAR sử dụng kỹ thuật điểm để tìm tập phổ biến tồn cục từ làm giảm bớt số lượng tập ứng cử tồn cục Chính mà thuật tốn sử dụng số lượng truyền thông so với thuật toán trước Đồng thời, với việc xây dựng FP-treei điểm cục sử dụng danh sách tập phổ biến tồn cục 1-phần tử góp phần làm tăng thêm tính hiệu thuật tốn REFERENCES 38 Một phương pháp khai phá luật kết hợp hiệu môi trường phân tán [1] R Agrawal, T Imielinski and A Swami, (1993) Minning association rules between sets of items i large databases In ACM SIGMOD Intil C@ Managenment of Data, May [2] R Agrawal and R Srikant, (1994) Fast algorithms for minning association rule In 20th VL.DBConf, Sept [3] R Agrawal, H.Manila, R Srikant, H Toivonen and A Verkamo, (1996) Fast discovery of association rules In U.Fayyad and et al, editors, Advances in Knowledge Discovery and Data Minning MIT Press [4] J Han, J Pei, Y Yin and R Mao (2003) Mining frequent patterns without candidate generation: A frequent-pattern tree approach Data Mining and Knowledge Discovery [5] Ji-Fu Zhang, Hong Shi, Lian Zheng, (2002) A method and algorithm of distributed mining associationrules in synchronisms Proceedings of the First International Conference on Machine Learning and Cybernetics, Beijing [6] You-Lin Ruan, Gan Liu, Qing-Hua Li, (2005) Parallel Algorithm For Mining Frequent Itemsets Proceedings of the Fourth International Conference on Machine Learning and Cybernetics, Guangzhou [7] David W Cheung, Jiawei Han, Vincent T Ng, Ada W Fu, Yongjian Fu, (1996) A Fast Distributed Algorithm for Mining Association Rules IEEE [8] Ji-Fu Zhang, Hong Shi, Lian Zheng, (2002) A method and algorithm of distributed mining associationrules in synchronisms Proceedings of the First International Conference on Machine Learning and Cybernetics, Beijing [9] Agrawal and J.Shafer, (1996) Parallel mining of association rules In IEEE Trans, on Knowledge and Data Engg, pp 8(6): 962 - 969 ABSTRACT An effective association mining rules method in the distributed environment Association mining rules in the distributed environment is an important problem in data mining, serveral algorithms of distributed association mining rules have been proposed However, developing a more efficient algorithms is still an active problem This paper proposes a new algorithm called EDMAR (an Efficient Distributed algorithm for Mining Association Rules) This algorithm uses FP-Growth algorithm and FP-Tree structure to mine the local frequent item sets Thus, it decreases the number of the database scanning and increases the efficiency of mining in the local sites In addition, EDMAR decreases the number of candidates of global frequent itemsets and uses fewer synchronization steps, thus the efficiency is improved 39 ... toán hiệu cho việc khai phá luật kết hợp mơi trường phân tán EDMAR Ý tưởng EDMAR sử dụng thuật toán FP-Growth để khai phá tập phổ biến điểm, 30 Một phương pháp khai phá luật kết hợp hiệu môi trường. .. phá luật kết hợp Khai phá luật kết hợp môi trường phân tán vấn đề phải giải việc sử dụng thuật toán phân tán mà không cần phải trao đổi liệu thô bên tham gia Đến có nhiều thuật tốn khai phá luật. .. thơng điệp phải truyền thơng điểm Điều góp phần làm tăng hiệu thuật toán 32 Một phương pháp khai phá luật kết hợp hiệu môi trường phân tán 2.1.3 Các thuật toán tảng Bài báo sử dụng số giải thuật

Ngày đăng: 25/11/2020, 22:26

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w