Một hệ thống được phân tán đồng nhất của M sites được biểu thị như
sau: {S1, S2,…. SM,}. Cơ sở dữ liệu giao dịch là một tập hợp các tập mục ký
hiệu là DB = {T1, T2,…. Tn,}. Ti (1 ≤ i ≤ n) là một bộ tập mục Ti I, ở đó I =
{i1, i2,…. Im,}, biểu thị một tập mục cấu thành giản đồ của DB). DB được
phân tán ngang thành {DB1, DB2,…. DBM,}, với DBi được đặt tại Si (1 ≤ i ≤
M). Giả sử rằng mọi Site đều biết miền hạng mục I.
Cho X.sup (được gọi là độ hỗ trợ toàn cục) và X.supi (được gọi là độ hỗ
trợ cục bộ tại Si) biểu thị số lượng giao dịch tương ứng bao gồm tập phổ biến
X trong DB và trong DBi. Độ hỗ trợ toàn cục của X được đưa ra là
M
i X i
X
1 .sup
sup
. của tập mục X được xem là tập phổ biến nếu độ hỗ trợ
của X lớn hơn hoặc bằng ngưỡng hỗ trợ cụ thể cho trước. Đặc biệt là X được
xem là tập phổ biến cục bộ tại Si nếu X.supi ≥ min_supporti, và X được xem là
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Cho Lk biểu thị bộ tập phổ biến toàn cục k-itemsets. Một DB đã cho,
mục đích của phương pháp là để khám phá mọi itemset mà độ hỗ trợ của chúng lớn hơn hoặc bằng ngưỡng hỗ trợ cụ thể cho trước, ví dụ, để khám phá
một bộ Lk với k ≥ 1 và độ hỗ trợ cho các itemsets này. Đặc biệt là nó yêu cầu
phải đảm bảo được tính riêng tư.
Một luật kết hợp X Y, Với X I, Y I và X Y = . X Y giữ
ở DB với độ hỗ trợ S nếu S% của của giao dịch trong DB bao gồm X ∩ Y, và với độ tin cậy C nếu C% của các giao dịch trong DB bao gồm cả X và Y. Trên thực tế, việc sử dụng các tập phổ biến toàn cục, các luật kết hợp có thể tính toán được một cách dễ dàng.
Dựa trên mô hình semi-honest, mỗi site được giả định theo thuật toán, nhưng miễn phí cho việc sử dụng lần sau, những gì nó thấy trong quá trình thực hiện thuật toán để thỏa hiệp sự an toàn. Điều này là có tính thực tế trong thế giới thực bởi vì các bên muốn khai thác dữ liệu vì lợi ích các bên sẽ theo giao thức để đạt kết quả chính xác. Cũng như vậy, một giao thức được che dấu trong phần mềm lớn và phức tạp không thể dễ dàng thay đổi được.