Bài viết nghiên cứu giải pháp cho vấn đề đảm bảo tính riêng tư trong khai thác luật kết hợp trên dữ liệu phân tán ngang với kỹ thuật tính toán đa bên an toàn.
Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-1, Số (27), tháng 5/2012 Đảm bảo tính riêng tư chống thơng đồng khai thác luật kết hợp liệu phân tán tán ngang Collusion-Resistant Privacy-Preserving Association Rules Mining on Horizontally Distributed Data Trần Quốc Việt, Cao Tùng Anh, Lê Hoài Bắc riêng tư liệu trước cơng bố Kỹ thuật thường dùng trường hợp sửa đổi liệu, CSDL phải sửa đổi cho nội dung thực liệu, nhiên thuật tốn khai thác rút kết gần trên liệu thay đổi Abstract: In this paper, we use the encryption technology to build a new protocol, compute the global support of itemsets in the horizontal distributed database, ensure the privacy in semi - honest environment and have anti - collusion capability, have running time in linear base on the number of parties in the system We also improved the mining algorithm based on dynamic bit string structure, and combined with the protocol of computing global support built to use on horizontal distributed data, ensure privacy and have high level of anti-collusion Keywords: Privacy - preserving, frequent itemset, horizontal distributed Với kiểu liệu phân tán, CSDL xem gồm nhiều CSDL con, CSDL sở hữu riêng tư thành viên hệ thống, thành viên hợp tác xử lý để đạt kết giống thực CSDL hợp nhất, đảm bảo tính riêng tư cho CSDL Kỹ thuật thường dùng tình tính tốn đa bên an tồn, giao thức tính tốn an tồn m bên cho phép tính tốn hàm với m giá trị đầu vào f(x1, x2, …, xm), xi thuộc sở hữu riêng tư bên Si Si khơng có thơng tin bên xi kết cuối giao thức collusion, I GIỚI THIỆU Những tri thức tiềm ẩn rút trích từ q trình khai thác liệu có ý nghĩa quan trọng hệ thống định tổ chức Tuy nhiên, trình khai thác liệu làm tiết lộ thông tin nhạy cảm, bất lợi cho tổ chức Lo ngại ngăn cản việc cung cấp liệu người sở hữu, cần phải giải vấn đề đảm bảo riêng tư cách hiệu Tuỳ thuộc vào kiểu cấu trúc liệu mà có kỹ thuật đảm bảo tính riêng tư khác tương ứng Hiện có hai kiểu bố trí liệu nghiên cứu: CSDL tập trung CSDL phân tán Với kiểu liệu tập trung, CSDL tập hợp CSDL Lúc phải đảm bảo tính Về có hai kiểu phân tán liệu: - Phân tán ngang: Các CSDL có lược đồ có tập giao tác độc lập - Phân tán dọc: Các CSDL có tập giao tác khác tập thuộc tính Hầu hết thuật tốn khai thác luật kết hợp, đảm bảo riêng tư liệu phân tán ngang có thường giả định môi trường Semi-Honest (SH), nghĩa tất bên hệ thống phải thực theo giao thức định trước, - 60 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT m sử dụng kết trung gian kết cuối củng để suy luận thông tin riêng tư [5], [8], [11], [12] Tuy nhiên, thuật toán chưa thực ngăn chặn khả thơng đồng xảy Trong báo này, nghiên cứu giải pháp cho vấn đề đảm bảo tính riêng tư khai thác luật kết hợp liệu phân tán ngang với kỹ thuật tính tốn đa bên an tồn Cụ thể, chúng tơi vận dụng giao thức tính tích hai tổng an tồn (SPoS: Secure Product of Summations) Bin Yang [13] (2010) để xây dựng giao thức mới, cho phép tính độ hỗ trợ tồn cục itemset, đảm bảo riêng tư có khả chống thơng đồng hồn tồn Chúng tơi áp dụng giao thức vào thuật toán khai thác tập phổ biến dựa chuỗi bit động [1], đảm bảo tính riêng tư môi trường SH, CSDL phân tán ngang Tập V-1, Số (27), tháng 5/2012 ∑| X | i σ( X ) = i =1 m | ∪ i DB | i =1 X - gọi tập phổ biến cục Si σ( X) ≥ minsupport gọi phổ biến toàn cục i σ(X) ≥ minsupport (minsupport ngưỡng độ phổ biến tối thiểu định trước ngưởi dùng) Tìm tất tập phổ biến bước quan trọng trình khai thác luật kết hợp, vấn đề II CÁC NGHIÊN CỨU LIÊN QUAN giải tính độ phổ biến tồn σ(X) itemsets X bảo mật nội dung CSDL bảo mật độ phổ biến cục X Si Cheung [4] (1996) đề xuất thuật toán cho phép khai thác nhanh luật kết hợp liệu phân tán ngang gọi FDM Tuy chưa thực quan tâm đến vấn đề đảm bảo riêng tư có ảnh hưởng nhiều đến thuật toán sau II.1 Khai thác luật kết hợp phân tán II.2 Một số cơng cụ tính tốn đa bên an tồn Định nghĩa: Một giao thức cho giảm mức độ riêng tư g đến f tồn tính tốn riêng tư g sử dụng f Khi đó, ta nói g giảm mức độ riêng tư đến f [13] Giả sử có m bên S1, S2, …, Sm, bên sở hữu CSDL giao tác iDB riêng, CSDL iDB xem phân mảnh ngang, nghĩa có lược đồ có liệu độc lập Tập items: I = {i1, i2, …, in} giống tất bên Mỗi iDB chứa tập Định lý (tổng hợp): Giả sử g giảm riêng tư đến f tồn giao thức tính tốn riêng tư f tồn giao thức tính tốn riêng tư g [13] giao tác T ={ t1 , t , , t k i } , giao tác i i i i i tj tập khác rỗng I Mỗi tập X khác rỗng I gọi Itemset Kí hiệu |iX| |X| số lượng giao tác CSDL iDB CSDL DB ={ DB ∪ DB ∪ … ∪ DB} có chứa X Độ phổ biến cục X Si, kí hiệu σ( X), tỷ lệ số giao tác CSDL iDB có chứa X so với tổng số giao tác có CSDL iDB i σ( i X ) = Hệ mã hóa đồng cấu (Homomorphic encryption) n |i X | |i DB | Hệ mã hóa có tính chất đồng cấu sử dụng nhiều giao thức tính tốn đa bên an tồn Một hệ mã hóa cơng khai với hàm mã hóa Epk(.) có tính chất đồng cấu với thông điệp (bản rõ) m1, m2, ta ln có: E pk ( m + M m ) = E pk ( m ) + C E pk ( m ) Độ phổ biến tồn cục X, kí hiệu σ(X) tỷ lệ số giao tác có CSDL DB = 1DB ∪ 2DB ∪ … ∪ n DB chứa X so với tổng số giao tác DB Trong đó: +M phép tốn hai ngơi định nghĩa khơng gian rõ (plaintext space) +C phép toán - 61 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT hai định nghĩa không gian mã (ciphertext space) Các hệ mã RSA, EL Gamal, Paillier, có tính chất đồng cấu Dựa tính chất đồng cấu, ta thực tính tốn rõ mà khơng cần giải mã chúng Hệ mã hóa giao hốn Một hệ mã hóa khóa cơng khai E với khơng gian rõ M, khơng gian mã C khơng gian khóa K gọi có tính giao hốn với rõ m, n khóa k1,k2, ,kn (ki ∈ K) hoán vị i, j ta ln có: E ki ( E k n ( m ) ) = E k j ( E k j ) ) 1 n Nghĩa thứ tự mã hóa giải mã khơng quan trọng Một ứng dụng tính chất hốn vị hệ mã hóa thực phép hợp đảm bảo riêng tư [5], [6], [15], [16] Giao thức tính tích hai tổng an tồn Ngồi giao thức tính tốn đa bên an tồn như: tính tổng, so sánh, phép hợp, tính lực lượng phần giao,…, trình bày [5], [6], [7], vận dụng tính chất đồng cấu hệ mã hóa, Bin Yang đồng đề xuất giao thức tính tích hai tổng an tồn SPoS [13] (2010) Giả sử có m bên S1, S2,…, Sm, Si sở hữu hai số thực i x1 i x (0< i x1 , i x