khai thác luật kết hợp bảo đảm tính riêng tư trên dữ liệu phân tán ngang (4)

18 114 0
khai thác luật kết hợp bảo đảm tính riêng tư trên dữ liệu phân tán ngang (4)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

38 Chương GIAO THỨC ĐỀ XUẤT Chương phần luận văn, phân tích ưu điểm nhược điểm giao thức Mahmoud Hussein, từ ñưa cải tiến giao thức ñề xuất, trình bày chi tiết bước thực đánh giá giao thức tính riêng tư, kết khai thác hiệu năng, ñồng thời so sánh với giao thức trước Tiếp theo trình bày chương trình cài đặt với liệu thực tế đánh giá kết ñạt ñược Cuối kết luận hướng phát triển luận văn 4.1 Đặt vấn ñề: Năm 2008, Mahmoud Hussein ñồng nghiệp [14] ñề xuất giao thức sử dụng server Initiator Combiner có độ an tồn cao tiết kiệm chi phí tính tốn truyền thơng so với giao thức KCS giao thức Vladimir Estivill-Castro Ahmed HajYasien [12] ñề xuất năm 2007 Giao thức sử dụng mã hố cơng khai RSA giảm số bước từ xuống tìm tập itemset ứng viên nên tiết kiệm chi phí tính tốn truyền thơng, có độ an tồn cao Initiator Combiner thơng đồng với tiết lộ kết quả, KCS giao thức Vladimir Estivill-Castro, Ahmed HajYasien site xen kẽ thơng đồng với tiết lộ thơng tin site ở bước tính độ hỗ trợ toàn cục (xem chi tiết mục 2.2) Tuy nhiên giao thức Mahmoud Hussein có số hạn chế: Về tính riêng tư, sử dụng mã hóa RSA để mã hóa độ hỗ trợ cục nên rõ có mã, Combiner dễ dàng cơng biết rõ mã từ biết ñược ñộ hỗ trợ itemset Client Về hiệu năng, hai bước tìm ứng viên tính độ hỗ trợ tồn cục Combiner nhận liệu từ tất Client, sau sử dụng hợp lại gửi cho Initiator, nên số Client tăng lượng liệu Combiner gửi cho Initiator tăng theo ñáng kể, làm tăng thời gian thực thi tồn hệ thống 39 Từ luận văn đề xuất giao thức có độ an tồn cao chi phí truyền thơng thấp so với giao thức Mahmoud Hussein, sử dụng MFI để tìm itemset ứng viên tồn cục sử dụng mã hố Paillier tính độ hỗ trợ tồn cục thay cho phép hợp Với mã hóa Paillier với rõ có mã khác nên có độ an tồn cao Bước tìm ứng viên tồn cục |MFI| n ∑ s * D < s * D => X khơng phổ biến tồn cục, mâu thuẫn với giả i =1 i i thiết => ñpcm n Bổ ñề 2: U MFI i =1 i xác ñịnh tất itemset phổ biến toàn cục [8] 40 Chứng minh: Từ bổ ñề 1, X itemset phổ biến tồn cục X phải phổ biến cục site Giả sử X phổ biến cục site k X n phải xác định MFI k ñược xác ñịnh U MFIi i =1 n Từ bổ ñề 2, U MFI i =1 i xác định itemset phổ biến tồn cục từ ta n chọn U MFI i =1 i để phát sinh tập itemset ứng viên toàn cục (là itemset n U MFI i ), sau tính ñộ hỗ trợ toàn cục ứng viên ñể tìm itemset phổ i =1 n biến tồn cục Vậy ta cần có giao thức tìm U MFI i an tồn giao thức tính độ i =1 hỗ trợ toàn cục an toàn (xem lập luận mục 2.1) Giao thức gồm bước: Bước 1: Initiator phát sinh cặp khoá public key, private key gửi cho site, Initiator gửi ñộ hỗ trợ sup (%) ñộ tin cậy conf (%) bước Bước 2: Xem hình 4.1, site tính MFI cục bộ, Client mã hóa MFI cục với private key (sử dụng mã hoá RSA): E ( MFIi ) sau gửi cho Combiner, Combiner trộn liệu nhận với MFI mã hố mình, gửi phần hợp cho n Initiator, Initiator giải mã liệu nhận ñược tìm U MFI i , i =1 n Bước 3: Xem hình 4.2, Initiator cần gửi U MFI i =1 i cho site, ñể tiết kiệm chi tính tốn truyền thơng Initiator gửi MFI toàn cục (MFI toàn cục bao n gồm itemset phổ biến tối ñại thuộc U MFI i =1 i không tập itemset phổ biến tối ñại khác) Mỗi site phát sinh itemset với độ hỗ trợ từ MFI tồn cục, itemset phát sinh có thứ tự xác định Client mã hóa độ hỗ trợ sử dụng mã 41 hố Paillier E(X.supk) gửi cho Combiner Combiner tính tích ñộ hỗ trợ (ở dạng mã hóa) itemset theo thứ tự xác định sử dụng mã hố Paillier: E ( X sup Combiner ) = E ( X supCombiner ) * n - ∏ E ( X sup ) k =1 k gửi E (X.sup Combiner) cho Initiator Initiator giải mã liệu nhận ñược D(E(X.supCombiner)) nhận ñược kết tổng ñộ hỗ trợ (n – 1) site, sau cộng với độ hỗ trợ cục tính độ hỗ trợ toàn cục itemset: X.sup = D (E (X.sup Combiner )) + X.sup Initiator Để tiết kiệm chi phí truyền thơng ta áp dụng mã hoá Paillier cải tiến bước Bước 4: Xem hình 4.3, tìm itemset phổ biến tồn cục phát sinh luật tồn cục: n Tính ∑ |DB | i (tương tự trên) Initiator so sánh ñộ hỗ trợ itemset i=1 ứng viên với ñộ hỗ trợ tồn cục (sup) tìm itemset phổ biến toàn cục: X.sup ≥ sup * n ∑ |DB t | t=1 Y tính độ tin cậy: Initiator phát sinh tập luật toàn cục X n {X ∪ Y}.sup ≥ conf ⇒ X.sup ∑ XY.sup i =1 n ∑ X.sup i =1 i ≥ conf i Từ tìm luật toàn cục mạnh gửi cho site 42 UE (MFI ) Initiator (public key, private key) sup (%) E (MFI1) Client (public key) Combiner (public key) i Client (public key) E (MFI2) E (MFIn-2) Client n – (public key) … Hình 4.1 - Tìm MFI tồn cục Initiator (public key, private key) MFI toàn cục ∏ E (sup ) i E (Sup1) Client (public key) Client (public key) Combiner (public key) E (Sup2) …… E (Supn-2) Client n - (public key) Hình 4.2 - Tính độ hỗ trợ tồn cục Initiator (public key, private key) Combiner (public key) Tập luật Client (public key) Client (public key) …… Hình 4.3 – Initiator gửi tập luật cho site Client n - (public key) 43 4.3 Đánh giá: 4.3.1 Tính riêng tư: Combiner nhận liệu mã hố từ Client khơng có private key nên khơng thể giải mã Combiner trộn MFI cục nên sau giải mã Initiator khơng thể biết MFI site Combiner thực tính tích độ hỗ trợ (ở dạng mã hố) nên Initiator khơng thể biết xác độ hỗ trợ itemset site khác, với mã hố Paillier có mã ngẫu nhiên nên có tính riêng cao so với giao thức Mahmoud Hussein Từ lập luận ta khẳng định giao thức không tiết lộ liệu cục bộ, itemset độ hỗ trợ, |DBi| có tính riêng cao so với giao thức Mahmoud Hussein 4.3.2 Độ xác: Xét CSDL tập trung hình 4.4 CSDL phân tán hình 4.5 với sup = 50% ABDE BCD ABDE ABCE ABCDE BCD ACD ACDE ACD ACE DE MFI = {AD, AE, AC} Các itemset phổ biến: A–8 C – AD – D – AE – E – AC – Hình 4.4 – CSDL tập trung Initiator ABDE BCD ABDE ABCE Combiner ABCDE BCD ACD ACDE Client ACD ACE DE MFI1 = {ABDE, BCE} MFI2 = {ACDE, BCD} MFI3 = {AC} Hình 4.5 – CSDL phân tán 44 Thực thi giao thức ñề xuất với CSDL phân tán hình 4.5: MFI tồn cục = {ABDE, ACDE, BCD, BCE} Các site tính độ hỗ trợ dựa vào MFI tồn cục kết hình 4.6 Initiator tính tổng độ hỗ trợ tìm itemset phổ biến tồn cục, kết hình 4.7 Initiator A – AB – B – AD – C – AE – D – BD – E – BE – DE – AC – CD – CE – BC – ABD – ABDE - ABE – ACDE - BDE – ADE – ACD – ACE – CDE – BCD – BCE – Combiner A – AB – B – AD – C – AE – D – BD – E – BE – DE – AC – CD – CE – BC – ABD – ABDE - ABE – ACDE - BDE – ADE – ACD – ACE – CDE – BCD – BCE – Client A–2 B–0 C–2 D–2 E–2 AB – AD – AE – BD – BE – DE – AC – CD – CE – BC – ABD – ABDE - ABE – ACDE - BDE – ADE – ACD – ACE – CDE – BCD – BCE – Hình 4.6 – Các site tính độ hỗ trợ cục Initiator A – AB – B – AD – C – AE – D – BD – E – BE – DE – AC – CD – CE – BC – ABD – ABDE - ABE – ACDE - BDE – ADE – ACD – ACE – CDE – BCD – BCE – ∑ | DB i SUP = | = 11 Initiator A–8 C – AD – D – AE – E–8 AC - Hình 4.7 – Initiator tìm itemset phổ biến toàn cục Initiator phát sinh luật gửi cho site với ñộ hỗ trợ ñộ tin cậy: A D (54.5%, 75%) E A (54.5%, 75%) A C (54.5%, 75%) D A (54.5%, 75%) C A (54.5%, 75%) A E (54.5%, 75%) Từ hình 4.7 hình 4.4 ta thấy kết khai thác giao thức ñề xuất CSDL tập trung 45 4.3.3 Hiệu năng: Thực thi theo giao thức Mahmoud Hussein với CSDL phân tán hình 4.5 ta kết hình 4.8 (các bước thực tối ưu chi phí truyền thông so với báo gốc [14] không truyền ñịnh danh) FI1 = {[A, B, C, D, E], [AB, AD, AE, BD, BE, DE, CE, BC], [ADE]} Initiator A – AB – B – AD – C – AE – D – BD – E – BE – DE – AC – CD – CE – BC – ADE – ACD – ACE – CDE – FI2 = {[A, B, C, D, E], [AD, AE, BD, DE, AC, CD, CE, BC], [ACD, ACE, ADE, CDE]} Combiner A – AB – B – AD – C – AE – D – BD – E – BE – DE – AC – CD – CE – BC – ADE – ACD – ACE – CDE – FI3 = {[A, C, D, E], [AC]} Client A – AB – B – AD – C – AE – D – BD – E – BE – DE – AC – CD – CE – BC – ADE – ACD – ACE – CDE – FI toàn cục = { [A, B, C, D, E], [ AD, AE, AC], [ ∅]} Hình 4.8 – Kết thực thi theo giao thức Mahmoud Hussein Với khoá mã hố t (bit), giả sử kích thước mã mã hố phần tử (itemset, itemset tối đại, ñộ hỗ trợ) với RSA t (bit) (trong cài ñặt ta ghép itemset với ñể giảm kích thước mã hố), với mã hố Paillier 2*t (bit) Do Client tính tốn song song phí truyền thơng từ Client đến Combiner chi phí truyền thơng từ Client có liệu cần truyền lớn Tổng chi phí truyền thơng cho bước tổng chi phí truyền thơng từ Client có liệu cần truyền lớn đến Combiner chi phí truyền thơng từ Combiner đến Initiaotor Kết tính tốn chi phí truyền thơng với Client trình bày bảng 4.1, Client trình bày bảng 4.2 Client trình bày bảng 4.3, với Client có liệu hình 4.5, kết khai thác cục tồn cục khơng thay đổi Nhận xét chi phí truyền thơng: 46 Ở bước 2, chi phí truyền thơng giao thức đề xuất tối ưu so với giao thức Mahmoud Hussein trường hợp Ở bước chi phí truyền thơng từ Client ñến Combiner giao thức ñề xuất cao (gấp ñôi) so với giao thức Mahmoud Hussein, nhiên chi phí từ Combiner đến Initiator cố định nhỏ tăng số Client Cụ thể không dùng mã hóa Paillier cải tiến ví dụ có Client (xem bảng 4.3) giao thức đề xuất có tổng thời gian truyền thơng tối ưu hơn, tiếp tục tăng số Client chi phí giao thức ñề xuất cố ñịnh giao thức Mahmoud Hussein chi phí tiếp tục tăng Từ ñó ta kết luận giao giao thức ñề xuất tối ưu bước số Client lớn Chi phí truyền thơng từ Initiator đến Combiner Client khơng sử dụng mã hóa nên khơng đáng kể Nhận xét chi phí tính tốn, ta xem xét chi phí để mã hóa (số phép mã hóa sử dụng), bước giao thức đề xuất sử dụng MFI nên kích thước liệu cần mã hóa nhỏ u cầu phép mã hóa hơn, bước giao thức đề xuất có số itemset ứng viên nhiều so với hướng FI nên cần nhiều phép mã hóa Đối với KTDL phân tán bảo đảm tính riêng ta tập trung vào chi phí truyền thơng, chi phí tính tốn có ảnh hưởng khơng đáng kể Bảng 4.1 – Chi phí truyền thông với Client Client Combiner Combiner Initiator Tổng Initiator Combiner Client Giao thức Mahmoud Hussein Bước Bước 5*t 12*2*t = 24*t [17*t + 5*t] = 23*t [19*t + 19*t] = 38*t 28*t 62*t Ứng viên toàn cục: [19 + 19] = 38 FI toàn cục: [8 + 8] = 16 Tổng: 38 + 16 = 54 (itemset) Giao thức ñề xuất Bước Bước 1*t 26*(2*t) = 52*t (hoặc 2*t) [2*t + 1*t] 26*(2*t) = 3*t = 52*t (hoặc 2*t) 4*t 104*t (hoặc 4*t) [4 + 4] = (itemset) 47 Bảng 4.2 - Chi phí truyền thơng với Client Client Combiner Giao thức Mahmoud Hussein Bước Bước 5*t 12*2*t = 24*t Combiner [17*t + 5*t*2] = 27*t Initiator Tổng 32*t Initiator Combiner Client [19*t + 19*t*2] = 57*t 81*t Ứng viên toàn cục: [19 + 19*2] = 57 FI toàn cục: [8 + 8*5] = 48 Tổng: 114 + 48 = 105 (itemset) Giao thức ñề xuất Bước Bước 1*t 26*(2*t) = 52*t (hoặc 2*t) [2*t + 1*t*2] 26*2*t = 4*t = 52*t (hoặc 2*t) 5*t 104*t (hoặc 4*t) [4 + 4*2] = 12 (itemset) Bảng 4.3 - Chi phí truyền thơng với Client Giao thức Mahmoud Hussein Bước Bước 5*t 12*2*t = 24*t Client Combiner Combiner [17*t + 5*t*5] = 42*t Initiator Tổng 47*t Initiator Combiner Client [19*t + 19*t*5] = 114*t 138*t Ứng viên toàn cục: [19 + 19*5] = 114 FI toàn cục: [8 + 8*5] = 48 Tổng: 114 + 48 = 162 (itemset) Giao thức ñề xuất Bước Bước 1*t 26*(2*t) = 52*t [2*t + 1*t*5] 26*2*t = 7*t = 52*t (hoặc 2*t) 8*t 104*t (hoặc 4*t) [4 + 4*5] = 24 (itemset) 4.3.4 So sánh với giao thức khác: Ở ñây ta so sánh với giao thức theo hướng tiếp cận MFI (xem mục 2.3) Xét giao thức Adriano A Veloso ñồng nghiệp [8] ñề xuất năm 2003, giao thức khơng sử dụng mã hóa để tìm MFI tồn cục nên tiết kiệm chi phí truyền thông bước này, nhiên giao thức sử dụng Trusted-party để tìm MFI tồn cục, bước tính độ hỗ trợ tồn cục sử dụng giao thức tính tổng an tồn KCS [7] nên 48 tính riêng thấp Giao thức đề xuất có chi phí truyền thơng thấp hai bước khả bảo ñảm tính riêng cao khơng sử dụng Trusted-party Xét giao thức Chin-Chen Chang, Jieh-Shan Yeh Yu-Chiang Li [10] ñề xuất năm 2006, giao thức sử dụng mã hố giao hốn để tìm MFI tồn cục phí tính tốn truyền thơng cao (6 bước thực hiện), giao thức đề xuất sử dụng mã hóa RSA cần bước, nên giao thức thức tối ưu bước Bước tính độ hỗ trợ toàn cục, giao thức Chin-Chen Chang, Jieh-Shan Yeh Yu-Chiang Li khơng sử dụng mã hóa nhiên tác giả chưa ñưa ñánh giá tính riêng 4.4 Kết luận: Giao thức đề xuất áp dụng với số site n ≥ 3, bước tìm MFI toàn cục Combiner thực phép hợp trộn MFI cục (đã mã hố) nên khơng làm thay đổi giá trị, bước tính độ hỗ trợ tồn cục Combiner sử dụng mã hố Paillier nên thực tính tổng độ hỗ trợ dạng mã hố, từ ta kết luận kết khai thác tương tự với liệu tập trung Giao thức không sử dụng Trusted-party, không tiết lộ liệu cục bộ, itemset, ñộ hỗ trợ cục tương ứng |DBi| Do |MFI| |MFI tập trung|, |sup| > |sup tập trung| trường hợp (sup = 0.3%, sup = 0.26%, sup = 0.22%) Số bít khố mã hố ảnh hưởng nhiều đến tổng thời gian thực thi 4.6 Tổng kết: 4.6.1 Kết luận: Luận văn ñã tìm hiểu tổng quan bảo đảm tính riêng khai thác liệu phân tán, tổng hợp hướng nghiên cứu khai thác luật kết hợp bảo ñảm tính riêng CSDL phân tán ngang, thuật tốn Genmax, mã hố đồng hình Paillier Nội dung luận văn cải tiến giao thức Mahmoud Hussein cho tính riêng cao, kết khai thác xác có hiệu tối ưu (giảm chi phí truyền thơng) Cài đặt thử nghiệm hệ thống với liệu thực tế, ñáng giá kết ñạt ñược 55 4.6.2 Hướng phát triển: Về cài ñặt: xác thực site kết nối vào Initiator hay Combiner, khơi phục kết nối, thực thi chương trình hệ ñiều hành khác nhau, hỗ trợ khai thác lại Về giao thức: cải tiến cho trường hợp Initiator Combiner thơng đồng với Trường hợp có site Phát triển giao thức tích hợp vào hệ thống KTDL phân tán sẵn có mà khơng phải thay ñổi hệ thống ... Tổng kết: 4.6.1 Kết luận: Luận văn tìm hiểu tổng quan bảo ñảm tính riêng tư khai thác liệu phân tán, tổng hợp hướng nghiên cứu khai thác luật kết hợp bảo đảm tính riêng tư CSDL phân tán ngang, ... 2.125 61 100 4.5.3 Đánh giá kết quả: Kết khai thác liệu phân tán (4 máy) tư ng tự với kết khai thác liệu tập trung Theo lập luận mục 4.4, tăng số site tham gia kết khai thác xác khơng cần phải cài... cục, bước tính độ hỗ trợ tồn cục sử dụng giao thức tính tổng an tồn KCS [7] nên 48 tính riêng tư thấp Giao thức đề xuất có chi phí truyền thơng thấp hai bước khả bảo đảm tính riêng tư cao không

Ngày đăng: 01/06/2018, 12:48

Tài liệu cùng người dùng

Tài liệu liên quan