Một số kỹ thuật khai phá luật kết hợp có bảo đảm tính riêng tư trong các tập giao dịch phân tán ngang

97 138 2
Một số kỹ thuật khai phá luật kết hợp có bảo đảm tính riêng tư trong các tập giao dịch phân tán ngang

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT VÀ TRUYỀN THÔNG o0o Họ tên tác giả: Nguyễn Thị Thùy MỘT SỐ KỸ THUẬT KHAI PHÁ LUẬT KẾT HỢP BẢO ĐẢM TÍNH RIÊNG TRONG CÁC TẬP GIAO DỊCH PHÂN TÁN NGANG LUẬN VĂN THẠC SỸ KHOA HỌC Thái Nguyên – 2014 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT VÀ TRUYỀN THÔNG Họ tên tác giả: Nguyễn Thị Thùy MỘT SỐ KỸ THUẬT KHAI PHÁ LUẬT KẾT HỢPBẢO ĐẢM TÍNH RIÊNG TRONG CÁC TẬP GIAO DỊCH PHÂN TÁN NGANG Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 LUẬN VĂN THẠC SỸ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC TS TRẦN ĐỨC SỰ Thái Nguyên - 2014 LỜI CAM ĐOAN Những kết nghiên cứu trình bày luận văn hồn tồn trung thực, khơng vi phạm điều luật sở hữu trí tuệ pháp luật Việt Nam Nếu sai, tơi hồn tồn chịu trách nhiệm trước pháp luật TÁC GIẢ LUẬN VĂN Nguyễn Thị Thùy LỜI CẢM ƠN Trước hết, tơi xin bày tỏ lòng cảm ơn chân thành tới thầy giáo,TS Trần Đức Sự, người tận tình hướng dẫn tơi suốt thời gian làm luận văn tốt nghiệp Tôi xin cảm ơn thầy, giáo khoa Công nghệ thông tin trường Đại học CNTT truyền thông - Đại học Thái Nguyên giảng dạy suốt thời gian học tập trường tạo điều kiện giúp đỡ tơi hồn thành luận văn Cảm ơn bạn bè, đồng nghiệp cổ vũ động viên suốt trình học tập trường Tuy cố gắng định thời gian trình độ hạn nên chắn luận văn nhiều thiếu sót hạn chế định Kính mong nhận góp ý thầy bạn MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU Chương TỔNG QUAN VỀ KHAI PHÁ LUẬT KẾT HỢPĐẢM BẢO TÍNH RIÊNG 1.1 Một số khái niệm 1.1.1 Khai phá liệu 1.1.2 Tính riêng 1.1.3 Khai phá liệu đảm bảo tính riêng 1.2 Khai phá luật kết hợp 1.2.1 Luật kết hợp 1.2.2 Khai phá luật kết hợp 1.3 Các phương pháp khai phá luật kết hợp đảm bảo tính riêng 1.3.1 Khai phá luật kết hợp đảm bảo tính riêng với liệu tập trung 1.3.2 Khai phá luật kết hợp đảm bảo tính riêng với liệu phân tán 1.3.2.1 Khai phá liệu mơ hình phân tán 1.3.2.2 Phân tán ngang 1.3.3 Ẩn luật nhạy cảm khai phá luật kết hợp 11 1.4 Một số kỹ thuật khai phá luật kết hợp đảm bảo tính riêng 11 1.4.1 Phương pháp biến đổi liệu 11 1.4.2 Sử dụng thành viên thứ ba đáng tin cậy 11 1.4.3 Tính tốn đa thành viên bảo mật 13 Chương MỘT SỐ PHƯƠNG PHÁP TÌM LUẬT KẾT HỢP 17 2.1 Bài tốn tìm luật kết hợp 17 2.1.1 Phát biểu toán 17 2.1.2 Ví dụ 17 2.2 Thuật toán Apriori 18 2.2.1 Nguyên lí Apriori 19 2.2.2 Thuật toán Apriori 19 2.3 Thuật toán khai phá luật kết hợp phân tán 22 2.3.1 Thuật toán khai phá luật kết hợp phân tán nhanh(FDM) 22 2.3.2 Thuật toán khai phá phân tán luật kết hợp (DMAR) 25 Chương 3.MỘT SỐ THUẬT TỐN KHAI PHÁ LUẬT KẾT HỢPĐẢM BẢO TÍNH RIÊNG 31 3.1 Phương pháp dựa tính tổng bảo mật chống lại thông đồng 31 3.1.1 Các định nghĩa 31 3.1.2 Thuật toán khai phá liệu đảm bảo tính riêng chống lại thông đồng 32 3.1.2.1 Tính tổng bảo mật với Secure Sum 33 3.1.2.2 Mơ hình khai thác CRDM 38 3.2 Một số giao thức tiếp cận theo hướng FI (Frequent itemset): 43 3.2.1 Giao thức sử dụng mã hóa giao hốn KCS 44 3.2.2 Giao thức sử dụng thành viên thứ ba bán tin cậy sử dụng mã hóa Paillier 47 3.2.3 Kỹ thuật tính tổng bảo mật cải tiến dựa mơ hình hai thành viên bán tin cậy 48 3.3 So sánh hai phương pháp Secure Sum Two Mixer Sum 54 3.4 Cài đặt thuật toán Secure Sum 55 3.4.1 Yêu cầu càiđặt thuật toán 56 3.4.2 Quá trình cài đặt thử nghiệm thuật toán Secure Sum 56 3.4.3 Kết luận 61 3.5 Cài đặt thuật toán Two Mixer Sum 62 KẾT LUẬN VÀ KIẾN NGHỊ 67 Kết luận 67 Kiến nghị 67 TÀI LIỆU THAM KHẢO 68 DANH MỤC CÁC TỪ VIẾT TẮT A.sup: Ðộ hỗ trợ toàn cục itemset A (tính theo số lần xuất hiện) A.supi: Ðộ hỗ trợ cục itemset A site i (tính theo số lần xuất hiện) conf: Ðộ tin cậy (toàn cục) tối thiểu CSDL: sở liệu DB: sở liệu tập trung hay toàn cục DBi: sở liệu cục site i FI: Tập itemset phổ biến FIi: Tập itemset phổ biến cục site i KTDL: Khai thác liệu MFI: Tập itemset tối đại MFIi: Tập itemset tối đại cục site i Public key: Khố cơng khai Private key: Khố bí mật SMC: Các giao thức tính tốn đa thành viên an tồn sup: Ðộ hỗ trợ (tồn cục) tối thiểu (tính theo tần số %) SUP: Ðộ hỗ trợ (tồn cục) tối thiểu (tính theo số lần xuất hiện) Trusted-party: Thành viên thứ đáng tin cậy DANH MỤC CÁC BẢNG Bảng 1.1 Ví dụ mơ hình liệu phân tán ngang Bảng 1.2 Ví dụ mơ hình liệu phân tán dọc 10 Bảng 2.1 Các tập phổ biến 26 Bảng 3.1 So sánh phương pháp Secure Sum Two Mixer Sum 55 * Giao diện chương trình Hình 3.9 Giao diện chương trình * Tiến trình thử nghiệm Người dùng nhập ngẫu nhiên số vào ô V1 đến V5 - Tại Server Si ( i từ đến 5) chia ngẫu nhiên Vi thành (6-i) phần - Trên Si gửi V(i,j) (j>i) đến Sj - Trên Si tính tổng V'(i)= V(i,i)+ Tổng (các Sj) khác gửi đến - Gửi V'(i) tới S0, Tổng thu V(0) + i V ' (i ) tổng cần tìm * Giao diện chương trình nhập liệu Hình 3.10 Tiến trình thử nghiệm chương trình * Giao diện kết chương trình Hình 3.11 Giao diện kết chương trình 59 Số hóa Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 60 * Quá trình thực thi - Tại S1, giá trị V1 = V1 chia ngẫu nhiên thành phần V1,1: 2,02845321131332 >S1 V1,2: 0,713470646736208 >S2 V1,3: 0,523325957679156 >S3 V1,4: 0,719706933013226 >S4 V1,5: 0,0150432512580854 >S5 Lần lượt gửi đến S1,S2,S3,S4,S5 Vậy S1, giá trị V1,1 => V’1 = V1,1=> V’1= 2,02845321131332 >S0 - Tại S2, giá trị V2=3 V2 chia ngẫu nhiên thành phần V2,2: 1,52133990848499 >S2 V2,3: 0,535102985052156 >S3 V2,4: 0,392494468259367 >S4 V2,5: 0,551062638203483 >S5 Lần lượt gửi đến S2,S3,S4,S5 Vậy s2, giá trị V2,2 => V2’ = V2,2+ V1,2=> V'2 = 2,2348105552212 > S0 - Tại S3, giá trị V3=3 V3 chia ngẫu nhiên thành phần V3,3: 1,52133990848499 >S3 V3,4: 0,535102985052156 >S4 V3,5: 0,943557106462851 >S5 Lần lượt gửi đến S3,S4,S5 Vậy S3, giá trị V3,3 => V’3 = V3,3+ V1,3+ V2,3 => V’3 = 2,57976885121631 > S0 Số hóa Trung tâm Học liệu tnu.edu.vn/ 61 - Tại S4, giá trị V4=2 V4 chia ngẫu nhiên thành phần V4,4: 1,01422660565666 >S4 V4,5: 0,985773394343338 >S5 Lần lượt gửi đến S4,S5 Vậy S4, giá trị V4,4 => V’4 = V4,4+ V1,4 + V2,4 + V3,4=> V'4 = 2,66153099198141 > S0 - Tại S5, giá trị V5=2 V5 là: V5,5: >S5 Gửi đến S5 Vậy S5, giá trị V5,5 => V’5 = V5,5+ V1,5 + V2,5 + V3,5+V4,5=> V'5 = 4,49543639026776 > S0 * Kết cuối Secure Sum = V0+ V’1+V’2+V’3+V’4+V’5 3.4.3 Kết luận Sau thử nghiệm chương trình ta thấy Secure Sum = V0+ V0+ V’1+V’2+V’3+V’4+V’5= V0+ V1+V2+V3+V4+V5 Hoàn toàn kết thông tin (thông số) Vi Site không bị lộ Các thông tin gửi giá trị V’ I làm nhiễu cách chia ngẫu nhiên kết hợp với thành phần site khác nên từ V’I ta khó tìm lại Vi Do thuật tốn đảm bảo tính bảo mật Chẳng hạn cách ta thu V’i đường truyền ta khơng thể suy Vi site Si tương ứng tính ngẫu nhiên chia ngẫu nhiên kết hợp Si Tuy nhiên cách cách ta biết Vi N-2 site ta suy Vi lại Lấy ví dụ chẳng hạn ta biết V1, V2, …V4 tính tốn thơng thường ta thu V0 V5 Số hóa Trung tâm Học liệu tnu.edu.vn/ 62 3.5 Cài đặt thuật tốn Two Mixer Sum 3.5.1 Q trình cài đặt thử nghiệm * Giao diện chương trình Hình 3.12 Giao diện chương trình * Tiến trình thử nghiệm Số hóa Trung tâm Học liệu tnu.edu.vn/ 63 Hình 3.13 Tiến trình thử nghiệm * Giao diện kết chương trình Hình 3.14 Kết chương trình * Quá trình thực thi - Tại Mixer 1, giá trị K1 K1 chia ngẫu nhiên thành phần K1,1: 0,994157392994574 > S1 K2,1: 0,53764097813023 > S2 K3,1: 0,468201628875196 > S3 - Tại Mixer 2, giá trị K2 K2 chia ngẫu nhiên thành phần K1,2: 1,49123608949186 > S1 K2,2: 0,806461467195345 > S2 K3,2: 0,702302443312795 > S3 - Tại S1 nhận hai giá trị K1 (K1,1) K2 (K1,2) => Số hóa Trung tâm Học liệu tnu.edu.vn/ 64 ta L1: V1 + K1,1 + K1,2 = + 0,994157393 + 1,491236089 => L1: 6,48539348248644 - Tại S2 nhận hai giá trị K1 (K2,1) K2 (K2,2) => Ta L2: V2 + K2,1 + K2,2 = + 0,53764097813023+0,80646146719535 => L2: 6,34410244532557 - Tại S3 nhận hai giá trị K1 (K3,1) K2 (K3,2) => Ta L3: V3 + K3,1 + K3,2 = + 0,46820162887520 + 0,70230244331280 => L3: 7,17050407218799 - Tại S1, ta L1 chia ngẫu nhiên làm phần L1,1= 3,22375093854636 > K1 L1,2= 3,26164254394008 > K2 - Tại S2, ta L2 chia ngẫu nhiên làm phần L2,1= 3,15351817396769 > K1 L2,2= 3,19058427135789 > K2 - Tại S3, ta L3 chia ngẫu nhiên làm phần L3,1= 3,56430481743169 > K1 L3,2= 3,6061992547563 > K2 - Tại Mixer ta summixer1: L1,1 + L1,2 + L1,3 – K1 - Tại Mixer ta summixer 2: L1,2 + L2,2 + L3,2 – K2 + summixer1 => Vậy ta Two-Mixer Sum: summixer1 + summixer2 – K1 – K2 3.5.2 Kết luận Số hóa Trung tâm Học liệu tnu.edu.vn/ 65 Sau thử nghiệm chương trình ta thấy Mixer Sum (V1, V2, V3) = 16 = V1+ V2 + V3 thông tin gửi Site 1, Site 2, Site là: L1,1= 3,22375093854636 > K1 L1,2= 3,26164254394008 > K2 L2,1= 3,15351817396769 > K1 L2,2= 3,19058427135789 > K2 L3,1= 3,56430481743169 > K1 L3,2= 3,6061992547563 > K2 Khơng phải V1, V2, V3 chí từ thơng tin thu site ta thu giá trị gốc Vi lưu trữ Site Trường hợp chặn bắt thơng tin site gửi đến Mixer Mixer ta suy thông tin lưu trữ gốc Site thông tin nhận ngẫu nhiên Thơng tin Site bị Site thông đồng Khi site thông đồng (chẳng hạn Site Site 2), site cung cấp cho V1, V2 từ tổng ta hồn tồn tính V3 Kết luận Chương Chương ta tìm hiểu số thuật tốn khai phá luật kết hợp đảm bảo tính riêng với giao thức sử dụng thuật toán CRDM, mã giao hoán KCS Phương pháp CRDM phương pháp chi phí hiệu nay, ý tưởng dựa giao thức tính tổng bảo mật (secure sum) Tuy nhiên khả chống thông đồng thấp sử dụng mã hóa Paillier Do chương sau đây, ta đưa demo chương trình cài đặt kỹ thuật tính tổng Số hóa Trung tâm Học liệu tnu.edu.vn/ 66 bảo mật Secure sum mơ hình tính tổng bảo mật cải tiến dựa mơ hình hai thành viên bán tin cậy Số hóa Trung tâm Học liệu tnu.edu.vn/ 67 Số hóa Trung tâm Học liệu tnu.edu.vn/ 68 KẾT LUẬN VÀ KIẾN NGHỊ Kết luận Khai phá luật kết hợp đảm bảo tính riêng lĩnh vực mẻ, năm gần nhiều cơng trình nghiên cứu theo hướng Việc nghiên cứu đưa vào thành công hệ thống đóng góp lớn ích lĩnh vực khai phá liệu, trích rút tri thức Luận văn tập trung nghiên cứu định tính phân tích thuật tốn khai phá phá luật kết hợp đảm bảo tính riêng mơi trường phân tán ngang để từ đưa so sánh đề xuất cải tiến bổ ích cho hướng phát triển vấn đề Kết đạt luận văn: Luận văn giới thiệu làm rõ toán khai phá luật kết hợp đảm bảo tính riêng mơi trường phân tán ngang, đồng thời luận văn trình bày số giải pháp, số thuật toán khai phá luật kết hợp đảm bảo tính riêng môi trường phân tán ngang Luận văn phân tích đánh giá so sánh thuật tốn để từ đưa ý tưởng cải tiến Kiến nghị Trên sở nghiên cứu, học viên hi vọng tương lai phát triển tốn đặt mơi trường phân tán dọc, đồng thời xây dựng mơ hình thực nghiệm nhân rộng ứng dụng ích vào thực tế Trong q trình học tập, tìm hiểu nghiên cứu với khoảng thời gian làm luận văn, cố gắng tập trung tìm hiều tham khảo tài liệu liên quan Tuy nhiên, thời gian nghiên cứu lực hạn nên khó tránh khỏi sai sót cần bổ sung, kính mong đóng góp ý kiến thông cảm thầy, giáo Một lần tơi xin bày tỏ lòng biết ơn sâu sắc đến thầy giáo hướng dẫn tận tình bảo, hướng dẫn giúp đỡ suốt q trình thực luận văn Số hóa Trung tâm Học liệu tnu.edu.vn/ TÀI LIỆU THAM KHẢO Tiếng việt [1] PGS.TS.Hà Quang Thụy, nhập môn khai phá liệu, giảng, trường Đại học công nghệ - Đại học Qquốc Gia Hà Nội, Hà Nội, 2011 [2] Nguyễn Xuân Cảnh, khai phá luật kết hợp bảo đảm tính riêng liệu phân tán ngang, Luận văn Thạc sĩ tin học, trường Đại học khoa học Tự Nhiên - Đại học Quốc Gia Thành phố Hồ Chí Minh, 2011 Tiếng anh [3] David W Cheung, Jiawei Han, Vincent T Ng, Ada W Fu, Yongjian Fu, A Fast Distributed Algorithm for Mining Association Rules, 1996 [4] Golam Kaosar; Xun Yi, Semi-Trusted Mixer Based Privacy Preserving Distributed Data Mining for Resource Constrained Devices, 2010 [5] Kantarcioglu, Murat and Clifton, Chris, Privacy-Preserving Distributed Mining of Association Rules on Horizontally Partitioned Data, IEEE Trans on Knowl and Data Eng, 2004 [6] Michels Markus and Horster Patrick, Some Remarks on a Receipt-Free and Universally Verifiable Mix-Type Voting Scheme, Proceedings of the International Conference on the Theory and Applications of Cryptology and Information Security: Advances in Cryptology, pages 125-132, 1996 [7] Shyue Liang Wang, Yu Huei Lee, Billis, S., Jafari, A Hiding sensitive items in privacy preserving association rule mining, Systems, Man and Cybernetics, 2004 IEEE International Conference, 2005 [8] Vaidya, Jaideep and Clifton, Chris Leveraging the "Multi" in secure multi-party computation, WPES '03: Proceedings of the 2003 ACM workshop on Privacy in the electronic society, pages 53 59, 2003 [9] Xun Yi; Yanchun Zhang, Privacy-preserving naive Bayes classification on distributed data via semi-trusted mixers, 2007 [10] Yoones Asgharzadeh Sekhavat and Mohamad Fathian Mining frequent itemsets in presence of malicious participants Journal of IET Information Security, 2010 ... luật kết hợp 1.3 Các phương pháp khai phá luật kết hợp có đảm bảo tính riêng tư 1.3.1 Khai phá luật kết hợp có đảm bảo tính riêng tư với liệu tập trung 1.3.2 Khai phá luật kết hợp có. .. liệu phân tán Chương 3: Một số thuật tốn khai phá luật kết hợp có đảm bảo tính riêng tư môi trường phân tán ngang Chương tập chung nghiên cứu số thuật toán khai phá luật kết hợp có đảm bảo tính riêng. .. khai phá luật kết hợp có đảm bảo tính riêng tư Trong chương trình bày khái quát chung vấn đề khai phá liệu có đảm bảo tính riêng tư, vấn đề khai phát luật kết hợp có đám bảo tính riêng Số hóa

Ngày đăng: 28/02/2019, 10:15

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan