Luận án tiến sĩ: Khai thác dữ liệu phân tán bảo toàn tính riêng tư

Thông tin tài liệu

Luận án tiến sĩ: Khai thác dữ liệu phân tán bảo toàn tính riêng tưLuận án tiến sĩ: Khai thác dữ liệu phân tán bảo toàn tính riêng tưLuận án tiến sĩ: Khai thác dữ liệu phân tán bảo toàn tính riêng tưLuận án tiến sĩ: Khai thác dữ liệu phân tán bảo toàn tính riêng tưLuận án tiến sĩ: Khai thác dữ liệu phân tán bảo toàn tính riêng tưLuận án tiến sĩ: Khai thác dữ liệu phân tán bảo toàn tính riêng tưLuận án tiến sĩ: Khai thác dữ liệu phân tán bảo toàn tính riêng tưLuận án tiến sĩ: Khai thác dữ liệu phân tán bảo toàn tính riêng tưLuận án tiến sĩ: Khai thác dữ liệu phân tán bảo toàn tính riêng tưLuận án tiến sĩ: Khai thác dữ liệu phân tán bảo toàn tính riêng tưLuận án tiến sĩ: Khai thác dữ liệu phân tán bảo toàn tính riêng tưLuận án tiến sĩ: Khai thác dữ liệu phân tán bảo toàn tính riêng tưLuận án tiến sĩ: Khai thác dữ liệu phân tán bảo toàn tính riêng tưLuận án tiến sĩ: Khai thác dữ liệu phân tán bảo toàn tính riêng tưLuận án tiến sĩ: Khai thác dữ liệu phân tán bảo toàn tính riêng tưLuận án tiến sĩ: Khai thác dữ liệu phân tán bảo toàn tính riêng tưLuận án tiến sĩ: Khai thác dữ liệu phân tán bảo toàn tính riêng tưLuận án tiến sĩ: Khai thác dữ liệu phân tán bảo toàn tính riêng tư

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM VIỆN CÔNG NGHỆ THÔNG TIN CAO TÙNG ANH KHAI THÁC DỮ LIỆU PHÂN TÁN BẢO TỒN TÍNH RIÊNG TƢ LUẬN ÁN TIẾN SĨ TỐN HỌC HÀ NỘI– 2014 BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM VIỆN CÔNG NGHỆ THÔNG TIN CAO TÙNG ANH KHAI THÁC DỮ LIỆU PHÂN TÁN BẢO TỒN TÍNH RIÊNG TƢ Chun ngành: BẢO ĐẢM TỐN HỌC CHO MÁY TÍNH VÀ HỆ THỐNG TÍNH TỐN Mã số: 62.46.35.01 LUẬN ÁN TIẾN SĨ TOÁN HỌC NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TSKH NGUYỄN XUÂN HUY PGS.TS NGUYỄN MẬU HÂN HÀ NỘI - 2014 LỜI CAM ĐOAN Tôi cam đoan công trình nghiên cứu riêng tơi Các số liệu, kết luận án trung thực chƣa cơng bố cơng trình khác Tác giả luận án Cao Tùng Anh LỜI CÁM ƠN Luận án đƣợc thực hoàn thành dƣới hƣớng dẫn PGS.TSKH Nguyễn Xuân Huy PGS.TS Nguyễn Mậu Hân Trong thời gian thực luận án, tác giả nhận đƣợc giúp đỡ dẫn khoa học tận tình từ hai ngƣời thầy để hồn thành luận án Nhân dịp tác giả xin đƣợc gửi đến hai thầy: PGS.TSKH.Nguyễn Xuân Huy PGS.TS Nguyễn Mậu Hân lòng biết ơn sâu sắc lời cám ơn chân thành Tác giả xin đƣợc trân trọng cảm ơn PGS.TS Thái Quang Vinh, GS.TS Vũ Đức Thi, PGS.TS Đoàn Văn Ban, PGS.TS Đặng Văn Đức, PGS.TS Ngô Quốc Tạo, PGS.TS Đỗ Năng Toàn, PGS.TS Lƣơng Chi Mai, PGS.TS.Nguyễn Thanh Tùng thầy (cô) Viện Công Nghệ Thông Tin quan tâm bảo, động viên giúp đỡ tác giả suốt trình học tập, nghiên cứu hoàn thiện luận án Tác giả xin trân trọng cảm ơn PGS.TS Lê Hoài Bắc bạn đồng nghiệp nhóm nghiên cứu TP.Hồ Chí Minh đọc cho ý kiến đóng góp quý báu cho nội dung luận án Cuối xin chân thành cảm ơn bạn đồng nghiệp khoa CNTT, trƣờng Đại học Cơng nghệ TP.Hồ Chí Minh cổ vũ, động viên, giúp đỡ nhiều mặt cho tác giả thời gian thực luận án MỤC LỤC LỜI CAM ĐOAN LỜI CÁM ƠN MỤC LỤC DANH MỤC CÁC HÌNH DANH MỤC CÁC BẢNG DANH MỤC TỪ VIẾT TẮT PHẦN MỞ ĐẦU CHƢƠNG Một số khái niệm sở liệu phân tán, khai thác liệu bảo tồn tính riêng tƣ 19 1.1 Cơ sở liệu phân tán 19 1.1.1 Khái niệm sở liệu phân tán 19 1.1.2 Cơ sở liệu phân tán ngang 19 1.1.3 Cơ sở liệu phân tán dọc 21 1.2 Khai thác liệu 23 1.2.1 Khái niệm khai thác liệu 23 1.2.2 Một số thuật toán khai thác liệu 24 1.3 Bảo đảm tính riêng tƣ .31 1.3.1 Khái niệm 31 1.3.2 Phân loại phƣơng pháp PPDM 32 1.3.3 Đánh giá thuật toán PPDM 34 1.4 Một số phƣơng pháp giấu liệu 35 1.4.1 Xáo trộn 35 1.4.2 Ngăn chặn 36 1.4.3 Gom / trộn 36 1.4.4 Đổi chỗ 36 1.4.5 Lấy mẫu 37 1.4.6 Ứng dụng lý thuyết giàn giao 41 1.5 Một số kỹ thuật khai thác liệu bảo đảm tính riêng tƣ 49 1.5.1 Kỹ thuật chỉnh sửa liệu sở liệu nhị phân 49 1.5.2 Kỹ thuật thay giá trị liệu thật giá trị không xác định 53 1.5.3 Phƣơng pháp tái tạo 56 1.6 Kết chƣơng .58 CHƢƠNG Khai thác liệu CSDL phân tán 60 2.1 Giới thiệu 60 2.2 Khai thác sở liệu phân tán dọc 60 2.2.1 Cách thực 60 2.2.2 Thuật toán khai thác CSDL phân tán dọc với phép kết ngoại 62 2.2.3 Thuật toán khai thác CSDLPT dọc với phép kết ngoại hai chiều 66 2.2.4 Thuật toán khai thác CSDLPT dọc phép kết tự nhiên 68 2.3 Khai thác sở liệu phân tán ngang 73 2.3.1 Cách thực 73 2.3.2 Nhận xét phƣơng pháp 75 2.4 Khai thác song song tập phổ biến CSDL phân tán 75 2.4.1 Đặt vấn đề 75 2.4.2 Mơ hình khai thác 76 2.4.3 Thuật toán khai thác tập phổ biến Master 78 2.5 Khai thác tập mục có lợi ích cao 81 2.5.1 Đặt vấn đề 81 2.5.2 Khai thác tập mục có lợi ích cao 81 2.6 Kết chƣơng .86 CHƢƠNG Khai thác liệu phân tán bảo đảm tính riêng tƣ 87 3.1 Giới thiệu chƣơng 87 3.2 Khai thác CSDL phân tán dọc bảo đảm tính riêng tƣ 87 3.2.1 Đặt vấn đề 87 3.2.2 Thuật toán 88 3.2.3 Minh họa thuật toán: 89 3.3 Khai thác CSDL phân tán ngang bảo đảm tính riêng tƣ 94 3.3.1 Đặt vấn đề 94 3.3.2 Một số cơng cụ tính tốn đa bên an tồn 95 3.3.3 Giải thuật khai thác tập phổ biến đảm bảo riêng tƣ chống thông đồng liệu phân tán ngang 96 3.4 Giao thức khai thác CSDL phân tán ngang bảo đảm tính riêng tƣ 107 3.4.1 Đặt vấn đề 107 3.4.2 Cơ sở lý thuyết 108 3.4.3 Giao thức khai thác 109 3.4.4 Đánh giá giao thức 113 3.4.5 Thực nghiệm giao thức 113 3.5 Kết chƣơng 114 PHẦN KẾT LUẬN 116 DANH MỤC CƠNG TRÌNH ĐÃ CƠNG BỐ .120 TÀI LIỆU THAM KHẢO 121 DANH MỤC CÁC HÌNH Hình 1.1 Thuật tốn IT-Tree phát sinh tập phổ biến thỏa ngƣỡng minsup 30 Hình 1.2 Kết khai thác với ngƣỡng minsup=50% 31 Hình 1.3 Đồ thị dàn tập mục thƣờng xuyên 43 Hình 1.4 Gian giao đầy đủ tập Poset (ABE) 44 Hình 1.5 Thuật toán Itemhide- Ẩn tập mục nhạy cảm 46 Hình 1.6 Thuật tốn 1a 51 Hình 1.7 Thuật tốn 1b 51 Hình 1.8 Thuật toán 2a 52 Hình 1.9 Thuật tốn 2b 52 Hình 2.1 Mơ hình hoạt động khai thác luật CSDL phân tán 60 Hình 2.2 Thuật tốn Eclat_Distribute_Left_Join 63 Hình 2.3 Biểu diễn mục đơn DB1 .65 Hình 2.4 Biểu diễn mục đơn DB1 DB2 65 Hình 2.5 Kết khai thác CSDL phân tán với phép kết Left-join .66 Hình 2.6 Thuật tốn Eclat_Distribut_Full_Join .67 Hình 2.7 Kết khai thác CSDLPT dọc với phép kết ngoại hai chiều .68 Hình 2.8 Thuật tốn phát sinh tập phổ biến thỏa ngƣỡng minsup 69 Hình 2.9 Cây biểu diễn mục đơn DB1 DB2 71 Hình 2.10 Cây biểu diễn khai thác tập phổ biến CSDL phân tán 71 Hình 2.11 Mơ hình tổng qt khai thác CSDL phân tán ngang .77 Hình 2.12 Trao đổi thông tin khai thác tâp phổ biến Master Slaver 77 Hình 2.13 Kết khai thác từ Slave theo thuật toán Eclat .78 Hình 2.14 Kết khai thác từ Slave theo thuật tốn Eclat .78 Hình 2.15 Thuật toán PEclat 79 Hình 2.16 Kết PEClat với minsup=50% 80 Hình 2.17 Cây WIT-Tree .82 Hình 2.18 Thuật tốn TWU-Mining 83 Hình 2.19 Minh họa thuật toán TWU-Mining .84 Hình 3.1 Thuật tốn phát sinh tập phổ biến 88 Hình 3.2 Sơ đồ hoạt động thuật tốn .89 Hình 3.3 Kết tạo lớp tƣơng đƣơng [] .91 Hình 3.4 Kết khai thác CSDL phân tán dọc .91 Hình 3.5 Thủ tục Create_Fitree 98 Hình 3.6 Thủ tục Secure_Support(X) 98 Hình 3.7 Thủ tục Extend_Fitree& Upper_Bound 99 Hình 3.8 Thủ tục Upper_Bound 100 Hình 3.9 Kết FITree sau xử lý nút gốc 101 Hình 3.10 Kết FITree sau xử lý nút A 102 Hình 3.11 Sự phụ thuộc thời gian vào số lƣợng máy CSDL Accident 107 Hình 3.12 Sự phụ thuộc thời gian vào số lƣợng máy CSDL bảo hiểm 107 Hình 3.13 Giao thức đảm bảo tính riêng tƣ 110 Hình 3.14 CSDL tập trung CSDL phân tán 112 Hình 3.15 Các bên tính độ hỗ trợ cục 112 Hình 3.16 Tính độ hỗ trợ tồn cục tập phổ biến tồn cục 112 Hình 3.17 So sánh tổng chi phí GTDX GT M.Hussein 114 DANH MỤC CÁC BẢNG Bảng 1.1 Quan hệ dự án (DA) .19 Bảng 1.2 Kết phân tán ngang nguyên thủy .20 Bảng 1.3 Quan hệ chi trả 20 Bảng 1.4 Quan hệ nhân viên 20 Bảng 1.5 Kết phân mảnh ngang dẫn xuất quan hệ NV 21 Bảng 1.6 Quan hệ nhân viên 21 Bảng 1.7 Kết phân tán dọc từ bảng 1.6 22 Bảng 1.8 Cơ sở liệu giao dịch 30 Bảng 1.9 CSDL T 22 giao tác đƣợc viết thành mảnh 42 Bảng 1.10 Tập mục thƣờng xuyên theo ngƣỡng  = 42 Bảng 1.11 So sánh thuật toán 50 Bảng 2.1 Cơ sở liệu Master 61 Bảng 2.2 Cơ sở liệu Slave 61 Bảng 2.3 Cơ sở liệu sau kết 61 Bảng 2.4 Cơ sở liệu bên tham gia khai thác 64 Bảng 2.5 Cơ sở liệu kết ngoại (Left Join) 64 Bảng 2.6 CSDL với phép kết ngoại “hai chiều” 66 Bảng 2.7 Cơ sở liệu bên tham gia khai thác 69 Bảng 2.8 Cơ sở liệu bên A kết với bên B 70 Bảng 2.9 Kết thực nghiệm CSDL CO-OP Mark TP.HCM 73 Bảng 2.10 Cơ sở liệu Master 74 Bảng 2.11 Cơ sở liệu Slave 74 Bảng 2.12 Cơ sở liệu sau hội Master Slave 74 Bảng 2.13 CSDL mẫu 76 Bảng 2.14 Cơ sở liệu phân tán bảng 2.13 76 Bảng 2.15 Bảng giá trị khách quan 82 Bảng 2.16 Bảng giá trị chủ quan 82 Bảng 2.17 Bảng CSDL thực nghiệm 85 Bảng 2.18 Bảng thực nghiệm thuật toán CSDL BMS-POS 85 Bảng 2.19 Bảng thực nghiệm thuật toán CSDL Retail 86 Bảng 3.1 CSDL thực hai bên Master Slave 89 Bảng 3.2 CSDL giả hai bên Master Slave 90 Bảng 3.3 Kết thực nghiệm CSDL CO-OP Mart TP.HCM .93 Bảng 3.4 Minh họa hệ thống gồm bên S1, S2 101 Bảng 3.5 Thời gian chạy CSDL Accidents 106 Bảng 3.6 Thời gian chạy CSDL bảo hiểm 106 Bảng 3.7 Thông tin CSDL thực nghiệm 114 DANH MỤC TỪ VIẾT TẮT Từ viết tắt CSDL CSDLPT GTDX WIT-Tree Diễn giải tiếng Anh Database Database distributed Proposed protocol Weighted Itemset-Tidset tree Diễn giải tiếng Việt Cơ sở liệu Cơ sở liệu phân tán Giao thức đề xuất Cây tập mục-tập giao dịch có trọng số TWU FI FP-tree FDM SVM Cây lợi ích có trọng số Tập phổ biến Cây khai thác song song nhanh Khai thác phân tán nhanh Sử dụng vectơ hỗ trợ phân lớp 10 PPDM 11 RSA 12 13 SM MST Tree Weighted Utility Frequent Itemsets Fast Parallel tree Fast Distributed Mining Support Vector machines Privacy Preserving Data Mining Revest-ShamirAdleman Safety margin Min support 14 MFI Tập phổ biến tối đại 15 16 17 18 19 20 MCT TID IT-Tree HUIs DBS SH Maximal Frequent Itemset Min Confident Transaction index Itemset Tidset tree High Utility Itemsets Dynamic Bit String Semi Honest STT Khai thác liệu bảo tồn tính riêng tƣ Hệ mã hóa RSA Ngƣỡng an tồn Độ hỗ trợ tối tiểu Ngƣỡng độ tin cậy Chỉ mục giao dịch Cây tập mục -tập giao dịch Tập tiện ích cao Chuỗi bít động Trung thực nửa Giai đoạn đầu: Bƣớc 1: Mỗi bên thực tìm tập tối đại (MFI) cách độc lập (trừ Initiator) mã hóa tập tối đại mã khóa private key (bên Combiner khơng mã hóa) Sau bên gửi liệu mã hóa cho Combiner Bƣớc 2: Combiner nhận liệu bên khơng có khóa private key nên khơng thể biết MFI bên sau Combiner trộn liệu nhận đƣợc từ bên với liệu MFI gửi đến Initiator Bƣớc 3: Initiator nhận đƣợc liệu trộn nên liệu bên nào, Initiator giải mã liệu nhận đƣợc từ Combiner kết hợp với tập phổ biến tối đại để tìm MFI tồn cục, đó, tập phổ biến tối đại không tập tập phổ biến tối đại khác Sau Initiator gửi MFI toàn cục cho tất bên Mỗi bên tự phát sinh tập phổ biến theo thứ tự xác định từ MFI toàn cục Giai đoạn hai: Bƣớc 1: Mỗi bên (trừ Initiator) tính độ hỗ trợ tập phổ biến mã hóa cách sử dụng mã khóa Paillier Sau bên gửi liệu mã hóa cho Combiler Mã hóa độ hỗ trợ tập phổ biến X bên Si đƣợc ký hiệu E(X.supi) Bƣớc 2:Với X Combiler tính tốn : n-2 E  X supCombiner   E  X supCombiner *  E  X supk  k 1 Sau mã hóa gửi cho Initiator Bƣớc 3: Initiator giải mã liệu nhận đƣợc từ Combiner tính tốn độ hỗ trợ tồn cục cho tất bên theo công thức: X.sup = D (E(X.supCombiner)) + X.supInitiator Giai đoạn hoàn tất: n Các bên tính |DBi|=  |DBi| theo cách thực nhƣ giai đoạn Sau i=1 Initiator tìm luật tồn cục mạnh gửi cho bên Ví dụ 3.3 (minh họa thuật tốn) : Giả sử có CSDL ban đầu gồm CSDL tập trung (a) đƣợc phân tán bên gồm: 1- Initiator, 2- Combiener 3- Client (b) Với ngƣỡng hỗ trợ 50% ta có MFIi tập phổ biến tối đại tƣơng ứng với thứ 111 tự bên (nhƣ hình 3.14) Từ Initiator tính đƣợc MFI tồn cục = {ABDE, ACDE, BCE, BCD} nhƣng MFIi ABDE BCD ABDE ABCE ABCDE BCD ACD ACDE ACD ACE DE FI A–8 C–8 D–8 E–8 AC – AD – AE – Initiator ABDE BCD ABDE ABCE Client ACD ACE DE Combiner ABCDE BCD ACD ACDE MFI1 = {ABDE, BCE} MFI2 = {ACDE, BCD} MFI3 = {AC} (a) CSDL tập trung (b) CSDL phân tán Hình 3.14 CSDL tập trung CSDL phân tán Initiator A – AB – B – AD – C – AE – D – BD – E – BE – DE – AC – CD – CE – BC – ABD – ABDE - ABE – ACDE - BDE – ADE – ACD – ACE – CDE – BCD – BCE – Combiner A – AB – B – AD – C – AE – D – BD – E – BE – DE – AC – CD – CE – BC – ABD – ABDE - ABE – ACDE - BDE – ADE – ACD – ACE – CDE – BCD – BCE – Client A – AB – B – AD – C – AE – D – BD – E – BE – DE – AC – CD – CE – BC – ABD – ABDE - ABE – ACDE - BDE – ADE – ACD – ACE – CDE – BCD – BCE – Hình 3.15 Các bên tính độ hỗ trợ cục Initiator A – AB – B – AD – C – AE – D – BD – E – BE – DE – AC – CD – CE – BC – ABD – ABDE - ABE – ACDE - BDE – ADE – ACD – ACE – CDE – BCD – BCE –  | DB i SUP6 |11 Initiator A–8 C – AD – D – AE – E–8 AC - Hình 3.16 Tính độ hỗ trợ tồn cục tập phổ biến tồn cục Qua ví dụ ta nhận thấy kết khai thác tập phổ biến CSDL tập trung (hình 3.14) kết khai thác CSDL phân tán ngang có bảo tồn tính riêng tƣ (hình 3.16) với ngƣỡng hỗ trợ hồn tồn giống 112 3.4.4 Đánh giá giao thức Về tính riêng tƣ: Bƣớc tìm tập ứng viên, Combiner nhận liệu đƣợc mã hố từ bên khơng có private key nên khơng thể giải mã, Combiner trộn MFI cục nên sau giải mã Initiator biết đƣợc MFI site Bƣớc tính độ hỗ trợ tồn cục, Combiner tính tích độ hỗ trợ dạng mã hố nên Initiator khơng thể biết xác độ hỗ trợ itemset site khác Với mã hố Paillier có mã ngẫu nhiên nên có tính riêng tƣ cao so với giao thức MHS [31] Từ ta khẳng định giao thức khơng tiết lộ liệu cục bộ, itemset độ hỗ trợ |DBi| có tính riêng tƣ cao so với giao thức MHS Về độ xác: Từ bổ đề 3.2 tập itemset phổ biến toàn cục tập tập ứng viên, sau ta tính độ hỗ trợ tồn cục itemset ứng viên tìm itemset phổ biến toàn cục Cụ thể bƣớc: Bƣớc tìm tập ứng viên, Combiner thực phép trộn không làm thay đổi liệu nhận đƣợc nên sau Initiator giải mã nhận đƣợc xác MFI cục site Bƣớc tính độ hỗ trợ tồn cục, sử dụng mã khóa Paillier nên Combiner tính tổng độ hỗ trợ dạng mã hoá nên Initiator sau giải mã nhận đƣợc xác tổng độ hỗ trợ (n – 1) bên 3.4.5 Thực nghiệm giao thức Chúng thực thi giao thức đề xuất (GTDX) so sánh với giao thức M.Hussein (GT M.Hussein [31]) lần lƣợt từ 10 site liệu thực tế pumsb, connect liệu siêu thị Ba liệu có đặc điểm khác số item, chiều dài trung bình Thông tin chi tiết tập liệu nhƣ bảng 3.7 Các liệu đƣợc chia thành đến 10 phần tính theo số dòng lần lƣợt thực thi giao thức liệu sau chia nhỏ 113 Tên Số giao tác CSDL Siêu thị 246.750 Connect 67.557 Pumsb 49.046 Số item 17.033 130 7.117 Chiều dài trung bình 4.67 43 74 Bảng 3.7 Thông tin CSDL thực nghiệm Kết khai thác liệu phân tán liệu tập trung nhƣ với liệu này, đƣa so sánh chi phí truyền thơng Chúng tơi giả sử bên có khả tính tốn tốc độ truyền thơng nhƣ nhau, chi phí tồn giao thức tổng chi phí tìm tập ứng viên chi phí tính độ hỗ trợ tồn cục, cụ thể là: Bƣớc tìm tập ứng viên: có chi phí truyền thơng chi phí từ bên có |MFI| cục (hay |FI| cục bộ) lớn đến Combiner từ Combiner đến Initiator Bƣớc tính độ hỗ trợ tồn cục: có chi phí truyền thơng chi phí truyền thơng từ bên có số ứng viên lớn đến Combiner từ Combiner đến Initiator Do bên có số ứng viên nhƣ nên ta chọn bên Kết thực nghiệm nhƣ hình 3.17 Hình 3.17 So sánh tổng chi phí GTDX GT M.Hussein 3.5 Kết chƣơng Trong chƣơng 3, luận án trình bày thuật toán đề xuất giao thức sử dụng để khai thác CSDL phân tán dọc phân tán ngang có quan tâm đến việc bảo tồn thơng tin bên tham gia trình khai thác luật Trong thuật toán khai thác CSDL phân tán dọc vấn đề bảo tồn tính riêng tƣ cịn trƣờng hợp làm 114 lộ thơng tin bên tham gia khai thác Đối với thuật toán khai thác CSDL phân tán ngang chúng tơi chứng minh thuật tốn bảo đảm tính riêng tƣ hồn tồn mơi trƣờng SH kể trƣờng hợp có n-1 bên thơng đồng Với giao thức bảo đảm tính riêng tƣ, cải tiến giao thức [31] để tăng khả bảo tồn tính riêng tƣ so với [31] Ngồi chƣơng trình bày phần thực nghiệm thuật toán khai thác liệu phân tán liệu bảo tồn tính riêng tƣ tránh thông đồng bên để làm lộ liệu bên số bên tham gia khai thác 115 PHẦN KẾT LUẬN Các kết qủa đạt đƣợc Luận án trình bày sở lý thuyết CSDL phân tán, đề xuất số thuật toán khai thác liệu ẩn liệu qua trình khai thác từ dẫn đến mục đích luận án đề xuất thuật tốn khai thác liệu CSDL phân tán có quan tâm đến việc bảo tồn tính riêng tƣ bên tham gia trình khai thác tránh thông đồng số bên để làm lộ liệu bên khác Những đóng góp luận án gồm : Đóng góp 1: Do việc khai thác CSDL phân tán dọc, sử dụng phép kết để sinh CSDL chung tạo liệu lớn ảnh hƣởng đến thời gian tính khả thi khai thác, luận án đề xuất thuật toán: - Khai thác CSDL phân tán dọc phép kết ngoại sử dụng phƣơng pháp ITTree gồm hai thuật toán: ECLAT_DISTRIBUTE_LEFT_JOIN ECLAT_ DISTRIBUTE_FULL_JOIN để tránh không thực phép kết CSDL tham gia khai thác, nhằm tăng tốc độ khai thác liệu Kết trình bày chƣơng (trang 63-73) cơng trình [2], [3] - Cũng với mục đích tăng tốc độ khai thác tập mục có lợi ích cao, luận án đề xuất cấu trúc WIT-Tree thuật toán TWU-Mining để tăng hiệu thời gian khai thác tập mục liệu có lợi ích cao Kết trình bày chƣơng (trang 81-86) cơng trình [1] - Thuật tốn PEclat, để khai thác song song tập phổ biến bên tham gia Bên cần khai thác tập phổ biến (đƣợc gọi Master) gửi thông tin CSDL minSup cho bên tham gia (đƣợc gọi Slave) lần Vì vậy, thời gian gửi/nhận thơng tin thấp so với việc truyền nhận thông tin nhiều lần Các Slave có lần gửi thơng tin Master Lần thứ gửi item với Tidset chúng, lần thứ gửi tập itemset thỏa minSup Vì vậy, thời gian giao tiếp tính O(n) Một vấn đề Master khai thác tập phổ biến chƣa đƣợc khai thác Slave vậy, thời gian khai thác nhanh so với việc tập 116 trung liệu lại để khai thác máy Kết đƣợc trình bày chƣơng (trang 75-80) cơng trình [5] Đóng góp 2: Để thực việc khai thác luật kết hợp CSDL phân tán dọc có quan tâm đến việc bảo tồn tính riêng tƣ bên tham gia, luận án đề xuất thuật toán ENUMERATE_FREQUENT_DISTRIBUTE_ PRIVACY Trong thuật tốn có sử dụng bên thứ làm trung gian để hỗ trợ bên tiến hành khai thác luật sau bên đổi chỗ cho để thay vai trò trung gian vai trò bên khai thác luật Kết trình bày chƣơng (trang 87-93) cơng trình [2] Đóng góp 3: Đối với khai thác tập phổ biến CSDL phân tán ngang có quan tâm đến bảo tồn tính riêng tƣ bên tham gia tránh thông đồng số bên để làm lộ liệu số bên khác, luận án trình bày: - Thuật tốn khai thác CSDL phân tán ngang bảo tồn tính riêng tƣ gồm thủ tục: SECURE_SUPPORT thực việc cài đặt giao thức tính độ phổ biến tồn cục itemset X Thủ tục EXTEND_FITREE để mở rộng hoàn thiện FITree chứa tập đầy đủ itemset phổ biến toàn cục Thủ tục SUPPER_BOUND SECURE_UNION để đảm bảo riêng tƣ bên tham gia khai thác Thuật toán đƣợc đánh giá an toàn hoàn toàn trƣờng hợp có n-1 bên thơng đồng Kết trình bày chƣơng (trang 94-107) cơng trình [4] - Đề xuất giao thức (cải tiến từ giao thức M.Hussein [31]) sử dụng tập phổ biến tối đại (MFI - Max Frequent Itemsets) thay cho tập phổ biến (FI - Frequent Itemsets ) tìm tập ứng viên mã hố Paillier để tính độ hỗ trợ tồn cục Do sử dụng mã hoá Paillier nên giao thức đề xuất có tính riêng tƣ cao tính độ hỗ trợ toàn cục Qua kết thực nghiệm cho thấy giao thức đề xuất tối ƣu (về chi phí truyền thơng) tăng số bên tham gia khai thác với tập liệu có số itemset lớn chiều dài trung bình thấp Kết trình bày chƣơng (trang 107114) cơng trình [6] Tóm lại, luận án thực đƣợc đóng góp khoa học cho việc đề xuất thuật toán khai thác CSDL phân tán dọc, thuật toán khai thác song song CSDL phân tán dọc, thuật toán khai thác tập mục lợi ích cao nhằm tăng tốc độ khai thác tập phổ biến tập mục lợi ích cao CSDL phân tán dọc 117 Luận án đề xuất đƣợc thuật toán khai thác CSDL phân tán dọc, thuật toán khai thác CSDL phân tán ngang giao thực khai thác CSDL phân tán ngang có quan tâm đến việc bảo tồn tính riêng tƣ liệu bên tham gia q trình khai thác Các thuật tốn đƣợc cài đặt thực nghiệm thành công số CSDL mẫu CSDL bảo hiểm nhân thọ, CSDL giao dịch hệ thống siêu thị COOP-MARK thành phố Hồ Chí Minh Các khó khăn hƣớng phát triển Tuy luận án đề xuất đƣợc số thuật toán khai thác liệu CSDL phân tán dọc phân tán ngang có quan tâm đến việc bảo tồn tính riêng tƣ liệu bên tham gia khai thác luật thực nghiệm thành cơng thuật tốn nhiều máy tính nhƣng việc so sánh thời gian chạy, tính hiệu nhiều thuật toán loại tác giả khác chƣa thực đƣợc Điều cần tiến hành thực để có đƣợc kết luận xác Trong tiến hành ẩn mục liệu bên tham gia khai thác luật xảy tình trạng làm sai lệch liệu dẫn đến kết khai thác khơng xác, làm giảm hiệu kết luật khai thác đƣợc Việc đánh giá mức độ làm sai lệnh liệu cần đƣợc tiến hành thực nghiệm cho kết cụ thể để bên tham khảo trƣớc định có tiến hành hợp tác thác luật hay khơng? 118 119 DANH MỤC CƠNG TRÌNH ĐÃ CƠNG BỐ [1] Bac Le, Huy Nguyen, Tung Anh Cao, Bay Vo “A Novel Algorithm for Mining High Utility Itemsets” First Asian Conferences on Intelligent Information and Database Systems Quang Binh, Viet Nam 01-03 Apr 2009, pp.13-17 [2] Cao Tùng Anh, “Khai thác luật kết hợp sở liệu phân tán dọc” Hội thảo quốc gia công nghệ thông tin truyền thông, Đại Lãi 1415/09/2007, tr 169-179 [3] [4] Cao Tùng Anh, Nguyễn Hà Giang, “Một số thuật toán khai thác luật kết hợp sở liệu phân tán dọc”, Kỷ yếu hội nghị khoa học công nghệ lần thứ 1, đại học kỹ thuật công nghệ, TP.HCM 15/4/2010, tr 9-14 Trần Quốc Việt, Cao Tùng Anh, Lê Hồi Bắc, "Đảm bảo tính riêng tư chống thông đồng khai thác luật kết hợp liệu phân tán ngang", Chun san cơng trình nghiên cứu, phát triển ứng dụng công nghệ thông tin truyền thơng, Tạp chí cơng nghệ thơng tin truyền thông, số 7, Hà Nội 05/2012, tr 60-70 [5] [6] Võ Đình Bảy, Cao Tùng Anh, Lê Hồi Bắc, “Khai thác song song tập phổ biến CSDL phân tán dọc”, Kỷ yếu hội nghị khoa học công nghê thông tin, đại học Đà Lạt, Đà Lạt 11/2010, tr 66-73 Xuan Canh Nguyen, Hoai Bac Le, Tung Anh Cao "An Enhanced Sheme for Priserving Associstion Rules Mining on Horizontally Distributed Databases", IEEE RIVF International Conference on Computing & Communication Technologies, research, Innovation and Vision for the Future 27 Feb-01 Mar 2012, pp.29-32 120 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Cao Tùng Anh, Khai thác luật kết hợp sở liệu phân tán dọc, Hội thảo quốc gia công nghệ thông tin truyền thông, Đại Lãi 14-15/09/2007, tr 169-179 [2] Cao Tùng Anh, Nguyễn Hà Giang, Một số thuật toán khai thác luật kết hợp sở liệu phân tán dọc, Kỷ yếu hội nghị khoa học công nghệ lần thứ nhất, Đại Học Kỹ thuật Công nghệ, TP.HCM 15/4/2010, tr 9-14 [3] Jeffrey D.Ullman - Ngƣời dịch: Trần Đức Quang Nguyên lý hệ sở liệu hệ sở tri thức - tập 3: hệ sở tri thức, NXB Thống kê 2002 [4] Lƣơng Thế Dũng, Nghiên cứu xây dựng số giải pháp đảm bảo an tồn thơng tin q trình khai phá liệu, Luận án tiến sỹ đảm bảo toán học cho máy tính hệ thơng tính tốn, Viện KH CN Quân sự, 2011 [5] Nguyễn Xuân Huy, Các phụ thuộc logic sở liệu, Viện Khoa học Công nghệ Việt Nam, NXB Thông Kê 2006 [6] Nguyễn Xuân Huy, Lê Quốc Hải, Nguyễn Gia Nhƣ, Cao Tùng Anh, Bùi Đức Minh, Lý thuyết giàn ứng dụng thuật toán ẩn tập mục, Hội thảo quốc gia công nghệ thông tin truyền thơng, Biên Hịa 05-06/08/2009, tr 161170 [7] Trần Quốc Việt, Cao Tùng Anh, Lê Hồi Bắc, Đảm bảo tính riêng tư chống thông đồng khai thác luật kết hợp liệu phân tán ngang, Chuyên san cơng trình nghiên cứu, phát triển ứng dụng cơng nghệ thơng tin truyền thơng, Tạp chí cơng nghệ thông tin truyền thông, số 7, Hà Nội 05/2012, tr 60-70 [8] Võ Đình Bảy, Cao Tùng Anh, Lê Hoài Bắc, Khai thác song song tập phổ biến CSDL phân tán dọc, Kỷ yếu hội nghị khoa học công nghê thông tin, Đại học Đà Lạt, Đà Lạt 11/2010, tr 66-73 [9] Võ Đình Bảy, Lê Hồi Bắc (2010), Chuỗi Bit Động: Cách Tiếp Cận Mới để Khai Thác Tập Phổ Biến ICTFIT’ 2010, Nhà xuất Khoa học Kỹ thuật 121 Tài liệu tiếng Anh [10] Adriano A.Veloso, Wagner Meira Jr., Srinivasan Parthasarathy, MárcioBunte de Carvalho(2003), Efficient,Accurate and Privacy-Preserving DataMining for Frequent Itemsets in Distributed Databases, Proceedings of the 18th Brazilian Symposium on Databases, Amazonas, Brasil, pp 6-12 [11] A.Erwin, R.P.Gopalan,N R.Achuthan (2007), A Bottom-Up Projection Based Algorithm for Mining High Utility Itemsets, Proceedings of the 2nd international workshop on Integrating artificial intelligence and data mining Volume 84, Gold Coast, Australia, pp – 11 [12] A.Erwin, R P Gopalan,N R Achuthan (2007), CTU-Mine: An efficient High Utility Itemset Mining Algorithm Using the Pattern Growth Approach Paper presented at the IEEE 7th International Conferences on Computer and Information Technology, Aizu Wakamatsu, Japan, pp 71 – 76 [13] A.Manning, J.Keane (2001), Data Allocation Algorithm for Parallel Association Rule Discovery, Lecture Notes in Computer Science, Volume 2035, pp 413-420 [14] Bac Le, Huy Nguyen, Tung Anh Cao, Bay Vo (2009), A Novel Algorithm forMining High Utility Itemsets, First Asian Conferences on Intelligent Information and Database Systems Quang Binh, Viet Nam 01-03/04/2009, pp.13-17 [15] Bac Le, Bay Vo, Huy Nguyen (2011), An efficeient strategy for mining high utility, The Journal of Intelligent Information and Database Systems archive March 2011,Volume Issue 2, pp 164-176 [16] Bay Vo, Huy Nguyen, Bac Le (2009), Mining High Utility Itemsets from Vertical Distributed Databases, Computing and Communication Technologies 2009 RIVF'09 International Conference on, Da Nang, Viet Nam 13-17/ 07/2009, pp 1-4 [17] Bin Yang, Hiroshi Nakagawa, Issei Sato and Jun Sakuma (2010) Collusionresistant privacy-preserving data mining, Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining, NY, USA pp.483-492 122 [18] Boris Rozenber, Ehud Gudes (2006), Association rules mining in vertically partitioned databases, Journal Data & Knowledge Enginering volume 59, pp 378-396 [19] Chris Clifton (2001), Privacy Preserving Distributed Data Mining, 13th European Conference on Machine Learning, November 9th, 2001 [20] D.Cheung,Y.Xiao(1998), Effect of Data Skewness in Parallel Mining of Association Rules, Lecture Notes in Computer Science, Volume 1394, pp 48 – 60,1998 [21] D.W.-L.Cheung, J.Han, V.Ng, A.W.C.Fu,and Y Fu (1996),A fast distributed algorithm for mining association rules,In Proceedings of the 1996 International Conference on Parallel and Distributed Information Systems (PDIS’96), Miami Beach, Florida, USA [22] Dhillon IS, Guan Y, Kulis B (2004),Kernel k-means: spectral clustering and normalized cuts, Proceedings of the 10th ACM SIGKDD international conference on Knowledge discovery and data mining, NY,USA, pp 551–556 [23] Estivill-Castro, V.Hajyasien (2007), Fast Private Association Rule Mining by a Protocol Securely Sharing Distributed Data, In Proceedings of the 2007 IEEE Intelligence and Security Informatics, New Brunswick, New Jersey, USA, May 23-24, pp 324–330 [24] Florian Kerschbaum, Debmalya Biswas, and Sebastiaan de Hoogh (2009), Performance Comparison of Secure Comparison Protocols, In Proceedings of the 1st International Workshop on Business Processes Security [25] Gray RM, Neuhoff DL (1998), Quantization, IEEE Trans Inform Theory volume 44, issue 6, pp 2325–2384 [26] H.Yao, H.J.Hamilton (2005), Mining Itemsets Utilities from Transaction Databases, Data and Knowledge Engineering, Volume 59, pp 603 – 626 [27] H.Yao, H.J Hamilton, C J Butz (2004), A Foundational Approach to Mining Itemset Utilities from Databases, Proceedings 2004 SIAM International Conference on Data Mining, 2004, pp 482 – 486 [28] Jieh-Shan Yeh, Po-Chiang Hsu, HHUIF and MSICF: Novel algorithms for privacy preserving utility mining, Expert Systems with Application Volume 37, Issue 7, July 2010, Page 4779-4786 123 [29] J.Vaidya, C.Clifton (2002), privacy preserving association rule mining in vertically partitioned data, Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, NY,USA, pp 639-644 [30] Kamalika Das, Privacy Preserving Distributed Data Mining based on Multiobjective Optimization and Algorithmic Game Theory, Phd.Thesis 2009, University of Maryland Baltimore County, Maryland, USA [31] Mahmoud Hussein, Ashraf El-Sisi, Nabil Ismail (2008) , Fast Cryptographic Privacy Preserving Association Rules Mining on Distributed Homogenous Data Base, Lecture Notes in Computer Science, Volume 5178/2008, pp 607 616 [32] M.J.Zaki, C.J Hsiao (2005), Efficient Algorithms for Mining Closed Itemsets and Their Lattice Structure, IEEE Transactions on Knowledge and Data Engineering, Vol 17, No 4, April 2005, pp 462 – 478 [33] Murat Kantarcioglu and Chris Clifton (2004) , Privacy preserving distributed mining of association rules on horizontally partitioned data, IEEE Transactions on Knowledge and Data Engineering, Vol 16, No 9, pages 1026-1037 [34] P.Tang, M.Turkia (2005) , Parallelizing frequent itemset mining with FP-trees, Technical Report titus.compsci.ualr.edu/~ptang/papers/par-fi.pdf, Department of Computer Science, University of Arkansas at Little Rock [35] S.Parthasarathy, M.J.Zaki, M.Ogihara (2001), Parallel Data Mining for Association Rules on Shared-memory Systems, Knowledge and Information Systems: An International Journal, pp 1–29 [36] S.Verykios, Ahmed K Elmagarmid, Bertino Elisa, Yucel Saygin, and Dasseni Elena (2004),Association rule hiding,IEEE Transactions on Knowledge and Data Engineering, Volume 16, Issue 4, pp 434 – 447 [37] Shariq J.Rizvi , Jayant R.Haritsa (2002), Maintaining data privacy in association rule mining, Proceedings of the 28th international conference on Very Large Data Bases,, Hong Kong, China, pp 682 – 693 [38] Tung-Shou Chen, Wei-Bin Lee, Jeanne Chen, Yuan-Hung Kao, Pei-Wen Hou (2013), Reversible privacy preserving data mining: a combination of 124 difference expansion and privacy preserving, The Journal of Super computing November 2013, Volume 66, Issue 2, pp 907-917 [39] Urabe S, Wang J,Kodama E, and Takata T, (2007), A high collusion-resistant approach to distributed privacy-preserving data mining Proceedings of the IASTED International Conference on Parallel and Distributed Computing and Networks, as part of the 25th IASTED International Multi-Conference on Applied Informatics, Innsbruck, Austria, pp 326-331 [40] Vassilios S Verykios, Elisa Bertino, Igor Nai Fovino (2004), State-of-the-art in Privacy Preserving Data Mining, ACM SIGMOD Record, Volume 33, Issue 1, NY,USA, pp 50-57 [41] Weiwei Fang, Changsheng Zhou, Bingru Yang (2013), Privacy preserving linear regression modeling of distributed databases, optimization letters, April 2013, Volume 7, Issue 4, pp 807-818 [42] Xuan Canh Nguyen, Hoai Bac Le, Tung Anh Cao (2012),An Enhanced Sheme for Priserving Associstion Rules Mining on Horizontally Distributed Databases, 2012 IEEE RIVF International Conference on Computing & Communication Technologies, research, Innovation and Vision for the Future, HCM, Viet Nam, pp.29-32 [43] X.Wu, V.Kumar, J.Ross Quinlan, J.Ghosh, Q.Yang, H.Motoda, G.J McLachlan, A.Ng, B.Liu, P.S.Yu, Z.-H.Zhou, M.Steinbach, D.J.Hand, D Steinberg (2008), Top 10 Algorithms in Data Mining, Knowl Inf Syst volume14, pp 1–37 [44] Y.Liu, W.Liao, A.Choudhary (2005), A Fast High Utility Itemsets Mining Algorithm, UBDM '05 Proceedings of the 1st international workshop on Utility-based data mining, Chicago, Illinois, USA, pp 90 – 99 [45] Yabo Xu, New model and techniques on privacy-preserving information sharing, Phd Thesis 2008, Simon Phases University (Canada) [46] Yucel Saygin, Vassilios S.Verykios, Chris Clifton (2001), Using unknowns to prevent discovery of association rules, ACM SIGMOD Record, Volume 30, Issue 4, pp 45 - 54 125 ... niệm sở liệu phân tán, khai thác liệu bảo tồn tính riêng tƣ 1.1 Cơ sở liệu phân tán 1.1.1 Khái niệm sở liệu phân tán Cơ sở liệu phân tán tập hợp sở liệu đƣợc liên kết logic mạng máy tính làm... khái niệm sở liệu phân tán, khai thác liệu bảo tồn tính riêng tƣ 19 1.1 Cơ sở liệu phân tán 19 1.1.1 Khái niệm sở liệu phân tán 19 1.1.2 Cơ sở liệu phân tán ngang ... hợp liệu để khai thác liệu chung, nhƣng bên lại muốn đảm bảo tính riêng tƣ cho liệu Khai thác liệu phân tán đảm bảo tính riêng tƣ hƣớng nghiên cứu nhằm đề giải pháp bảo vệ tính riêng tƣ liệu

Ngày đăng: 07/02/2023, 21:12

Xem thêm: