Bảo vệ tính riêng tư trong khai thác cơ sở dữ liệu phân tán dọc

77 21 0
Bảo vệ tính riêng tư trong khai thác cơ sở dữ liệu phân tán dọc

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM BÙI MINH TRÍ BẢO VỆ TÍNH RIÊNG TƯ TRONG KHAI THÁC CƠ SỞ DỮ LIỆU PHÂN TÁN DỌC LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin Mã ngành: 60340102 TP HỒ CHÍ MINH, tháng 02 năm 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM BÙI MINH TRÍ BẢO VỆ TÍNH RIÊNG TƯ TRONG KHAI THÁC CƠ SỞ DỮ LIỆU PHÂN TÁN DỌC LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin Mã ngành: 60340102 CÁN BỘ HƯỚNG DẪN KHOA HỌC: PGS TSKH NGUYỄN XUÂN HUY TP HỒ CHÍ MINH, tháng 02 năm 2016 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hướng dẫn khoa học: PGS.TSKH Nguyễn Xuân Huy Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày … tháng … năm 2016 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: Họ Tên TT Chức danh Hội đồng Chủ tịch Phản biện Phản biện Ủy viên Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận văn sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƯỜNG ĐH CƠNG NGHỆ TP HCM CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÒNG QLKH – ĐTSĐH Độc lập – Tự – Hạnh phúc TP HCM, ngày … tháng… năm 2016 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Bùi Minh Trí Giới tính : Nam Ngày 26 tháng 12 năm sinh 1986 Nơi sinh : Đồng Tháp Chuyên ngành: Công nghệ thông tin MSHV : 1241860023 I- Tên đề tài: BẢO VỆ TÍNH RIÊNG TƯ TRONG KHAI THÁC CƠ SỞ DỮ LIỆU PHÂN TÁN DỌC II- Nhiệm vụ nội dung: - Tìm hiểu thuật toán khai thác luật kết hợp - Tìm hiểu thuật tốn bảo tồn tính riêng tư khai thác liệu - Xây dựng ví dụ cho thuật toán nghiên cứu - Xây dựng chương trình Demo III- Ngày giao nhiệm vụ: 25/03/2014 IV- Ngày hoàn thành nhiệm vụ: 15/01/2016 V- Cán hướng dẫn: PGS.TSKH Nguyễn Xuân Huy CÁN BỘ HƯỚNG DẪN PGS.TSKH Nguyễn Xuân Huy KHOA QUẢN LÝ CHUYÊN NGÀNH i LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa cơng bố cơng trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn trích dẫn hay tài liệu học thuật tham khảo cảm ơn đến tác giả thông tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn Bùi Minh Trí ii LỜI CÁM ƠN Trước hết, cho gửi lời cảm ơn đến hướng dẫn giúp đỡ tận tình PGS.TSKH Nguyễn Xuân Huy Xin cảm ơn Thầy Cô Khoa Công nghệ thông tin trường Đại Học Công Nghệ TP HCM giúp đỡ cung cấp cho tơi kiến thức q giá suốt thời gian học tập nghiên cứu thực luận văn Xin cám ơn Thầy Cơ thuộc phịng Quản lý khoa học - Đào tạo sau đại học tạo nhiều điều kiện thuận lợi cho suốt q trình theo học Trường Tơi xin g i lời cảm ơn đến gia đình, bạn b người thân quan tâm giúp đỡ suốt thời gian học tập nghiên cứu hồn thành luận văn Luận văn khơng thể tránh khỏi sai sót, mong nhận ý kiến đóng góp người cho luận văn hồn thiện Tơi xin chân thành cảm ơn TP Hồ Chí Minh, ngày… Tháng… năm 2016 Bùi Minh Trí iii TĨM TẮT Khai phá tri thức tiềm n s liệu mục tiêu chung ngành khoa học khai thác liệu nhiều nhà nghiên cứu quan tâm Trong năm gần đây, khai thác luật kết hợp s liệu phân tán nhận quan tâm nhà nghiên cứu Việc kết hợp liệu phân tán (ngang hay dọc) từ nhiều s liệu khác cho phép khai thác luật có lợi cho tất bên tham gia trình khai thác Tuy nhiên khai thác liệu từ nhiều bên nảy sinh vấn đề tính riêng tư liệu bên tham gia cần bảo vệ Phần lớn liệu bên có liệu nhạy cảm bên muốn cung cấp liệu để khai thác luật dùng chung muốn bảo vệ tính riêng tư liệu Để giải vấn đề nêu trên, nội dung nghiên cứu luận văn tập trung vào nghiên cứu thuật toán khai thác luật kết hợp, khai thác luật kết hợp s liệu phân tán dọc có bảo tồn tính riêng tư bên tham gia, viết chương trình thực nghiệm thuật toán nghiên cứu iv ABSTRACT The mining knowledge potential in the current database is the common goal of science data mining and it is very much interest researchers In recent years, mining association rules in distributed database has received the attention of the researchers, The combination of distributed data (horizontal or vertical) from many different databases will mining association rules beneficial for all parties involve However, when data mining from multiple parties will arise issues of data privacy of the parties involved should be protected Most data of each parties have sensitive data and the parties but wanted to provide data for mining association rules but they still want to protect the privacy of their data To solve the problem as stated above, research contents of the thesis will focus on the study of algorithms mining association rules, mining association rules in vertically distributed database with privacy preserving of the parties, programing an algorithm had studied v DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt CSDL DB Ý nghĩa Cơ s liệu DataBase Conf Độ đo tin cậy confidence Sup Độ đo hỗ trợ support MST Minsup (ngưỡng hỗ trợ tối thiểu) MCT Minconf (ngưỡng tin cậy tối thiểu) FI Frequent itemset (Tập phổ biến) PPDM Privacy Preserving Data Mining SM Safety Margin (khoảng an toàn) vi DANH MỤC CÁC BẢNG Bảng 1.1 Cơ s liệu giao dịch Bảng 3.1 CSDL thực hai bên Master Slave [1] .47 Bảng 3.2 CSDL giả hai bên Master Slave [1] 47 Bảng 3.3 Cơ s liệu DB1 bên .53 Bảng 3.4 Cơ s liệu DB2 bên .53 Bảng 3.5 Cơ s liệu DB3 bên .53 Bảng 3.6 Kết khai thác tập phổ biến toàn cục 57 49 Hình 3.5 Kết khai thác CSDL phân tán dọc bảo tồn tính riêng tư [1] Nhận xét thuật tốn Về khả tiết lộ thông tin: Sự tiết lộ thơng tin thuật tốn phụ thuộc vào việc có tiết lộ thông tin từ bên thứ không? Điều khơng thể xảy bên thứ khơng có liệu bên tham gia trình khai thác tập phổ biến Trong trường hợp chúng tơi sử dụng tiêu chí đánh giá việc bị lộ thông tin xác suất việc nhận giao dịch thật hay giả bên khai thác với liệu bên Gọi L tập tất TID thực từ CSDL Master, A tập thuộc TID thực từ CSDL Master A  L Cho m độ hỗ trợ tối thiểu lA kích thước A Cho Q: L → (T,F) kết tính tốn b i bên thứ cho P(A)T xác suất mà Master nhận giao dịch a  A giao dịch thực CSDL Slave Với khái niệm này, tác giả định nghĩa số lượng thông tin bị tiết lộ b i thuật tốn sau: Trong q trình tính tốn hỗ trợ tập A, Q(A) = T, xác suất mà Master phát giao dịch giao dịch thực P( A) T  m Nếu m = lA, P(A)T = lA suy CSDL bị tiết lộ hoàn toàn Nếu Q(A) = F, khơng có khả tìm 50 xác suất xác A từ thông tin Chúng P ( A) T  ta nói m 1 Như trường hợp Master xác định tập A giao dịch thực lA xảy độ hỗ trợ tối thiểu (minsup) với độ hỗ trợ A Lúc tập A chứa toàn TID thật Giả sử độ hỗ trợ tối thiểu m=4 Master gửi đến bên thứ tập hợp TID kết trả Điều có nghĩa TID vừa gửi TID thật Tiếp theo, Master giữ lại TID thật số TID đó, TID j khác Master gửi đến bên thứ tập hợp chứa TID thật TID j Nếu câu trả lời bên thứ Master xác định TID j giả Lần lượt Master tìm tất TID giả thông tin Slave bị lộ hoàn toàn Về thời gian thực hiện: Thuật toán tác giả [1] đề xuất cải tiến theo hướng giảm khối lượng liệu phải trao đổi máy trình khai thác luật giảm chi phí đường truyền Do thuật toán sử dụng phương pháp ITTree nên số lượng tập ứng viên (là tập xét có tập phổ biến hay không?) giảm nên việc truyền, nhận liệu từ Master với máy thứ giảm so với thuật tốn [3] Ngồi phương pháp đề xuất tác giả luận án cải tiến cho bên thứ trả độ hỗ trợ tập ứng viên, từ bên Master có độ hỗ trợ để sinh luật nhằm phục vụ cơng việc thực tế (thay khai thác tập phổ biến) 3.2 MỘT MƠ HÌNH MỚI KHAI THÁC TRÊN CSDL PHÂN TÁN DỌC 3.2.1 Các bước thực Trong [4] tác giả đề xuất mơ hình khai thác luật kết hợp CSDL phân tán dọc bảo tồn tính riêng tư bao gồm n bên tham gia bên khai thác (DM) Mỗi bên thứ i (i thuộc [1 n]) bao gồm s liệu DBi DBi bao gồm thuộc tính rời cho tập giao dịch, nghĩa giao dịch với thuộc tính khác tất bên Vai trò DM bắt đầu trình khai thác cách gửi ngưỡng minsup khóa công khai cho tất bên DM tham gia vào q trình mã hóa giải mã cho tập mục thường xuyên để bảo vệ tính riêng tư bên, tên thuộc tính số thuộc tính tồn bên độ hỗ trợ chúng DM có đặc quyền để khai thác 51 tập mục thường xuyên toàn cục biết độ hỗ trợ tập DM tạo luật kết hợp sau chuyển đến cho tất bên Mục tiêu mơ hình đề xuất tìm luật kết hợp tồn cục mà khơng tiết lộ tính riêng tư bên Các thơng tin liên lạc ba bên DM thể sơ đồ sau đây: DM Bên1 Bên2 Bên3 Hình 3.6 Thơng tin liên lạc bên DM Mỗi bên gửi thông tin cho bên kế tiếp, trang cuối gửi thông tin cho DM DM gửi thông tin cho tất bên (ngưỡng minsup khóa cơng khai) Mỗi bên thực tính tốn cách sử dụng khái niệm sản ph m vơ hướng với kết tính tốn riêng kết tính tốn thu từ bên trước gửi sang (trừ bên site1) Các bước mơ hình đề xuất sau: Bước 1: DM kh i động trình khai thác cách gửi ngưỡng minsup mã khóa cơng khai cho tất bên Bước 2: Mỗi bên thực chuyển đổi s liệu thành CSDL giao dịch với mã giao dịch (TID) Bước 3: Mỗi bên tự khai thác tập mục thường xuyên cho tập TID dựa ngưỡng minsup nhận từ DM Bước 4: Đối với bên thứ k (k khoảng từ đến n), chu n bị ma trận Mk hàng tập mục thường xuyên giao dịch CSDL cục Trong ma trận này, Mk (i, j) = giao dịch cột thứ j xuất tập mục thường xuyên i hàng CSDL cục bên thứ k Bước 5: Mỗi bên thứ k chu n bị vector Vk, (k khoảng từ đến n), bao gồm tập mục thường xuyên cục bên k Điều quan trọng để trì mối quan hệ vector Vk ma trận Mk phần tử thứ i vector Vk tương ứng với giao dịch cho dòng thứ i ma trận Mk 52 Bước 6: Mỗi bên mã hóa tất tập mục thường xuyên vector Vk cách sử dụng khóa công khai nhận từ DM thành enVk Bước 7: Bên thứ (Bên1) gửi ma trận M1 enV1 đến bên thứ Bước 8: Bên thứ hai (Bên2) thực M1.M2 cách sử dụng khái niệm tích vơ hướng chu n bị ma trận M12 bao gồm mục thường xuyên M1.M2 Bên thứ hai sau chu n bị ma trận M2' bao gồm M1, M2 M12 Bước 9: Bên thứ chu n bị vector enV2' bao gồm danh sách mã hóa tập mục thường xuyên có enV1, enV2 enV12 với enV12 đại diện cho tập mục thường xuyên mã hóa M12 Bên thứ hai gửi ma trận M2' với vector enV2' vào bên (site3) Bước 10: Mỗi bên thứ i (Bêni) bên lại Bên3, ,Bênn thực bước dựa vào ma trận vector (Mi-1', enVi-1') nhận từ bên thứ i-1 ma trận riêng (Mi) & vector mã hóa (enVi ) Bước 11: Bên cuối (Siten) có ma trận Mn' vector enVn' … Ở áp dụng kỹ thuật xếp enVn' dựa vào độ dài tập mục thường xuyên mã hóa theo thứ tự giảm dần Dựa theo vị trí mục thường xuyên đặt danh sách xếp enVn', ma trận Mn' xếp lại để theo thừ tự trật tự Ma trận Mn' với vector enVn' gửi đến DM Bước 12: DM áp dụng thuật toán giải mã khóa riêng cho phần tử vector enVn' để có tập mục item thường xun tồn cục DM tìm độ hỗ trợ tập mục thường xuyên toàn cục cách đếm số lượng tập mục hàng tương ứng ma trận Mn' chu n bị danh sách bao gồm tập mục thường xuyên toàn cục với độ hỗ trợ Bước 13: Dựa danh sách DM tạo luật kết hợp cho tập mục thường xuyên toàn cục cách sử dụng ngưỡng tin cậy tối thiểu (minconf) người sử dụng nhập vào Bước 14: Các luật tạo gửi đến tất bên Quy trình khai thác kết thúc 3.2.2 Minh họa mơ hình Giả sử có CSDL giao dịch bên sau : 53 Bảng 3.3 Cơ sở liệu DB1 bên TID A1 A2 A3 T1 1 T2 1 T3 1 T4 T5 1 T6 Bảng 3.4 Cơ sở liệu DB2 bên TID A4 A5 T1 T2 T3 1 T4 T5 T6 Bảng 3.5 Cơ sở liệu DB3 bên TID A6 A7 A8 A9 T1 0 T2 0 T3 1 T4 1 0 T5 0 T6 1 1 Kh i động trình DM gửi hỗ trợ tối thiểu minsup= 40% mã khóa cơng khai đến tất bên (khơng có giải mã) Mỗi bên thực thuật tốn tìm tập phổ biến để thiết lập tập mục thường xuyên cục dựa minsup người dùng quy định (DM gửi qua) 40% Tạo ma trận Mi vector Vi CSDL cục Bên thứ tạo ma trận M1: 54 M1 = 1 1 0 1 1 1 1 1 vector V1 = {A1, A2, A3, (A1,A3)} phần tử thứ i vector V1 tương ứng với dòng thứ i ma trận M1 tập mục thỏa minsup=40% (tương đương với số giao dịch xuất lớn hay 3) Sau Bên1 mã hố phần tử V1 cách sử dụng mã khóa DM gửi đến Các hình thức mã hóa tập mục thường xuyên Bên1 sau: enV1= { e(A1), e(A2), e(A3), e(A1,A3)} Tiếp theo Bên1 gửi M1 enV1 đến Bên2 để Bên2 tính tập mục thường xuyên phối hợp tập mục thường xuyên Bên1 tập thường xuyên Bên2 Tại Bên2 tương tự Bên1 ta có M2 cục là: M2 = 1 1 0 1 enV2 = {e(A4), e(A5)}, tạo từ V2 Sau Bên2 tìm ma trận M12 vector enV12 dựa M1, enV1, M2 enV2 Với M12 có giá trị là: M12 = 1 1 0 1 1 1 Tiếp theo Bên2 tính tốn M’2 cách nối M2, M12 vào M1 sau: M’2 = 1 1 0 1 1 1 1 1 1 1 0 1 1 1 0 1 55 1 1 Với enV’2 = {e(A1), e(A2), e(A3), e(A1,A3), e(A4), e(A5), e(A1,A4), e(A3,A4), e((A1,A3),A4)} tính cách nối enV2, enV12 vào enV1 Sau Bên2 gửi ma trận M’2 enV’2 đến bên thứ Tại tính tốn thực sau: M3 = 0 1 1 1 0 1 1 0 1 0 1 Và mã hóa enV3 từ V3 = {e(A6), e(A7), e(A8), e(A9), e(A6,A7)} Tiếp theo Bên3 tính M’23 theo phương pháp vơ hướng từ ma trận M’2 M3 M’23 = 0 0 0 1 1 0 Và enV’23={e(A2,A6), e((A2,A6),A7), e(A5,A7)} Bên thứ tiếp tực tạo ma trận M’3 cách nối ma trận M3, M’23 vào M’2 tạo vector mã hóa enV’3 cách nối enV3, enV’23 vào enV’2 ta có: enV’3 = { e(A1), e(A2), e(A3), e(A1,A3), e(A4), e(A5), e(A1,A4), e(A3,A4), e((A1,A3),A4), e(A6), e(A7), e(A8), e(A9), e(A6,A7), e(A2,A6), e((A2,A6),A7), e(A5,A7)} Do Bên3 Bên cuối chuỗi Bên tham gia khai thác, nên Bên3 xếp tập mục thường xuyên vector enV3’ giảm dần dựa vào độ dài tập mục thường xuyên enV3’ Vì tập vector enV3’ có kết sau: enV’3 = {e((A1,A3),A4), e((A2,A6),A7), e(A1,A3), e(A1,A4), e(A3,A4), e(A6,A7), e(A2,A6), e(A5,A7), e(A1), e(A2), e(A3), e(A4), e(A5), e(A6), e(A7), e(A8), e(A9)} Dựa vào thứ tự tập mục thường xuyên ma trận mã hóa enV’3 ma trận M’3 xếp lại theo thứ tự tương ứng thành ma trận RM’3 56 Ma trận M’3 Ma trận RM’3 1 1 1 1 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 0 1 0 1 1 1 0 1 0 1 1 0 1 1 1 1 1 0 1 0 1 1 1 1 1 0 1 1 1 1 0 1 0 1 0 1 0 1 0 0 1 1 0 1 0 1 1 0 1 0 Đến Bên3 gửi RM’3 enV’3 sang DM để khai thác tập phổ biến toàn cục Tại DM, DM nhận kết từ Bên cuối (trong ví dụ Bên3) Sau sử dụng khóa riêng tư để giải mã tập vector enV’3 Do enV’3 xếp theo thứ tự giảm dần chiều dài tập mục phổ biến tất bên gộp lại nên DM liệu thường xuyên bên Bên DM bắt đầu khai thác tập mục thường xuyên toàn cục cách đếm số số hàng tương ứng ma trận nhận RM'3 kết tập mục thường xuyên toàn cục thỏa minsup=40% Bảng 3.4 kết khai thác tập mục thường xuyên toàn cục DM 57 Bảng 3.6 Kết khai thác tập phổ biến toàn cục Tập mục Sup Tập mục Sup Tập mục Sup A1 A7 (A2,A6) A2 A8 (A5,A7) A3 A9 (A6,A7) A4 (A1,A3) (A1,A3,A4) A5 (A1,A4) (A2,A6,A7) A6 (A3,A4) Tại DM, dựa vào tập phổ biến tồn cục, DM sinh luật kết hợp theo thuật toán phát luật kết hợp từ tập phổ biến trình bày chương Trong trường hợp ví dụ ta xét thử tập phổ biến (A1,A4) với ngưỡng tin cậy minconf =70% Ta thấy : Sup(A1,A4)/Sup(A1) = ¾ = 75% > minconf, có luật A1  A4 Sup(A1,A4)/Sup(A4) = ¾ = 75% > minconf, có luật A4  A1 Sau khai thác tất luật kệt hợp từ tập phổ biến toàn cục, DM gửi tất luật cho bên tham gia khai thác 3.3 MƠ HÌNH ĐỀ XUẤT KHAI THÁC TRÊN CSDL PHÂN TÁN DỌC 3.3.1 Cơ sở lý thuyết Dựa nghiên cứu mơ hình khai thác luật kết hợp CSDL phân tán dọc [4] trình bày 3.2 chương thuật tốn khai thác tập phổ biến đóng CHARM [7] trình bày chương chúng tơi nhận thấy Trong thực tế, việc khai thác luật kết hợp không cần thiết, người ta quan tâm đến tập phổ biến, ví dụ CSDL sinh học, liệu lưu trữ biến đổi Gien, CSDL dạng số giao tác (|TID|) nhỏ số lượng lưu trữ Gien lớn nên khai thác người ta quan tâm đến tập Gien xuất (tập phổ biến) không quan tâm đến luật kết hợp Vì trường hợp này, chúng tơi đề xuất thay đổi mơ hình khai thác CSDL phân tán dọc bảo tồn tính riêng tư [4] thành mơ hình khai thác tập phổ biến đóng CSDL phân tán bảo tồn tính riêng tư Khi sử dụng mơ hình khai thác luật phổ biến đóng bên gửi liệu (ma trận) cho thấy, số lượng liệu phải 58 gửi nhận bên giảm nhiều giảm chi phí đường truyền thời gian khai thác 3.3.2 Mơ hình đề xuất Các bước mơ hình đề xuất (14 bước) giống mơ hình [4] trình bày mục 3.2.1 chương luận văn Một số thay đối bước nhỏ thể sau : Bước 3: Mỗi bên tự khai thác tập mục phổ biến đóng cho tập TID dựa ngưỡng minsup nhận từ DM Bước 4: Đối với bên thứ k (k khoảng từ đến n), chu n bị ma trận Mk hàng tập mục phổ biến đóng giao dịch CSDL cục Trong ma trận Bước 5: Mỗi bên thứ k chu n bị vector Vk, (k khoảng từ đến n), bao gồm tập phổ biến đóng cục cục bên k Điều quan trọng để trì mối quan hệ vector Vk ma trận Mk phần tử thứ i vector Vk tương ứng với giao dịch cho dòng thứ i ma trận Mk Bước 6: Mỗi bên mã hóa tất tập phổ biến đóng vector Vk cách sử dụng khóa cơng khai nhận từ DM thành enVk Các bước tiếp theo, bên thứ k khai thác tập phổ biến đóng tạo ma trận Mk, vector enVk cục sau tạo M’k enV’k từ k-1 gửi sang tương tự bước tác giả [4] 3.4 THỰC NGHIỆM KHAI THÁC TRÊN CSDL PHÂN TÁN DỌC Để kiểm tra tính hiệu mơ hình khai thác luật kết hợp CSDL phân tán dọc trình bày chương Chương trình áp dụng mơ hình khai thác CSDL phân tán dọc bảo tồn tính riêng tư bên tham gia khai thác viết ngôn ngữ C# với giả sử gồm bên tham gia khai thác luật kết hợp toàn cục từ liệu cục bên bên DM điều khiển trình khai thác Giả sử chương trình thực máy thể chức bên Khi thực chương trình, hình Bên1 có cấu trúc hình 3.7 Cấu hình máy tính thực thực nghiệm là: X1 Carbon, xử lý Core i5 GB nhớ chính, chạy hệ điều hành Windows 10 - 64bit, Microsoft Visual Studio 2015, DotNet FrameWork 4.5 59 Hình 3.7 Màn hình Bên1 Bắt đầu chương trình, DM gửi mã khóa cơng khai minsup cho tất bên tham gia khai thác Tại bên 1, liệu lưu file có phần m rộng TXT chọn xử lý thành CSDL giao dịch dạng nhị phân Sau nhấn nút Import, CSDL đọc vào sổ nàm hình Vector V1 thể tập phổ biến CSDL bên 1, enV1 thể tập phổ biến mã hóa Sau liệu (M1, enV1)sẽ chuyển sang bên thứ Hình 3.8 Màn hình Bên2 Tại Bên2, bước thực tương tự mơ hình Bên2 trộn liệu Bên1 thành M12 sinh M’2 từ ma trận Sau gửi M’2 enV’2 sang Bên3 Tại Bên3, bước thực tương tự Bên2 với 60 liệu từ Bên2 gửi sang Bên3 trộn lại Trong thực nghiệm Bên3 bên cuối nên thực xếp lại ma trận M’3 theo chiều giảm dần chiều dài tập phổ biến, enV’3 xếp lại theo M’3 thành RM’3 sau liệu chuyển cho Bên DM khai thác Tại Bên DM, nhận ma trận xếp RM’3 vector mã hóa xếp enV’3 Lúc DM sử dụng khóa giải mã để giải mã vector enV’3 tiến hàng khai thác dựa vector ma trận RM’3 cho tập phổ biến độ hỗ trợ tập phổ biến hình 3.9 Hình 3.9 Màn hình Bên DM Tại đây, bước cuối DM tiến hành khai thác luật phổ biến toàn cục gửi kết cho bên 61 PHẦN KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Luận văn trình bày phần lý thuyết số thuật toán khai thác luật kết hợp luật kết hợp đóng (Apriori, IT-Tree, Charm), lý thuyết bảo tồn tính riêng tư khai thác liệu, thuật toán khai thác tập phổ biến luật kết hợp CSDL phân tán dọc có bảo tồn tính riêng tư Từ luận văn đề xuất số trường hợp, cần khai thác đến tập phổ biến mơ hình khai thác [4] chuyển thành mơ hình khai thác tập phổ biến đóng dựa thuật tốn Charm [7] để giảm chi phí truyền nhận thơng tin bên giảm thời gian khai thác Tuy mơ hình đề xuất có đóng góp khơng trùng lắp với đề xuất có trước, thực khai thác tập phổ biến đóng Các phần m rộng cài đặt mơ hình đề xuất tác giả đưa vào phần hướng phát triển tương lai Kết thực nghiệm mơ hình khai thác [4] cho thấy tính đắn mơ hình khai thác CSDL dọc bảo tồn tính riêng tư bên tham gia khai thác Khi áp dụng mô hình thực tế với nhiều bên tham gia khối lượng liệu lớn, việc giảm khối lượng liệu truyền nhận bên khai thác tập phổ biến đóng cho phép giảm chi phí lớn Hướng phát triển Đóng góp luận văn dừng lại việc nghiên cứu số thuật toán liên quan đến hướng nghiên cứu luận văn góp ý đề xuất phương pháp cải tiến nhằm tăng tốc độ truyền nhận liệu Phần thực nghiệm luận văn chưa chạy nhiều máy CSDL giao dịch cung cấp mạng để so sánh đánh giá với mơ hình khác Phần tác giả tiếp tục nghiên cứu hồn thiện chương trình thời gian tới Ngoài ra, phần thực nghiệm luận văn cần m rộng so sánh với số thuật tốn khác có mục đích khai thác tập phổ biến đóng CSDL phân tán dọc có bảo tồn tính riêng tư bên tham gia khai thác để có kết so sánh khách quan Ngoài cần thực nghiệm nhiều loại CSDL khác có tình thực tế cao 62 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Cao Tùng Anh (2007), Khai thác luật kết hợp sở liệu phân tán dọc, Hội thảo quốc gia công nghệ thông tin truyền thông, Đại Lãi 1415/09/2007, tr 169-179 [2] Võ Đình Bảy, Cao Tùng Anh, Lê Hoài Bắc (2010), Khai thác song song tập phổ biến CSDL phân tán dọc, Kỷ yếu hội nghị khoa học công nghê thông tin, Đại học Đà Lạt, Đà Lạt 11/2010, tr 66-73 Tiếng Anh [3] Boris Rozenber, Ehud Gudes (2006), Association rules mining in vertically partitioned databases, Journal Data & Knowledge Enginering Volume 59, pp 378-396 [4] N V Muthu Lakshmi, K Sandhya Rani (2012), Privacy Preserving Association Rule Mining in Vertically Partitioned Databases, International Journal of Computer Applications (0975 – 8887) Volume 39– No.13, pp 2935 [5] Shariq J.Rizvi , Jayant R.Haritsa (2002), Maintaining data privacy in association rule mining, Proceedings of the 28th international conference on Very Large Data Bases,, Hong Kong, China, pp 682 – 693 [6] Yucel Saygin, Vassilios S.Verykios, Chris Clifton (2001), Using unknowns to prevent discovery of association rules, ACM SIGMOD Record, Volume 30, Issue 4, pp 45 – 54 [7] Zaki M J., Hsiao C (1999), CHARM: An Efficient Algorithm for Closed Association Rule Mining, Technical Report 99-10, Computer Science Department, Rensselaer Polytechnic Institute, Troy NY 12180, pp 1-20 [8] Y Lindell and B Pinkas (2009), Secure Multiparty Computation for Privacy-Preserving Data Mining, The Journal of privacy and Confidentiality, Number 1, pp 59-98 [9] Alan F Karr, Xiaodong Lin, Ashish P Sanil, JeromeP Reiter (2009), Privacy-Preserving Analysis of Vertically Partitioned Data Using Secure 63 Matrix Products, Journal of Official Statistics, Volume 25, No.1, pp 125– 138 [10] E Poovammal, M Ponnavaikko (2009), Utility Independent Privacy Preserving Data Mining on Vertically Partitioned Data, Journal of Computer Science (9), Science Publications, pp 666-673 [11] S.Verykios, Ahmed K Elmagarmid, Bertino Elisa, Yucel Saygin, and Dasseni Elena (2004), Association rule hiding, IEEE Transactions on Knowledge and Data Engineering, Volume 16, Issue 4, pp 434 – 447 ... quan khai thác liệu Chương 2: trình bày lý thuyết bảo tồn tính riêng tư khai thác liệu Chương 3: trình bày số thuật tốn, mơ hình khai thác khai thác tập phổ biến, luật kết hợp CSDL phân tán dọc bảo. .. bên lại muốn đảm bảo tính riêng tư cho liệu Khai thác liệu đảm bảo tính riêng tư (Privacy Preserving Data Mining - PPDM) hướng nghiên cứu nhằm đề giải pháp bảo vệ tính riêng tư liệu lẫn tri thức... tốn khai thác luật kết hợp từ tập phổ biến dựa vào độ tin cậy minConf 28 CHƯƠNG BẢO TỒN TÍNH RIÊNG TƯ TRONG KHAI THÁC DỮ LIỆU 2.1 KHÁI NIỆM CƠ BẢN Khai thác liệu phát tri thức từ s liệu Các liệu

Ngày đăng: 05/03/2021, 11:22

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan