Một phương pháp bảo toàn tính riêng tư trong khai thác luật kết hợp trên cơ sở dữ liệu phân tán ngang

66 528 1
Một phương pháp bảo toàn tính riêng tư trong khai thác luật kết hợp trên cơ sở dữ liệu phân tán ngang

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM VŨ VĂN ĐÔNG MỘT PHƢƠNG PHÁP BẢO TOÀN TÍNH RIÊNG TƢ TRONG KHAI THÁC LUẬT KẾT HỢP TRÊN CƠ SỞ DỮ LIỆU PHÂN TÁN NGANG LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin Mã ngành: 60480201 TP HỒ CHÍ MINH, tháng 02 năm 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM VŨ VĂN ĐÔNG MỘT PHƢƠNG PHÁP BẢO TOÀN TÍNH RIÊNG TƢ TRONG KHAI THÁC LUẬT KẾT HỢP TRÊN CƠ SỞ DỮ LIỆU PHÂN TÁN NGANG LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin Mã ngành: 60480201 CÁN BỘ HƢỚNG DẪN KHOA HỌC: TS CAO TÙNG ANH TP HỒ CHÍ MINH, tháng 02 năm 2016 CÔNG TRÌNH ĐƢỢC HOÀN THÀNH TẠI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hƣớng dẫn khoa học: TS Cao Tùng Anh Cao Tùng Anh Luận văn Thạc sĩ đƣợc bảo vệ Trƣờng Đại học Công nghệ TP HCM ngày 20 tháng 03 năm 2016 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: TT Họ Tên GS.TSKH Hoàng Văn Kiếm PGS.TS Võ Đình Bảy TS Nguyễn Thị Thúy Loan TS Lê Văn Quốc Anh TS Lê Tuấn Anh Chức danh Hội đồng Chủ tịch Phản biện Phản biện Ủy viên Ủy viên, Thƣ ký Xác nhận Chủ tịch Hội đồng đánh giá Luận văn sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƢỜNG ĐH CÔNG NGHỆ TP HCM CỘNG HÕA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÕNG QLKH – ĐTSĐH Độc lập – Tự – Hạnh phúc TP HCM, ngày 15 tháng 02 năm 2016 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Vũ Văn Đông Giới tính: Nam Ngày 12 tháng 10 năm sinh: 1978 Nơi sinh: Hà Nội Chuyên ngành: Công nghệ thông tin MSHV: 1441860007 I- Tên đề tài: MỘT PHƢƠNG PHÁP BẢO TOÀN TÍNH RIÊNG TƢ TRONG KHAI THÁC LUẬT KẾT HỢP TRÊN CƠ SỞ DỮ LIỆU PHÂN TÁN NGANG II- Nhiệm vụ nội dung: - Tìm hiểu thuật toán khai thác tập phổ biến, luật kết hợp - Tìm hiểu thuật toán bảo toàn tính riêng tƣ khai thác liệu sở liệu phân tán ngang - Xây dựng ví dụ cho thuật toán nghiên cứu - Xây dựng chƣơng trình Demo III- Ngày giao nhiệm vụ : 15/07/2015 IV- Ngày hoàn thành nhiệm vụ : 15/02/2016 V- Cán hƣớng dẫn : TS Cao Tùng Anh CÁN BỘ HƢỚNG DẪN KHOA QUẢN LÝ CHUYÊN NGÀNH i LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chƣa đƣợc công bố công trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn nhƣ trích dẫn hay tài liệu học thuật tham khảo đƣợc cảm ơn đến tác giả thông tin trích dẫn Luận văn đƣợc rõ nguồn gốc Học viên thực Luận văn Vũ Văn Đông ii LỜI CÁM ƠN Trƣớc hết, cho đƣợc gửi lời cảm ơn đến hƣớng dẫn giúp đỡ tận tình Thầy Cao Tùng Anh Xin cảm ơn Thầy/Cô Khoa CNTT trƣờng Đại Học Công Nghệ TP HCM giúp đỡ cung cấp cho kiến thức quí giá suốt thời gian học tập nghiên cứu thực luận văn Xin cám ơn Thầy/Cô thuộc phòng QLKH&ĐTSĐH tạo nhiều điều kiện thuận lợi cho suốt trình theo học Trƣờng Tôi xin gửi lời cảm ơn đến gia đình, bạn b ngƣời thân quan tâm giúp đỡ suốt thời gian học tập nghiên cứu hoàn thành luận văn Luận văn tránh khỏi sai sót, mong nhận đƣợc ý kiến đóng góp ngƣời cho luận văn đƣợc hoàn thiện Tôi xin chân thành cảm ơn TP Hồ Chí Minh, ngày 15 tháng 02 năm 2016 Học viên thực Luận văn Vũ Văn Đông iii TÓM TẮT Trong năm gần đây, khai thác luật kết hợp sở liệu phân tán nhận đƣợc quan tâm nhà nghiên cứu Việc kết hợp liệu phân tán (ngang hay dọc) từ nhiều sở liệu khác cho phép khai thác đƣợc luật có lợi cho tất bên tham gia trình khai thác Tuy nhiên, khai thác liệu từ nhiều bên nảy sinh vấn đề tính riêng tƣ liệu bên tham gia cần đƣợc bảo vệ Phần lớn liệu bên có liệu nhạy cảm bên muốn cung cấp liệu để khai thác đƣợc luật dùng chung nhƣng muốn bảo vệ tính riêng tƣ có liệu Để giải vấn đề nhƣ nêu trên, nội dung nghiên cứu luận văn tập trung vào nghiên cứu thuật toán khai thác luật kết hợp, khai thác luật kết hợp sở liệu phân tán ngang có bảo toàn tính riêng tƣ bên tham gia, viết chƣơng trình thực nghiệm thuật toán nghiên cứu iv ABSTRACT In recent years, mining association rules in distributed database has received the attention of the researchers, The combination of distributed data (horizontal or vertical) from many different databases will mining association rules beneficial for all parties involve However, when data mining from multiple parties will arise issues of data privacy of the parties involved should be protected Most data of each parties have sensitive data and the parties but wanted to provide data for mining association rules but they still want to protect the privacy of their data To solve the problem as stated above, research contents of the thesis will focus on the study of algorithms mining association rules, mining association rules in horizontal distributed database with programing an algorithm had studied privacy preserving of the parties, v DANH MỤC CÁC TỪ VIẾT TẮT Ký hiệu, viết tắt CSDL Ý nghĩa tiếng Anh Ý nghĩa tiếng Việt Cơ sở liệu DataBase Cơ sở liệu Conf Confidence Độ đo tin cậy Sup Support Độ đo hỗ trợ MST Minsup Ngƣỡng hỗ trợ tối thiểu MCT Minconf Ngƣỡng tin cậy tối thiểu Frequent itemset Tập phổ biến Privacy Preserving Data Mining Safety Margin Bảo toàn tính riêng tƣ khai thác liệu Khoảng an toàn DB FI PPDM SM vi DANH MỤC CÁC BẢNG Bảng 1.1 Cơ sở liệu giao dịch Bảng 2.1 Minh họa hệ thống gồm hai bên S1, S2 27 Bảng 3.1 Một số thuật ngữ sử dụng thuật toán [6] 40 Bảng 3.2 Cơ sở liệu cục Site1 42 Bảng 3.3 Cơ sở liệu cục Site2 42 Bảng 3.4 Cơ sở liệu cục Site3 42 Bảng 3.5 Tập phổ biến toàn cục độ hỗ trợ chúng 46 39 đảm bảo tính riêng tƣ liệu bên tham gia Sơ đồ dƣới cho thấy phƣơng pháp liên lạc trao đổi thông tin TP bên mô hình đề xuất TP Site2 Site1 Site3 Hình 3.1 Truyền nhận thông tin bên TP [6] Trong mô hình đề xuất này, sở liệu phân tán gồm n bên phân tán theo chiều ngang liệu đƣợc gọi Site1, Site2, , Siten Bên thứ i (Sitei) trì sở liệu DBi có chiều dài |DBi| ≤ i ≤ n Tổng số lƣợng giao dịch tất bên (|DB|) đƣợc tính theo công thức: |DB|= |DB1| + |DB2| +…+|DBn| Mỗi bên cần có tập phổ biến toàn cục độ hỗ trợ chúng để tạo luật kết hợp toàn cục Vì vậy, mục đích phải xác định tập phổ biến độ hỗ trợ chúng dựa sở liệu tất bên Bất kỳ tập mục đƣợc cho thƣờng xuyên toàn cục tổng độ hỗ trợ tất bên lớn với số lƣợng tối thiểu giao dịch cần thiết để hỗ trợ mục toàn cục (độ hỗ trợ tối thiểu) Một mục liệu phổ biến toàn cục phổ biến sở liệu nhiều bên Tƣơng tự, mục liệu không phổ biến toàn cục mục không phổ biến bên Một điều rõ ràng là, muốn để lộ tập phổ biến cục bộ, độ hỗ trợ kích thƣớc sở liệu cho bên nhƣ bên TP Để giải vấn đề trên, phƣơng pháp đề xuất cung cấp quyền đặc biệt để TP có tập phổ biến cục bên mà không cần lấy giá trị độ hỗ trợ từ tất bên để xác định tập phổ biến toàn cục Mỗi chủ sở hữu liệu bên chấp nhận cung cấp tập phổ biến cục dạng mã hóa để bên TP mà họ tin tƣởng tạo tập phổ biến toàn cục Để tìm luật kết hợp toàn cục sở liệu phân tán theo chiều ngang có kích thƣớc n (> 2), số nhiệm vụ cần đƣợc thực 40 TP nhƣ bên tham gia Trong mô hình số thuật ngữ đƣợc sử dụng đƣợc thể bảng 3.1 sau: Bảng 3.1 Một số thuật ngữ sử dụng thuật toán [6] Ký hiệu ASj Ý nghĩa tiếng Anh Actual Support GESj Global Excess Support for item set Xj PSij Partial Support of item set Xj at Sitei RNi Random Number for Sitei Signi Sign used with random number for Sitei SignSumRN Sum of random numbers along with respective signs TotalPSij Sum of PSij of item set Xj, where i indicates site number varies from to n TP Trusted Party Minsup Minimum Support threshold Minconf Minimum Confidence threshold Mô hình đề xuất đƣợc thông qua phƣơng pháp dựa tổng an toàn, phƣơng pháp mã hóa để tìm luật kết hợp toàn cục bảo toàn riêng tƣ liệu bên tham gia Các bƣớc mô hình đƣợc đề xuất nhƣ sau: Bƣớc 1: Nhiệm vụ bắt đầu thực TP, TP gửi yêu cầu tìm tập phổ biến cho tất bên cách gửi khóa công khai (Public key), hỗ trợ tối thiểu (Minsup) Bƣớc 2: Khi nhận đƣợc khóa công khai độ hỗ trợ tối thiểu, bên tìm tập phổ biến có sở liệu họ cách sử dụng thuật toán apriori để tìm tập phổ biến Đối với tập phổ biến tìm đƣợc, bên áp dụng thuật toán mã hóa để chuyển đổi tập phổ biến sang dạng mã hóa cách sử dụng khóa công khai sau gửi đến TP Bƣớc 3: TP sau nhận đƣợc tập phổ biến cục mã hóa tiến hành giải mã liệu cách sử dụng chìa khóa chuẩn bị danh sách trộn bao gồm tập phổ biến cục tất bên sau loại bỏ tập dƣ thừa Đối với bên, TP tạo số ngẫu nhiên (RN i) dấu hiệu (+ -) Danh sách trộn với số ngẫu nhiên (RNi) dấu hiệu (Signi) 41 đƣợc gửi đến bên tƣơng ứng Số số ngẫu nhiên để đƣợc thêm vào trừ khỏi độ hỗ trợ (PSij) Bƣớc 4: Mỗi bên tính độ hỗ trợ phần cho mục phổ biến có danh sách trộn đƣợc nhận từ TP cách sử dụng công thức: PSij= Xj.sup – Minsup × | DBi | + (Signi) RNi Tại bên thứ i, với i nằm khoảng từ đến n j mục thứ j nằm danh sách trộn (có k phần tử) tập phổ biến (có từ TP), j nằm khoảng từ đến k Mỗi bên sau gửi giá trị PSij tính toán cho tất mục thƣờng xuyên danh sách trộn vào tất bên khác Bƣớc 5: Mỗi bên tính toán Tổng PSij cho tập mục Xj cách sử dụng công thức: TotalPSij =∑ với j = đến k sau gửi đến TP Bƣớc 6: TP nhận đƣợc TotalPSij tổng độ hỗ trợ từ tất bên cho tập phổ biến Xj Bƣớc 7: TP xác minh giá trị TotalPSij nhận từ bên cho tập phổ biến Xj, nơi mà i số bên (Sitei) thay đổi từ đến n Nếu có khác biệt xảy kết nhận đƣợc sai, TP yêu cầu tất bên thực lại bƣớc lần để có đƣợc kết xác Bƣớc 8: TP tính độ hỗ trợ toàn cục (GESj) cho tập phổ biến Xj cách sử dụng công thức: GESj = TotalPSij - SignSumRN Với SignSumRN đƣợc tính cách cộng tất số ngẫu nhiên với dấu hiệu họ đƣợc TP tạo Nếu giá trị tính toán GESj ≥ mục phổ biến Xj phổ biến toàn cục không không phổ biến toàn cục Bƣớc 9: Đối với mục phổ biến toàn cục đƣợc thiết lập Xj, TP tìm độ hỗ trợ thực tế (ASj) theo công thức: ASj = GESj + Minsup * |DB| Với |DB| = ∑ Bƣớc 10: TP gửi danh sách bao gồm tất tập phổ biến toàn cục giá trị cho tất bên tham gia 42 Bƣớc 11: Mỗi bên tạo luật kết hợp với độ tin cậy khác cách sử dụng tập phổ biến toàn cục độ hỗ trợ nhận đƣợc từ TP Ví dụ 3.1: Minh họa mô hình đề xuất Mô hình đề xuất đƣợc minh họa cách sử dụng ba sở liệu phân tán ngang phần khai thác luật kết hợp bảo toàn tính riêng tƣ bên tham gia Trong mô hình mẫu này, sở liệu theo đƣợc phân chia thành mảnh là: DB1, DB2 DB3 đƣợc đặt Site1, Site2 Site3 tƣơng ứng Ngoài ba bên, tồn bên đặc biệt đƣợc gọi Trusted party (TP) Cơ sở liệu mẫu Bên1, Bên2 Bên3 đƣợc đƣa dƣới đây: Bảng 3.2 Cơ sở liệu cục Site1 T-id/Item A1 A2 A3 A4 A5 T1 0 T2 1 1 T3 1 T4 0 1 T5 1 1 Bảng 3.3 Cơ sở liệu cục Site2 T-id/Item A1 A2 A3 A4 A5 T1 1 1 T2 0 1 T3 1 1 T4 1 1 T5 1 0 Bảng 3.4 Cơ sở liệu cục Site3 T-id/ Item A1 A2 A3 A4 A5 T1 0 1 T2 1 1 T3 1 1 T4 1 T5 1 1 43 Bƣớc 1: TP yêu cầu ba bên gửi tập phổ biến dƣới dạng mã hóa cục bên cách gửi hai giá trị là: ngƣỡng hỗ trợ tối thiểu khóa công khai Bƣớc 2: Mỗi bên tính tập phổ biến cục cho sở liệu cách sử dụng ngƣỡng hỗ trợ tối thiểu 40% đƣợc gửi TP mã hóa theo khóa công khai TP gửi Các tập phổ biến cục (LF – Local Frequent) bên Site1, Site2 Site3, đƣợc đƣa dƣới đây: LF1= {A1, A2, A3, A4, A5, (A1, A2), (A1, A4), (A1, A5), (A2, A4), (A2, A5), (A3, A5), (A4, A5), (A1, A2, A4), (A1, A2, A5), (A1, A4, A5), (A2, A4, A5), (A1, A2, A4, A5)} LF2= {A1, A2, A3, A4, A5, (A1, A2), (A1, A4), (A1, A5), (A2, A3), (A2, A4), (A2, A5), (A3, A4), (A3, A5), (A4, A5), (A1, A2, A4), (A1, A2, A5), (A2, A3, A4) (A2, A4, A5), (A3, A4, A5)} LF3= {A1, A3, A4, A5, (A1, A3),(A1, A4), (A1, A5), (A3, A4), (A3, A5), (A4, A5), (A1, A3, A4, A5)} Bƣớc 3: Sau nhận tập phổ biến dƣới dạng mã hóa từ bên gửi về, TP trộn thành danh sách tập phổ biến sau loại bỏ mục liệu thừa (lặp lại lần) Danh sách tập phổ biến từ bên nhƣ sau: {A1, A2, A3, A4, A5, (A1, A2), (A1, A3), (A1, A4), (A1, A5), (A2, A3), (A2, A4), (A2, A5), (A3, A4), (A3, A5), (A4, A5), (A1, A3, A4), (A1, A3, A5), (A1, A4, A5), (A1, A2, A4), (A1, A2, A5), (A2, A3, A4), (A2, A4, A5), (A3, A4, A5), (A1, A2, A4, A5), (A1, A3, A4, A5)} Sau số ngẫu nhiên dấu hiệu TP tạo gửi với tập phổ biến trộn lẫn bên cho tất ba bên Site1 received RN1 = 20, Sign1 = („+‟) Site2 received RN2 = 39, Sign2 = („-„) Site3 received RN3 = 41, Sign3 = („-„) Bƣớc 4: Mỗi bên tính toán độ hỗ trợ phần gửi đến tất bên khác để tìm tổng độ hỗ trợ Tất ba địa điểm gửi tổng độ hỗ trợ cho tất tập phổ biến danh sách trộn nhận đƣợc từ TP TP cuối tính đƣợc tập phổ biến toàn cục cách so sánh độ hỗ trợ toàn cục bên gửi đến (GES) 44 mục liệu với nơi mà đƣợc tính GESi, cách lấy TotalPSi trừ cho SignSumRN Các bƣớc sau minh họa cho trình tìm kiếm cho biết hai tập danh sách trộn có phổ biến toàn cục hay không? Xét hai tập phổ biến {(A3, A5), (A3, A4, A5)} danh sách trộn Cho X1= (A3, A5) X2 = (A3, A4, A5) Từ bảng 1, 3, kích thƣớc liệu đƣợc mô tả dƣới đây: | DB1 | = 5, | DB2 | = 5, | DB3 | = kích thƣớc sở liệu cục bên | DB | = ∑ = 15 TP tính giá trị SignSumRN cách thêm ba số ngẫu nhiên với dấu hiệu gửi cho bên bƣớc cách sau: SignSumRN = (+) 20 + (-) 39 + (-) 41 = - 60 Độ hỗ trợ X1 địa điểm khác đƣợc tính nhƣ sau: Tại Bên 1: PS11= X1.sup – 40% DB1 + (Sign1) RN1 PS11 = – + 20 = 20 Tại Bên 2: PS21 = X1.sup – 40% | DB2 | PS21 + (Sign2) RN2 = - - 39 = - 39 Tại Bên 3: PS31 = X1.sup – 40% | DB3 | + (Sign3) RN3 PS31 = - - 41 = - 40 Site1 gửi PS11=20 đến Site2 Site3 Tƣơng tự, Site2 gửi PS21=-39 đến Site1 Site3 Site3 gửi PS31 = -40 đến Site1 Site2 Giá trị TotalPSij đƣợc tính toán tất Site: TotalPS11 = PS11 + (PS21 + PS31) = 20 +(- 39 - 40) = -59 TotalPS21 = PS21 + (PS11 + PS31) = - 39 + (20 - 40) = -59 TotalPS31 = PS31 + (PS11 + PS21) = - 40 + (20 - 39) = -59 TP nhận đƣợc giá trị -59 nhƣ tổng độ hỗ trợ tập X1 đƣợc tính toán từ ba địa điểm đảm bảo tính toán đƣợc thực tất bên 45 xác TP sau tính độ hỗ trợ toàn cục (GES1) cách trừ SignSumRN từ TotalPS11 GES1= TotalPS11 – SignSumRN = -59 - (-60) = Giá trị GES1 = lớn 0, (A3, A5) đƣợc coi tập phổ biến toàn cục độ hỗ trợ thực tế (AS1) X1 đƣợc tính công thức sau: AS1 = GES1 + Minsup * |DB| = + = với |DB| = 15 Nhƣ vậy, tập mục (A3, A5) tập phổ biến toàn cục có độ hỗ trợ Tiếp theo tìm xem tập X2 = (A3, A4, A5) có tập phổ biến toàn cục hay không? Độ hỗ trợ phần cho X2 ba địa điểm đƣợc tính nhƣ sau: Tại Bên 1: PS12 = X2.sup – 40% DB1 + (Sign1) RN1 = – + 20 = 19 Tại Bên 2: PS22 = X2 sup – 40% DB2 + (Sign2) RN2 = - - 39 = - 39 Tại Bên 3: PS32 = X2.sup – 40% DB3 + (Sign3) RN3 = - - 41 = -41 Bƣớc Site1 gửi PS12=19 đến Site2 Site3 Tƣơng tự, Site2 gửi PS21=-39 đến Site1 Site3 Site3 gửi PS31 = -41 đến Site1 Site2 Giá trị TotalPSij đƣợc tính toán tất site giống TotalPS12 = PS12 + PS22 + PS32 =19 +(- 39 -41) = - 61 Mỗi bên gửi liệu tính toán TotalPSi2 đến TP TP sau tính GES2 GES2 = TotalPS12 - SignSumRN = 59 - (-60) = -1 Giá trị GES2 -1, thấp số không, nhƣ (A3, A4, A5) đƣợc coi không phổ biến toàn cục, phổ biến Site2 Site3 Các bƣớc đƣợc lặp lại cho tất tập mục danh sách tập phổ biến cục trộn từ bên để tìm xem chúng có phổ biến toàn cục hay không Cuối TP chuẩn bị tập gồm toàn tập phổ biến toàn cục độ hỗ trợ chúng, sau TP gửi danh sách đến tất Site Kết từ ví dụ đƣợc hiển thị bảng 3.5 dƣới Mặc dù danh sách trộn từ tập phổ biến cục bên gửi đến TP bao gồm 25 tập nhƣng có 13 tập phổ biến toàn cục 46 Bảng 3.5 Tập phổ biến toàn cục độ hỗ trợ chúng Item Set Sup Item Set Sup Item Set Sup A1 11 (A1, A2) (A4, A5) A2 (A1, A4) (A3, A4) A3 (A3, A5) (A1, A4, A5) A4 12 (A1, A5) A5 12 (A2, A5) Mỗi bên tạo luật kết hợp toàn cục cho tập phổ biến toàn cục dựa ngƣỡng tin cậy tối thiểu quy định Các tính toán sau minh họa cách mà luật kết hợp đƣợc coi luật mạnh hay yếu dựa vào ngƣỡng tin cậy tối thiểu ngƣời dùng định nghĩa Giả sử với ngƣỡng Minconf = 65% tập thƣờng xuyên (A1, A4, A5), luật kết hợp khác đƣợc tạo là: {A1 → (A4, A5), A4 → (A1, A5), A5 → (A1, A4), (A1, A4) → A5, (A1, A5) → A4, (A4, A5) → A1} Tất luật kết hợp không luật mạnh Luật mạnh độ tin cậy luật lớn hay độ tin cậy tối thiểu (Minconf) Với luật A1 → (A4, A5) ngƣỡng tin cậy luật là: Sup(A1, A4, A5 ) / Sup(A1) = 6/11 = 54% không thỏa điều kiện lớn hay Minconf=65% nên luật không đƣợc coi luật mạnh Với luật (A1, A4) → A5 độ tin cậy luật là: Sup (A1, A4, A5 ) / Sup(A1, A4) = 6/9 = 66% Thỏa điều kiện lớn hay Minconf nên luật (A1, A4) → A5 đƣợc coi luật mạnh Kiểm tra tƣơng tự với luật số luật liệt kê ta có thêm luật mạnh gồm: (A4, A5) → A1 với độ tin cậy luật =66%, (A1, A5)→A4 với độ tin cậy 75% 3.2.2 Về việc bảo toàn tính riêng tƣ mô hình đề xuất Một mô hình đƣợc tác giả đề xuất [6], để đảm bảo tính riêng tƣ khai thác luật kết hợp sở liệu phân tán ngang Mô hình đề xuất đƣợc áp dụng cho số lƣợng bên (n) lớn cho số lƣợng giao dịch sở liệu bên Nhiều công việc nhƣ phát tập phổ biến cục bên, tính độ hỗ trợ phần tổng độ hỗ trợ cho mục 47 danh sách trộn đƣợc thực độc lập bên Do thời gian tính toán mô hình đề xuất Hiệu phƣơng pháp đề xuất tính riêng tƣ liên lạc thông tin bên đƣợc thảo luận nhƣ sau: • Vấn đề bảo mật đƣợc đảm bảo cách sử dụng mã hóa giải mã kỹ thuật thời điểm chuyển giao tập phổ biến từ bên khác TP Từ điều này, bên TP biết tập phổ biến cục bên nhƣng TP biết độ hỗ trợ tập phổ biến dự đoán liên quan đến sở liệu bên • Tại thời điểm tính độ hỗ trợ phần tập mục (Xi) bên, theo công thức PSij= Xj.Sup – 40% of DBi + (Signi) RNi với RNi số ngẫu nhiên Vì vậy, độ hỗ trợ phần hình thức ẩn hình sau đƣợc gửi đến bên cách an toàn Mỗi bên không đƣợc có ý tƣởng ký hiệu, số ngẫu nhiên đƣợc tạo từ TP gửi đến bên khác kích thƣớc sở liệu bên không đƣợc biết Vì vậy, từ độ hỗ trợ phần, bên dự đoán thông tin liệu bên khác Bằng cách này, độ hỗ trợ phần tập đƣợc gửi đến tất bên mà đảm bảo riêng tƣ liệu bên Do khái niệm tổng an toàn đƣợc sử dụng việc tính toán độ hỗ trợ phần tăng cƣờng riêng tƣ liệu bên tham gia • Bên TP nhận đƣợc tổng độ hỗ trợ tập phổ biến từ tất bên để tìm tập phổ biến toàn cục Bởi tổng độ hỗ trợ nên bên TP tìm thấy thông tin liệu, kích thƣớc sở liệu bên độ hỗ trợ cục mục Mặc dù bên TP giao số ngẫu nhiên, dấu hiệu cho tất bên tổng kích thƣớc sở liệu đƣợc biết, nhƣng TP dự đoán liệu cá nhân bên • Cuối kết tập phổ biến toàn cục độ hỗ trợ chúng đƣợc gửi bên TP cho tất bên Với kết này, bên dự đoán đƣợc độ hỗ trợ cục tập mục phổ biến toàn cục, tập phổ biến toàn cục không phổ biến tất 48 bên chủ sở hữu bên dự đoán đóng góp sở liệu bên khác mà tạo thành tập phổ biến toàn cục Trong môi trƣờng phân tán, chi phí truyền thông đƣợc đo số lƣợng thông tin liên lạc để truyền liệu tất bên liên quan trình tìm kiếm luật kết hợp toàn cục • Hiệu thuật toán đƣợc đánh giá chi phí truyền thông phát sinh trình trao đổi thông tin Mô hình đề xuất giảm thiểu số lƣợng trình chuyển liệu cách cho phép việc chuyển giao số lƣợng lớn liệu thời điểm từ bên đến bên khác bên TP đến bên Ví dụ bên gửi tập phổ biến cục lần đến bên TP chí bên gửi độ hỗ trợ phần hạng mục đến bên khác thay gửi tập gồm nhiều độ hỗ trợ phần tất mục danh sách trộn đến bên khác Do mô hình đề xuất có nhu cầu thông tin liên lạc • Bên TP gửi tất tập phổ biến toàn cục cho tất bên lần Do mô hình đƣợc đề xuất kinh tế nhiều chi phí truyền thông sử dụng số lƣợng lớn liệu truyền Các thảo luận khẳng định rõ mô hình mà tác giả đề xuất hiệu cho việc tìm kiếm luật kết hợp toàn cục sở liệu phân tán ngang bảo toàn tính riêng tƣ liệu cho bên tham gia 3.3 THỰC NGHIỆM MÔ HÌNH Để kiểm tra tính hiệu mô hình khai thác luật kết hợp CSDL phân tán ngang trình bày mục 3.2 Chƣơng trình áp dụng mô hình khai thác CSDL phân tán ngang bảo toàn tính riêng tƣ bên tham gia khai thác đƣợc viết ngôn ngữ C# với giả sử gồm bên tham gia khai thác gồm: Bên TP, Bên 1, Bên 2, Bên Sẽ khai thác luật kết hợp toàn cục từ liệu cục Bên Bên TP bên điều khiển trình khai thác Giả sử chƣơng trình đƣợc thực máy thể chức bên qua hình khác Cấu hình máy tính thực thực nghiệm là: Lenovo X1, xử lý Core i5 GB nhớ chính, chạy hệ điều hành Windows 10 - 64bit, DotNet FrameWork 4.5, Microsoft Visual Studio 2015 49 Chƣơng trình khởi động từ hình bên điều khiển TP có cấu trúc nhƣ hình 3.2 Ngƣời sử dụng nhập ngƣỡng hỗ trợ tối thiểu mã khóa công khai nhấn nút xuất file để tạo file gửi cho bên tiến hành khai thác tập phổ biến cục bên Sau nhận đƣợc tập phổ biến cục bên nhƣ ví dụ Bên TP tiến hành trộn tập phổ biến lại xuất file gửi cho bên với số phát sinh ngẫu nhiên ký hiệu (+ -) để bên tính độ hỗ trợ phần tử tập phổ biến toàn cục trộn loại bỏ tập trùng Hình 3.2 Màn hình bên TP Sau nhận lại tập phổ biến giá trị tính toán bên Bên TP tính bƣớc cuối tập phổ biến toàn cục độ hỗ trợ chúng Hình 3.3 Màn hình Bên 50 Màn hình bên hoạt động giống có giao diện nhƣ hình 3.3 Các bên nhận ngƣỡng hỗ trợ tối thiểu mã khóa từ file TP gửi đến cách Import liệu từ file Sau nhận file liệu bên tính tập phổ biến thỏa ngƣỡng hỗ trợ tối thiểu bên TP gửi đến Để gửi tập phổ biến LF TP sau mã hóa bên xuất file để bên TP nhận Bƣớc tiếp theo, bên nhận từ TP file chứa tập phổ biến trộn từ tập phổ biến cục bên với số ngẫu nhiên, ký hiệu Bƣớc cuối thực tính toán cho tập phổ biến toàn cục theo số ngẫu nhiên ký hiệu TP gửi xuống ứng với liệu bên Kết nhận đƣợc file từ TP gửi xuống tập phổ biến toàn cục độ hỗ trợ chúng Chƣơng trình thực đƣợc số CSDL nhỏ dạng ví dụ để kiểm tra tính đắn mô hình để khai thác Phần mở rộng để chƣơng trình thực CSDL thực đƣợc tác giả tiếp tục phát triển tƣơng lai 51 PHẦN KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Kết luận Luận văn trình bày đƣợc phần lý thuyết số thuật toán phƣơng pháp khai thác luật kết hợp (Apriori, IT-Tree), lý thuyết bảo toàn tính riêng tƣ khai thác liệu, thuật toán khai thác tập phổ biến luật kết hợp CSDL phân tán ngang, bảo toàn tính riêng tƣ Từ luận văn đề xuất thay đổi bƣớc bên khai thác CSDL cục để giảm thời gian khai thác, luận văn đề xuất thay thuật toán từ Apriori thành phƣơng pháp IT-Tree Kết thực nghiệm mô hình khai thác CSDL phân tán bên tham gia cho thấy tính đắn mô hình khai thác CSDL ngang bảo toàn tính riêng tƣ bên tham gia khai thác Khi áp dụng mô hình thực tế với nhiều bên tham gia khối lƣợng liệu lớn việc thay đổi thuật toán bƣớc thực khai thác tập phổ biến bên giảm thời gian khai thác Hƣớng phát triển Những đóng góp luận văn dừng lại việc nghiên cứu thuật toán khai thác luật kết hợp góp ý đề xuất Phần thực nghiệm luận văn chƣa chạy đƣợc nhiều máy, online CSDL thực tế, để so sánh, đánh giá với số mô hình khai thác tập phổ biến có bảo toàn tính riêng tƣ Phần tác giả tiếp tục nghiên cứu thêm hoàn thiện Ngoài ra, phần thực nghiệm luận văn cần đƣợc mở rộng để so sánh đánh giá với số thuật toán khác có mục đích khai thác tập phổ biến CSDL phân tán ngang có bảo toàn tính riêng tƣ bên tham gia khai thác để kết khách quan phần thực nghiệm cần thủ nghiệm số CSDL thực tế khác 52 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Trần Quốc Việt, Cao Tùng Anh, Lê Hoài Bắc (2012), "Đảm bảo tính riêng tư chống thông đồng khai thác luật kết hợp liệu phân tán ngang", Chuyên san công trình nghiên cứu, phát triển ứng dụng công nghệ thông tin truyền thông, Tạp chí công nghệ thông tin truyền thông, số 7, Hà Nội 05/2012, tr 60-70 [2] Võ Đình Bảy, Lê Hoài Bắc (2010), “Chuỗi Bit Động: Cách tiếp cận để khai thác tập phổ biến”, ICTFIT‟ 2010, Hồ Chí Minh, Nhà xuất Khoa học & Kỹ thuật, tr 47-52 Tiếng Anh [3] Cheung David Wai-Lok, Han Jiawei, Ng Vincent, Fu Ada Wai-Chee, and Fu Yongjian (1996), “A fast distributed algorithm for mining association rules“,IEEE In Proceedings of the 1996 International Conference on Parallel and Distributed Information Systems (PDIS‟96), Miami Beach, Florida, USA, pp 31-42 [4] Estivill-Castro Vladimir, HajYasien Ahmed, (2007), “Fast Private Association Rule Mining by a Protocol Securely Sharing Distributed Data“, In Proceedings of the 2007 IEEE Intelligence and Security Informatics, New Brunswick, New Jersey, USA, May 23-24, pp 324–330 [5] Hussein Mahmoud, El-Sisi Ashraf, Ismail Nabil (2008), “Fast Cryptographic Privacy Preserving Association Rules Mining on Distributed Homogenous Data Base”, Lecture Notes in Computer Science, Vol 5178/2008, pp 513519 [6] Lakshmi N V Muthu, Rani Dr K Sandhya (2012), “Privacy Preserving Association Rule Mining in Horizontally Partitioned Databases Using Cryptography Techniques”, International Journal of Computer Science and Information Technologies, Vol (1), 2012, pp 3176-3182 [7] Lindell Yehuda and Pinkas Benny (2008),“Secure Multiparty Computation for Privacy-Preserving Data Mining”, IACR, The Journal of Privacy and Confidentiality, Number 1, pp 59-98 53 [8] Nguyen Xuan Canh, Le Hoai Bac,Cao Tung Anh, (2012) "An Enhanced Sheme for Priserving Associstion Rules Mining on Horizontally Distributed Databases", IEEE RIVF International Conference on Computing & Communication Technologies, research, Innovation and Vision for the Future 27 Feb-01 Mar 2012, pp 29-32 [9] Verykios Vassilios, Bertino Elisa, Fovino Igor Nai, Parasiliti Loredana, Saygin Yücel, and Theodoridis Yannis, (2004),“State-of-the-art in privacy preserving data mining”, SIGMOD Record, 33(1), pp 50-57 [10] Yang Bin, Nakagawa Hiroshi, Sato Issei and Sakuma Jun (2010) “Collusion-resistant privacy-preserving data mining”, Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining, NY, USA pp 483-492 [11] Zaki Mohammed Javeed, Gouda Karam (2003), “Fast Vertical Mining Using Diffsets”, Proceeding of the 9th ACM SIGKDD international conference on Knowledge discovery and data mining, pp 326-335 [12] Zaki Mohammed Javeed, Hsiao Ching-Jui, (2005) “Efficient Algorithms for Mining Closed Itemsets and Their Lattice Structure”, IEEE Transactions on Knowledge and Data Engineering 17(4): pp 462-478 [...]... 12], Thuật toán khai thác luật kết hợp cũng đƣợc tác giả trình bày trong chƣơng này Đây là hai thuật toán thƣờng sử dụng trong khai thác tập phổ biến, luật kết hợp trên CSDL phân tán bảo toàn tính riêng tƣ sẽ trình bày trong chƣơng 2 và chƣơng 3 22 CHƢƠNG 2 MỘT SỐ THUẬT TOÁN BẢO TOÀN TÍNH RIÊNG TƢ TRONG KHAI THÁC TRÊN CSDL PHÂN TÁN NGANG 2.1 GIẢI THUẬT KHAI THÁC TẬP PHỔ BIẾN ĐẢM BẢO TÍNH RIÊNG TƢ VÀ CHỐNG... toán khai thác tập phổ biến, khai thác luật kết hợp và khai thác trên CSDL phân tán ngang bảo toàn tính riêng tƣ của các bên tham gia khai thác Theo đánh giá của các tác giả [6] thì mô hình khai thác này đảm bảo tính riêng tƣ an toàn cho các bên tham gia khai thác và giảm đƣợc chi phí trong quá trình truyền và nhận dữ liệu giữa các bên Từ mô hình [6] luận văn cũng mạnh dạn đề xuất một thay đổi nhỏ trong. .. 31 2.2.2 Cơ sở lý thuyết 31 2.2.3 Giao thức khai thác 32 ix 2.2.4 Đánh giá giao thức 36 CHƢƠNG 3 THUẬT TOÁN BẢO TOÀN TÍNH RIÊNG TƢ TRONG KHAI THÁC LUẬT KẾT HỢP TRÊN CSDL PHÂN TÁN NGANG 38 3.1 CƠ SỞ NGHIÊN CỨU 38 3.2 MÔ HÌNH KHAI THÁC TRÊN CSDL PHÂN TÁN NGANG 38 3.2.1 Mô hình đề xuất 38 3.2.2 Về việc bảo toàn tính riêng tƣ trong mô hình đề... PHƢƠNG PHÁP NGHIÊN CỨU 3 4 BỐ CỤC LUẬN VĂN 3 CHƢƠNG 1 TỔNG QUAN VỀ KHAI THÁC DỮ LIỆU 4 1.1 GIỚI THIỆU ĐỀ TÀI 4 1.2 KHAI THÁC TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP 5 1.2.1 Một số khái niệm 5 1.2.2 Khai thác tập phổ biến và luật kết hợp 7 1.2.3 Thuật toán khai thác luật kết hợp 20 CHƢƠNG 2 MỘT SỐ THUẬT TOÁN BẢO TOÀN TÍNH RIÊNG TƢ TRONG KHAI THÁC TRÊN... TRONG KHAI THÁC TRÊN CSDL PHÂN TÁN NGANG 22 2.1 GIẢI THUẬT KHAI THÁC TẬP PHỔ BIẾN ĐẢM BẢO TÍNH RIÊNG TƢ VÀ CHỐNG THÔNG ĐỒNG TRÊN CSDL PHÂN TÁN NGANG 22 2.1.1 Giao thức đảm bảo tính riêng tƣ trong tính độ phổ biến toàn cục 22 2.1.2 Giải thuật khai thác tập phổ biến 23 2.1.3 Đánh giá thuật toán 29 2.2 GIAO THỨC KHAI THÁC CSDL PHÂN TÁN NGANG BẢO ĐẢM TÍNH RIÊNG TƢ 31 2.2.1... thuật toán khai thác dữ liệu hiện nay thƣờng thực hiện trên CSDL phân tán ngang và có quan tâm đến việc bảo toàn tính riêng tƣ về dữ liệu của các bên tham gia Với luận văn này, tác giả muốn trình bày một số thuật toán hiện nay có thể khai thác đƣợc các luật từ CSDL phân tán ngang cho các bên tham gia, từ đó có thể ứng dụng vào công việc mang lại lợi ích cho các bên và bảo toàn tính riêng tƣ về dữ liệu của... khai thác tri thức và khai thác dữ liệu Chúng ta đang bị ngập trong khối dữ liệu khổng lồ nhƣng những dữ liệu thật sự có giá trị cho chúng ta thì rất nhỏ Do đó, việc khai thác dữ liệu (data mining) là quá trình giúp chúng ta có đƣợc những dữ liệu có giá trị từ khối dữ liệu khổng lồ đó Khai thác dữ liệu là quá trình tìm kiếm các mẫu mới, những thông tin tiềm ẩn trong các khối dữ liệu khổng lồ, khai thác. .. rãi trong nhiều lĩnh vực của cuộc sống nhƣ kinh tế, giáo dục, y tế, trong siêu thị,… Phân tích luật kết hợp là một trong những phƣơng pháp của khai thác dữ liệu Nhiệm vụ của phƣơng pháp này là phân tích dữ liệu trong CSDL nhằm phát hiện và đƣa ra những mối liên hệ giữa các giá trị dữ liệu Luật kết hợp thu đƣợc thƣờng có dạng một mệnh đề có 2 vế: A→B, trong đó A gọi là tiền đề, B gọi là mệnh đề kết. .. tra 2 luật kết hợp AB và BA xem chúng có mạnh hay không Nhƣ vậy, vấn đề khai thác các luật kết hợp có thể chuyển về bài toán khai thác các tập phổ biến Phát biểu bài toán: Cho một tập các mục I, một cơ sở dữ liệu giao dịch D, ngƣỡng hỗ trợ Minsup, ngƣỡng tin cậy Minconf Tìm tất cả các luật kết hợp XY trên CSDL D sao cho: sup(X Y) ≥ Minsup và Conf(XY) ≥ Minconf Bài toán khai thác luật kết hợp có... quan tâm đến việc bảo toàn tính riêng tƣ của các bên tham gia cung cấp dữ liệu cho quá trình khai thác 2 MỤC TIÊU VÀ PHẠM VI NGHIÊN CỨU Một số thuật toán khai thác luật kết hợp trên CSDL phân tán bảo toàn tính riêng tƣ đã đƣợc nhiều tác giả đề xuất [1, 3, 6, 9, 11 ] Tuy nhiên, một số vấn đề vẫn còn tồn tại với các thuật toán nhƣ: Chi phí thực hiện, thời gian thực hiện, … trong CSDL phân tán, chi phí thực

Ngày đăng: 17/11/2016, 16:04

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan