Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 69 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
69
Dung lượng
1,08 MB
Nội dung
1 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT VÀ TRUYỀN THÔNG o0o Họ tên tác giả: Nguyễn Thị Thùy MỘT SỐ KỸ THUẬT KHAI PHÁ LUẬT KẾT HỢP CÓ BẢO ĐẢM TÍNH RIÊNG TƯ TRONG CÁC TẬP GIAO DỊCH PHÂN TÁN NGANG LUẬN VĂN THẠC SỸ KHOA HỌC Thái Nguyên – 2014 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CNTT VÀ TRUYỀN THÔNG Họ tên tác giả: Nguyễn Thị Thùy MỘT SỐ KỸ THUẬT KHAI PHÁ LUẬT KẾT HỢP CÓ BẢO ĐẢM TÍNH RIÊNG TƯ TRONG CÁC TẬP GIAO DỊCH PHÂN TÁN NGANG Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 LUẬN VĂN THẠC SỸ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC TS TRẦN ĐỨC SỰ Thái Nguyên - 2014 LỜI CAM ĐOAN Những kết nghiên cứu trình bày luận văn hoàn toàn trung thực, không vi phạm điều luật sở hữu trí tuệ pháp luật Việt Nam Nếu sai, hoàn toàn chịu trách nhiệm trước pháp luật TÁC GIẢ LUẬN VĂN Nguyễn Thị Thùy LỜI CẢM ƠN Trước hết, xin bày tỏ lòng cảm ơn chân thành tới thầy giáo,TS Trần Đức Sự, người tận tình hướng dẫn suốt thời gian làm luận văn tốt nghiệp Tôi xin cảm ơn thầy, cô giáo khoa Công nghệ thông tin trường Đại học CNTT truyền thông - Đại học Thái Nguyên giảng dạy suốt thời gian học tập trường tạo điều kiện giúp đỡ hoàn thành luận văn Cảm ơn bạn bè, đồng nghiệp cổ vũ động viên suốt trình học tập trường Tuy có cố gắng định thời gian trình độ có hạn nên chắn luận văn nhiều thiếu sót hạn chế định Kính mong nhận góp ý thầy cô bạn MỤC LỤC Bảng 1.1 Ví dụ mô hình liệu phân tán ngang Bảng 1.2 Ví dụ mô hình liệu phân tán dọc MỘT SỐ PHƯƠNG PHÁP TÌM LUẬT KẾT HỢP 14 2.3 Thuật toán khai phá luật kết hợp phân tán 19 2.3.1 Thuật toán khai phá luật kết hợp phân tán nhanh(FDM) .19 Bảng 2.1 Các tập phổ biến 22 Bảng 3.1 So sánh phương pháp Secure Sum Two Mixer Sum 49 DANH MỤC CÁC TỪ VIẾT TẮT A.sup: Ðộ hỗ trợ toàn cục itemset A (tính theo số lần xuất hiện) A.supi: Ðộ hỗ trợ cục itemset A site i (tính theo số lần xuất hiện) conf: Ðộ tin cậy (toàn cục) tối thiểu CSDL: Cơ sở liệu DB: Cơ sở liệu tập trung hay toàn cục DBi: Cơ sở liệu cục site i FI: Tập itemset phổ biến FIi: Tập itemset phổ biến cục site i KTDL: Khai thác liệu MFI: Tập itemset tối đại MFIi: Tập itemset tối đại cục site i Public key: Khoá công khai Private key: Khoá bí mật SMC: Các giao thức tính toán đa thành viên an toàn sup: Ðộ hỗ trợ (toàn cục) tối thiểu (tính theo tần số %) SUP: Ðộ hỗ trợ (toàn cục) tối thiểu (tính theo số lần xuất hiện) Trusted-party: Thành viên thứ đáng tin cậy DANH MỤC CÁC BẢNG Bảng 1.1 Ví dụ mô hình liệu phân tán ngang Bảng 1.2 Ví dụ mô hình liệu phân tán dọc Bảng 2.1 Các tập phổ biến 22 Bảng 3.1 So sánh phương pháp Secure Sum Two Mixer Sum 49 DANH MỤC CÁC HÌNH VẼ Hình 1.1 Quá trình khai phá luật kết hợp CSDL tập trung Hình 1.3 Mô hình tính toán SMC 12 Hình 2.1 CSDL giao dịch 14 Hình 2.2 Quá trình tìm tập phổ biến 15 Hình 3.1 SecureSum(): Tính tổng bảo mật Vi (0 ≤ i ≤ M-1) 29 Hình 3.2a Giai đoạn ví dụ sử dụng SecureSum 30 Hình 3.2b Giai đoạn ví dụ sử dụng SecureSum 30 Hình 3.3 Một ví dụ minh họa CRDM 33 Hình 3.4 Giai đoạn 1, tìm itemset ứng viên chung 38 Hình 3.5 Giai đoạn 2, tính độ hỗ trợ toàn cục 40 Hình 3.6 Giao thức sử dụng Semi-trusted-mixer 41 Hình 3.7 Giai đoạn ví dụ thuật toán Two – MixerSum .46 Hình 3.8 Giai đoạn ví dụ thuật toán Two – MixerSum .46 Hình 3.9 Giao diện chương trình 51 Hình 3.10 Tiến trình thử nghiệm chương trình 52 Hình 3.11 Giao diện kết chương trình .52 Hình 3.12 Giao diện chương trình 55 Hình 3.13 Tiến trình thử nghiệm 55 Hình 3.14 Kết chương trình 56 MỞ ĐẦU Khai phá luật kết hợp phương pháp quan trọng khai phá liệu Việc khai phá luật kết hợp thường thực sở liệu giao dịch người dùng giữ tổ chức, ví dụ giao dịch mua hàng siêu thị, giao dịch tài ngân hàng … Các ngân hàng muốn tìm kiếm khả toán nợ khách hàng, họ cần hợp tác với để tìm khả thông qua số đặc tính khách hàng họ nhiên họ giao liệu khách hàng họ cho ngân hàng khác lí cạnh tranh khách hàng, luật bảo vệ thông tin người dùng Do nhu cầu tìm kiếm luật kết hợp liệu phân tán có đảm bảo tính riêng tư nhu cầu thiết yếu cấp bách Các giải pháp khai phá luật kết hợp có đảm bảo tính riêng tư đời cần thiết, phép thực việc khai phá luật kết hợp bảo vệ thông tin riêng tư Do việc nghiên cứu, tìm hiểu thuật toán khai phá luật kết hợp có đảm bảo tính riêng tư để tích hợp cho ứng dụng có tính thực tiễn cao Xuất phát từ thực tiễn trên, mục đích đề tài nghiên cứu đánh giá “Một số kỹ thuật khai phá luật kết hợp có bảo đảm tính riêng tư tập giao dịch phân tán ngang” Nội dung bao gồm chương phần mở đầu, phần kết luận với nội dung cụ thể sau: Chương 1: Tổng quan khai phá luật kết hợp có đảm bảo tính riêng tư Trong chương trình bày khái quát chung vấn đề khai phá liệu có đảm bảo tính riêng tư, vấn đề khai phát luật kết hợp có đám bảo tính riêng tư với liệu tập trung hệ thống phân tán, số tiêu chí đánh giá Chương 2: Một số phương pháp khai phá luật kết hợp Ở chương tìm hiểu số phương pháp tìm luật kết hợp, khai phá luật kết hợp liệu phân tán Chương 3: Một số thuật toán khai phá luật kết hợp có đảm bảo tính riêng tư môi trường phân tán ngang Chương tập chung nghiên cứu số thuật toán khai phá luật kết hợp có đảm bảo tính riêng tư môi trường phân tán ngang Trong tập trung vào thuật toán là: Phương pháp dựa tổng bảo mật chống lại thông đồng phương pháp tiếp cận theo hướng FI Đồng thời trình bày đề mô thuật toán Secure Sum cải tiến thuật toán 47 Chứng minh khả đảm bảo tính riêng tư Giả sử Sx muốn biết Vi Si (x≠i) cần phải biết + (j≠x, j≠i) phải biết thêm K1, K2 Có nghĩa Sx phải thông đồng với Site lại thông đồng với Mixer, mà giã thiết Mixer không thông đồng không thông đồng với Site khác Điều cho thấy Sx biết thông tin site khác Do tính riêng tư đảm bảo mức độ đảm bảo M-1(Với M số site hệ thống) Chi phí truyền thông Số thông điệp truyền 4M+1(Với M số site hệ thống) Thời gian yêu cầu 3T với T thời gian trung bình để truyền thông điệp từ Site đến Site khác Ở giai đoạn 1, thực đồng thời nên thời gian T thời gian Ở giai đoạn Khi site gửi lại kết tính toán thực đồng thời T thời gian Sau Mixer M truyền m1 sang cho Mixer M2 T thơi gian Vì thời gian yêu cầu 3T Từ tiêu chí đánh giá phương pháp, tiến hành phân tích đánh giá thuật toán trình bày phần Gọi M số Site tham gia vào tính toán, giả thiết thuật toán thực sở liệu Chú ý số vòng lặp thực để khai thác tất tập phổ biến thuật toán giống Bởi ta so sánh chi phí tính toán truyền thông vòng lặp, ta có bảng so sánh sau: 48 Thuật toán Khả chống thông đồng CRDM (Mỗi vòng lặp) Chi phí truyền thông O(HNLK1) M-2 K1=1 Chi phí tính toán Sử dụng thành viên tin cậy O(HN) Phép tính cộng nhân không O(HN) Mã hóa giao hoán Sử dụng mã hóa Paillier O(HNLK2) M-2 K2=128 O(HNLK3) M-1 K3=1024 Phép tính mã hóa (ví dụ DES) không O(HN) Phép tính mũ modul Có H= Số Item trung bình tập ứng cử N= Số site liệu L= Kích thước Item K= Kích thước khóa mã hóa 3.3 So sánh hai phương pháp Secure Sum Two Mixer Sum Phương pháp Secure Sum: Có chi phí tính toán cao phải thực phân chia gửi đến toàn thành viên, Two Mixer Sum cần phân chia gửi đến Mixer Thêm vào Two Mixer Sum có tính bảo mật chống thông đồng cao do: giả sử S x muốn biết Vi j =n j =n j =1 j =1 Si (x≠i) cần phải biết ∑ Lj ,1 + ∑ Lj ,2 (j≠x, J≠i) phải biết thêm K1, K2 Có nghĩa Sx phải thông đồng với site lại thông đồng với Mixer, mà giải thiết Mixer không thông đồng không thông đồng với Site Điều cho thấy S x biết thông tin Site khác Do tính riêng tư bảo đảm M-1 (với M Site hệ thống) 49 Như thấy Two Mixer Sum cải tiến Secure Sum cách đáng kể Tuy nhiên Secure Sum đảm bảo hiệu chi phí đầu tư hệ thống, không đòi hỏi quản lí riêng lẻ Còn Mixer Sum đảm bảo tính chống thông đồng tốt thông qua hai thành viên bán tin cậy đòi hỏi phải đầu tư quản lí thành viên bán tin cậy Bảng so sánh phương pháp Secure Sum Two Mixer Sum Thuật toán Secure Sum Mức độ đảm bảo tính riêng tư M-2 Chi phí truyền thông Cao Sử dụng Chi phí thành tính toán viên tin cậy Cao Không Thấp Có -Thời gian:(M-1)T - Số thông điệp truyền: M(M-1)/2 Two Sum Mixer M-1 Thấp -Thời gian: 3T - Số thông điệp truyền: 4M+1 Bảng 3.1 So sánh phương pháp Secure Sum Two Mixer Sum 3.4 Cài đặt thuật toán Secure Sum Từ đánh giá phần ta thấy phương pháp tính tổng bảo mật chống lại thông đồng CRDM phương pháp có tốc độ thực thi nhanh, chi phí triển khai thấp đảm bảo độ tin cậy Do phần xin trình bày cài đặt thuật toán cải tiến với việc sử dụng hai thành viên bán tin cậy (phương pháp Two Mixer Sum) Secure Sum đảm bảo tính hiệu chi phí đầu tư hệ thống, không đòi hỏi quản lý riêng lẻ Còn Mixer Sum đảm bảo tính chống thông đồng tốt thông qua hai thành viên bán tin cậy 50 Mục đích hai thuật toán dùng để che dấu thông tin gửi thành viên trình khai phá liệu Hai thuật toán pha trình khai phá liệu đảm bảo tính riêng tư Trong trường hợp ứng dụng khai phá luật kết hợp thuật toán đóng vai trò che dấu độ tin cậy, độ hỗ trợ cục thành viên đảm bảo tính xác độ tin cậy độ hỗ trợ toàn cục luật kết hợp Dưới chương trình cài đặt hai thuật toán 3.4.1 Yêu cầu càiđặt thuật toán + Cài đặt Visual Studio 2010 3.4.2 Quá trình cài đặt thử nghiệm thuật toán Secure Sum 51 * Giao diện chương trình Hình 3.9 Giao diện chương trình * Tiến trình thử nghiệm Người dùng nhập ngẫu nhiên số vào ô V1 đến V5 - Tại Server Si ( i từ đến 5) chia ngẫu nhiên Vi thành (6-i) phần - Trên Si gửi V(i,j) (j>i) đến Sj - Trên Si tính tổng V'(i)= V(i,i)+ Tổng (các Sj) khác gửi đến - Gửi V'(i) tới S0, Tổng thu V(0) + ∑ i =1 V ' (i ) tổng cần tìm 52 * Giao diện chương trình nhập liệu Hình 3.10 Tiến trình thử nghiệm chương trình * Giao diện kết chương trình Hình 3.11 Giao diện kết chương trình 53 * Quá trình thực thi - Tại S1, giá trị V1 = V1 chia ngẫu nhiên thành phần V1,1: 2,02845321131332 >S1 V1,2: 0,713470646736208 >S2 V1,3: 0,523325957679156 >S3 V1,4: 0,719706933013226 >S4 V1,5: 0,0150432512580854 >S5 Lần lượt gửi đến S1,S2,S3,S4,S5 Vậy S1, có giá trị V1,1 => V’1 = V1,1=> V’1= 2,02845321131332 >S0 - Tại S2, giá trị V2=3 V2 chia ngẫu nhiên thành phần V2,2: 1,52133990848499 >S2 V2,3: 0,535102985052156 >S3 V2,4: 0,392494468259367 >S4 V2,5: 0,551062638203483 >S5 Lần lượt gửi đến S2,S3,S4,S5 Vậy s2, có giá trị V2,2 => V2’ = V2,2+ V1,2=> V'2 = 2,2348105552212 > S0 - Tại S3, giá trị V3=3 V3 chia ngẫu nhiên thành phần V3,3: 1,52133990848499 >S3 V3,4: 0,535102985052156 >S4 V3,5: 0,943557106462851 >S5 Lần lượt gửi đến S3,S4,S5 Vậy S3, có giá trị V3,3 => V’3 = V3,3+ V1,3+ V2,3 => V’3 = 2,57976885121631 > S0 - Tại S4, giá trị V4=2 V4 chia ngẫu nhiên thành phần 54 V4,4: 1,01422660565666 >S4 V4,5: 0,985773394343338 >S5 Lần lượt gửi đến S4,S5 Vậy S4, có giá trị V4,4 => V’4 = V4,4+ V1,4 + V2,4 + V3,4=> V'4 = 2,66153099198141 > S0 - Tại S5, giá trị V5=2 V5 là: V5,5: >S5 Gửi đến S5 Vậy S5, có giá trị V5,5 => V’5 = V5,5+ V1,5 + V2,5 + V3,5+V4,5=> V'5 = 4,49543639026776 > S0 * Kết cuối Secure Sum = V0+ V’1+V’2+V’3+V’4+V’5 3.4.3 Kết luận Sau thử nghiệm chương trình ta thấy Secure Sum = V0+ V0+ V’1+V’2+V’3+V’4+V’5= V0+ V1+V2+V3+V4+V5 Hoàn toàn kết thông tin (thông số) V i Site không bị lộ Các thông tin gửi giá trị V’ I làm nhiễu cách chia ngẫu nhiên kết hợp với thành phần site khác nên từ V’I ta khó tìm lại V i Do thuật toán đảm bảo tính bảo mật Chẳng hạn cách ta thu V’ i đường truyền ta suy V i có site Si tương ứng tính ngẫu nhiên chia ngẫu nhiên kết hợp Si Tuy nhiên cách cách ta biết Vi N-2 site ta suy Vi lại Lấy ví dụ chẳng hạn ta biết V1, V2, …V4 tính toán thông thường ta thu V0 V5 55 3.5 Cài đặt thuật toán Two Mixer Sum 3.5.1 Quá trình cài đặt thử nghiệm * Giao diện chương trình Hình 3.12 Giao diện chương trình * Tiến trình thử nghiệm Hình 3.13 Tiến trình thử nghiệm 56 * Giao diện kết chương trình Hình 3.14 Kết chương trình * Quá trình thực thi - Tại Mixer 1, giá trị K1 K1 chia ngẫu nhiên thành phần K1,1: 0,994157392994574 > S1 K2,1: 0,53764097813023 > S2 K3,1: 0,468201628875196 > S3 - Tại Mixer 2, giá trị K2 K2 chia ngẫu nhiên thành phần K1,2: 1,49123608949186 > S1 K2,2: 0,806461467195345 > S2 K3,2: 0,702302443312795 > S3 - Tại S1 nhận hai giá trị K1 (K1,1) K2 (K1,2) => ta có L1: V1 + K1,1 + K1,2 = + 0,994157393 + 1,491236089 => L1: 6,48539348248644 57 - Tại S2 nhận hai giá trị K1 (K2,1) K2 (K2,2) => Ta có L2: V2 + K2,1 + K2,2 = + 0,53764097813023+0,80646146719535 => L2: 6,34410244532557 - Tại S3 nhận hai giá trị K1 (K3,1) K2 (K3,2) => Ta có L3: V3 + K3,1 + K3,2 = + 0,46820162887520 + 0,70230244331280 => L3: 7,17050407218799 - Tại S1, ta có L1 chia ngẫu nhiên làm phần L1,1= 3,22375093854636 > K1 L1,2= 3,26164254394008 > K2 - Tại S2, ta có L2 chia ngẫu nhiên làm phần L2,1= 3,15351817396769 > K1 L2,2= 3,19058427135789 > K2 - Tại S3, ta có L3 chia ngẫu nhiên làm phần L3,1= 3,56430481743169 > K1 L3,2= 3,6061992547563 > K2 - Tại Mixer ta có summixer1: L1,1 + L1,2 + L1,3 – K1 - Tại Mixer ta có summixer 2: L1,2 + L2,2 + L3,2 – K2 + summixer1 => Vậy ta có Two-Mixer Sum: summixer1 + summixer2 – K1 – K2 3.5.2 Kết luận Sau thử nghiệm chương trình ta thấy Mixer Sum (V1, V2, V3) = 16 = V1+ V2 + V3 thông tin gửi Site 1, Site 2, Site là: L1,1= 3,22375093854636 > K1 58 L1,2= 3,26164254394008 > K2 L2,1= 3,15351817396769 > K1 L2,2= 3,19058427135789 > K2 L3,1= 3,56430481743169 > K1 L3,2= 3,6061992547563 > K2 Không phải V1, V2, V3 chí từ thông tin thu site ta thu giá trị gốc Vi lưu trữ Site Trường hợp chặn bắt thông tin site gửi đến Mixer Mixer ta suy thông tin lưu trữ gốc Site thông tin nhận ngẫu nhiên Thông tin Site bị Site thông đồng Khi site thông đồng (chẳng hạn Site Site 2), site cung cấp cho V1, V2 từ tổng ta hoàn toàn tính V3 Kết luận Chương Chương ta tìm hiểu số thuật toán khai phá luật kết hợp có đảm bảo tính riêng tư với giao thức sử dụng thuật toán CRDM, mã giao hoán KCS Phương pháp CRDM phương pháp có chi phí hiệu nay, ý tưởng dựa giao thức tính tổng bảo mật (secure sum) Tuy nhiên khả chống thông đồng thấp sử dụng mã hóa Paillier Do chương sau đây, ta đưa demo chương trình cài đặt kỹ thuật tính tổng bảo mật Secure sum mô hình tính tổng bảo mật cải tiến dựa mô hình hai thành viên bán tin cậy 59 KẾT LUẬN VÀ KIẾN NGHỊ Kết luận Khai phá luật kết hợp có đảm bảo tính riêng lĩnh vực mẻ, năm gần có nhiều công trình nghiên cứu theo hướng Việc nghiên cứu đưa vào thành công hệ thống đóng góp lớn có ích lĩnh vực khai phá liệu, trích rút tri thức Luận văn tập trung nghiên cứu định tính phân tích thuật toán khai phá phá luật kết hợp có đảm bảo tính riêng tư môi trường phân tán ngang để từ đưa so sánh đề xuất cải tiến bổ ích cho hướng phát triển vấn đề Kết đạt luận văn: Luận văn giới thiệu làm rõ toán khai phá luật kết hợp có đảm bảo tính riêng tư môi trường phân tán ngang, đồng thời luận văn trình bày số giải pháp, số thuật toán khai phá luật kết hợp có đảm bảo tính riêng tư môi trường phân tán ngang Luận văn phân tích đánh giá so sánh thuật toán để từ đưa ý tưởng cải tiến Kiến nghị Trên sở nghiên cứu, học viên hi vọng tương lai phát triển toán đặt môi trường phân tán dọc, đồng thời xây dựng mô hình thực nghiệm nhân rộng ứng dụng có ích vào thực tế Trong trình học tập, tìm hiểu nghiên cứu với khoảng thời gian làm luận văn, cố gắng tập trung tìm hiều tham khảo tài liệu liên quan Tuy nhiên, thời gian nghiên cứu lực có hạn nên khó tránh khỏi sai sót cần bổ sung, kính mong đóng góp ý kiến thông cảm thầy, cô giáo Một lần xin bày tỏ lòng biết ơn sâu sắc đến thầy giáo hướng dẫn tận tình bảo, hướng dẫn giúp đỡ suốt trình thực luận văn 60 TÀI LIỆU THAM KHẢO Tiếng việt [1] PGS.TS.Hà Quang Thụy, nhập môn khai phá liệu, giảng, trường Đại học công nghệ - Đại học Qquốc Gia Hà Nội, Hà Nội, 2011 [2] Nguyễn Xuân Cảnh, khai phá luật kết hợp có bảo đảm tính riêng tư liệu phân tán ngang, Luận văn Thạc sĩ tin học, trường Đại học khoa học Tự Nhiên - Đại học Quốc Gia Thành phố Hồ Chí Minh, 2011 Tiếng anh [3] David W Cheung, Jiawei Han, Vincent T Ng, Ada W Fu, Yongjian Fu, A Fast Distributed Algorithm for Mining Association Rules, 1996 [4] Golam Kaosar; Xun Yi, Semi-Trusted Mixer Based Privacy Preserving Distributed Data Mining for Resource Constrained Devices, 2010 [5] Kantarcioglu, Murat and Clifton, Chris, Privacy-Preserving Distributed Mining of Association Rules on Horizontally Partitioned Data, IEEE Trans on Knowl and Data Eng, 2004 [6] Michels Markus and Horster Patrick, Some Remarks on a Receipt-Free and Universally Verifiable Mix-Type Voting Scheme, Proceedings of the International Conference on the Theory and Applications of Cryptology and Information Security: Advances in Cryptology, pages 125-132, 1996 [7] Shyue Liang Wang, Yu Huei Lee, Billis, S., Jafari, A Hiding sensitive items in privacy preserving association rule mining, Systems, Man and Cybernetics, 2004 IEEE International Conference, 2005 [8] Vaidya, Jaideep and Clifton, Chris Leveraging the "Multi" in secure multi-party computation, WPES '03: Proceedings of the 2003 ACM workshop on Privacy in the electronic society, pages 53 59, 2003 61 [9] Xun Yi; Yanchun Zhang, Privacy-preserving naive Bayes classification on distributed data via semi-trusted mixers, 2007 [10] Yoones Asgharzadeh Sekhavat and Mohamad Fathian Mining frequent itemsets in presence of malicious participants Journal of IET Information Security, 2010 [...]... Các phương pháp khai phá luật kết hợp có đảm bảo tính riêng tư Khai phá luật kết hợp có đảm bảo tính riêng tư là quá trình khai phá các luật kết hợp trong các cơ sở dữ liệu, đồng thời vẫn đảm bảo các thông tin riêng tư của các cá nhân hoặc tổ chức trong các cơ sở dữ liệu không bị lộ cho người khai phá 7 Tuỳ thuộc vào đặc trưng của nguồn dữ liệu, mô hình dữ liệu mà chúng ta có thể phân chia thành các. .. toán khai phá luật kết hợp có đảm bảo tính riêng tư khác nhau: 1.3.1 Khai phá luật kết hợp có đảm bảo tính riêng tư với dữ liệu tập trung Trong bài toán này, người ta giả thiết có một tổ chức sở hữu tập dữ liệu, trong tập dữ liệu có một số thuộc tính nhạy cảm Tổ chức này mong muốn công bố tập dữ liệu cho mục đích nghiên cứu, ví dụ: khai phá luật kết hợp, đồng thời mong muốn bảo vệ các thông tin riêng tư. .. thông tin có tính riêng tư hay là tri thức nhạy cảm 1.1.3 Khai phá dữ liệu đảm bảo tính riêng tư Vậy khai phá dữ liệu có đảm bảo tính riêng tư là việc dùng các thuật toán để trích rút ra những tri thức quan trọng cần thiết cho mục đích khai phá 4 dữ liệu mà không làm lộ ra các thông tin nhạy cảm của các cá nhân, tổ chức có trong tập dữ liệu 1.2 Khai phá luật kết hợp 1.2.1 Luật kết hợp * Giao dịch: danh... đến các vấn đề về tính cục bộ cũng như toàn cục của tập ứng viên và tập phổ biến, mà ở trong chương 2 này chúng ta đã đi đến một hướng tiếp cận để giải quyết vấn đề này là thuật toán khai phá phân tán luật kết hợp DMAR cho phép tìm kiếm các luật kết hợp trên cơ sở dữ liệu phân tán 26 Chương 3 MỘT SỐ THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP CÓ ĐẢM BẢO TÍNH RIÊNG TƯ Trong chương này sẽ trình bày về một số thuật. .. vụ B thì thường dẫn đến không có khả năng thanh toán nợ… Chính vì lí do đó nên trong bài toán khai phá luật kết hợp có đảm bảo tính riêng tư chúng ta cần tính đến việc ẩn đi các luật nhạy cảm 1.4 Một số kỹ thuật khai phá luật kết hợp có đảm bảo tính riêng tư 1.4.1 Phương pháp biến đổi dữ liệu Tư tưởng của phương pháp biến đổi dữ liệu là trước khi đưa dữ liệu vào khai phá thì dữ liệu sẽ được biến đổi,... sách các mặt hàng (mục:item) trong một phiếu mua hàng của khách hàng Giao dịch T là một tập mục - Toàn bộ tập các mục I={i1,i2, ik} “tất cả các mặt hàng” Một giao dịch là một tập con của I: T ⊆ I Mỗi giao dịch T có một định danh TID - A là một tập mục A ⊆ I và T là một giao dịch: Gọi T chứa A nếu A ⊆ T * Luật kết hợp - Gọi A → B là một luật kết hợp nếu A ⊆ T, B ⊆ T và A ∩ B=∅ - Luật kết hợp A→B có. .. để có khả năng làm lộ các thông tin của các thành viên còn lại Kết luận chương 1 Chương này chúng ta đã đi tìm hiểu các khái niệm cơ bản về khai phá dữ liệu, khai phá luật kết hợp, các tham số và thành phần của luật kết hợp như độ tin cậy, độ hỗ trợ, tập ứng viên, giao dịch cũng như các khái niệm và phương pháp cơ bản để khai phá luật kết hợp trên cơ sở dữ liệu phân tán và tập chung Để đảm bảo tính riêng. .. X không là một tập ứng viên Kỹ thuật này được gọi là cắt tỉa toàn cục 2.3.2 Thuật toán khai phá phân tán luật kết hợp (DMAR) Thuật toán được trình bày chi tiết trong [7] Thuật toán DMAR cho việc khai phá luật kết hợp phân tán sử dụng kỹ thuật meta-learning Đó là khai phá các tập phổ biến cục bộ mà chúng được sử dụng như là siêu tri thức tại mọi điểm trong hệ thống phân tán và tạo ra các tập ứng viên... sẽ có tổng tài sản thấp hơn [5] Thách thức là phát triển các giao thức bảo đảm tính riêng tư có chi phí tính toán và truyền thông hợp lý trong các vấn đề thực tế và chứng minh tính bảo mật (xem chi tiết trong [5]) Giao thức cần phù hợp với loại dữ liệu, kiểu phân tán dữ liệu, nhiệm vụ khai thác và yêu cầu về tính riêng tư [5] 13 * Các tiêu chí đánh giá Để đánh giá các các giao thức bảo đảm tính riêng. .. hỗ trợ của các ứng viên 2.3 Thuật toán khai phá luật kết hợp phân tán 2.3.1 Thuật toán khai phá luật kết hợp phân tán nhanh(FDM) Thuật toán được trình bày chi tiết trong [5] Cho cơ sở dữ liệu DB chứa D giao dịch, giả sử có một hệ thống phân tán gồm n điểm S1, S2,…,Sn và DB được phân mảnh vào n điểm đó {DB1,DB2, …,DBn}, mỗi DBi có Di giao dịch Cho một ngưỡng hỗ trợ tối thiểu s, nhiệm vụ của thuật toán ... Chương 3: Một số thuật toán khai phá luật kết hợp có đảm bảo tính riêng tư môi trường phân tán ngang Chương tập chung nghiên cứu số thuật toán khai phá luật kết hợp có đảm bảo tính riêng tư môi... toán khai phá luật kết hợp có đảm bảo tính riêng tư cần tính đến việc ẩn luật nhạy cảm 1.4 Một số kỹ thuật khai phá luật kết hợp có đảm bảo tính riêng tư 1.4.1 Phương pháp biến đổi liệu Tư tưởng... khai phá luật kết hợp có đảm bảo tính riêng tư Trong chương trình bày khái quát chung vấn đề khai phá liệu có đảm bảo tính riêng tư, vấn đề khai phát luật kết hợp có đám bảo tính riêng tư với