Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 79 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
79
Dung lượng
1,2 MB
Nội dung
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 1 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CNTT VÀ TRUYỀN THÔNG o0o Họ và tên tác giả: Nguyễn Thị Thùy MỘT SỐ KỸ THUẬT KHAI PHÁ LUẬT KẾT HỢP CÓ BẢO ĐẢM TÍNH RIÊNG TƢ TRONG CÁC TẬP GIAO DỊCH PHÂN TÁN NGANG LUẬN VĂN THẠC SỸ KHOA HỌC Thái Nguyên – 2014 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 2 ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CNTT VÀ TRUYỀN THÔNG Họ và tên tác giả: Nguyễn Thị Thùy MỘT SỐ KỸ THUẬT KHAI PHÁ LUẬT KẾT HỢP CÓ BẢO ĐẢM TÍNH RIÊNG TƢ TRONG CÁC TẬP GIAO DỊCH PHÂN TÁN NGANG Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 LUẬN VĂN THẠC SỸ KHOA HỌC NGƢỜI HƢỚNG DẪN KHOA HỌC TS. TRẦN ĐỨC SỰ Thái Nguyên - 2014 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 3 LỜI CAM ĐOAN Những kết quả nghiên cứu được trình bày trong luận văn là hoàn toàn trung thực, không vi phạm bất cứ điều gì trong luật sở hữu trí tuệ và pháp luật Việt Nam. Nếu sai, tôi hoàn toàn chịu trách nhiệm trước pháp luật. TÁC GIẢ LUẬN VĂN Nguyễn Thị Thùy Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 4 LỜI CẢM ƠN Trước hết, tôi xin bày tỏ lòng cảm ơn chân thành tới thầy giáo,TS. Trần Đức Sự, người tận tình hướng dẫn tôi trong suốt thời gian làm luận văn tốt nghiệp. Tôi xin cảm ơn các thầy, cô giáo ở khoa Công nghệ thông tin trường Đại học CNTT và truyền thông - Đại học Thái Nguyên đã giảng dạy tôi trong suốt thời gian học tập tại trường và tạo điều kiện giúp đỡ tôi hoàn thành luận văn này. Cảm ơn các bạn bè, đồng nghiệp đã cổ vũ động viên tôi trong suốt quá trình học tập tại trường. Tuy đã có những cố gắng nhất định nhưng do thời gian và trình độ có hạn nên chắc chắn luận văn này còn nhiều thiếu sót và hạn chế nhất định. Kính mong nhận được sự góp ý của thầy cô và các bạn. Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 5 MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ MỞ ĐẦU 1 Chƣơng 1. TỔNG QUAN VỀ KHAI PHÁ LUẬT KẾT HỢP CÓ ĐẢM BẢO TÍNH RIÊNG TƢ 3 1.1. Một số khái niệm cơ bản 3 1.1.1. Khai phá dữ liệu 3 1.1.2. Tính riêng tư 3 1.1.3. Khai phá dữ liệu đảm bảo tính riêng tư 3 1.2. Khai phá luật kết hợp 4 1.2.1. Luật kết hợp 4 1.2.2. Khai phá luật kết hợp 6 1.3. Các phương pháp khai phá luật kết hợp có đảm bảo tính riêng tư. 6 1.3.1. Khai phá luật kết hợp có đảm bảo tính riêng tư với dữ liệu tập trung 7 1.3.2. Khai phá luật kết hợp có đảm bảo tính riêng tư với dữ liệu phân tán 8 1.3.2.1. Khai phá dữ liệu trong mô hình phân tán 8 1.3.2.2. Phân tán ngang 8 1.3.3. Ẩn các luật nhạy cảm trong khai phá luật kết hợp 11 1.4. Một số kỹ thuật khai phá luật kết hợp có đảm bảo tính riêng tư 11 1.4.1. Phương pháp biến đổi dữ liệu 11 1.4.2. Sử dụng thành viên thứ ba đáng tin cậy 11 1.4.3. Tính toán đa thành viên bảo mật 13 Chƣơng 2. MỘT SỐ PHƢƠNG PHÁP TÌM LUẬT KẾT HỢP 17 2.1. Bài toán tìm luật kết hợp. 17 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 6 2.1.1. Phát biểu bài toán. 17 2.1.2. Ví dụ 17 2.2. Thuật toán Apriori 18 2.2.1. Nguyên lí Apriori 19 2.2.2. Thuật toán Apriori 19 2.3. Thuật toán khai phá luật kết hợp phân tán 22 2.3.1. Thuật toán khai phá luật kết hợp phân tán nhanh(FDM) 22 2.3.2. Thuật toán khai phá phân tán luật kết hợp (DMAR) 25 Chƣơng 3.MỘT SỐ THUẬT TOÁN KHAI PHÁ LUẬT KẾT HỢP CÓ ĐẢM BẢO TÍNH RIÊNG TƢ 31 3.1. Phương pháp dựa trên tính tổng bảo mật chống lại sự thông đồng 31 3.1.1. Các định nghĩa 31 3.1.2. Thuật toán khai phá dữ liệu đảm bảo tính riêng tư chống lại sự thông đồng. 32 3.1.2.1. Tính tổng bảo mật với Secure Sum 33 3.1.2.2. Mô hình khai thác bằng CRDM 38 3.2. Một số giao thức tiếp cận theo hướng FI (Frequent itemset): 43 3.2.1. Giao thức sử dụng mã hóa giao hoán KCS 44 3.2.2. Giao thức sử dụng thành viên thứ ba bán tin cậy sử dụng mã hóa Paillier 47 3.2.3. Kỹ thuật tính tổng bảo mật cải tiến dựa trên mô hình hai thành viên bán tin cậy 48 3.3. So sánh hai phương pháp Secure Sum và Two Mixer Sum. 54 3.4. Cài đặt thuật toán Secure Sum. 55 3.4.1. Yêu cầu về càiđặt thuật toán. 56 3.4.2. Quá trình cài đặt và thử nghiệm thuật toán Secure Sum 56 3.4.3 Kết luận. 61 3.5. Cài đặt thuật toán Two Mixer Sum. 62 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 7 KẾT LUẬN VÀ KIẾN NGHỊ 67 1. Kết luận 67 2. Kiến nghị 67 TÀI LIỆU THAM KHẢO 68 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 8 DANH MỤC CÁC TỪ VIẾT TẮT A.sup: Ðộ hỗ trợ toàn cục của itemset A (tính theo số lần xuất hiện) A.supi: Ðộ hỗ trợ cục bộ của itemset A tại site i (tính theo số lần xuất hiện) conf: Ðộ tin cậy (toàn cục) tối thiểu CSDL: Cơ sở dữ liệu DB: Cơ sở dữ liệu tập trung hay toàn cục DBi: Cơ sở dữ liệu cục bộ tại site i FI: Tập itemset phổ biến FIi: Tập itemset phổ biến cục bộ tại site i KTDL: Khai thác dữ liệu MFI: Tập itemset tối đại MFIi: Tập itemset tối đại cục bộ tại site i Public key: Khoá công khai Private key: Khoá bí mật SMC: Các giao thức tính toán đa thành viên an toàn sup: Ðộ hỗ trợ (toàn cục) tối thiểu (tính theo tần số %) SUP: Ðộ hỗ trợ (toàn cục) tối thiểu (tính theo số lần xuất hiện) Trusted-party: Thành viên thứ 3 đáng tin cậy Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 9 DANH MỤC CÁC BẢNG Bảng 1.1. Ví dụ về mô hình dữ liệu phân tán ngang 8 Bảng 1.2. Ví dụ về mô hình dữ liệu phân tán dọc 10 Bảng 2.1. Các tập phổ biến 26 Bảng 3.1. So sánh 2 phương pháp Secure Sum và Two Mixer Sum. 55 Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 10 DANH MỤC CÁC HÌNH VẼ Hình 1.1. Quá trình khai phá luật kết hợp trên CSDL tập trung 7 Hình 1.2. Giao thức sử dụng Trusted-party 13 Hình 1.3. Mô hình tính toán SMC 14 Hình 2.1. CSDL giao dịch 18 Hình 2.2. Quá trình tìm tập phổ biến 18 Hình 3.1. SecureSum(): Tính tổng bảo mật các V i (0 ≤ i ≤ M-1) 34 Hình 3.2a. Giai đoạn 1 của ví dụ sử dụng SecureSum 35 Hình 3.2b. Giai đoạn 2 của ví dụ về sử dụng SecureSum 36 Hình 3.3. Một ví dụ minh họa CRDM 39 Hình 3.4.Giai đoạn 1, tìm itemset ứng viên chung 44 Hình 3.5. Giai đoạn 2, tính độ hỗ trợ toàn cục 46 Hình 3.6. Giao thức sử dụng Semi-trusted-mixer 47 Hình 3.7. Giai đoạn 1 ví dụ về thuật toán Two – MixerSum 52 Hình 3.8. Giai đoạn 2 ví dụ về thuật toán Two – MixerSum 53 Hình 3.9. Giao diện chính của chương trình 57 Hình 3.10. Tiến trình thử nghiệm của chương trình 58 Hình 3.11. Giao diện kết quả chương trình 58 Hình 3.12. Giao diện chương trình 62 Hình 3.13. Tiến trình thử nghiệm 63 Hình 3.14. Kết quả chương trình 63 [...]... Một số phương pháp khai phá luật kết hợp Ở chương 2 chúng ta sẽ tìm hiểu về một số phương pháp tìm luật kết hợp, khai phá luật kết hợp trong dữ liệu phân tán Chương 3: Một số thuật toán khai phá luật kết hợp có đảm bảo tính riêng tư trong môi trường phân tán ngang Chương này sẽ tập chung nghiên cứu về một số thuật toán khai phá luật kết hợp có đảm bảo tính riêng tư trong môi trường phân tán ngang Trong. .. hiện việc khai phá luật kết hợp trong khi vẫn bảo vệ được thông tin riêng tư Do đó việc nghiên cứu, tìm hiểu các thuật toán khai phá luật kết hợp có đảm bảo tính riêng tư để tích hợp cho các ứng dụng là có tính thực tiễn cao Xuất phát từ thực tiễn trên, mục đích của đề tài là nghiên cứu đánh giá Một số kỹ thuật khai phá luật kết hợp có bảo đảm tính riêng tƣ trong các tập giao dịch phân tán ngang Nội... kinh doanh của mình 1.3 Các phƣơng pháp khai phá luật kết hợp có đảm bảo tính riêng tƣ Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 7 Khai phá luật kết hợp có đảm bảo tính riêng tư là quá trình khai phá các luật kết hợp trong các cơ sở dữ liệu, đồng thời vẫn đảm bảo các thông tin riêng tư của các cá nhân hoặc tổ chức trong các cơ sở dữ liệu không bị lộ cho người khai phá Tuỳ thuộc vào đặc... chúng ta có thể phân chia thành các loại bài toán khai phá luật kết hợp có đảm bảo tính riêng tư khác nhau: 1.3.1 Khai phá luật kết hợp có đảm bảo tính riêng tư với dữ liệu tập trung Trong bài toán này, người ta giả thiết có một tổ chức sở hữu tập dữ liệu, trong tập dữ liệu có một số thuộc tính nhạy cảm Tổ chức này mong muốn công bố tập dữ liệu cho mục đích nghiên cứu, ví dụ: khai phá luật kết hợp, đồng... mở đầu, phần kết luận với nội dung cụ thể như sau: Chương 1: Tổng quan về khai phá luật kết hợp có đảm bảo tính riêng tư Trong chương 1 sẽ trình bày khái quát chung về vấn đề khai phá dữ liệu có đảm bảo tính riêng tư, vấn đề khai phát luật kết hợp có đám bảo tính riêng Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ 2 tư với dữ liệu tập trung và trên các hệ thống phân tán, một số tiêu chí đánh... dụng dịch vụ A và sử dụng dịch vụ B thì thường dẫn đến không có khả năng thanh toán nợ… Chính vì lí do đó nên trong bài toán khai phá luật kết hợp có đảm bảo tính riêng tư chúng ta cần tính đến việc ẩn đi các luật nhạy cảm 1.4 Một số kỹ thuật khai phá luật kết hợp có đảm bảo tính riêng tƣ 1.4.1 Phương pháp biến đổi dữ liệu Tư tưởng của phương pháp biến đổi dữ liệu là trước khi đưa dữ liệu vào khai phá. .. tìm hiểu các khái niệm cơ bản về khai phá dữ liệu, khai phá luật kết hợp, các tham số và thành phần của luật kết hợp như độ tin cậy, độ hỗ trợ, tập ứng viên, giao dịch cũng như các khái niệm và phương pháp cơ bản để khai phá luật kết hợp trên cơ sở dữ liệu phân tán và tập chung Để đảm bảo tính riêng tư trong việc khai thác luật kết hợp người ta sử dụng nhiều phương pháp khác nhau tùy trường hợp áp dụng... trong một phiếu mua hàng của khách hàng Giao dịch T là một tập mục - Toàn bộ tập các mục I={i1,i2, ik} “tất cả các mặt hàng” Một giao dịch là một tập con của I: T I Mỗi giao dịch T có một định danh TID - A là một tập mục A I và T là một giao dịch: Gọi T chứa A nếu A T * Luật kết hợp - Gọi A → B là một luật kết hợp nếu A T, B T và A B= - Luật kết hợp A→B có độ hỗ trợ (support) s trong CSDL giao dịch. .. thông qua một số đặc tính nào đó của khách hàng của họ tuy nhiên họ không thể giao dữ liệu khách hàng của họ cho các ngân hàng khác được có thể vì lí do cạnh tranh khách hàng, của luật bảo vệ thông tin người dùng Do đó nhu cầu tìm kiếm các luật kết hợp trên dữ liệu phân tán có đảm bảo tính riêng tư là một nhu cầu thiết yếu và cấp bách Các giải pháp khai phá luật kết hợp có đảm bảo tính riêng tư ra đời... X không là một tập ứng viên Kỹ thuật này được gọi là cắt tỉa toàn cục 2.3.2 Thuật toán khai phá phân tán luật kết hợp (DMAR) Thuật toán được trình bày chi tiết trong [7] Thuật toán DMAR cho việc khai phá luật kết hợp phân tán sử dụng kỹ thuật meta-learning Đó là khai phá các tập phổ biến cục bộ mà chúng được sử dụng như là siêu tri thức tại mọi điểm trong hệ thống phân tán và tạo ra các tập ứng viên . kết hợp có đảm bảo tính riêng tư. 6 1.3.1. Khai phá luật kết hợp có đảm bảo tính riêng tư với dữ liệu tập trung 7 1.3.2. Khai phá luật kết hợp có đảm bảo tính riêng tư với dữ liệu phân tán 8. Tính riêng tư 3 1.1.3. Khai phá dữ liệu đảm bảo tính riêng tư 3 1.2. Khai phá luật kết hợp 4 1.2.1. Luật kết hợp 4 1.2.2. Khai phá luật kết hợp 6 1.3. Các phương pháp khai phá luật kết hợp. 1.3.2.1. Khai phá dữ liệu trong mô hình phân tán 8 1.3.2.2. Phân tán ngang 8 1.3.3. Ẩn các luật nhạy cảm trong khai phá luật kết hợp 11 1.4. Một số kỹ thuật khai phá luật kết hợp có đảm bảo tính riêng