Khai thác dữ liệu bảo toàn tính riêng tư từ cơ sở dữ liệu ngoài

83 445 1
Khai thác dữ liệu bảo toàn tính riêng tư từ cơ sở dữ liệu ngoài

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM NGUYỄN HỮU THẢO KHAI THÁC DỮ LIỆU BẢO TOÀN TÍNH RIÊNG TƯ TỪ CƠ SỞ DỮ LIỆU NGOÀI LUẬN VĂN THẠC SĨ Chuyên ngành: Công Nghệ Thông Tin Mã ngành: 60340102 TP HỒ CHÍ MINH, tháng 06 năm 2015 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM Cán hướng dẫn khoa học: PGS TS Lê Trọng Vĩnh Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP HCM ngày 15 tháng 08 năm 2015 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: TT Họ Tên Chức danh Hội đồng PGS TSKH Nguyễn Xuân Huy Chủ tịch PGS TS Đỗ Phúc Phản biện TS Võ Đình Bảy Phản biện PGS TS Lê Hoài Bắc Ủy viên TS Trần Đức Khánh Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận văn sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV PGS TSKH Nguyễn Xuân Huy TRƯỜNG ĐH CÔNG NGHỆ TP HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÒNG QLKH – ĐTSĐH Độc lập – Tự – Hạnh phúc TP HCM, ngày 15 tháng 06 năm 2015 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: NGUYỄN HỮU THẢO Giới tính: Nam Ngày, tháng, năm sinh: 06/11/1972 Nơi sinh: Cần Thơ Chuyên ngành: Công nghệ thông tin MSHV: 1341860022 I- Tên đề tài: KHAI THÁC DỮ LIỆU BẢO TOÀN TÍNH RIÊNG TƯ TỪ CƠ SỞ DỮ LIỆU NGOÀI II- Nhiệm vụ nội dung: - Tìm hiểu bảo toàn tính riêng tư khai thác liệu Tìm hiểu khả bảo toàn tính riêng tư từ CSDL Xây dựng ví dụ cho thuật toán nghiên cứu Xây dựng chương trình Demo III- Ngày giao nhiệm vụ: 18/08/2014 IV- Ngày hoàn thành nhiệm vụ: 15/06/2015 V- Cán hướng dẫn: PGS.TS LÊ TRỌNG VĨNH CÁN BỘ HƯỚNG DẪN PGS.TS Lê Trọng Vĩnh KHOA QUẢN LÝ CHUYÊN NGÀNH LỜI CAM ĐOAN Tôi xin cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa công bố công trình khác Tôi xin cam đoan giúp đỡ cho việc thực Luận văn trích dẫn hay tài liệu học thuật tham khảo cảm ơn đến tác giả thông tin trích dẫn Luận văn rõ nguồn gốc Học viên thực Luận văn Nguyễn Hữu Thảo LỜI CÁM ƠN Trước hết, cho gửi lời cảm ơn đến hướng dẫn giúp đỡ tận tình PGS.TS Lê Trọng Vĩnh Xin cảm ơn Thầy/Cô, Khoa CNTT Đại Học Công Nghệ TP HCM giúp đỡ cung cấp cho kiến thức quí giá suốt thời gian học tập nghiên cứu thực luận văn Tôi xin gởi lời cảm ơn đến gia đình, bạn bè người thân quan tâm giúp đỡ suốt thời gian học tập nghiên cứu hoàn thành luận văn Luận văn tránh khỏi sai sót, mong nhận ý kiến đóng góp người cho luận văn hoàn thiện Tôi xin chân thành cảm ơn TP Hồ Chí Minh, ngày 15 tháng năm 2015 NGUYỄN HỮU THẢO TÓM TẮT Khai phá tri thức tiềm ẩn sở liệu mục tiêu chung ngành khoa học khai thác liệu nhiều nhà nghiên cứu quan tâm Với bùng nổ liệu điện toán đám mây ngày nay, thách thức cho ngành khoa học ngày phát triển Trong khai thác liệu, khả khai thác bảo toàn tính riêng tư từ sở liệu (do bên chủ liệu cung cấp) hướng nghiên cứu Hướng nghiên cứu tập trung vào thuật toán mã hóa giải mã liệu cho bảo toàn tính riêng tư trường hợp kẻ công biết xác tập hợp mặt hàng sở liệu gốc phổ biến chúng (nghĩa là, mặt hàng bán lần) Thông tin lấy từ công ty cạnh tranh từ báo cáo công bố, phát liệu thực luật có trình khai thác Nghiên cứu luận văn tập trung vào nghiên cứu thuật toán mã hóa giải mã mô hình sở hữu liệu bên ngoài, ví dụ như, siêu thị, cung cấp liệu cho đơn vị làm dịch vụ gia công khai thác liệu để nhận luật kết hợp từ đơn vị Với yêu cầu phải bảo toàn tính riêng tư liệu, nghĩa không tiết lộ liệu bán hàng thông tin có từ việc phân tích khai thác liệu ABSTRACT The mining knowledge potential in the current database is the common goal of science data mining and it is very much interested researchers With the explosion of data and cloud computing today, the challenge for this science growing In data mining, the exploitation and preserve privacy from external databases (by the Whose data supply) is a new research direction This research focuses on ciphers and decrypt data that can preserve the privacy in both cases the attacker know the exact set of items in the original database and the our common (that is, each item is sold out many times) This information can be obtained from a competing company or from the reports that have been published, but still can not detect the actual data and the rule has been in the mining data Research in this thesis focuses on the study of algorithms of encoding and decoding a data model outside ownership, for example, a supermarket, providing data to a mining company service of data to get the association rules from that supermarket With the request to preserve the privacy of the data, ie will not disclose sales data as well as information obtained from the analysis of this data mining DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Ý nghĩa CSDL Cơ sở liệu DB Cơ sở liệu (Data base) Conf Độ đo tin cậy confidence Supp Độ đo hỗ trợ support SM Safety margin (khoảng độ đo an toàn) SMC Bảo mật tính toán đa thành phần (Secure multiparty computation) MST Minsup (ngưỡng hỗ trợ tối thiểu) MCT Minconf (ngưỡng tin cậy tối thiểu) TDB Cơ sở liệu giao dịch (Transaction data base) PPDM Khai phá liệu đảm bảo tính riêng tư (Privacy Preserving Data Mining) PPDP Công bố liệu bảo mật tính riêng tư (Prevacy Preserving Data Publishing) PPPP Công bố mô hình bảo mật tính riêng tư (Prevacy Preserving Patern Publishing) DANH MỤC CÁC BẢNG Bảng 1.1 Cơ sở liệu giao dịch ……………………………………………… 07 Bảng 1.2 Dấu liệu phương pháp đổi chỗ………………………………… 21 Bảng 2.1 Dữ liệu giao dịch Bảng 2.2 Tập phổ biến Bảng 2.3 Sửa giá trị E chứa ADE ……………………….30 …………………………………30 ………………………………35 Bảng 2.4 Sửa giá trị E chứa ABE ……………………………… 36 DANH MỤC CÁC HÌNH Hình 1.1 Ví dụ thuật toán Apriori ……………………………………………… 13 Hình 2.1 Đồ thị giàn tập phổ biến P… ……………………………………31 Hình 2.2 Giàn giao đầy đủ Poset(ABE)…………………………………………32 Hình 3.1 Cấu trúc mô hình dịch vụ khai thác ………………………………… 47 Hình 3.2 Một ví dụ CSDL giao dịch a) độ hỗ trợ mặt hàng b)…………….50 Hình 3.3 Phân phối hỗ trợ hạng mục TDB thực tế phân tích………………51 Hình 3.4 Phân phối hỗ trợ hạng mục TDB mã hóa với k=10,20, ,50 ………54 Hình 3.5 Qui trình mã hóa CSDL giao dịch ……… ……………………………… 56 Hình 3.6 Phân nhóm với k=2……………………………………………………….58 Hình 3.7 Tạo độ nhiễu cho nhóm……………………………………………….58 Hình 3.8 Bảng băm………………………………………………………………….59 Hình 3.9 Qui trình giải mã CSDL giao dịch…………………………………………63 Hình 4.1 Đọc CSDL từ file liệu giao dịch & tính độ phổ biến………………….66 Hình 4.2 Dữ liệu thay ký hiệu mã hóa sau bước mapping ……………67 Hình 4.3 Dữ liệu D biến đổi thành D*……………………… ……………68 Hình 4.4 Dữ liệu sau giải mã……… ……………………… ……………69 57 Chương trình mã hóa biện pháp đối phó với công vào mặt hàng tập phổ biến trình bảy phần 3.2.2 Vì kẻ công biết xác hỗ trợ mặt hàng nên tạo k-bí mật D*, mặt hàng mã hóa bị phát dựa vào độ hỗ trợ chúng Phương pháp phân nhóm k: Cho bảng độ hỗ trợ mặt hàng đơn, số chiến lược áp dụng để phân chia mặt hàng vào k nhóm Chúng giả định bảng độ hỗ trợ mặt hàng xếp theo thứ tự giảm dần mặt hàng mã hóa theo thứ tự e1, e2, …, en Như đề cập phần trên, tập phổ biến s (các giao dịch) bị tiết lộ với xác suất (freqD(s)) lớn 1/k Để đạt điều này, cần sử dụng phương pháp phân nhóm cho nhóm hạng mục không hỗ trợ D Xét liệu hình 3.6, sử dụng phương pháp phân nhóm để tạo nhóm {e2, e4} hai hạng mục xuất giao dịch sở liệu ban đầu D thể hình 3.5 Chúng ta gọi phương pháp phân nhóm phương pháp thô Diễn giải Cho sở liệu giao dịch D phân nhóm G chứa hạng mục xuất D, G gọi nhóm thô D khi, nhóm Gi G, độ hỗ trợ nhóm (GisuppD(Gi) = 0) Diễn giải trực tiếp cho thấy trình kiểm tra xem liệu phân nhóm G đưa sở liệu giao dịch ban đầu D có nhóm thô hay không: điều đủ để kiểm tra xem độ hỗ trợ D nhóm Gi G Nếu trường hợp xảy ra, việc phân nhóm sử dụng cách an toàn để có bảo vệ bí mật tối đa bảo đảm phương pháp 58 Hình 3.6 Phân nhóm với k=2 Hình 3.7 Tạo độ nhiểu cho nhóm 59 Hình 3.8 Bảng băm Diễn giải Cho sở liệu giao dịch ban đầu D bảng độ hỗ trợ mặt hàng D theo thứ tự giảm dần, phương pháp phân nhóm gồm bước: BƯỚC 1: nhóm hạng mục mã hóa vào nhóm hạng mục k liền kề hạng mục thường xuyên e1, có nhóm G = (G1, …, Gm) (tức là, G1 = {e1 … ek}, G2 = {ek+1, …, e2k} …) Trong hình 3.6 với k=2 ta có nhóm BƯỚC 2: thay đổi nhóm G cách lặp lại thao tác sau, nhóm mặt hàng hỗ trợ D: • Chọn j nhỏ j ≥ cho suppD(Gj) > • Tìm hạng mục thường xuyên i’ ∈ Gj cho hạng mục thường xuyên i Gj có: suppD(Gj|{i} ∪ {i} ) = 0, • Thay đổi i i’ nhóm Đầu nhóm thể bảng độ nhiễu Nó mở rộng bảng độ hỗ trợ mặt hàng thêm cột độ nhiễu thấy, khác biệt độ hỗ trợ tập mặt hàng phổ biến nhóm với độ hỗ trợ mặt hàng (xem bảng Noise Table hình 3.6) Chúng ta ký hiệu độ nhiễu mặt hàng mã hóa e N(e) Cột độ nhiễu rằng, hạng mục mã hóa e, số lần xuất e cần thiết D* để mang lại cho e độ hỗ trợ tương tự mặt hàng xuất thường xuyên nhóm e’ Như vậy, bảng độ nhiễu thể công cụ để tạo giao dịch 60 ảo bổ sung vào D để đạt D* Đặc biệt, tổng kích thước giao dịch giả cần thiết tổng tất giá trị cột độ nhiễu bảng độ nhiễu Bảng độ nhiễu cung cấp tóm tắt ngắn gọn (sử dụng không gian O(n), n số lượng hạng mục) lưu trữ mô đun E/D để hỗ trợ cho việc tạo giao dịch giả (mã hóa) cho bước giải mã Ví dụ, xem xét ví dụ D hình 3.5 bảng hỗ trợ hạng mục (mật mã) liên kết bảng (a) hình 3.6 Với k=2, phương pháp nhóm tạo hai nhóm: {e2, e5} {e4, e1, e3} bảng (b) hình 3.6, tập thô không nhóm hai nhóm coi tập phổ biến, hỗ trợ giao dịch D Các giao dịch giả Cho bảng xác định độ nhiễu N(e) cần thiết cho hạng mục mật mã e, tạo giao dịch sau Đầu tiên, đặt mặt hàng với độ nhiễu không, tương ứng với mặt hàng có độ phổ biến cao nhóm với hạng mục khác, có cân độ hỗ trợ với độ hỗ trợ tối đa nhóm (N(e)=độ hỗ trợ cao nhóm trừ độ hỗ trợ e) Thứ hai, xếp mặt hàng lại theo thứ tự giảm dần độ nhiễu Để e’1, …, e’m thu thứ tự hạng mục (còn lại) với độ nhiễu liên kết N(e1), , N(em) Các giao dịch giả sau tạo ra: • N(e’1) – N(e’2) biểu giao dịch {e’1} • N(e’2) – N(e’3) biểu giao dịch {e’1, e’2} • … • N(e’m-1) – N(e’m) biểu giao dịch {e’1,…, e’m-1} • N(e’m) biểu giao dịch {e’1, …, e’m} Tiếp theo, xem xét dòng mà mặt hàng mã hóa có độ nhiễu khác không bảng (c) hình 3.6 Hai giao dịch giả sau tạo ra: biểu giao dịch {e5, e3, e1} biểu giao dịch {e5} Chúng nhận thấy 61 giao dịch giả giới thiệu phương pháp dài giao dịch sở dự liệu giao dịch D ban đầu (xem hình 3.5), độ dài giao dịch tối đa lmax D có giao dịch giả có độ dài Vì vậy, xem xét để rút ngắn chiều dài giao dịch giả bổ sung cho chúng phù hợp với độ dài giao dịch D Trong hình 3.5 D gồm giao dịch có độ dài 2, chia biểu giao dịch {e5, e3, e1} thành hai biểu giao dịch giả {e5, e3} biểu {e1} Vì vậy, có hai biểu {e5, e3}, biểu {e1} biểu {e5} Để thực công việc cách hiệu quả, sử dụng bảng băm tạo hàm băm hoàn hảo tối thiểu Các hàm băm hoàn hảo tối thiểu sử dụng rộng rãi hiệu lưu trữ nhớ có khả phục hồi nhanh chóng mặt hàng từ liệu lưu trữ Trong chương trình chúng tôi, hạng mục bảng tiếng ồn ei với N(ei)>0 chìa khóa hàm băm hoàn hảo tối thiểu Cho ei, chức h tính toán số nguyên [0, , n−1], biểu thị vị trí bảng thuật toán lưu trữ gồm ba giá trị < ei, timesi, occi > với: • timesi thể số lần giao dịch giả mạo {e1, e2, …, ei} xảy tập hợp giao dịch giả • occi số lần ei xảy hoàn toàn giao dịch giả mạo tương lai sau giao dịch {e1, e2, …, ei} Cho bảng độ nhiễu với hạng mục m với độ nhiễu khác rỗng, phương pháp tiếp cận tạo bảng băm nhóm mặt hàng Mục thứ i bảng băm bao gồm hạng mục ei có timesi = N(ei)−N(ei+1), occi = ∑ j=i+1, , g N(ej), với g số lượng hạng mục nhóm Lưu ý bảng băm HT thể xác giao dịch giả liên quan đến tất số mặt hàng nhóm mặt hàng g≤lmax Các bảng băm dành cho hạng mục có độ nhiễu khác không bảng (c) Hình 3.6 thể bảng (d) Hình 3.6 Cho ví dụ chúng tôi, 62 lmax=2, cần phân hạng mục e5, e3, e1 không nhiễu Hình 3.6 thành hai tập hợp {e5, e3} {e1}, tập hợp có giao dịch giả liên kết, mã hóa hai bảng băm Lưu ý mô hình bao gồm mặt hàng từ bảng băm khác không đưa vào giao dịch giả Cuối cùng, sử dụng chức thuật toán thông thường (cấp độ hai) H để lập biểu đồ hạng mục cho bảng thuật toán HT bao gồm e Các giao dịch giả lập bổ sung vào D (khi hạng mục thay hạng mục mật mã) để tạo thành D*, truyền đến máy chủ Tất giao dịch giả, tức DF=D*/D, lưu trữ mô đun ED 63 3.2.3.2 Giải mã Hình 3.9 Qui trình giải mã CSDL giao dịch Khi khách hàng gửi yêu cầu thực khai thác liệu đến máy chủ quy định ngưỡng hỗ trợ tối thiểu σ (minsup= σ) cụ thể, máy chủ sử dụng tập phổ biến tính toán từ D* Rõ ràng, tập phổ biến S tập phổ biến mã hóa tương ứng E nó, có suppD(S) ≤ suppD* (E) Do đó, chương trình mã hóa đảm bảo tất tập phổ biến thường xuyên D máy chủ trả lại phiên mật mã Nhưng tập phổ biến D* D, 64 trả lại Đối với mô hình mật mã E máy chủ trả lại với suppD*(E), mô đun ED phục hồi cách không đáng kể mô hình đơn tương ứng S sau: suppD(S) = suppD* (E) – suppD*\D(E) Tính toán mô đun ED thực cách hiệu cách sử dụng bảng tóm tắt giao dịch giả D*\D mô tả bên (xem kết hình 3.5) Kết chương Trong chương 3, nghiên cứu phương pháp mã hóa giải mã sở liệu ban đầu từ bên Các giả thiết đối tượng công nêu đảm bảo rằng, liệu ban đầu sau mã hóa bảo đảm an toàn Các kết khai thác đáng tin cậy giải mã cách dễ dàng đơn vị chủ sở hữu liệu Phần thực nghiệm, cài đặt thuật toán mã hóa giải mã trình bày chương 65 CHƯƠNG THỰC NGHIỆM – ĐÁNH GIÁ THUẬT TOÁN Để kiểm tra tính hiệu thuật toán trình bày chương Phần chương trình thực nghiệm thực liệu thử nguyên gốc ví dụ trình bày chương sở liệu giao dịch giả lập siêu thị sửa đổi coi liệu thực khách hàng cần khai thác Máy tính: Sony 3.40 GHz xử lý Core i5 GB nhớ chính, chạy hệ điều hành Windows 7.0-64bit Ngôn ngữ lập trình c# phiên 2010 sở liệu đọc từ file.txt 4.1 MÔ TẢ CHƯƠNG TRÌNH Giao diện hiển thị chương trình gồm có tab tương ứng với chức xử lý liệu: Dữ liệu: nhập liệu vào từ file CSDL giao dịch ban đầu o Mapping: thay tên mặt hàng ký hiệu tương ứng o Mã hóa: biến đổi CSDL D thành D* o Giải mã: CSDL D* trả lại thành CSDL D o 66 Hình 4.1 Đọc CSDL từ file liệu giao dịch & tính độ phổ biến Chức 1: Nhấn nút “Chọn tập tin” để chọn file sở liệu thực nghiệm nhấn nút “Import liệu” chương trình đọc liệu giao dịch từ tập tin này, sau bấm tiếp nút “Xử lý” để chương trình tính toán độ phổ biến mặt hàng, hiển thị hình máy tính hình 4.1 67 Hình 4.2 Dữ liệu thay ký hiệu mã hóa sau bước mapping Chức 2: Khi nhấn nút “Mapping” mặt hàng CSDL giao dịch ban đầu chuyển đổi sang mặt hàng thay ký hiệu tương ứng Bước làm cho đối thủ muốn tân công rõ mặt hàng thay ký hiệu (Hình 4.2) 68 Hình 4.3 Dữ liệu D biến đổi thành D* Chức 3: Khi nhấn nút “Mã hóa”, chương trình tạo giao dịch ảo (tập Fake Trans) trộn chúng vào tập liệu D ban đầu để biến đổi thành D* Kết hiển thị hình (Hình 4.3) 69 Hình 4.4 Dữ liệu sau giải mã Chức 4: Khi nhấn nút “Giải mã”, Kết khai thác từ D* giải mã từ D hiển thị hình để so sánh kết khai thác từ hai tập liệu D D* có khác biệt gì, từ đánh giá độ tin cậy thuật toán (Hình 4.4) 70 PHẦN KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Kết luận Luận văn trình bày phần lý thuyết mã hóa cho CSDL coi CSDL gửi đến để bên dịch vụ khai thác Sau khai thác CSDL mã hóa, kết trả giải mã cách đơn giản cho kết tương đương so với liệu khai thác CSDL chưa mã hóa Luận văn trình bày số lý thuyết số thuật toán khai thác liệu bảo toàn tính riêng tư tác giả khác công bố Kết thực nghiệm cho thấy thuật toán mã hóa giải mã an toàn [6] cho kết khai thác tương đương với khai thác CSDL chưa mã hóa Điều quan là, đối thủ cạnh tranh biết trước mặt hàng, độ phổ biến mặt hàng CSDL ban đầu công phát CSDL gốc độ tin cậy luật khai thác từ CSDL mã hóa Hướng phát triển Nghiên cứu phân tích thức dựa mô hình công mà luận văn đưa thêm ý tưởng giao dịch luật bị phát máy chủ kiểm soát ngưỡng k nhóm lựa chọn chủ sở hữu liệu cách thiết lập ngưỡng ẩn danh k nhiều lần so sanh tính hợp lý Cần phân tích độ phức tạp không gian thời gian chạy chương trình mã hóa/giải mã để hiểu rõ khả áp dụng vào thực tế, cải tiến thời gian khai thác thuật toán khai thác có độ phức tạp tốt Thực nghiệm CSDL lớn có tính thực tế cao 71 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Lê Hoài Bắc, “Bài giảng môn Data Mining”, Đại học KHTN (Đại học Quốc gia Tp.HCM), 2013 [2] Nguyễn Xuân Huy, Lê Quốc Hải, Nguyễn Gia Như, Cao Tùng Anh, Bùi Đức Minh, “Lý thuyết giàn ứng dụng thuật toán ẩn tập mục nhạy cảm”, Báo cáo Hội thảo Quốc gia "Một số vấn đề chọn lọc CNTT truyền thông”, Đồng Nai, 5-6 Tháng 8, (2009) [3] Nguyễn Xuân Huy, “Các phụ thuộc logic sở liệu”, Viện KH&CN VN, NXB Thống kê, 2006 Tiếng Anh [4] S Verykios, Ahmed K Elmagarmid, Bertino Elisa, Yucel Saygin, and Dasseni Elena “Association rule hiding”, IEEE Transactions on Knowledge and Data Engineering, Volume 16, Issue 4, Page(s): 434 – 447, April 2004 [5] Yucel Saygin, Vassilios S Verykios, Chris Clifton, “ Using unknowns to prevent discovery of association rules”, ACM SIGMOD Record, Volume 30 , Issue , Pages: 45 - 54 ISSN:0163-5808, December 2001 [6] Fosca Giannotti, Laks V.S Lakshmanan, Anna Monreale, Dino Pedreschi and Hui (Wendy) Wang, “Privacy-Preserving Data Mining from Outsourced Databases”, Computers, Privacy and Data Protection: an Element of Choice, pp 411-426, Feb 2011 [...]... 1.2.2 Khai thác tập phổ biến và luật kết hợp 8 1.3 BẢO TOÀN TÍNH RIÊNG TƯ TRONG KHAI THÁC DỮ LIỆU 15 1.3.1 Phân loại các phương pháp PPDM 17 1.3.2 Các phương pháp giấu dữ liệu nhạy cảm 20 1.3.3 Các hướng tiếp cận khai thác dữ liệu bảo toàn tính riêng tư 27 CHƯƠNG 2 MỘT SỐ THUẬT TOÁN KHAI THÁC DỮ LIỆU BẢO TOÀN TÍNH RIÊNG TƯ 29 2.1 ẨN CÁC TẬP MỤC NHẠY CẢM ... trình phân tích dữ liệu cho ra tri thức có tính nhạy cảm Ngoài ra, một số tổ chức muốn chia sẻ dữ liệu theo kiểu cùng khai thác trên dữ liệu chung, nhưng mỗi người 16 lại muốn đảm bảo tính riêng tư cho dữ liệu của chính mình hay một đơn vị muốn thuê một đơn vị chuyên nghiệp khai thác dữ liệu cho mình nhưng không muốn tiết lộ dữ liệu gốc của mình Khai phá dữ liệu đảm bảo tính riêng tư (PPDM) là hướng... trình bày tổng quan về khai thác dữ liệu và bảo toàn tính riêng tư Chương 2: trình bày lý thuyết và các thuật toán bảo toàn tính riêng tư Chương 3: trình bày lý thuyết, thuật toán và các ví dụ minh họa thuật toán mã hóa và giải mã dữ liệu sử dụng cho dữ liệu ngoài Chương 4: là kết quả chương trình thực nghiệm 4 CHƯƠNG 1 TỔNG QUAN VỀ KHAI THÁC DỮ LIỆU VÀ BẢO TOÀN TÍNH RIÊNG TƯ 1.1 GIỚI THIỆU ĐỀ TÀI... sự ra đời của một mô hình sở hữu dữ liệu bên ngoài, chẳng hạn như một siêu thị, cung cấp dữ liệu cho một nhà cung cấp dịch vụ khai thác dữ liệu để nhận được các luật kết hợp từ đó Với yêu cầu bảo đảm tính riêng tư của dữ liệu mà siêu thị đã cung cấp, nghĩa là sẽ không tiết lộ dữ liệu bán hàng cũng như thông tin từ việc phân tích khai thác dữ liệu này Để có được sự bảo vệ dữ liệu một cách tối ưu, chúng... thuật toán khai thác luật kết hợp trên ta có : tập các luật như sau: AR= {D→C; T→C; A→W; W→A; A→C; C→W; W→C; DW→C; AT→W; TW→A; AT→C; A→CW; W→AC; AC→W; AW→C; CW→A; AT→CW; TW→AC; ACT→W; ATW→C; CTW→A} 1.3 BẢO TOÀN TÍNH RIÊNG TƯ TRONG KHAI THÁC DỮ LIỆU Khai phá dữ liệu là phát hiện tri thức từ cơ sở dữ liệu Nói chung, dữ liệu dùng để khai thác liên quan đến một cá nhân hoặc một tổ chức Bản thân dữ liệu là... và các đối tác Từ những lý do này, Luận văn nghiên cứu một chương trình mã hóa có thể biến đổi cơ sở dữ liệu ban đầu nhằm bảo toàn tính riêng tư cho cơ sở dữ liệu của doanh nghiệp Sự bảo vệ này có nghĩa là kẻ tấn công có một xác suất rất hạn chế trong việc dự đoán các mặt hàng thực tế có thể có trong dữ liệu bán hàng hoặc trong các kết quả khai thác dữ liệu; ngược lại, chủ sở hữu dữ liệu có thể giải... lượng dữ liệu ngày càng lớn đã thúc đẩy một lĩnh vực nghiên cứu đầy tiềm năng là khai phá tri thức và khai thác dữ liệu Chúng ta đang bị ngập trong khối dữ liệu khổng lồ nhưng những dữ liệu thật sự có giá trị cho chúng ta thì rất nhỏ Do đó, việc khai thác dữ liệu là quá trình giúp chúng ta có được những dữ liệu có giá trị từ khối dữ liệu khổng lồ đó Ví dụ, tại một siêu thị, qua quá trình khai thác dữ liệu, ... nhạy cảm hoặc kỹ thuật bảo vệ tính riêng tư của hai hay nhiều 20 người tham gia muốn khai thác trên dữ liệu chung nhưng không muốn mất thông tin riêng tư trên dữ liệu của từng người Cấp độ 2: gồm các kỹ thuật đảm bảo tính riêng tư được nhúng trong thuật toán khai phá dữ liệu Thông thường, những chuyên gia về dữ liệu dùng các ràng buộc trước khi hoặc trong khi thực hiện khai thác Cấp độ 3: gồm các kỹ thuật... MỞ ĐẦU Lý do chọn đề tài Đề tài nghiên cứu các vấn đề về khai thác luật kết hợp từ cơ sở dữ liệu ngoài trong khuôn khổ bảo mật bí mật dữ liệu của doanh nghiệp cung cấp dữ liệu Mục tiêu của việc khai thác luật kết hợp là phát hiện ra các nhóm sản phẩm hoặc các mặt hàng hay được khách hàng của siêu thị mua cùng nhau Dữ liệu đầu vào là cơ sở dữ liệu bán hàng, là danh sách của tất cả các nhóm mặt hàng... hướng nghiên cứu nhằm đề ra giải pháp bảo vệ tính riêng tư của dữ liệu lẫn tri thức trước và sau khi thực hiện khai thác trên dữ liệu Ví dụ 1.2: dữ liệu về hoạt động giao dịch của các gian hàng khác nhau trong một chuỗi siêu thị có thể được gửi cho bên thứ ba cung cấp dịch vụ khai thác dữ liệu Việc quản lý siêu thị không cần đến một đội ngũ các chuyên gia khai thác dữ liệu nội bộ chuyên nghiệp Bên cạnh ... m mỏu cú th sy Nh vy, khai thỏc d liu m c th l khai thỏc lut kt hp l mt nhim v khai thỏc d liu c bn, rt cú li cho nhiu n v, t chc v cỏc quc gia trờn th gii Tuy nhiờn, vic khai thỏc ny khú th tin... bi toỏn khai thỏc lut kt hp nhiu nhúm khỏc Chng hn, nu giỏ tr ca cỏc thuc tớnh cú kiu boolean thỡ ta gi l khai thỏc lut kt hp Boolean Apriori l thut toỏn khai thỏc kt hp v t ú cú th khai thỏc... CHNG TNG QUAN V KHAI THC D LIU V BO TON TNH RIấNG T 1.1 GII THIU TI 1.2 KHAI THC TP PH BIN V LUT KT HP 1.2.1 Mt s khỏi nim 1.2.2 Khai thỏc ph bin

Ngày đăng: 09/12/2015, 23:22

Tài liệu cùng người dùng

Tài liệu liên quan