Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
768,23 KB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM VIỆN CÔNG NGHỆ THÔNG TIN CAO TÙNG ANH KHAI THÁC DỮ LIỆU PHÂN TÁN BẢO TOÀN TÍNH RIÊNG TƯ Chuyên ngành: BẢO ĐẢM TOÁN HỌC CHO MÁY TÍNH VÀ HỆ THỐNG TÍNH TOÁN Mã số: 62.46.35.01 LUẬN ÁN TIẾN SĨ TOÁN HỌC HÀ NỘI - 2014 Công trình được hoàn thành tại: Viện Công nghệ Thông tin Viện Hàn lâm Khoa học và Công nghệ Việt nam Người hướng dẫn khoa học 1. PGS. TSKH. NGUYỄN XUÂN HUY 2. PGS.TS. NGUYỄN MẬU HÂN Phản biện 1: Phản biện 2: Phản biện 3: Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp Viện họp tại: Viện Công nghệ thông tin Viện Hàm lâm Khoa học và Công nghệ Việt Nam vào hồi giờ ngày tháng năm Có thể tìm hiểu luận án tại thư viên: Thư viện Quốc gia Việt nam và Thư viện Viện Công nghệ thông tin 1 PHẦN MỞ ĐẦU 1. Đặt vấn đề Cơ sở dữ liệu (CSDL) phân tán là một cấu trúc dữ liệu hiện nay đang phát triển rất nhanh và chúng ta thường gặp chúng trong thực tế như : CSDL của một hệ thống ngân hàng, của các công ty bảo hiểm, của các tổng công ty thương mại có một hệ thống cửa hàng phát triển ở nhiều nơi hay như CSDL của các thành viên thuộc tổ chức cảnh sát quốc tế .v.v. Khai thác dữ liệu là quá trình tìm kiếm các mẫu mới, những thông tin tiềm ẩn mang tính dự đoán trong các khối dữ liệu lớn. Những công cụ khai thác dữ liệu có thể phát hiện những xu hướng trong tương lai, các tri thức mà khai thác dữ liệu mang lại cho các đơn vị có thể ra các quyết định kịp thời và trả lời những câu hỏi trong lĩnh vực mà trước đây tốn rất nhiều thời gian để xử lý. Với ưu điểm trên, khai thác dữ liệu đã chứng tỏ được tính hữu dụng của nó trong môi trường kinh doanh đầy tính cạnh tranh ngày nay và được ứng dụng rộng rãi trong các lĩnh vực thương mại, tài chính, điều trị y học, giáo dục, viễn thông, quốc phòng.v.v. Trong thực tế, phần lớn CSDL phân tán dùng để khai thác thường liên quan đến nhiều cá nhân hoặc nhiều tổ chức. Bản thân dữ liệu là thông tin nhạy cảm hoặc quá trình phân tích dữ liệu cho ra tri thức có tính nhạy cảm. Một số tổ chức muốn chia sẻ dữ liệu theo kiểu cùng phối hợp dữ liệu để khai thác trên dữ liệu chung, nhưng mỗi bên lại muốn đảm bảo tính riêng tư cho dữ liệu của chính mình. Khai thác dữ liệu phân tán đảm bảo tính riêng tư là hướng nghiên cứu nhằm đề ra giải pháp bảo vệ tính riêng tư của dữ liệu lẫn tri thức trước và sau khi thực hiện khai thác trên dữ liệu. 2. Mục đích của luận án Mục đích đầu tiên của luận án là nghiên cứu và đề xuất các thuật toán cho phép thực hiện việc kết hợp cơ sở dữ liệu phân tán của các bên khác nhau, cùng có nhu cầu tham gia chia sẻ dữ liệu để từ đó các bên có thể dựa trên dữ liệu dùng chung đó khai thác được các tri thức có lợi cho mình, mà vẫn bảo đảm được tính riêng tư của dữ liệu cho mỗi bên. Để thực hiện được mục tiêu chính, luận án cũng có mục đích thứ hai là nghiên cứu và đề xuất các thuật toán, giao thức tránh thông đồng giữa một số bên để làm lộ dữ liệu của các bên khác. Mặt khác, do cơ sở dữ liệu phân tán khi được tái thiết thành cơ sở dữ liệu chung thường sinh ra cơ sở dữ liệu có khối lượng rất lớn (do kết quả của phép kết đối với CSDL phân tán dọc và phép hội đối với CSDL phân tán ngang) nên sẽ ảnh hưởng nhiều đến thời gian khai thác. Luận án cũng có mục đích thứ ba là nghiên cứu và đề xuất một số thuật toán nhằm loại bỏ thực hiện phép kết dữ liệu từ các bên để từ đó giảm thời gian cho việc khai thác dữ liệu. 3. Những đóng góp của luận án 2 Luận án đã trình bày các cơ sở lý thuyết về CSDL phân tán, đề xuất một số thuật toán khai thác dữ liệu và ẩn dữ liệu trong qua trình khai thác. Từ đó dẫn đến mục đích chính của luận án là đề xuất các thuật toán khai thác dữ liệu trên CSDL phân tán có quan tâm đến việc bảo toàn tính riêng tư của các bên tham gia quá trình khai thác và tránh thông đồng giữa một số bên để làm lộ dữ liệu của các bên khác. Những đóng góp chính của luận án gồm : Đóng góp 1: Do việc khai thác trên CSDL phân tán dọc, nếu sử dụng các phép kết để sinh ra CSDL chung sẽ tạo ra dữ liệu rất lớn ảnh hưởng đến thời gian và tính khả thi khi khai thác, luận án đã đề xuất các thuật toán: - Khai thác CSDL phân tán dọc bằng phép kết ngoại sử dụng phương pháp IT- Tree gồm hai thuật toán: ECLAT_DISTRIBUTE_LEFT_JOIN và ECLAT_ DISTRIBUTE _FULL_JOIN để tránh không thực hiện phép kết giữa các CSDL tham gia khai thác, nhằm tăng tốc độ khai thác dữ liệu. - Cũng với mục đích tăng tốc độ khai thác các tập mục có lợi ích cao, luận án đã đề xuất cấu trúc WIT-tree và thuật toán TWU-Mining để tăng hiệu quả về thời gian khai thác các tập mục dữ liệu có lợi ích cao. - Thuật toán PEclat, để khai thác song song tập phổ biến tại các bên tham gia. Bên cần khai thác tập phổ biến (được gọi là Master) chỉ gửi thông tin về CSDL và minSup cho các bên tham gia (được gọi là Slave) đúng 1 lần. Vì vậy, thời gian gửi/nhận thông tin sẽ thấp hơn so với việc truyền nhận thông tin nhiều lần. Các Slave có 2 lần gửi thông tin về Master. Lần thứ nhất gửi các item cùng với Tidset của chúng, lần thứ 2 gửi tập các itemset thỏa minSup. Vì vậy, thời gian giao tiếp có thể tính là O(n). Một vấn đề nữa là Master chỉ khai thác các tập phổ biến chưa được khai thác trên các Slave và vì vậy, thời gian khai thác sẽ nhanh hơn so với việc tập trung dữ liệu lại để khai thác trên một máy. Đóng góp 2: Để thực hiện việc khai thác luật kết hợp trên CSDL phân tán dọc có quan tâm đến việc bảo toàn tính riêng tư của các bên tham gia, luận án đã đề xuất thuật toán ENUMERATE_FREQUENT_DISTRIBUTE_ PRIVACY. Trong thuật toán này có sử dụng bên thứ 3 làm trung gian để hỗ trợ 2 bên tiến hành khai thác luật sau đó các bên đổi chỗ cho nhau để thay thế vai trò trung gian và vai trò của bên khai thác luật. Đóng góp 3: Đối với khai thác tập phổ biến trên CSDL phân tán ngang có quan tâm đến bảo toàn tính riêng tư của các bên tham gia và tránh sự thông đồng giữa một số bên để làm lộ dữ liệu của một số bên khác, luận án đã trình bày: - Thuật toán bảo khai thác CSDL phân tán ngang bảo toàn tính riêng tư gồm các thủ tục: SECURE_SUPPORT thực hiện việc cài đặt của giao thức tính độ phổ biến toàn cục của itemset X. Thủ tục EXTEND_FITREE để mở rộng và hoàn thiện FITree chứa tập đầy đủ các itemset phổ biến toàn cục. Thủ tục SUPPER_BOUND và 3 SECURE_UNION để đảm bảo riêng tư của các bên tham gia khai thác. Thuật toán được đánh giá là an toàn hoàn toàn cả trong trường hợp có n-1 bên thông đồng. - Đề xuất giao thức (cải tiến từ giao thức của M.Hussein) sử dụng tập phổ biến tối đại (MFI - Max Frequent Itemsets) thay cho tập phổ biến (FI - Frequent Itemsets ) khi tìm tập ứng viên và mã hoá Paillier để tính đỗ hỗ trợ toàn cục. Do sử dụng mã hoá Paillier nên giao thức đề xuất có tính riêng tư cao hơn khi tính độ hỗ trợ toàn cục. Qua kết quả thực nghiệm cho thấy giao thức đề xuất tối ưu hơn (về chi phí truyền thông) khi tăng số bên tham gia khai thác với các tập dữ liệu có số itemset lớn và chiều dài trung bình thấp. 4. Bố cục luận án Luận án gồm ba chương, phần mở đầu và phần kết luận, trong đó: Phần mở đầu Trình bày một số vần đề dẫn đến việc chọn hướng nghiên cứu của luận án, các nghiên cứu liên quan đến hướng nghiên cứu của luận án của các tác giả trong và ngoài nước, từ đó nêu lên mục đích chính của luận án và các phương pháp nghiên cứu của luận án. Bố cục của luận án cũng được nêu rõ trong phần này. Chương 1: Một số khái niệm về CSDL phân tán, khai thác dữ liệu và bảo đảm tính riêng tư Trong chương này luận án trình bày một số khái niệm cơ bản về cơ sở dữ liệu phân tán bao gồm cả phân tán dọc và phân tán ngang, các lý thuyết về các thuật toán khai thác dữ liệu được sử dụng nhiều nhất. Trong đó tập trung vào khai thác tập phổ biến, tập mục có lợi ích cao và luật kết hợp. Trình bày các nghiên cứu về một số phương pháp và thuật toán ẩn dữ liệu trong quá trình khai thác CSDL có quan tâm đến bảo đảm tính riêng tư của các bên tham gia khai thác. Chương 2: Khai thác dữ liệu trên CSDL phân tán Trình bày các nghiên cứu và đề xuất của luận án về cải tiến các thuật toán khai thác dữ liệu trên CSDL phân tán, các thuật toán này nhằm tăng nhanh thời gian khai thác các tập mục lợi ích cao, tập phổ biến bằng phương pháp IT-Tree và khai thác song song trên cơ sở dữ liệu phân tán. Chương 3: Khai thác CSDL phân tán bảo đảm tính riêng tư Trình bày các thuật toán và giải thuật đề xuất nhằm khai thác dữ liệu trên CSDL phân tán dọc và phân tán ngang có quan tâm đến bảo đảm tính riêng tư cho dữ liệu của các bên tham gia trong quá trình khai thác. Đối với mỗi thuật toán, luận án cũng đánh giá về khả năng bảo toàn tính riêng tư, độ phức tạp và phần thực nghiệm của thuật toán 4 Chương 1: Một số khái niệm về cơ sở dữ liệu phân tán, khai thác dữ liệu và bảo toàn tính riêng tư 1.1 Khái niệm về cơ sở dữ liệu phân tán 1.1.1- Khái niệm cơ sở dữ liệu phân tán Cơ sở dữ liệu phân tán là tập hợp các cơ sở dữ liệu được liên kết logic trên mạng máy tính và làm việc một cách trong suốt đối với người sử dụng. Khái niệm “trong suốt đối với người sử dụng” hàm nghĩa người sử dụng có thể truy cập tất cả các cơ sở dữ liệu như là chúng thuộc về một cơ sở dữ liệu duy nhất. 1.1.2- Cơ sở dữ liệu phân tán ngang Phân tán ngang là chia một quan hệ R theo các bộ, vì vậy mỗi mảnh là một tập con các bộ q của quan hệ R. Có 2 phương pháp phân tán ngang gồm: Phân tán ngang nguyên thuỷ của một quan hệ được thực hiện dựa trên các vị từ được định nghĩa trên quan hệ đó. Phân tán ngang dẫn xuất là phân mảnh một quan hệ dựa vào các vị từ được định nghĩa trên một quan hệ khác. 1.1.3- Cơ sở dữ liệu phân tán dọc Một phân tán dọc cho một quan hệ R sinh ra các mảnh R 1 , R 2 , ,R r , mỗi mảnh chứa một tập con thuộc tính của R và cả khoá của R. Mục đích của phân mảnh dọc là phân hoạch một quan hệ thành một tập các quan hệ nhỏ hơn để nhiều ứng dụng chỉ cần chạy trên một mảnh. 1.2 Khai thác dữ liệu Hiện nay có rất nhiều thuật toán khai thác dữ liệu, hội nghị quốc tế về khai thác dữ liệu (IEEE International Conference on Data Mining) vào tháng 12 năm 2006 đã chọn ra một số thuật toán nổi tiếng được sử dụng nhiều. Trong số các thuật toán khai thác dữ liệu, thuật toán IT-Tree sẽ được đề xuất cải tiến để khai thác dữ liệu phân tán trong chương 2 và chương 3: Thuật toán phát sinh tập phổ biến IT-Tree Đầu vào: Lớp tương đương [P] ban đầu chứa tất cả các tập phổ biến 1-itemset và ngưỡng phổ biến minSup. Đầu ra: tập FI gồm tất cả các tập phổ biến của CDSL. ECLAT() [] = {i I : (i) minSup } ENUMERATE_FREQUENT([]) ENUMERATE_FREQUENT([ P ]) for all l i [ P ] do [ P i ] = for all l j [ P ] with j > i do 5 I = l i l j T = t ( l i ) t ( l j ) if | T | minSup then [ P i ] = [ P i ] { TI } ENUMERATE_FREQUENT([ P i ]) 1.3 Bảo đảm tính riêng tư Khai thác dữ liệu là phát hiện tri thức từ cơ sở dữ liệu. Các dữ liệu dùng để khai thác có thể liên quan đến mô ̣ t cá nhân hay một tổ chức . Bản thân dữ liệu là thông tin nhạy cảm hoặc quá trình phân tích dữ liệu cho ra tri thức có tính nhạy cảm. Ngoài ra, một số tổ chức muốn chia sẻ dữ liệu theo kiểu cùng khai thác trên dữ liệu góp chung, nhưng mỗi bên lại muốn đảm bảo tính riêng tư cho dữ liệu của chính mình. Khai thác dữ liệu đảm bảo tính riêng tư (Privacy Preserving Data Mining - PPDM) là hướng nghiên cứu nhằm đề ra giải pháp bảo vệ tính riêng tư của dữ liệu lẫn tri thức trước và sau khi thực hiện khai thác trên dữ liệu. Trong các thuật toán và giải thuật đề xuất ở chương 3, với mỗi thuật toán, luận án đã đưa ra khái niệm tính riêng tư và đánh giá khả năng bảo toàn tính riêng tư trong từng trường hợp cụ thể. 1.3.1 Phương pháp sửa đổi dữ liệu: sửa đổi các giá trị nguyên thủy của cơ sở dữ liệu trước khi gửi cho nhiều người nhận nhằm bảo vệ tính riêng tư. Kỹ thuật sửa đổi này phải phù hợp với chính sách riêng tư đang được sử dụng. Có thể liệt kê các phương pháp như sau: a) Thay giá trị thực sự thành giá trị mới (đổi 1 thành 0 hoặc làm nhiễu dữ liệu). b) Làm sai quá trình phân tích bằng cách thay thế giá trị đã có thành “?”. c) Gom lại hoặc trộn lại, là sự kết hợp nhiều giá trị thành một phân loại thô hơn. d) Đổi chỗ giữa các giá trị trong từng dòng dữ liệu. e) Tạo mẫu: chỉ cho chia sẻ những dữ liệu mang tính chất chung. 1.3.2 Giấu dữ liệu hoặc giấu luật: gồm việc giấu dữ liệu thô hoặc dữ liệu kết hợp dạng luật. Có nhiều phương pháp(heuristic) dùng cho việc giấu dữ liệu kết hợp dưới dạng luật vì độ phức tạp cao hơn. Giảm bớt dữ liệu khi chia sẻ sẽ làm cho việc suy diễn yếu hơn hoặc cho ra giá trị suy diễn có độ tin cậy thấp. Quá trình này gọi là rule confusion. 1.3.3 Bảo vệ riêng tư: là quan trọng nhất, liên quan đến các kỹ thuật bảo vệ tính riêng tư dùng để sửa đổi dữ liệu có chọn lọc. Sửa đổi dữ liệu có chọn lọc nhằm cho dữ liệu vẫn có tính thiết thực cao nhưng không ảnh hưởng đến tính riêng tư. Các kỹ thuật này gồm có: 6 a) Kỹ thuật dựa trên Heuristic (Heuristic-based techniques) như là chỉnh sửa thích nghi, tức là chỉ chỉnh sửa một cách có chọn lọc để giảm thiểu việc mất đi tính thiết thực của dữ liệu sau khi đã chỉnh sửa. b) Kỹ thuật dựa trên phương pháp mã hóa (Cryptographic-based techniques) chẳng hạn như kỹ thuật bảo mật tính toán đa thành phần SMC (Secure multiparty computation), trong đó có nhiều người tham gia vào một hệ thống phân tán, mỗi người có một dữ liệu đầu vào (input) và tham gia quá trình tính toán dựa trên một hoặc một số dữ liệu đầu vào khác để cho ra kết quả cuối cùng (output). Từng người tham gia chỉ biết giá trị input của người đó và kết quả trả về, ngoài ra không biết gì hơn. c) Kỹ thuật dựa trên sự tái tạo (Reconstruction-based techniques): Sự phân bố của dữ liệu nguyên thủy được tái tạo lại từ dữ liệu ngẫu nhiên. 1.3.4 Thuật toán ẩn tập mục nhạy cảm: Lý Thuyết Giàn Giao Cho tập hữu hạn U gọi là tập nền, ta kí hiệu Poset(U) là họ toàn thể các tập con của U với thứ tự bộ phận là phép bao hàm , Poset'(U) = Poset(U) {U}. Một giàn giao G là một họ các tập con của U đóng với phép giao, cụ thể là, nếu G = {V 1 , V 2 ,…,V k | V i Poset(U), i = 1,2,…,k} thì V i , V j G: V i V j G. Khi đó G chứa duy nhất một họ con S sao cho mọi phần tử của G đều được biểu diễn qua giao của các phần tử trong S, cụ thể là, S là tập con nhỏ nhất của G thỏa tính chất G = {Y | Y = X 1 … X k , k 0, X 1 , … , X k S}. S được gọi là tập sinh của giàn G và được ký hiệu là Gen(G). Theo quy ước, giao của một họ rỗng các tập con chính là U, do đó mọi Gen đều không chứa U. Cho (M, ) là một tập hữu hạn có thứ tự bộ phận. Phần tử m trong M được gọi là cực đại nếu từ m x và xM ta luôn có m=x. Ta ký hiệu MAX(M) là tập các phần tử cực đại của M. Dễ thấy rằng, với mỗi phần tử x trong M, luôn tồn tại một phần tử m trong MAX(M) thỏa x m. Với mỗi họ các tập con của một tập hữu hạn U cho trước ta xét thứ tự bộ phận . Cho G là một giàn giao trên tập hữu hạn U. Ta ký hiệu Coatom(G) = MAX(G {U}) và gọi các phần tử trong Coatom(G) là đối nguyên tử của giàn giao G.Ta có mệnh đề 1.1(đã được chứng minh): Mệnh đề 1.1: Với mọi giàn giao G trên tập hữu hạn U, ta có: MAX(Gen(G)) = MAX(G {U}) = CoatomG Các tính chất của tập mục thướng xuyên Cho bảng T gồm N giao tác trên tập mục nền U, P là họ các tập mục thường xuyên theo ngưỡng cho trước. Trước hết ta nhận xét rằng, nếu X Y U thì (X) (Y). Hệ thức này thể hiện tính nghịch biến của hàm đo độ hỗ trợ . 7 Mệnh đề 1.2: P là một giàn giao. Chứng minh: Giả sử X, Y P, Z = X Y. Ta có Z X, do đó (Z) (X) . Vậy Z P. Mệnh đề 1.2 cho phép chúng ta vận dụng các tính chất của giàn giao trong xử lý các tập mục thường xuyên. Cụ thể là khi cần ẩn tập mục nhạy cảm H ta sẽ sửa các tập mục lớn nhất chứa H trong giàn giao P, tức là các Coatom chứa H. Mệnh đề 1.3: Với mỗi tập mục thường xuyên X trong P, Poset(X) P và là một giàn giao đầy đủ với tập Gen gồm các phần tử trên hàng thứ 2. Chứng minh: Giả sử X P và Y X. Ta có ngay (Y) (X) . Từ đây suy ra Y P, nghĩa là mọi tập con của X đều là tập mục thường xuyên. Do Poset(X) chứa mọi tập con của X nên Poset(X) là đầy đủ và đương nhiên đóng với phép giao. Theo mệnh đề 2.1 ta thấy với mọi mục AX, X {A} chỉ khuyết duy nhất một phần tử, do đó chúng có duy nhất một cha. Mọi tập con còn lại trong Poset(X) đều khuyết từ hai phần tử trở lên do đó chúng có ít nhất là hai cha. Vậy Gen(X) sẽ bao gồm các phần tử đứng trên hàng thứ hai trên đồ thị biểu diễn giàn. Mệnh đề 1.3 và tính chất nghịch biến của hàm cho ta thấy rằng các phần tử trong Gen(X) có độ hỗ trợ nhỏ nhất trong Poset(X) {X}. Nếu X P, với mỗi mục A trong X ta xét hàm L(A,X) cho giá trị là cặp Y/ trong đó là giá trị nhỏ nhất trong số các độ hỗ trợ của các tập con đúng Y chứa A của X (tức là Y X, Y ≠ X và A Y), L(A,X) = Y/ , = min {(Y) | A Y, Y X} Dựa vào nhận xét trên ta thấy có thể tính L(A,X) thông qua các tập chứa A trong Gen(X). Mệnh đề 1.4: Nếu tập mục thường xuyên X bị ẩn thì mọi tập mục thường xuyên Y chứa X cũng bị ẩn theo. Chứng minh: Nếu X bị ẩn thì (X) < . Nếu X Y, thì (Y) (X) < , nghĩa là Y cũng bị ẩn theo. Mệnh đề 1.5: Nếu X P thì mọi Update(A,X,d), A X đều kéo theo Update (A,Y,d), Y X, A Y. tức là độ hỗ trợ của mọi tập con chứa A của X đều bị giảm d đơn vị. Chứng minh: Ta có, thao tác Update(A,X,1) sẽ xóa một xuất hiện của mục A trong tập mục X, nghĩa là thay X bằng X {A}. Từ đó suy ra rằng mọi tập mục con chứa A của X cũng sẽ giảm số lần xuất hiện 1 đơn vị. 8 Các tập mục Y như mô tả trong mệnh đề 2.5 được gọi là các tập mục chịu hiệu ứng phụ khi cập nhật (xóa) mục A tập mục X. Mệnh đề này cho thấy nếu cập nhật mục A trong tập mục X thì cần chú ý đến các tập mục con đúng và chứa A của X. Nếu độ hỗ trợ của chúng lớn hơn ngưỡng không nhiều thì chúng sẽ có nguy cơ bị ẩn theo. Thuật toán ẩn tập mục nhạy cảm Dựa vào các mệnh đề 1.1 1.5, tác giả và nhóm nghiên cứu đã đề xuất thuật toán Itemhide ẩn một tập mục nhạy cảm H. Việc mở rộng thuật toán để ẩn nhiều tập mục nhạy cảm là khá dễ dàng. Cho bảng T gồm N giao tác trên M mục, cho ngưỡng hỗ trợ và giả thiết rằng ta đã xây dựng được họ các tập mục thường xuyên P. Cho tập mục nhạy cảm H P. Khi đó thuật toán ẩn tập mục H được thực hiện qua các bước sau đây. Bước 1: Xác định họ V các tập mục chứa H trong Coatom(P) , V = {X Coatom(P) | H X } Bước 2: Với mỗi mục A H và với mỗi tập mục X trong V lượng giá xem có nên sửa mục A trong X không? Tiêu chuẩn đặt ra là việc sửa mục A trong X không gây hiệu ứng phụ đến các tập con đúng chứa A của X. Gọi M(H) là hàm cho giá trị là bộ tứ (A, X, Z, ) trong đó là giá trị lớn nhất trong số các độ hỗ trợ tìm được qua các hàm L(A,X), cụ thể là, M(H) = (A, X, Z, ), = max { | L(A,X) = Z/, A H, X V}. Ta gọi thủ tục Update(A, X, d), với d = min {(H) – ( –1), (Z)–} Bước 2 sẽ được lặp đến khi (H) = – 1. Thuật toán: (Itemhide) Đầu vào: T bảng trị 0/1 thể hiện các giao tác trên tập mục nền U, ngưỡng hỗ trợ, P – họ các tập mục thường xuyên heo ngưỡng . H tập mục nhạy cảm H cần ẩn, H P. Đầu ra: bảng kết quả T . Method s = ( H ); while (s > – 1) do Compute V = { X Coatom ( P ) | H X }; Let ( A, X, Z, ) = M(H) ; Compute d = min { s – ( –1), ( X ), ( Z )-}; Update ( A,X,d ); s = s – d; endwhile end Itemhide. Chương 2: Khai thác dữ liệu trên CSDL phân tán 2.1 Thuật toán khai thác trên CSDL phân tán dọc [...]... CSDL phân tán Đề xuất thuật toán, giao thức và giải thuật khai thác CSDL phân tán dọc và phân tán ngang, có nghiên cứu đến việc bảo toàn tính riêng tư của dữ liệu các bên tham gia khai thác Luận án đã thực hiện được đóng góp khoa học cho việc đề xuất các thuật toán khai thác trên CSDL phân tán nhằm tăng tốc độ khai thác luật kết hợp trên CSDL phân tán dọc, đề xuất thuật toán ứng dụng giàn giao vào việc... lớp tư ng đương ở mức sau đến khi không còn đỉnh nào được tạo ra Với mỗi lớp tư ng đương [P], thuật toán tính giá trị có ích của tập mục dựa trên Tidset, nếu u(s) minutil, thêm nó vào HUIs Chương 3 :Khai thác dữ liệu phân tán bảo đảm tính riêng tư 3.1 Khai thác CSDL phân tán dọc bảo đảm tính riêng tư Giả sử có 2 cơ sở dữ liệu là DB1 gọi là Master và DB2 gọi là Slave, miền giá trị của các TID (Transaction... để tính độ phổ biến toàn cục Độ phổ biến toàn cục của itemset X được xác định được tính toán mức độ đảm bảo riêng tư trong khi tính toán giá trị P1, P2 và được xác định theo hai giao thức SPoS và SUPPER_BOUND (full - private) Để đánh giá mức độ duy trì tính riêng tư của toàn bộ thuật toán, ta xem các giao thức con đảm bảo riêng tư đã dùng như các hộp đen và xem xét mức độ riêng tư của giao thức tính. .. thể tính tổng các độ hỗ trợ ở dạng mã hoá nên Initiator sau khi giải mã sẽ nhận được chính xác tổng độ hỗ trợ của (n – 1) bên Kết luận Luận án đã trình bày các cơ sở lý thuyết về CSDL phân tán, đề xuất một số thuật toán khai thác dữ liệu và ẩn dữ liệu trong qua trình khai thác từ đó dẫn đến mục đích chính của luận án là đề xuất các thuật toán khai thác dữ liệu trên CSDL phân tán có quan tâm đến việc bảo. .. cục cho các itemsets trên dữ liệu phân tán ngang, đảm bảo riêng tư 3.2.3 Giao thức đảm bảo tính riêng tư trong tính độ phổ biến toàn cục Để xây dựng giao thức tính độ phổ biến toàn cục, trước hết, chúng tôi giả định rằng tất cả m bên đều biết một số nguyên A thỏa điều kiện A max {|1DB|, |2DB|, …, |mDB|}, việc tiết lộ giá trị A như vậy không làm ảnh hưởng lớn đến tính riêng tư, tuy nhiên trong phần... tâm đến việc bảo toàn tính riêng tư của các bên tham gia quá trình khai thác và tránh thông đồng giữa một số bên để làm lộ dữ liệu của các bên khác Những đóng góp chính của luận án tập trung vào mục đích mà luận án đã đặt ra là : Đề xuất một số thuật toán cải tiến từ các thuật toán đã được công bố ở các tài liệu khác nhằm tăng tốc độ khai thác dữ liệu đối với dữ liệu lớn và CSDL phân tán Đề xuất thuật... nhạy cảm của các bên tham gia trước khi tiến hành gửi dữ liệu để khai thác Luận án cũng đã đề xuất được một số thuật toán khai thác trên CSDL phân tán dọc và phân tán ngang có quan tâm đến việc bảo toàn dữ liệu của các bên tham gia 23 trong quá trình khai thác Các thuật toán này đã được cài đặt và thực nghiệm thành công trên một số CSDL mẫu và CSDL bảo hiểm nhân thọ, CSDL giao dịch của hệ thống siêu... độ bảo vệ riêng tư của thuật toán Mức độ đảm bảo riêng tư của thủ tục UPPER_BOUND: Trong thủ tục này, mỗi Si đều cộng thêm vào |iDB| của mình một số nguyên ngẫu nhiên ri trước khi trao đổi với bên khác, do vậy |iDB| của Si được đảm bảo riêng tư và cũng chống lại khả năng thông đồng Mức độ đảm bảo riêng tư của giao thức tìm tập ứng viên toàn cục (SECURE_UNION): Ở đây sử dụng phép hợp đảm bảo riêng tư. .. S i 1 , S i ,…, S i , giao thức tính độ phổ biến toàn cục được xây dựng cũng đảm bảo 2 m 1 tính riêng tư hoàn toàn như giao thức SPoS 19 Tóm lại, giao thức tính độ phổ biến toàn cục của luận án đề xuất đảm bảo tính riêng tư hoàn toàn với môi trường semi-honest Đánh giá chi phí truyền thông: Theo thuật toán được xây dựng, độ phổ biến toàn cục của mỗi itemset X được tính bởi công thức (3.5) P1 và giá... nhằm phục vụ được công việc thực tế của mình (thay vì chỉ khai thác được tập phổ biến) 3.2 Khai thác CSDL phân tán ngang bảo đảm tính riêng tư 3.2.1 Đặt vấn đề Giả sử có m bên S1, S2, …, Sm, mỗi bên sở hữu một CSDL giao tác iDB riêng, các CSDL iDB được xem như phân mảnh ngang, nghĩa là có cùng một tập thuộc tính trong lược đồ quan hệ và có dữ liệu độc lập Tập các items: I = {i1, i2, …, in} giống nhau . dữ liệu phân tán, khai thác dữ liệu và bảo toàn tính riêng tư 1.1 Khái niệm về cơ sở dữ liệu phân tán 1.1.1- Khái niệm cơ sở dữ liệu phân tán Cơ sở dữ liệu phân tán là tập hợp các cơ sở dữ. dữ liệu theo kiểu cùng phối hợp dữ liệu để khai thác trên dữ liệu chung, nhưng mỗi bên lại muốn đảm bảo tính riêng tư cho dữ liệu của chính mình. Khai thác dữ liệu phân tán đảm bảo tính riêng. cơ sở dữ liệu phân tán. Chương 3: Khai thác CSDL phân tán bảo đảm tính riêng tư Trình bày các thuật toán và giải thuật đề xuất nhằm khai thác dữ liệu trên CSDL phân tán dọc và phân tán ngang