1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai thác dữ liệu phân tán bảo toàn tính riêng tư

127 703 6

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 127
Dung lượng 2,86 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM VIỆN CÔNG NGHỆ THÔNG TIN CAO TÙNG ANH KHAI THÁC DỮ LIỆU PHÂN TÁN BẢO TOÀN TÍNH RIÊNG TƢ LUẬN ÁN TIẾN SĨ TOÁN HỌC HÀ NỘI– 2014 BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM VIỆN CÔNG NGHỆ THÔNG TIN CAO TÙNG ANH KHAI THÁC DỮ LIỆU PHÂN TÁN BẢO TOÀN TÍNH RIÊNG TƢ Chuyên ngành: BẢO ĐẢM TOÁN HỌC CHO MÁY TÍNH VÀ HỆ THỐNG TÍNH TOÁN Mã số: 62.46.35.01 LUẬN ÁN TIẾN SĨ TOÁN HỌC NGƢỜI HƢỚNG DẪN KHOA HỌC: 1. PGS.TSKH. NGUYỄN XUÂN HUY 2. PGS.TS. NGUYỄN MẬU HÂN HÀ NỘI - 2014 1 LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả trong luận án là trung thực và chƣa từng công bố trong bất kỳ công trình nào khác. Tác giả luận án Cao Tùng Anh 2 LỜI CÁM ƠN Luận án đƣợc thực hiện và hoàn thành dƣới sự hƣớng dẫn của PGS.TSKH. Nguyễn Xuân Huy và PGS.TS. Nguyễn Mậu Hân. Trong thời gian thực hiện luận án, tác giả đã nhận đƣợc sự giúp đỡ và chỉ dẫn khoa học rất tận tình từ hai ngƣời thầy của mình để có thể hoàn thành luận án này. Nhân dịp này tác giả xin đƣợc gửi đến hai thầy: PGS.TSKH.Nguyễn Xuân Huy và PGS.TS. Nguyễn Mậu Hân lòng biết ơn sâu sắc và lời cám ơn chân thành nhất. Tác giả cũng xin đƣợc trân trọng cảm ơn PGS.TS. Thái Quang Vinh, GS.TS. Vũ Đức Thi, PGS.TS. Đoàn Văn Ban, PGS.TS. Đặng Văn Đức, PGS.TS. Ngô Quốc Tạo, PGS.TS. Đỗ Năng Toàn, PGS.TS. Lƣơng Chi Mai, PGS.TS.Nguyễn Thanh Tùng là những thầy (cô) của Viện Công Nghệ Thông Tin đã quan tâm chỉ bảo, động viên và giúp đỡ tác giả trong suốt quá trình học tập, nghiên cứu và hoàn thiện luận án. Tác giả cũng xin trân trọng cảm ơn PGS.TS. Lê Hoài Bắc và các bạn đồng nghiệp trong nhóm nghiên cứu tại TP.Hồ Chí Minh đã đọc và cho những ý kiến đóng góp quý báu cho nội dung luận án. Cuối cùng xin chân thành cảm ơn các bạn đồng nghiệp tại khoa CNTT, trƣờng Đại học Công nghệ TP.Hồ Chí Minh đã cổ vũ, động viên, giúp đỡ về nhiều mặt cho tác giả trong thời gian thực hiện luận án. 3 MỤC LỤC LỜI CAM ĐOAN 1 LỜI CÁM ƠN 2 MỤC LỤC 3 DANH MỤC CÁC HÌNH 5 DANH MỤC CÁC BẢNG 7 DANH MỤC TỪ VIẾT TẮT 8 PHẦN MỞ ĐẦU 9 CHƢƠNG 1 Một số khái niệm về cơ sở dữ liệu phân tán, khai thác dữ liệu và bảo toàn tính riêng tƣ 19 1.1. Cơ sở dữ liệu phân tán 19 1.1.1. Khái niệm cơ sở dữ liệu phân tán 19 1.1.2. Cơ sở dữ liệu phân tán ngang 19 1.1.3. Cơ sở dữ liệu phân tán dọc 21 1.2. Khai thác dữ liệu 23 1.2.1. Khái niệm khai thác dữ liệu 23 1.2.2. Một số thuật toán khai thác dữ liệu 24 1.3. Bảo đảm tính riêng tƣ 31 1.3.1. Khái niệm 31 1.3.2. Phân loại các phƣơng pháp PPDM 32 1.3.3. Đánh giá một thuật toán PPDM 34 1.4. Một số phƣơng pháp giấu dữ liệu 35 1.4.1. Xáo trộn 35 1.4.2. Ngăn chặn 36 1.4.3. Gom / trộn 36 1.4.4. Đổi chỗ 36 1.4.5. Lấy mẫu 37 1.4.6. Ứng dụng lý thuyết giàn giao 41 1.5. Một số kỹ thuật khai thác dữ liệu bảo đảm tính riêng tƣ 49 1.5.1. Kỹ thuật chỉnh sửa dữ liệu trong cơ sở dữ liệu nhị phân 49 1.5.2. Kỹ thuật thay giá trị dữ liệu thật bằng giá trị không xác định 53 1.5.3. Phƣơng pháp tái tạo 56 1.6. Kết chƣơng 58 CHƢƠNG 2 Khai thác dữ liệu trên CSDL phân tán 60 2.1. Giới thiệu 60 4 2.2. Khai thác trên cơ sở dữ liệu phân tán dọc 60 2.2.1. Cách thực hiện 60 2.2.2. Thuật toán khai thác trên CSDL phân tán dọc với phép kết ngoại 62 2.2.3. Thuật toán khai thác CSDLPT dọc với phép kết ngoại hai chiều 66 2.2.4. Thuật toán khai thác CSDLPT dọc bằng phép kết tự nhiên 68 2.3. Khai thác trên cơ sở dữ liệu phân tán ngang 73 2.3.1. Cách thực hiện 73 2.3.2. Nhận xét phƣơng pháp 75 2.4. Khai thác song song tập phổ biến trên CSDL phân tán 75 2.4.1. Đặt vấn đề 75 2.4.2. Mô hình khai thác 76 2.4.3. Thuật toán khai thác tập phổ biến trên Master 78 2.5. Khai thác tập mục có lợi ích cao 81 2.5.1. Đặt vấn đề 81 2.5.2. Khai thác tập mục có lợi ích cao 81 2.6. Kết chƣơng 86 CHƢƠNG 3 Khai thác dữ liệu phân tán bảo đảm tính riêng tƣ 87 3.1. Giới thiệu chƣơng 87 3.2. Khai thác CSDL phân tán dọc bảo đảm tính riêng tƣ 87 3.2.1. Đặt vấn đề 87 3.2.2. Thuật toán 88 3.2.3. Minh họa thuật toán: 89 3.3. Khai thác CSDL phân tán ngang bảo đảm tính riêng tƣ 94 3.3.1. Đặt vấn đề 94 3.3.2. Một số công cụ tính toán đa bên an toàn. 95 3.3.3. Giải thuật khai thác tập phổ biến đảm bảo riêng tƣ và chống thông đồng trên dữ liệu phân tán ngang. 96 3.4. Giao thức khai thác CSDL phân tán ngang bảo đảm tính riêng tƣ 107 3.4.1. Đặt vấn đề 107 3.4.2. Cơ sở lý thuyết 108 3.4.3. Giao thức khai thác 109 3.4.4. Đánh giá giao thức 113 3.4.5. Thực nghiệm giao thức 113 3.5. Kết chƣơng 114 PHẦN KẾT LUẬN 116 DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ 120 TÀI LIỆU THAM KHẢO 121 5 DANH MỤC CÁC HÌNH Hình 1.1. Thuật toán IT-Tree phát sinh tập phổ biến thỏa ngƣỡng minsup 30 Hình 1.2. Kết quả khai thác với ngƣỡng minsup=50% 31 Hình 1.3. Đồ thị dàn các tập mục thƣờng xuyên 43 Hình 1.4. Gian giao đầy đủ của tập Poset (ABE) 44 Hình 1.5. Thuật toán Itemhide- Ẩn tập mục nhạy cảm 46 Hình 1.6. Thuật toán 1a 51 Hình 1.7. Thuật toán 1b 51 Hình 1.8. Thuật toán 2a 52 Hình 1.9. Thuật toán 2b 52 Hình 2.1. Mô hình hoạt động khai thác luật trên CSDL phân tán 60 Hình 2.2. Thuật toán Eclat_Distribute_Left_Join 63 Hình 2.3. Biểu diễn các mục đơn của DB 1 65 Hình 2.4. Biểu diễn các mục đơn của DB 1 và DB 2 65 Hình 2.5. Kết quả khai thác trên CSDL phân tán với phép kết Left-join 66 Hình 2.6. Thuật toán Eclat_Distribut_Full_Join 67 Hình 2.7. Kết quả khai thác trên CSDLPT dọc với phép kết ngoại hai chiều 68 Hình 2.8. Thuật toán phát sinh tập phổ biến thỏa ngƣỡng minsup 69 Hình 2.9. Cây biểu diễn các mục đơn của DB 1 và DB 2 71 Hình 2.10. Cây biểu diễn khai thác tập phổ biến trên CSDL phân tán 71 Hình 2.11. Mô hình tổng quát khai thác trên CSDL phân tán ngang 77 Hình 2.12. Trao đổi thông tin và khai thác tâp phổ biến giữa Master và Slaver 77 Hình 2.13. Kết quả khai thác từ Slave 1 theo thuật toán Eclat 78 Hình 2.14. Kết quả khai thác từ Slave 2 theo thuật toán Eclat 78 Hình 2.15. Thuật toán PEclat 79 Hình 2.16. Kết quả của PEClat với minsup=50% 80 Hình 2.17. Cây WIT-Tree 82 Hình 2.18. Thuật toán TWU-Mining 83 Hình 2.19. Minh họa thuật toán TWU-Mining 84 Hình 3.1. Thuật toán phát sinh tập phổ biến 88 Hình 3.2. Sơ đồ hoạt động của thuật toán 89 Hình 3.3. Kết quả tạo ra lớp tƣơng đƣơng [] 91 Hình 3.4. Kết quả khai thác trên CSDL phân tán dọc 91 Hình 3.5. Thủ tục Create_Fitree 98 Hình 3.6. Thủ tục Secure_Support(X) 98 Hình 3.7. Thủ tục Extend_Fitree& Upper_Bound 99 6 Hình 3.8. Thủ tục Upper_Bound 100 Hình 3.9. Kết quả FITree sau khi xử lý nút gốc 101 Hình 3.10. Kết quả FITree sau khi xử lý nút A 102 Hình 3.11. Sự phụ thuộc thời gian vào số lƣợng máy trên CSDL Accident 107 Hình 3.12. Sự phụ thuộc thời gian vào số lƣợng máy trên CSDL bảo hiểm 107 Hình 3.13. Giao thức đảm bảo tính riêng tƣ 110 Hình 3.14. CSDL tập trung và CSDL phân tán 112 Hình 3.15. Các bên tính độ hỗ trợ cục bộ 112 Hình 3.16. Tính độ hỗ trợ toàn cục và tập phổ biến toàn cục 112 Hình 3.17. So sánh tổng chi phí của GTDX và GT M.Hussein 114 7 DANH MỤC CÁC BẢNG Bảng 1.1. Quan hệ dự án (DA) 19 Bảng 1.2. Kết quả phân tán ngang nguyên thủy 20 Bảng 1.3. Quan hệ chi trả 20 Bảng 1.4. Quan hệ nhân viên 20 Bảng 1.5. Kết quả phân mảnh ngang dẫn xuất quan hệ NV 21 Bảng 1.6. Quan hệ nhân viên 21 Bảng 1.7. Kết quả phân tán dọc từ bảng 1.6 22 Bảng 1.8. Cơ sở dữ liệu giao dịch 30 Bảng 1.9. CSDL T 22 giao tác đƣợc viết thành 2 mảnh 42 Bảng 1.10. Tập mục thƣờng xuyên theo ngƣỡng  = 4 42 Bảng 1.11. So sánh các thuật toán 50 Bảng 2.1. Cơ sở dữ liệu của Master 61 Bảng 2.2. Cơ sở dữ liệu của Slave 61 Bảng 2.3. Cơ sở dữ liệu sau khi kết 61 Bảng 2.4. Cơ sở dữ liệu của 2 bên tham gia khai thác 64 Bảng 2.5. Cơ sở dữ liệu kết ngoại (Left Join) 64 Bảng 2.6. CSDL với phép kết ngoại “hai chiều” 66 Bảng 2.7. Cơ sở dữ liệu của 2 bên tham gia khai thác 69 Bảng 2.8. Cơ sở dữ liệu của bên A kết với bên B 70 Bảng 2.9. Kết quả thực nghiệm trên CSDL CO-OP Mark TP.HCM 73 Bảng 2.10. Cơ sở dữ liệu của Master 74 Bảng 2.11. Cơ sở dữ liệu của Slave 74 Bảng 2.12. Cơ sở dữ liệu sau khi hội Master và Slave 74 Bảng 2.13. CSDL mẫu 76 Bảng 2.14. Cơ sở dữ liệu phân tán của bảng 2.13 76 Bảng 2.15. Bảng giá trị khách quan 82 Bảng 2.16. Bảng giá trị chủ quan 82 Bảng 2.17. Bảng CSDL thực nghiệm 85 Bảng 2.18. Bảng thực nghiệm 2 thuật toán trong CSDL BMS-POS 85 Bảng 2.19. Bảng thực nghiệm 2 thuật toán trong CSDL Retail 86 Bảng 3.1. CSDL thực của hai bên Master và Slave 89 Bảng 3.2. CSDL giả của hai bên Master và Slave 90 Bảng 3.3. Kết quả thực nghiệm trên CSDL CO-OP Mart TP.HCM 93 Bảng 3.4. Minh họa hệ thống gồm 2 bên S 1 , S 2 101 Bảng 3.5. Thời gian chạy trên CSDL Accidents 106 Bảng 3.6. Thời gian chạy trên CSDL bảo hiểm 106 Bảng 3.7. Thông tin về các CSDL thực nghiệm 114 8 DANH MỤC TỪ VIẾT TẮT STT Từ viết tắt Diễn giải tiếng Anh Diễn giải tiếng Việt 1 CSDL Database Cơ sở dữ liệu 2 CSDLPT Database distributed Cơ sở dữ liệu phân tán 3 GTDX Proposed protocol Giao thức đề xuất 4 WIT-Tree Weighted Itemset-Tidset tree Cây tập mục-tập giao dịch có trọng số 5 TWU Tree Weighted Utility Cây lợi ích có trọng số 6 FI Frequent Itemsets Tập phổ biến 7 FP-tree Fast Parallel tree Cây khai thác song song nhanh 8 FDM Fast Distributed Mining Khai thác phân tán nhanh 9 SVM Support Vector machines Sử dụng vectơ trong hỗ trợ phân lớp 10 PPDM Privacy Preserving Data Mining Khai thác dữ liệu bảo toàn tính riêng tƣ 11 RSA Revest-Shamir- Adleman Hệ mã hóa RSA 12 SM Safety margin Ngƣỡng an toàn 13 MST Min support Độ hỗ trợ tối tiểu 14 MFI Maximal Frequent Itemset Tập phổ biến tối đại 15 MCT Min Confident Ngƣỡng độ tin cậy 16 TID Transaction index Chỉ mục của giao dịch 17 IT-Tree Itemset Tidset tree Cây tập mục -tập giao dịch 18 HUIs High Utility Itemsets Tập tiện ích cao 19 DBS Dynamic Bit String Chuỗi bít động 20 SH Semi Honest Trung thực một nửa [...]... kiểu cùng phối hợp dữ liệu để khai thác trên dữ liệu chung, nhƣng mỗi bên lại muốn đảm bảo tính riêng tƣ cho dữ liệu của chính mình Khai thác dữ liệu phân tán đảm bảo tính riêng tƣ là hƣớng nghiên cứu nhằm đề ra giải pháp bảo vệ tính riêng tƣ của dữ liệu lẫn tri thức trƣớc và sau khi thực hiện khai thác trên dữ liệu Ví dụ 1 Khi nhiều bệnh viện muốn cùng nhau phối hợp dữ liệu để khai thác cho ra những... thác song song trên cơ sở dữ liệu phân tán Chƣơng 3: Khai thác CSDL phân tán bảo đảm tính riêng tƣ Trình bày các thuật toán và giải thuật đề xuất nhằm khai thác dữ liệu trên CSDL phân tán dọc và phân tán ngang có quan tâm đến bảo đảm tính riêng tƣ cho dữ liệu của các bên tham gia trong quá trình khai thác Đối với mỗi thuật toán, luận án cũng đánh giá về khả năng bảo toàn tính riêng tƣ, độ phức tạp và... về cơ sở dữ liệu phân tán, khai thác dữ liệu và bảo toàn tính riêng tƣ 1.1 Cơ sở dữ liệu phân tán 1.1.1 Khái niệm cơ sở dữ liệu phân tán Cơ sở dữ liệu phân tán là tập hợp các cơ sở dữ liệu đƣợc liên kết logic trên mạng máy tính và làm việc một cách trong suốt đối với ngƣời sử dụng [3] Khái niệm “trong suốt đối với ngƣời sử dụng” hàm nghĩa ngƣời sử dụng có thể truy cập tất cả các cơ sở dữ liệu nhƣ là... ẩn dữ liệu trong quá trình khai thác CSDL có quan tâm đến bảo đảm tính riêng tƣ của các bên tham gia khai thác Chƣơng 2: Khai thác dữ liệu trên CSDL phân tán Trình bày các nghiên cứu và đề xuất của luận án về cải tiến các thuật toán khai thác dữ liệu trên CSDL phân tán, các thuật toán này nhằm tăng nhanh thời gian khai thác các tập mục lợi ích cao, tập phổ biến bằng phƣơng pháp IT-Tree và khai thác. .. ít lệch trái hơn 1.3 Bảo đảm tính riêng tƣ 1.3.1 Khái niệm Khai thác dữ liệu là phát hiện tri thức từ cơ sở dữ liệu Các dữ liệu dùng để khai thác có thể liên quan đến mô ̣t cá nhân hay m ột tổ chức Bản thân dữ liệu là thông tin nhạy cảm hoặc quá trình phân tích dữ liệu cho ra tri thức có tính nhạy cảm Ngoài ra, một số tổ chức muốn chia sẻ dữ liệu theo kiểu cùng khai thác trên dữ liệu 31 góp chung, nhƣng... nguồn CSDL khác nhau Nói cách khác, khai thác dữ liệu là tiến trình khái quát các sự kiện rời rạc trong dữ liệu thành các tri thức mang tính khái quát, tính quy luật nhằm hỗ trợ tích cực cho tiến trình ra quyết định Có thể chia khai thác dữ liệu thành hai dạng chính là: khai thác dữ liệu theo hƣớng kiểm tra và khai thác dữ liệu theo hƣớng khám phá khi khai thác dữ liệu theo hƣớng kiểm tra, ngƣời dùng... nêu rõ trong phần này Chƣơng 1: Một số khái niệm về CSDL phân tán, khai thác dữ liệu và bảo đảm tính riêng tƣ Trong chƣơng này, luận án trình bày một số khái niệm cơ bản về cơ sở dữ liệu phân tán bao gồm cả phân tán dọc và phân tán ngang, các lý thuyết về các thuật toán 17 khai thác dữ liệu đƣợc sử dụng nhiều nhất Trong đó tập trung vào khai thác tập phổ biến, tập mục có lợi ích cao và luật kết hợp... bên lại muốn đảm bảo tính riêng tƣ cho dữ liệu của chính mình Khai thác dữ liệu đảm bảo tính riêng tƣ (Privacy Preserving Data Mining PPDM) là hƣớng nghiên cứu nhằm đề ra giải pháp bảo vệ tính riêng tƣ của dữ liệu lẫn tri thức trƣớc và sau khi thực hiện khai thác trên dữ liệu Trong các thuật toán và giải thuật đề xuất ở chƣơng 3, với mỗi thuật toán, luận án đã đƣa ra khái niệm về tính riêng tƣ và đánh... lƣợng dữ liệu và bảo đảm tính riêng tƣ cá nhân Các nghiên cứu trong luận án có hƣớng nghiên cứu và kết quả khác với luận án này Thuật toán bảo toàn tính riêng tƣ của Tung-Shou Chen và các cộng sự [38] (2013) đƣợc xây dựng dựa trên nhận xét: các kỹ thuật bảo toàn tính riêng tƣ trong khai thác dữ liệu (PPDM) hiện nay có thể không làm tiết lộ những dữ liệu nhạy cảm 14 của các bên tham gia trong khai thác dữ. .. toán cho phép khai thác cơ sở dữ liệu phân tán dọc có 2 bên và nhiều bên (n bên) tham gia Thuật toán để xuất của các tác giả sử dụng thuật toán Apriori để khai thác và bảo đảm tính riêng tƣ cho dữ liệu của các bên tham gia bằng cách sử dụng một bên là trung gian để hỗ trợ cho n-1 bên khai thác mà không để lộ dữ liệu 12 của các bên tham gia Thuật toán cũng đã đánh giá khả năng bảo toàn tính riêng tƣ thông . niệm về cơ sở dữ liệu phân tán, khai thác dữ liệu và bảo toàn tính riêng tƣ 19 1.1. Cơ sở dữ liệu phân tán 19 1.1.1. Khái niệm cơ sở dữ liệu phân tán 19 1.1.2. Cơ sở dữ liệu phân tán ngang 19. sẻ dữ liệu theo kiểu cùng phối hợp dữ liệu để khai thác trên dữ liệu chung, nhƣng mỗi bên lại muốn đảm bảo tính riêng tƣ cho dữ liệu của chính mình. Khai thác dữ liệu phân tán đảm bảo tính riêng. 19 1.1.3. Cơ sở dữ liệu phân tán dọc 21 1.2. Khai thác dữ liệu 23 1.2.1. Khái niệm khai thác dữ liệu 23 1.2.2. Một số thuật toán khai thác dữ liệu 24 1.3. Bảo đảm tính riêng tƣ 31 1.3.1.

Ngày đăng: 27/08/2014, 11:51

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Cao Tùng Anh, Khai thác luật kết hợp trên cơ sở dữ liệu phân tán dọc, Hội thảo quốc gia về công nghệ thông tin và truyền thông, Đại Lãi 14-15/09/2007, tr 169-179 Sách, tạp chí
Tiêu đề: Khai thác luật kết hợp trên cơ sở dữ liệu phân tán dọc
[2] Cao Tùng Anh, Nguyễn Hà Giang, Một số thuật toán khai thác luật kết hợp trên cơ sở dữ liệu phân tán dọc, Kỷ yếu hội nghị khoa học công nghệ lần thứ nhất, Đại Học Kỹ thuật Công nghệ, TP.HCM 15/4/2010, tr 9-14 Sách, tạp chí
Tiêu đề: Một số thuật toán khai thác luật kết hợp trên cơ sở dữ liệu phân tán dọc
[3] Jeffrey D.Ullman - Người dịch: Trần Đức Quang Nguyên lý các hệ cơ sở dữ liệu và hệ cơ sở tri thức - tập 3: các hệ cơ sở tri thức, NXB Thống kê 2002 Sách, tạp chí
Tiêu đề: Nguyên lý các hệ cơ sở dữ liệu và hệ cơ sở tri thức "- tập 3: "các hệ cơ sở tri thức
Nhà XB: NXB Thống kê 2002
[4] Lương Thế Dũng, Nghiên cứu xây dựng một số giải pháp đảm bảo an toàn thông tin trong quá trình khai phá dữ liệu, Luận án tiến sỹ đảm bảo toán học cho máy tính và hệ thông tính toán, Viện KH và CN Quân sự, 2011 Sách, tạp chí
Tiêu đề: Nghiên cứu xây dựng một số giải pháp đảm bảo an toàn thông tin trong quá trình khai phá dữ liệu
[5] Nguyễn Xuân Huy, Các phụ thuộc logic trong cơ sở dữ liệu, Viện Khoa học và Công nghệ Việt Nam, NXB Thông Kê 2006 Sách, tạp chí
Tiêu đề: Các phụ thuộc logic trong cơ sở dữ liệu
Nhà XB: NXB Thông Kê 2006
[6] Nguyễn Xuân Huy, Lê Quốc Hải, Nguyễn Gia Nhƣ, Cao Tùng Anh, Bùi Đức Minh, Lý thuyết giàn và ứng dụng trong thuật toán ẩn tập mục, Hội thảo quốc gia về công nghệ thông tin và truyền thông, Biên Hòa 05-06/08/2009, tr 161- 170 Sách, tạp chí
Tiêu đề: Lý thuyết giàn và ứng dụng trong thuật toán ẩn tập mục
[7] Trần Quốc Việt, Cao Tùng Anh, Lê Hoài Bắc, Đảm bảo tính riêng tư và chống thông đồng trong khai thác luật kết hợp trên dữ liệu phân tán ngang, Chuyên san các công trình nghiên cứu, phát triển và ứng dụng công nghệ thông tin và truyền thông, Tạp chí công nghệ thông tin và truyền thông, số 7, Hà Nội 05/2012, tr 60-70 Sách, tạp chí
Tiêu đề: Đảm bảo tính riêng tư và chống thông đồng trong khai thác luật kết hợp trên dữ liệu phân tán ngang
[8] Võ Đình Bảy, Cao Tùng Anh, Lê Hoài Bắc, Khai thác song song tập phổ biến trên CSDL phân tán dọc, Kỷ yếu hội nghị khoa học công nghê thông tin, Đại học Đà Lạt, Đà Lạt 11/2010, tr 66-73 Sách, tạp chí
Tiêu đề: Khai thác song song tập phổ biến trên CSDL phân tán dọc
[10] Adriano A.Veloso, Wagner Meira Jr., Srinivasan Parthasarathy, MárcioBunte de Carvalho(2003), Efficient,Accurate and Privacy-Preserving DataMining for Frequent Itemsets in Distributed Databases, Proceedings of the 18th Brazilian Symposium on Databases, Amazonas, Brasil, pp 6-12 Sách, tạp chí
Tiêu đề: Efficient,Accurate and Privacy-Preserving DataMining for Frequent Itemsets in Distributed Databases
Tác giả: Adriano A.Veloso, Wagner Meira Jr., Srinivasan Parthasarathy, MárcioBunte de Carvalho
Năm: 2003
[11] A.Erwin, R.P.Gopalan,N. R.Achuthan (2007), A Bottom-Up Projection Based Algorithm for Mining High Utility Itemsets, Proceedings of the 2nd international workshop on Integrating artificial intelligence and data mining - Volume 84, Gold Coast, Australia, pp. 3 – 11 Sách, tạp chí
Tiêu đề: A Bottom-Up Projection Based Algorithm for Mining High Utility Itemsets
Tác giả: A.Erwin, R.P.Gopalan,N. R.Achuthan
Năm: 2007
[12] A.Erwin, R. P. Gopalan,N. R. Achuthan (2007), CTU-Mine: An efficient High Utility Itemset Mining Algorithm Using the Pattern Growth Approach. Paper presented at the IEEE 7th International Conferences on Computer and Information Technology, Aizu Wakamatsu, Japan, pp. 71 – 76 Sách, tạp chí
Tiêu đề: CTU-Mine: An efficient High Utility Itemset Mining Algorithm Using the Pattern Growth Approach
Tác giả: A.Erwin, R. P. Gopalan,N. R. Achuthan
Năm: 2007
[13] A.Manning, J.Keane (2001), Data Allocation Algorithm for Parallel Association Rule Discovery, Lecture Notes in Computer Science, Volume 2035, pp. 413-420 Sách, tạp chí
Tiêu đề: Data Allocation Algorithm for Parallel Association Rule Discovery
Tác giả: A.Manning, J.Keane
Năm: 2001
[14] Bac Le, Huy Nguyen, Tung Anh Cao, Bay Vo (2009), A Novel Algorithm forMining High Utility Itemsets, First Asian Conferences on Intelligent Information and Database Systems Quang Binh, Viet Nam 01-03/04/2009, pp.13-17 Sách, tạp chí
Tiêu đề: A Novel Algorithm forMining High Utility Itemset
Tác giả: Bac Le, Huy Nguyen, Tung Anh Cao, Bay Vo
Năm: 2009
[15] Bac Le, Bay Vo, Huy Nguyen (2011), An efficeient strategy for mining high utility, The Journal of Intelligent Information and Database Systems archive March 2011,Volume 5 Issue 2, pp 164-176 Sách, tạp chí
Tiêu đề: An efficeient strategy for mining high utility
Tác giả: Bac Le, Bay Vo, Huy Nguyen
Năm: 2011
[16] Bay Vo, Huy Nguyen, Bac Le (2009), Mining High Utility Itemsets from Vertical Distributed Databases, Computing and Communication Technologies 2009. RIVF'09. International Conference on, Da Nang, Viet Nam 13-17/07/2009, pp. 1-4 Sách, tạp chí
Tiêu đề: Mining High Utility Itemsets from Vertical Distributed Databases
Tác giả: Bay Vo, Huy Nguyen, Bac Le
Năm: 2009
[17] Bin Yang, Hiroshi Nakagawa, Issei Sato and Jun Sakuma (2010). Collusion- resistant privacy-preserving data mining, Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining Sách, tạp chí
Tiêu đề: Collusion-resistant privacy-preserving data mining", Proceedings of the 16th" ACM SIGKDD
Tác giả: Bin Yang, Hiroshi Nakagawa, Issei Sato and Jun Sakuma
Năm: 2010
[9] Võ Đình Bảy, Lê Hoài Bắc (2010), Chuỗi Bit Động: Cách Tiếp Cận Mới để Khai Thác Tập Phổ Biến. ICTFIT’ 2010, Nhà xuất bản Khoa học Kỹ thuật Khác

HÌNH ẢNH LIÊN QUAN

Bảng 1.1 Quan hệ Dự Án (DA) - Khai thác dữ liệu phân tán bảo toàn tính riêng tư
Bảng 1.1 Quan hệ Dự Án (DA) (Trang 21)
Bảng 1.2 Kết qủa phân tán ngang nguyên thủy - Khai thác dữ liệu phân tán bảo toàn tính riêng tư
Bảng 1.2 Kết qủa phân tán ngang nguyên thủy (Trang 22)
Bảng 1.3 Quan hệ chi trả (CT) - Khai thác dữ liệu phân tán bảo toàn tính riêng tư
Bảng 1.3 Quan hệ chi trả (CT) (Trang 22)
Bảng 1. 6    Quan hệ Nhân Viên (NV) - Khai thác dữ liệu phân tán bảo toàn tính riêng tư
Bảng 1. 6 Quan hệ Nhân Viên (NV) (Trang 23)
Hình 1.1 Thuật toán IT-Tree phát sinh tập phổ biến thỏa ngƣỡng minSup - Khai thác dữ liệu phân tán bảo toàn tính riêng tư
Hình 1.1 Thuật toán IT-Tree phát sinh tập phổ biến thỏa ngƣỡng minSup (Trang 32)
Hình 1.2  Kết quả khai thác với ngƣỡng minsup =50% - Khai thác dữ liệu phân tán bảo toàn tính riêng tư
Hình 1.2 Kết quả khai thác với ngƣỡng minsup =50% (Trang 33)
Bảng 1.9 CSDL T22 giao tác  đƣợc viết thành 2 mảnh - Khai thác dữ liệu phân tán bảo toàn tính riêng tư
Bảng 1.9 CSDL T22 giao tác đƣợc viết thành 2 mảnh (Trang 44)
Hình 1.3 Đồ thị giàn các tập mục thường xuyên theo bảng 1.10  1.4.6.2. Các tính chất của tập mục thường xuyên - Khai thác dữ liệu phân tán bảo toàn tính riêng tư
Hình 1.3 Đồ thị giàn các tập mục thường xuyên theo bảng 1.10 1.4.6.2. Các tính chất của tập mục thường xuyên (Trang 45)
Hình 1.5 Thuật toán Itemhide - ẩn tập mục nhạy cảm - Khai thác dữ liệu phân tán bảo toàn tính riêng tư
Hình 1.5 Thuật toán Itemhide - ẩn tập mục nhạy cảm (Trang 48)
Bảng 1.11 So sánh các thuật toán - Khai thác dữ liệu phân tán bảo toàn tính riêng tư
Bảng 1.11 So sánh các thuật toán (Trang 52)
Hình 1.9 Thuật toán 2b  Hình 1.8 Thuật toán 2a - Khai thác dữ liệu phân tán bảo toàn tính riêng tư
Hình 1.9 Thuật toán 2b Hình 1.8 Thuật toán 2a (Trang 54)
Hình 2.2 Thuật toán  ECLAT_DISTRIBUTE_LEFT_JOIN - Khai thác dữ liệu phân tán bảo toàn tính riêng tư
Hình 2.2 Thuật toán ECLAT_DISTRIBUTE_LEFT_JOIN (Trang 65)
Hình 2.8 Thuật toán phát sinh tập phổ biến thỏa ngƣỡng minSup - Khai thác dữ liệu phân tán bảo toàn tính riêng tư
Hình 2.8 Thuật toán phát sinh tập phổ biến thỏa ngƣỡng minSup (Trang 71)
Bảng 2.10  Cơ sở dữ liệu của Master - Khai thác dữ liệu phân tán bảo toàn tính riêng tư
Bảng 2.10 Cơ sở dữ liệu của Master (Trang 76)
Hình 2.11 Mô hình tổng quát khai thác trên CSDL phân tán ngang - Khai thác dữ liệu phân tán bảo toàn tính riêng tư
Hình 2.11 Mô hình tổng quát khai thác trên CSDL phân tán ngang (Trang 79)
Hình 2.15 Thuật toán PEclat - Khai thác dữ liệu phân tán bảo toàn tính riêng tư
Hình 2.15 Thuật toán PEclat (Trang 81)
Hình 2.18 Thuật toán TWU-Mining - Khai thác dữ liệu phân tán bảo toàn tính riêng tư
Hình 2.18 Thuật toán TWU-Mining (Trang 85)
Hình 2.19 Minh họa thuật toán TWU-Mining - Khai thác dữ liệu phân tán bảo toàn tính riêng tư
Hình 2.19 Minh họa thuật toán TWU-Mining (Trang 86)
Bảng 2.18 Bảng thực nghiệm 2 thuật toán trong CSDL BMS-POS - Khai thác dữ liệu phân tán bảo toàn tính riêng tư
Bảng 2.18 Bảng thực nghiệm 2 thuật toán trong CSDL BMS-POS (Trang 87)
Bảng 3.2 CSDL giả của cả hai bên Master và Slave - Khai thác dữ liệu phân tán bảo toàn tính riêng tư
Bảng 3.2 CSDL giả của cả hai bên Master và Slave (Trang 92)
Hình 3.3 Kết quả tạo ra lớp tương đương - Khai thác dữ liệu phân tán bảo toàn tính riêng tư
Hình 3.3 Kết quả tạo ra lớp tương đương (Trang 93)
Hình 3.5 - Thủ tục  CREATE_FITREECREATE_FITREE(iDB, {Sj/j = 1 ,2,…, m}) - Khai thác dữ liệu phân tán bảo toàn tính riêng tư
Hình 3.5 Thủ tục CREATE_FITREECREATE_FITREE(iDB, {Sj/j = 1 ,2,…, m}) (Trang 100)
Hình 3.7 Thủ tục  EXTEND _FITREE EXTEND _FITREE (FITree, minsup, k). - Khai thác dữ liệu phân tán bảo toàn tính riêng tư
Hình 3.7 Thủ tục EXTEND _FITREE EXTEND _FITREE (FITree, minsup, k) (Trang 101)
Hình 3.8 Thủ tục UPPER_BOUND - Khai thác dữ liệu phân tán bảo toàn tính riêng tư
Hình 3.8 Thủ tục UPPER_BOUND (Trang 102)
Hình 3.10 Kết quả FITree sau khi xử lý nút A - Khai thác dữ liệu phân tán bảo toàn tính riêng tư
Hình 3.10 Kết quả FITree sau khi xử lý nút A (Trang 104)
Hình 3.11 Sự phụ thuộc thời gian chạy vào số lƣợng máy trên CSDL Accident - Khai thác dữ liệu phân tán bảo toàn tính riêng tư
Hình 3.11 Sự phụ thuộc thời gian chạy vào số lƣợng máy trên CSDL Accident (Trang 109)
Hình 3.12  Sự phụ thuộc thời gian chạy vào số lƣợng máy trên CSDL bảo hiểm - Khai thác dữ liệu phân tán bảo toàn tính riêng tư
Hình 3.12 Sự phụ thuộc thời gian chạy vào số lƣợng máy trên CSDL bảo hiểm (Trang 109)
Hình 3.13 Giao thức đảm bảo tính riêng tƣ - Khai thác dữ liệu phân tán bảo toàn tính riêng tư
Hình 3.13 Giao thức đảm bảo tính riêng tƣ (Trang 112)
Hình 3.14 CSDL tập trung và CSDL phân tán - Khai thác dữ liệu phân tán bảo toàn tính riêng tư
Hình 3.14 CSDL tập trung và CSDL phân tán (Trang 114)
Hình 3.17 So sánh tổng chi phí của GTDX và GT M.Hussein - Khai thác dữ liệu phân tán bảo toàn tính riêng tư
Hình 3.17 So sánh tổng chi phí của GTDX và GT M.Hussein (Trang 116)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w