1. Trang chủ
  2. » Công Nghệ Thông Tin

Đề xuất mô hình khai thác luật hiếm trên CSDL phân tán dọc bảo toàn tính riêng tư

7 14 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 7
Dung lượng 297,16 KB

Nội dung

Trong phạm vi bài báo Đề xuất mô hình khai thác luật hiếm trên CSDL phân tán dọc bảo toàn tính riêng tư, đề xuất một mô hình khai thác tập hiếm trên môi trường cơ sở dữ liệu phân tán dọc và bảo toàn tính riêng tư cho dữ liệu của các bên cung cấp dữ liệu trong qua trình khai thác. Mời các bạn cùng tham khảo!

ĐỀ XUẤT MƠ HÌNH KHAI THÁC LUẬT HIẾM TRÊN CSDL PHÂN TÁN DỌC BẢO TỒN TÍNH RIÊNG TƢ Cao Tùng Anh, Võ Hồng Khang, Văn Nhƣ Bích B Trường Đại học Cơng nghệ TP Hồ Chí Minh TĨM TẮT Khai phá tri thức tiềm ẩn sở liệu mục tiêu quan trọng ngành khoa học khai thác liệu nhiều nhà nghiên cứu quan tâm Luật luật không thường xuyên xảy lại có giá trị tính ứng dụng cao số điều kiện, mơi trường cụ thể Khai thác luật thực tế toán nhận nhiều quan tâm từ nhà khoa học Tuy nhiên liệu thường có chứa liệu nhạy cảm, việc bảo tồn tính riêng tư khai thác liệu để tránh tiết lộ liệu nhạy cảm hướng nghiên cứu cấp thiết Khai thác luật sở liệu (CSDL) phân tán bảo tồn tính riêng tư tập trung vào việc khai thác luật có liệu chia sẻ từ nhiều bên không làm tiết lộ liệu bên tham gia Trong phạm vi báo này, đề xuất mô hình khai thác tập mơi trường sở liệu phân tán dọc bảo tồn tính riêng tư cho liệu bên cung cấp liệu qua trình khai thác Từ khóa: Bảo tồn tính riêng tư, sở liệu phân tán dọc, khai thác liệu, luật GIỚI THIỆU Mục đích tốn phát luật kết hợp tìm mối quan hệ tập mục liệu CSDL lớn mối quan hệ có ích việc hỗ trợ định Ví dụ: CSDL siêu thị, việc phát quan hệ "76% số khách hàng mua kem đánh bàn chải mua khăn mặt" có ích cho định kinh doanh Chẳng hạn, định số lượng nhập mặt hàng bố trí chúng ngăn hàng liền kề Phát luật kết hợp phần toán phát luật kết hợp nhận nhiều quan tâm nhà nghiên cứu Luật kết hợp ứng dụng nhiều lĩnh vực khác Các luật giúp xác định ảnh hưởng hoạt động việc học trực tuyến đến kết đánh giá cuối sinh viên, xác định bệnh gặp y khoa, dự báo việc hỏng thiết bị truyền thông, hay giúp xác định mặt hàng xảy giao dịch mua bán lại có giá trị lớn mang lại lợi nhuận cao kinh tế Ví dụ: luật kết hợp “máy pha cà phê” → “máy xay cà phê” có độ hỗ trợ thấp 10% song có độ tin cậy cao tới 80% giá trị bán hai mặt hàng đáng kể Trong [1], tác giả định nghĩa luật tuyệt đối: luật XY gọi luật tuyệt đối khi: conf(X Y) ≥ minconf, minsup ≤ sup((X Y)) < maxsup, x  (X Y), sup(x) < maxsup Trong đó, minsup, maxsup, minconf giá trị người sử dụng đưa vào Với minsup nhằm hạn chế tập có độ hỗ trợ q nhỏ khơng mong đợi Như tìm tập tuyệt đối mà phần tử tập có độ hỗ trợ không nhỏ minsup mang lại nhiều lợi ích giảm khối lượng liệu lớn khai thác maxsup để tìm tập không phổ biến (không lớn ngưỡng maxsup) minconf để phát luật từ tập tìm Trong phát triển 192 nhanh chóng liệu cơng nghệ thơng tin, nhiều doanh nghiệp, đơn vị hành chính, tổ chức y tế… mong muốn chia sẻ thông tin với bên khác để tận dụng lợi ích chung từ liệu họ Tuy nhiên, liệu thường chứa thông tin nhạy cảm nên mặt hạn chế bên muốn chia sẻ liệu để khai thác Để khắc phục vấn đề trên, lĩnh vực nghiên cứu bảo tồn tính riêng tư trình khai thác liệu phân tán đời Mục đích nghiên cứu khai thác thơng tin hữu ích từ tập liệu bên tham gia, chắn liệu bên phải bảo mật, không bị lộ không bị đánh cắp từ bên cịn lại Mục đích báo hướng tới cung cấp mơ hình khai thác luật CSDL phân tán dọc bảo tồn tính riêng tư cho liệu bên tham gia chia sẻ liệu để khai thác Ở phần giới thiệu số nghiên cứu liên quan Phần trình bày phương pháp mà chúng tơi nghiên cứu đề xuất báo Trong phần thực mơ hình đề xuất với bên tham gia khai thác trình bày số liệu kiểm chứng thực tế Phần phần kết luận, đánh giá ưu điểm nêu số nhược điểm cần cải tiến CÁC NGHIÊN CỨU LIÊN QUAN Trong thời gian qua, có nhiều tác giả nghiên cứu mơ hình nhằm tăng độ bảo tồn tính riêng tư q trình khai thác CSDL phân tán dọc có đóng góp quan trọng Trong [4], Muthu Lakshmi cộng nghiên cứu thực mơ hình bảo tồn tính riêng tư CSDL phân tán dọc với n bên (site) cách tìm tập phổ biến site, sau chuẩn bị ma trận Mk ( ) thể thông tin tập phổ biến vector enVk bao gồm thuộc tính mã hóa Sitek gửi Mk enVk sang site Site sử dụng ma trận Mk+1 enVk+1 kết hợp với Mk enVk để tìm tập phổ biến Mk+1' enVk+1' (bản chất tập phổ biến tập CSDL kết hợp từ sitek sitek+1) Sau đó, sitek+1 tiếp tục gửi Mk+1' enVk+1' đến site tiếp theo, điều lặp lại siten kết gởi đến DM để giải mã gửi kết đến site Từ nghiên cứu Muthu Lakshmi công sự, [4] tác giả đề xuất mơ hình cải tiến để giảm thời gian thực việc khai thác cách chia n site thành nhóm thực việc khai thác lúc nhóm, từ tránh việc dồn liệu n-1 bên vào bên n Mơ hình giảm thời gian khai thác đáng kể có nhiều bên tham gia Trong [1] tác giả đề xuất thuật tốn khai thác luật khơng tuyệt đối hai ngưỡng [2] tác giả đề xuất mơ hình khai thác luật bảo tồn tính riêng tư CSDL phân tán ngang Qua tìm hiểu từ nghiên cứu liên quan, báo chúng tơi đề xuất mơ hình khai thác luật CSDL phân tán dọc bảo toàn tính riêng tư MƠ HÌNH KHAI THÁC Trong [4], tác giả đề xuất mơ hình khai thác luật kết hợp có bảo tồn tính riêng tư CSDL phân tán dọc với n bên tham gia Trong báo này, đề xuất số thay đổi để khai thác tập CSDL phân tán dọc bảo tồn tính riêng tư Trong [3], tác giả chứng minh rằng: với mơ hình khai thác này, việc bảo tồn tính riêng tư đảm bảo có n-1 bên (trong số n bên tham gia) thông đồng Trong báo này, chúng tơi sử dụng mơ hình [4] để chia n site thành nhóm (group) với số lượng site nhóm sau: group1 gồm sitei với {1,…,n/2} group2 site cịn lại Việc chia n bên thành nhóm theo [4] giảm đáng kể thời gian khai thác Quá trình khai thác diễn song song Group1 Group2 Kết site cuối group gửi đến DM để khai thác luật toàn cục gửi kết cho tất bên Các bước trao đổi liệu tiến hành bên thực sau: 193 Bƣớc 1: DM đánh số site tham gia từ đến n (với mơ hình nhóm, số bên tham gia n>=4) gom site thành nhóm: Group1 gồm sitei với i {1,…,n/2}, Group2 site cịn lại Sau DM gửi ngưỡng minsup, maxsup, mã khóa cơng khai (public key) cho tất bên Hình Mơ hình trao đổi liệu bên Bƣớc 2: Mỗi bên tiến hành khai thác tập từ tập giao dịch liệu có dựa ngưỡng minsup, maxsup nhận từ DM Bƣớc 3: Đối với sitek, tạo ma trận Mk vector Vk Với Mk hàng thể giao dịch tập tìm thấy giao dịch CSDL cục Trong ma trận này, Mk (i, j) = 1, nghĩa giao dịch cột thứ j xuất tập hàng i Tập vector Vk chứa tập tìm thấy sitek Giữa Vk Mk trì mối quan hệ là: tập thứ i vector Vk tương ứng với giao dịch cho dòng thứ i ma trận Mk Bƣớc 4: Mỗi bên mã hóa tất tập vector Vk thành enVk cách sử dụng khóa công khai nhận từ DM Từ Bước đến Bước thực đồng thời group Dữ liệu gửi từ site1 đến siten/2 group1 từ siten đến siten/2+1 group2 Bƣớc 5: Site1 gửi ma trận M1 enV1 đến site2 (Hoặc siten gửi ma trận Mn enVn đến siten-1) Bƣớc 6: Site2 thực M1 x M2 cách sử dụng khái niệm tích Descartes tạo ma trận M12 bao gồm tập M1 x M2 Site2 sau tạo ma trận M2' từ ma trận M1, M2 M12 Bƣớc 7: Site2 tạo vector enV2' bao gồm danh sách mã hóa tập có enV1, enV2 enV12 với enV12 đại diện cho tập mã hóa M12 Site2 gửi ma trận M2' với vector enV2' đến bên Bảng Một số từ viết tắt Thuật ngữ Mô tả minsup Độ hỗ trợ tối thiểu maxsup Độ hỗ trợ tối đại minconf Độ tin cậy tối thiểu Mi Ma trận thể liệu tập bên thứ i Mi’ Ma trận thể liệu tập bên thứ i i+1 (hoặc i-1 tùy theo hướng khai thác) Vi Vector thể thuộc tính tương ứng với Mi enVi Vector mã hóa thuộc tính từ Vi DM Data Miner – Nơi độc lập, nhận liệu từ bên n/2 n/2+1 194 Bƣớc 8: Các sitei lại thực Bước dựa vào ma trận vector nhận từ bên thứ i-1 ma trận riêng Mi vector mã hóa enVi Bƣớc 9: Bên cuối group (siten/2 siten/2+1) gửi ma trận Mn/2', vector enVn/2' ma trận Mn/2+1', vector enVn/2+1' đến DM Bƣớc 10: Sau nhận liệu từ siten/2 siten/2+1 DM thực tương tự Bước để có MDM' vector enVDM' Bƣớc 11: Tại DM, xếp lại enVDM' dựa vào độ dài tập mã hóa theo thứ tự giảm dần Dựa theo vị trí tập đặt danh sách xếp enVDM', ma trận MDM' xếp lại để theo thứ tự DM giải mã khóa riêng cho tập vector enVDM' để có tập tồn cục DM tìm độ hỗ trợ tập toàn cục cách đếm số lần xuất tập mục hàng tương ứng ma trận MDM' sinh danh sách bao gồm tập toàn cục độ hỗ trợ Bƣớc 12: Dựa danh sách này, DM tạo luật toàn cục dựa vào minconf người sử dụng nhập vào Sau luật gửi đến tất bên Quy trình khai thác kết thúc THỰC HIỆN MƠ HÌNH Giả sử mơ hình ví dụ có bên tham gia bên có liệu phân tán dọc bảng 2, 3, Dữ liệu bên bao gồm giao dịch với thuộc tính khác từ A1 đến A12 tương đương với mặt hàng khác mà bên có Bảng Dữ liệu cục Site1 Bảng Dữ liệu cục Site2 TID\Item A1 A2 TID\Item A3 A4 A5 T1 1 T1 1 T2 T2 1 T3 T3 0 T4 T4 1 T5 T5 1 T6 0 T6 0 Đầu tiên, DM yêu cầu bốn bên tham gia vào trình khai thác để tìm tập tồn cục cách gửi maxsup= 40% minsup=5% Mỗi bên áp dụng thuật tốn tìm tập để tìm tập thỏa maxsup minsup Tại group1- site1: Site1 tạo ma trận M1 vector V1 có giá trị sau: [ ] V1 = {A2, (A1,A2)} Site1 mã hóa tên thuộc tính vector V1 dựa vào khóa cơng khai: enV1 = {e(A2), e(A1, A2)} Sau gửi M1 enV1 đến site2 Tại group1 - site2: Site2 có ma trận M2 vector enV2 mã hóa thuộc tính sau: 195 [ ] enV2 = {e(A5), e(A3,A5)} Site2 tìm ma trận M12 vector enV12 dựa M1, enV1, M2 enV2 Ma trận M12 tạo cách tính tích Descartes ma trận M1 M2 Sau chọn dòng thỏa điều kiện tập Kết M12 sau: , - vector V12={(A2, A3, A5)} M2' tạo cách hội M2, M12 vào M1 enV2’ tạo cách kết hợp enV2, enV12 vào enV1 Ta có kết sau: [ ] enV2'={e(A2), e(A1,A2), e(A5), e(A3,A5), e(A2, A3, A5)} Sau site2 gửi M2' enV2' cho DM Tại group2 giả sử liệu site3 site4 Bảng Bảng Site4 thực tìm M4 enV4 sau gửi qua site3 Tại đây, site3 thực tương tự site2 group1 Bảng Dữ liệu cục Site3 Bảng Dữ liệu cục Site4 TID\Item A6 A7 A8 TID\Item A9 A10 A11 A12 T1 0 T1 1 0 T2 T2 0 T3 1 T3 0 T4 1 T4 0 T5 0 T5 0 1 T6 1 T6 1 0 Kết site3 sau kết hợp với kết site4 sau: [ ] enV3' = {e(A6,A7), e(A6,A8), e(A7,A8), e(A11), e(A9, A10), e(A9, A12), e(A11, A12), e(A6, A8, A9, A10), e(A7, A8, A9, A12)} Sau đó, site3 gửi M3' enV3' đến DM Tại DM: Sau nhận liệu từ site2, site3, DM thực tương tự group với M2', enV2' M3', enV3' để tìm MDM' enVDM': 196 enVDM’ = { e(A2), e(A1,A2), e(A5), e(A3,A5), e(A2, A3, A5), e(A6,A7), e(A6,A8), e(A7,A8), e(A11), e(A9, A10), e(A9,A12), e(A11,A12), e(A6,A8, A9,A10), e(A7, A8, A9, A12)} DM xếp enVDM' dựa vào độ dài tập mã hóa theo thứ tự giảm dần Dựa theo vị trí tập đặt danh sách xếp enVDM', ma trận MDM' xếp lại để theo trật tự enVDM' ={e(A6, A8, A9, A10), e(A7, A8, A9, A12), e(A2, A3, A5), e(A6, A7), e(A6, A8), e(A7, A8), e(A9, A10), e(A9,A12), e(A11,A12), e(A1,A2), e(A3,A5), e(A2), e(A5), e(A11)} DM áp dụng giải mã enVDM' với private key để có tập hiếm, lúc tập trộn lẫn nhiều bên nên DM không phát tập X xác thuộc site DM tìm độ hỗ trợ (Support) cho tập cách đếm giá trị hàng tương ứng từ ma trận MDM' xếp Từ đó, DM tìm luật cho tập tồn cục dựa minconf (Trong ví dụ minconf=80%) Ta xét tập tồn cục (A3, A5) ta có luật A3 A5 độ tin cậy luật 100%> minconf Tương tự cách tìm luật trên, DM tìm tất luật tập truyền kết cho bên tham gia Bảng Tập toàn cục độ hỗ trợ Item Sets Sup Item Sets Sup (A2) (A7,A8) (A5) (A9,A10) (A9,A12) (A11) (A11,A12) (A1,A2) (A3,A5) (A2,A3,A5) (A6,A7) (A6,A8) (A6,A8,A9,A10) (A7,A8,A9,A12) Chúng cài đặt chương trình để kiểm tra kết Kết cho thấy mơ hình đề xuất có kết số luật tìm thấy tương đương với nghiên cứu [2] Máy tính sử dụng bên tham gia Intel 3.2GHz, xử lý Core i5, Ram 4GB, hệ điều hành Window 10 – 64 bit Chúng thực nghiệm nhiều site khác để đo thời gian thực Thời gian đo tính từ DM gửi maxsup, minsup khóa cơng khai cho bên tính tổng thời gian thực tất bên DM Thời gian truyền liệu coi không đáng kể Số liệu thực nghiệm đo từ liệu Mushroom gồm 8418 dịng 119 thuộc tính Chúng tơi chia số thuộc tính làm 4, 10 20 cho số lượng bên tham gia Kết bảng Bảng Kết thực CSDL Bảng Thời gian thực nghiệm Số bên 197 Thời gian (Milisecond) 3250 10 3824 20 4422 Tên CSDL minsup maxsup minconf Số luật Mushroom 30% 70% 75% 23 Chess 30% 70% 75% 135 C20d10k 30% 70% 75% 15 Trong Bảng 8, số lượng bên tham gia 4, tiến hành thực nghiệm để kiểm tra tính đắn mơ hình khai thác đề xuất Kết cho thấy: số luật khai thác mơ hình đề xuất trùng vời số luật tìm thấy khai thác CSDL tập trung KẾT LUẬN Bài báo đề xuất mơ hình khai thác tập CSDL phân tán dọc bảo tồn tính riêng tư cho liệu bên tham gia Thông tin bên mã hóa, DM giải mã Lúc liệu bên trộn lại DM khơng thể biết xác liệu bên, mơ hình đảm bảo thơng tin giữ kín, khơng thể bị đánh cắp từ bên khác Dựa vào kết thực nghiệm, nhận xét kết khai thác CSDL tập trung kết khai thác CSDL phân tán dọc bảo tồn tính riêng tư theo mơ hình đề xuất Hạn chế mơ hình nhóm là: số lượng bên tham gia phải lớn Nếu số lượng bên tham gia chúng tơi đề xuất sử dụng mơ hình bên để đảm bảo liệu trộn bên tham gia nhằm tránh bị lộ thông tin DM TÀI LIỆU THAM KHẢO [1] Cu Thu Thuy, Do Van Thanh (2010), “Mining Imperfectly Sporadic Rules with Tow Thresholds”, International Journal of Computer Theory and Engineering, Vol.2(5) 2010, pp.718-723 [2] Huỳnh Ngọc Ca, Cao Tùng Anh, Nguyễn Hoàng Tú Anh (2017), “Khai thác luật bảo tồn tính riêng tư CSDL phân tán ngang”, Hội thảo quốc gia công nghệ thông tin truyền thông, Quy Nhơn 23-24/11/2017, tr 123-128 [3] N V Muthu Lakshmi and K Sandhya Rani (2012), “Privacy Preserving Association Rule Mining in Vertically Partitioned Databases”, International Journal of Computer Science and Information Technologies, Vol 39-No.13, 2012, pp.0975 - 8887 [4] Nguyễn Hữu Lộc, Cao Tùng Anh, Nguyễn Hoàng Tú Anh (2017), “Bảo tồn tính riêng tư khai thac CSDL phân tán dọc”, Hội thảo quốc gia công nghệ thông tin truyền thông, Quy Nhơn 23-24/11/2017, tr 18-23 [5] Nikunj Domadiya, Udai Pratap Rao (2019), “Privacy Preserving Distributed Association Rule Mining Approach on Vertically Partitioned Healthcare Data”, Procedia computer science 148, (2019), pp.303-312 198 ... tơi đề xuất mơ hình khai thác luật CSDL phân tán dọc bảo tồn tính riêng tư MƠ HÌNH KHAI THÁC Trong [4], tác giả đề xuất mơ hình khai thác luật kết hợp có bảo tồn tính riêng tư CSDL phân tán dọc. .. cho thấy: số luật khai thác mơ hình đề xuất trùng vời số luật tìm thấy khai thác CSDL tập trung KẾT LUẬN Bài báo đề xuất mơ hình khai thác tập CSDL phân tán dọc bảo tồn tính riêng tư cho liệu... Trong báo này, đề xuất số thay đổi để khai thác tập CSDL phân tán dọc bảo tồn tính riêng tư Trong [3], tác giả chứng minh rằng: với mơ hình khai thác này, việc bảo tồn tính riêng tư đảm bảo có n-1

Ngày đăng: 23/09/2021, 13:37

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w