1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phương pháp sửa đổi hiệu quả nhằm bảo vệ các tập mục có độ hữu ích cao nhạy cảm trong cơ sở dữ liệu giao tác

66 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 66
Dung lượng 4,98 MB

Nội dung

ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT NGUYỄN TRỌNG NGHĨA PHƯƠNG PHÁP SỬA ĐỔI HIỆU QUẢ NHẰM BẢO VỆ CÁC TẬP MỤC CÓ ĐỘ HỮU ÍCH CAO NHẠY CẢM TRONG CƠ SỞ DỮ LIỆU GIAO TÁC LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH: HỆ THỐNG THƠNG TIN MÃ SỐ: 48 01 04 BÌNH DƯƠNG - 2021 ỦY BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT NGUYỄN TRỌNG NGHĨA PHƯƠNG PHÁP SỬA ĐỔI HIỆU QUẢ NHẰM BẢO VỆ CÁC TẬP MỤC CĨ ĐỘ HỮU ÍCH CAO NHẠY CẢM TRONG CƠ SỞ DỮ LIỆU GIAO TÁC LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 48 01 04 NGƯỜI HƯỚNG DẪN KHOA HỌC TS NGUYỄN KHẮC CHIẾN BÌNH DƯƠNG - 2021 LỜI CAM ĐOAN Tôi cam đoan luận văn này: “Phương pháp sửa đổi hiệu nhằm bảo vệ tập mục có độ hữu ích cao nhạy cảm sở liệu giao tác” cơng trình nghiên cứu tơi Các số liệu sử dụng luận văn trung thực xác Ngồi nội dung tham khảo trích dẫn, tơi cam đoan luận văn chưa sử dụng để cấp văn sở đào tạo khác Bình Dương, ngày 23 tháng 12 năm 2021 Tác giả luận văn Nguyễn Trọng Nghĩa i LỜI CẢM ƠN Trong trình tham gia học tập nghiên cứu chương trình đào tạo thực luận văn thạc sĩ, nỗ lực cố gắng thân nhân hướng dẫn giúp đỡ tận tình thầy Trường Đại học Thủ Dầu Một Với lịng biết ơn sâu sắc, xin gửi lời cảm ơn tới: Ban giám hiệu nhà trường, Viện Đào tạo Sau đại học tạo điều kiện giúp tơi hồn thành khóa học hồn thành luận văn Các thầy giảng dạy chương trình Hệ thống thơng tin giảng dạy cung cấp kiến thức quý báu trình học tập thực đề tài Thầy Hồng Mạnh Hà (Giám đốc chương trình Hệ thống thông tin bậc Sau đại học) giúp đỡ tạo điều kiện để tham gia học tập thực thủ tục thực bảo vệ luận văn Bạn bè đồng nghiệp bên cạnh động viên thực đề tài Đặc biệt, em chân thành cảm ơn Thầy TS Nguyễn Khắc Chiến tận tình hướng dẫn em hồn thành luận văn Dù cố gắng trình thực hiện, nhiên khơng thể tránh khỏi sai sót Tơi mong nhận góp ý từ thầy cơ, bạn bè đồng nghiệp để kiến thức ngày hồn thiện Bình Dương, ngày 23 tháng 12 năm 2021 Tác giả luận văn Nguyễn Trọng Nghĩa ii MỤC LỤC LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC CHỮ VIẾT TẮT, KÍ HIỆU iv DANH MỤC BẢNG BIỂU v Lý chọn đề tài Mục tiêu nghiên cứu Tổng quan nghiên cứu đề tài Đối tượng, phạm vi nghiên cứu Đóng góp đề tài .3 Chương 1:TỔNG QUAN VỀ KHAI THÁC TẬP MỤC CÓ ĐỘ HỮU ÍCH CAO 1.1 Bài toán khai thác tập mục có độ hữu ích cao 1.2 Khai thác tập mục truyền thống .5 1.3 Khai thác tập mục độ hữu ích cao 1.4 Kết luận Chương 12 Chương 2: 13 PHƯƠNG PHÁP ẨN TẬP MỤC CĨ ĐỘ HỮU ÍCH CAO 13 2.1 Bài toán ẩn tập mục có độ hữu ích cao nhạy cảm 13 2.2 Một số công trình liên quan 14 2.3 Phương pháp ẩn tập mục độ hữu ích cao nhạy cảm 16 2.4 Kết luận Chương 30 Chương 3: 31 ĐỀ XUẤT PHƯƠNG PHÁP HIỆU QUẢ ĐỂ ẨN CÁC TẬP MỤC .31 CĨ ĐỘ HỮU ÍCH CAO 31 3.1 Cơ sở để đề xuất thuật toán 31 3.2 Một số phép đo dùng để đánh giá tính hiệu phương pháp ẩn tập mục có độ hữu ích cao 34 3.3 Thuật toán đề xuất 35 3.4 Kết luận Chương 42 Chương 43 THỬ NGHIỆM VÀ ĐÁNH GIÁ .43 4.1 Mô tả môi trường thực nghiệm liệu sử dụng 43 4.2 Kết thực nghiệm 44 4.3 Kết luận Chương 49 KẾT LUẬN 50 CƠNG TRÌNH ĐÃ CƠNG BỐ .51 TÀI LIỆU THAM KHẢO .52 iii DANH MỤC CÁC CHỮ VIẾT TẮT, KÍ HIỆU Viết tắt CSDL Tiếng Anh Database DUS Database Utility eu HUI External Utlity High Utility IUS Itemset Utility MC Missing Cost NSHUI SHUI SMAU SMIU ST T Sensitive High Utility Itemsets Sensitive High Utility Itemsets Selecting Maximum Utility item first Selecting Minimum Utility item first Sensitive Transaction Transaction iv Tiếng Việt Cơ sở liệu Độ tương tự độ hữu ích toàn sở liệu Lợi nhuận Tập mục độ hữu ích cao Độ tương tự độ hữu ích tập mục độ hữu ích cao Chi phí ẩn nhầm tập mục không nhạy cảm Tập mục độ hữu ích cao khơng nhạy cảm Tập mục độ hữu ích cao nhạy cảm Chọn mục có độ hữu ích lớn trước Chọn mục có độ hữu ích nhỏ trước Giao tác nhạy cảm Giao tác DANH MỤC BẢNG BIỂU Bảng 1.1 Cơ sở liệu giao tác (Biểu diện dạng ngang) Bảng 1.2 Cơ sở liệu giao tác (Biểu diễn dạng dọc) Bảng 1.3 Cơ sở liệu giao tác (Biểu diễn dạng ma trận) Bảng 1.4 Bảng sở liệu Bảng 1.5 Duyệt CSDL lần Bảng 1.6 Lọc item độ hỗ trợ ≥ .8 Bảng 1.7 Kết hợp mục từ 1.3 .8 Bảng 1.8 Lọc item độ hỗ trợ ≥ .8 Bảng 1.9 Kết hợp mục từ 1.3 .8 Bảng 1.10 Lọc item độ hỗ trợ ≥ .9 Bảng 1.11 CSDL giao tác sau chứa số lượng mục 10 Bảng 1.12 Bảng lợi nhuận 10 Bảng 1.13 Các tập mục độ hữu ích cao (𝒎𝒊𝒏𝒖𝒕𝒊𝒍 = 𝟏𝟔𝟎) 10 Bảng 2.1 Bảng T-Table thuật toán SMAU 18 Bảng 2.2 Bảng HUI-Table thuật toán SMAU 19 Bảng 2.3 Bảng T-Table thuật toán SMAU (cập nhật lần 1) 20 Bảng 2.4 Bảng HUI-Table thuật toán SMAU (cập nhật lần 1) 20 Bảng 2.5 Bảng T-Table thuật toán SMAU (cập nhật lần2) 21 Bảng 2.6 Bảng HUI-Table thuật toán SMAU (cập nhật lần 2) 22 Bảng 2.7 Bảng T-Table thuật toán SMAU (cập nhật lần 3) 23 Bảng 2.8 Bảng HUI-Table thuật toán SMAU (cập nhật lần 3) 23 Bảng 2.9 Bảng T-Table thuật toán SMIU 25 Bảng 2.10 Bảng HUI-Table thuật toán SMIU 25 Bảng 2.11 Bảng HUI-Table thuật toán SMIU (cập nhật lần 1) 26 Bảng 2.12 Bảng HUI-Table thuật toán SMIU (Cập nhật lần 1) 27 Bảng 2.13 Bảng HUI-Table thuật toán SMIU (cập nhật lần 2) 28 Bảng 2.14 Bảng HUI-Table thuật toán SMIU (Cập nhật lần 2) 28 Bảng 2.15 Bảng HUI-Table thuật toán SMIU (cập nhật lần 3) 29 Bảng 2.16 Bảng HUI-Table thuật toán SMIU (Cập nhật lần 3) 29 Bảng 3.1 Bảng sở liệu có dạng cấu trúc I-List 37 Bảng 3.2 Bảng HUI-Table 37 Bảng 3.3 Bảng T-Table 37 Bảng 3.4 Bảng HUI-Table cập nhật lần 39 Bảng 3.5 Bảng T-Table cập nhật lần 39 Bảng 3.6 Bảng HUI-Table cập nhật lần 41 Bảng 3.7 Bảng T-Table cập nhật lần 41 Bảng 3.8 Bảng so sánh kết chạy thuật toán đề xuất với thuật toán SMAU, SMIU [11] 42 Bảng 4.1 Cơ sở liệu dùng cho thực nghiệm 43 v DANH MỤC HÌNH, ĐỒ THỊ Hình 2.1 Q trình sửa đổi sở liệu 14 Hình 4.1 Thời gian thực chạy thử tốn với CSDL BMS_2 45 Hình 4.2 Độ tương tự độ hữu ích CSDL BMS_2 45 Hình 4.3 Chi phí ẩn nhầm tập mục CSDL BMS_2 .46 Hình 4.4 Độ tương tự độ hữu ích tập mục độ hữu ích cao CSDL BMS_2 46 Hình 4.5 Thời gian thực chạy thử toán với CSDL Mushroom 47 Hình 4.6 Độ tương tự độ hữu ích CSDL Mushroom 48 Hình 4.7 Chi phí ẩn nhầm tập mục CSDL Mushroom 48 Hình 4.8 Độ tương tự độ hữu ích tập mục độ hữu ích cao CSDL Mushroom 49 vi PHẦN MỞ ĐẦU Lý chọn đề tài Hiện nay, việc tính tốn doanh số tối ưu hóa lợi nhuận bán hàng cơng việc quan trọng, ảnh hưởng trực tiếp đến doanh thu chiến lược bán hàng công ty, siêu thị hay đơn vị bán lẻ Đặc biệt, với số lượng hàng hóa lớn, giá khác nhau, nên việc tính tốn lợi nhuận tối ưu từ bán hàng quan trọng Trong số lượng giao dịch lên đến hàng chục nghìn giao dịch, việc tính tốn xem mặt hàng đem lại doanh số cao, mặt hàng kinh doanh không hiệu dù bán với số lượng lớn trở nên khó khăn liệu lớn, liên tục Việc khai thác tập phổ biến thường mơ tả q trình rút trích thơng tin có giá trị từ sở liệu lớn, bắt nguồn từ mẫu có sẵn tồn sở liệu, mẫu có khuynh hướng gom nhóm lại với định nghĩa mơ hình khai thác Khai thác tập mục độ hữu ích cao (high-utility itemset) mở rộng toán khai thác tập mục phổ biến, nhiều nhà nghiên cứu quan tâm với mục đích đánh giá ý nghĩa tập mục khai thác luật kết hợp Để khai thác tập mục độ hữu ích cao, giá trị sử dụng độ hữu ích tập mục (itemset), chẳng hạn tổng lợi nhuận mà doanh nghiệp thu bán itemset tập giao tác Khác với khai thác itemset phổ biến, độ hữu ích itemset khơng thỏa tính chất bao đóng giảm (downward closure property) nên độ phức tạp tốn cao Trong mơi trường cạnh tranh, sở liệu bên chia sẻ với để có lợi hợp tác kinh doanh Tuy nhiên, việc chia sẻ sở liệu mang lại nhiều rủi ro để lộ thông tin nhạy cảm, số định danh cá nhân, số tài khoản ngân hàng, … Để giải vấn đề này, tri thức nhạy cảm che giấu (ẩn) cách chuyển đổi sở liệu ban đầu thành sở liệu sửa đổi theo số chiến lược cụ thể q trình ẩn gọi làm liệu (data sanitization) Trong năm gần đây, khai thác liệu bảo vệ tính riêng tư (PPDM Privacy Preserving Data Mining) trở thành hướng nghiên cứu quan trọng Trong phần luận văn này, xin tập trung nghiên cứu toán khai thác tập mục có độ hữu ích cao bảo vệ tính riêng tư (PPUIM - Privacy Preserving Utility Itemset Mining) để ẩn tập mục có độ hữu ích cao nhạy cảm (SHUI Sensitive High Utility Itemsets) sở liệu giao tác Một vấn đề đặt giải toán giảm hiệu ứng phụ: ẩn nhầm tập mục có độ hữu ích cao khơng nhạy cảm, khác CSDL ban đầu CSDL sau sửa đổi… tạo trình ẩn Luận văn tập trung nghiên cứu thuật toán ẩn tập mục có độ hữu ích cao nhạy cảm đề xuất phương pháp ẩn tập mục có độ hữu ích cao nhạy cảm hiệu nhằm giảm thiểu hiệu ứng phụ tạo trình ẩn Từ lý trên, chọn đề tài “Phương pháp sửa đổi hiệu nhằm bảo vệ tập mục có độ hữu ích cao nhạy cảm sở liệu giao tác” làm đề tài nghiên cứu cho luận văn tốt nghiệp Mục tiêu nghiên cứu Nghiên cứu thuật toán ẩn tập mục có độ hữu ích cao nhạy cảm có dựa cơng trình cơng bố gần Tìm hiểu ưu điểm hạn chế thuật tốn ẩn tập mục có độ hữu ích cao nhạy cảm để từ đề xuất phương pháp ẩn hiệu Tìm hiểu thơng số đánh giá tính hiệu thuật tốn ẩn tập mục có độ hữu ích cao nhạy cảm Tiến hành cài đặt thử nghiệm phương pháp đề xuất, đánh giá dựa thông số, so sánh với phương pháp ẩn có Tổng quan nghiên cứu đề tài Bài toán ẩn tập mục độ hữu ích cao nhạy cảm chủ đề nhiều nhà nghiên cứu quan tâm Mục tiêu tốn ẩn để bảo vệ thơng tin nhạy cảm khai thác phương pháp khai thác tập mục độ hữu ích Trong thực nghiệm, so sánh hiệu suất thuật toán đề xuất (ProAlg) với thuật toán [5] với phép đo thời gian thực hiện, MC, DUS IUS hai liệu thực BMS_2 Mushroom Hai liệu nhiều cơng trình sử dụng để đánh giá thuật tốn 4.2 Kết thực nghiệm Trong phần này, sử dụng thuật toán EFIM để khai thác tập mục độ hữu ích cao sở liệu BMS_2 Mushroom Trong Hình kết so sánh thuật tốn đề xuất (ProAlg) với thuật toán SMAU SMIU với số lượng số tập mục nhạy cảm lấy cách ngẫu nhiên, với số lượng là: 150, 180, 200, 250, 280,300,350,400, 450 500 chạy sở liệu thưa BMS_2 Hình 4.1 cho thấy thời gian thực thuật toán đề xuất thường nhiều so với hai thuật tốn cịn lại Tuy nhiên, Hình 4.2, cho thấy thuật tốn SMIU hiệu phép đo DUS Thuật toán đề xuất (ProAlg) hiệu thuật toán SMAU độ đo DUS Bên cạnh đó, Hình 4.4 lại cho thấy thuật tốn đề xuất (ProAlg) lại hiệu độ đo độ tương tự độ hữu ích tập mục độ hữu ích cao (IUS), độ hữu ích tập mục độ hữu ích cao sở liệu sau q trình ẩn thuật tốn đề xuất lớn nhất, điều chứng tỏ việc ẩn nhầm tập mục khơng nhạy cảm thuật tốn đề xuất nhất, thể Hình 44 BMS_2 20000 18000 Thời gian thực (ms) 16000 14000 12000 10000 8000 6000 4000 2000 150 180 200 250 280 300 Số tập mục nhạy cảm SMAU SMIU ProAlg Hình 4.1 Thời gian thực chạy thử tốn với CSDL BMS_2 BMS_2 99.6 99.4 99.2 99 DUS(%) 98.8 98.6 98.4 98.2 98 97.8 97.6 97.4 150 180 200 250 280 Số tập mục nhạy cảm SMAU SMIU ProAlg Hình 4.2 Độ tương tự độ hữu ích CSDL BMS_2 45 300 BMS_2 12000 11500 MC(%) 11000 10500 10000 9500 150 180 200 250 280 300 Số tập mục nhạy cảm SMAU SMIU ProAlg Hình 4.3 Chi phí ẩn nhầm tập mục CSDL BMS_2 BMS_2 25 IUS(%) 20 15 10 150 180 200 250 280 300 Số tập mục nhạy cảm SMAU SMIU ProAlg Hình 4.4 Độ tương tự độ hữu ích tập mục độ hữu ích cao CSDL BMS_2 46 Tương tự, Hình kết chạy thực nghiệm sở liệu Mushroom với số lượng số tập mục nhạy cảm lấy cách ngẫu nhiên, với số lượng là: 10, 20, 30, 40, 50, 60, 70, 80, 90 100 Kết tương tự trên, thời gian thực thuật toán đề xuất (ProAlg) nhiều Tuy nhiên, thuật toán đề xuất (ProAlg) lại tốt hai độ đo MC IUS Về độ đo DUS, thuật toán đề xuất hiệu nhiều so với thuật toán SMAU, thuật tốn SMIU Điều thuật tốn SMIU thường loại bỏ mục có độ hữu ích nhỏ Cịn thuật tốn SMAU thường loại bỏ mục có độ hữu ích cao Mushroom 45000 Thời gianthwcj (ms) 40000 35000 30000 25000 20000 15000 10000 5000 50 60 70 80 90 100 Số tập mục nhạy cảm SMAU SMIU ProAlg Hình 4.5 Thời gian thực chạy thử toán với CSDL Mushroom 47 Mushroom 100 99.5 DUS (%) 99 98.5 98 97.5 97 50 60 70 80 90 100 Số tập mục nhạy cảm SMAU SMIU ProAlg Hình 4.6 Độ tương tự độ hữu ích CSDL Mushroom Mushroom 98 96 94 MC (%) 92 90 88 86 84 82 80 78 50 60 70 80 90 Số tập mục nhạy cảm SMAU SMIU ProAlg Hình 4.7 Chi phí ẩn nhầm tập mục CSDL Mushroom 48 100 Mushroom 16 14 IUS (%) 12 10 50 60 70 80 90 100 Số tập mục nhạy cảm SMAU SMIU ProAlg Hình 4.8 Độ tương tự độ hữu ích tập mục độ hữu ích cao CSDL Mushroom 4.3 Kết luận Chương Thuật toán đề xuất ẩn thực việc ẩn tập mục nhạy cảm Đồng thời sau kết thúc thuật tốn, giá trị chênh lệch độ hữu ích D D’ mức thấp so với SMAU SMIU 49 KẾT LUẬN Luận văn đề xuất thuật tốn ẩn tập mục độ hữu ích cao nhạy cảm sở liệu giao tác hiệu dựa vào chiến lược lựa chọn giao tác sửa đổi mục sửa đổi trình bày Kết thực nghiệm cho thấy, thuật toán đề xuất hiệu thuật toán SMAU SMIU cơng trình [6] chi phí ẩn nhầm tập mục không nhạy (MC) độ tương tự độ hữu ích tập mục độ hữu ích cao (IUS) sở liệu thực nghiệm Về độ đo DUS, thuật toán đề xuất tốt thuật toán SMAU so với thuật toán SMIU Ngược lại, thời gian thực thuật toán đề xuất lại nhiều hai thuật tốn cịn lại Trong tương lai, tiếp tục cải tiến thử nghiệm thuật toán đề xuất sở liệu giao tác khác so sánh với thuật toán ẩn khác để đánh giá tính hiệu thuật tốn đề xuất 50 CƠNG TRÌNH ĐÃ CƠNG BỐ [1] Nguyễn Khắc Chiến, Nguyễn Trọng Nghĩa “Chiến lược hiệu ẩn tập mục hữu ích cao nhạy cảm sở liệu giao tác” Hội nghị khoa học quốc gia "Nghiên cứu ứng dụng Công nghệ thông tin" lần thứ XIV (FAIR'2021), tổ chức Trường Đại học Công nghiệp Thực phẩm TP Hồ Chí Minh (HUFI) vào ngày thứ năm thứ sáu, 23 - 24/12/2021 51 TÀI LIỆU THAM KHẢO [1] Atallah, M., et al Disclosure limitation of sensitive rules in Proceedings 1999 Workshop on Knowledge and Data Engineering Exchange (KDEX'99)(Cat No PR00453) 1999 IEEE [2] Huynh Trieu, V., H Le Quoc, and C Truong Ngoc, An efficient algorithm for hiding sensitive-high utility itemsets Intelligent Data Analysis, 2020 24(4): p 831-845 [3] Krishnamoorthy, S., Pruning strategies for mining high utility itemsets Expert Systems with Applications, 42(5): p 2371- 2381, 2015 [4] Lin, C.-W., et al., A GA-based approach to hide sensitive high utility itemsets The Scientific World Journal, 2014 2014 [5] Lin, J.C.-W., et al., Fast algorithms for hiding sensitive high-utility itemsets in privacy-preserving utility mining Engineering Applications of Artificial Intelligence, 2016 55: p 269-284 [6] Liu, X., S Wen, and W Zuo, Effective sanitization approaches to protect sensitive knowledge in high-utility itemset mining Applied Intelligence, 2020 50(1): p 169-191 [7] Selvaraj, R and V.M Kuthadi, A modified hiding high utility item first algorithm (HHUIF) with item selector (MHIS) for hiding sensitive itemsets 2013 [8] Vo, B., et al An Efficient Method for Hiding High Utility Itemsets in KES- AMSTA 2013 [9] Yeh, J.-S and P.-C Hsu, HHUIF and MSICF: Novel algorithms for privacy preserving utility mining Expert Systems with Applications, 2010 37(7): p 47794786 [10] Yun, U and J Kim, A fast perturbation algorithm using tree structure for privacy preserving utility mining Expert Systems with Applications, 2015 42(3): p 1149-1165 52

Ngày đăng: 25/07/2023, 21:35

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w