Nghiên cứu phương pháp ẩn tập mục hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tác

MỤC LỤC

PHƯƠNG PHÁP ẨN TẬP MỤC Cể ĐỘ HỮU ÍCH

    Định nghĩa 2.1 (Tập mục hữu ích trung bình cao nhạy cảm): Một tập mục Si ∈ HAUIs được xác định là tập mục mà chủ sở hữu CSDL không muốn bị khai thác bởi các thuật toán HAUIM khi CSDL được chia sẻ hoặc công bố ra bên ngoài, khi đó tập mục Si được gọi là tập mục hữu ích trung bình cao nhạy cảm. Định nghĩa 2.2: Ẩn tập các tập mục SHAUIs là quá trình sửa đổi CSDL gốc D trở thành CSDL sửa đổi D’ (để chia sẻ hoặc công bố ra bên ngoài), sao cho chỉ duy nhất các tập mục hữu ích trung bình cao không nhạy cảm có thể được khai phá từ CSDL D’ bởi các thuật toán HAUIM. Định nghĩa 2.3 (Mục mục tiêu): Mục mục tiêu (xvic) là mục thuộc tập mục hữu ích trung bình cao nhạy cảm Si cần ẩn, sao cho khi giảm giá trị hữu ích nội của mục xvic tại giao tác hỗ trợ tập mục Si sẽ giảm thiểu được hiệu ứng phụ của quá trình sửa đổi này gây ra trên CSDL.

    Ngoài ra, do các thuật toán được sử dụng trong PPUM có các cân nhắc khác nhau so với các thuật toán được sử dụng trong PPDM, nên ba biện pháp tương tự mới là DSS (Database Structure Similarity là tỷ lệ tương đồng về cấu trúc của CSDL sửa đổi D’ so với CSDL gốc D), DUS (Database Utility Similarity là tỷ lệ tương đồng về hữu ích giữa CSDL D’ với CSDL D), và IUS (Itemsets Utility Similarity là tỷ lệ tương đồng về hữu ích trung bình của tập các HAUIs trong CSDL sửa đổi D’ (HAUIs’) so với tập các HAUIs trong CSDL gốc D (HAUIs)) được giới thiệu như là tiêu chí mới để đánh giá hiệu suất của các thuật toán đã phát triển cho PPUM. Chiến lược ẩn các tập mục độ hữu ích trung bình cao nhạy cảm trong CSDL giao tác là sửa đổi CSDL D bằng cách giảm số lượng hoặc xoá một số mục trong CSDL sao cho độ hữu ích trung bình cao của tập mục nhạy cảm giảm xuống dưới ngưỡng độ hữu ích trung bình tối thiểu. - Đầu vào: CSDL gốc D là CSDL sẽ khai thác được các tập mục hữu ích trung bình cao nhạy cảm; tập các tập mục SHAUIs là các tập mục hữu ích trung bình cao nhạy cảm được khai thác từ CSDL D cần được ẩn; ngưỡng hữu ích trung bình tối thiểu 𝛽.

    Thuật toán HHAUSI sử dụng ba đơn vị đo lường để đánh giá hiệu ứng phụ của thuật toán, gồm: HF (Tỷ lệ tập mục hữu ích trung bình cao nhạy cảm không ẩn được); MC (Tỷ lệ tập mục hữu ích trung bình cao không nhạy cảm bị mất); DIF (Tỷ lệ sai khác giữa CSDL gốc so với CSDL sửa đổi). Phương pháp chọn mục mục tiêu và giao tác mục tiêu để sửa dữ liệu của thuật toán HHAUSI là tương tự như thuật toán HHUIF [20] nên hiệu ứng phụ của thuật toán vẫn còn cao, bởi vì phương pháp lựa chọn mục mục tiêu và giao tác mục tiêu để sửa của thuật toán HHUIF là dựa vào mục có độ hữu ích cao nhất. Để giải quyết hạn chế của thuật toán HHAUSI, công trình của Huỳnh Triệu Vỹ và cộng sự [18] đã đề xuất thuật toán có tên gọi là EHSHA- UI, thuật toán EHSHA-UI sử dụng các phương pháp chọn lựa mục mục tiêu và giao tác mục tiêu khác nhau cho từng trường hợp mục mục tiêu được xóa và sửa để giảm hiệu ứng phụ.

    Để giảm thiểu hiệu ứng phụ của quá trình sửa đổi dữ liệu gây ra, nhóm tác giả sử dụng các phương pháp lựa chọn mục mục tiêu và giao tác mục tiêu khác nhau cho trường hợp giảm giá trị hữu ích nội của mục mục tiêu và trường hợp xóa mục mục tiêu. Lý do để xem xét không chỉ độ hữu ích trung bình mà cả tần suất xuất hiện là do các ràng buộc về tần suất cũng được sử dụng theo cách truyền thống trong khai thác mẫu để lọc ra các mẫu nhiễu (có thể xuất hiện tình cờ hoặc không đáng kể do tần suất xuất hiện thấp của chúng). Tuy nhiên, trong quá trình ẩn tập mục hữu ích trung bình cao nhạy cảm vẫn phát sinh hiệu ứng phụ là ẩn nhầm tập mục hữu ích trung bình cao không nhạy cảm và quá trình thực hiện phải quét qua tập ST nhiều lần.

    Bảng 2.2: CSDL giao tác D  TID  Transaction
    Bảng 2.2: CSDL giao tác D TID Transaction

    ÍCH TRUNG BÌNH CAO NHẠY CẢM

    Một số thông số dùng để đánh giá tính hiệu quả của phương pháp ẩn các tập mục có độ hữu ích trung bình cao

    Điều này giảm thiểu các hiệu ứng phụ đối với các tập mục có độ hữu ích trung bình cao không nhạy cảm. Trong đề án sử dụng hệ số  để tính tỷ lệ giảm số lượng của mục cần sửa đổi xvic trong từng giao tác hỗ trợ tập mục nhạy cảm Si cần ẩn. Giả sử mục mục tiêu và giao tác mục tiêu được chọn để sửa dữ liệu nhằm mục đích ẩn tập mục Si lần lượt là xvic và Tvic.

    Để giảm giá trị hữu ích trung bình của Si, có thể thực hiện bằng cách giảm giá trị hữu ích của mục xvic∈ Si tại giao tác Tvic. Gọi SA là tập các tập mục hữu ích trung bình cao không nhạy cảm chịu tác động bởi quá trình sửa dữ liệu để ẩn tập mục nhạy cảm Si. - Nếu giảm giá trị hữu ích của mục xvic ∈ Si tại giao tác Tvic, giá trị hữu ích trung bình của tập mục Si và các tập mục X.

    Bởi vì, 𝑎𝑢 (𝑋,𝑇𝑣𝑖𝑐) > , nên khi xóa mục xvic ∈ Si tại giao tác Tvic sẽ làm cho hữu ích trung bình của các tập mục chịu tác động bị giảm nhiều hơn khi giảm giá trị hữu ích. Đầu ra: CSDL sửa đổi D’ là CSDL đã được sửa đổi sao cho tập SHAUIs không thể khai thác được bởi các thuật toán HAUIM với ngưỡng hữu ích trung bình 𝛽. Ngược lại, nếu không tồn tại cặp (xvic,Tvic) thỏa mãn điều kiện q(xvic,Tvic) > k, cần phải thực hiện giảm giá trị hữu ích của xvic trong từng giao tác theo hệ số.

    Tuy nhiên, về thời gian xử lý được đánh giá là nhanh hơn rất nhiều khi thực hiện sắp xếp các Si giảm dần theo độ hữu ích trung bình trước khi thực hiện ẩn. Ngoài ra việc áp dụng hệ số đã giúp làm giảm số lần quét cơ sở dữ liệu cũng như thời gian cần thiết để ẩn các tập mục nhạy cảm. Để có cơ sở đánh giá khách quan hơn, thuật toán đề xuất được chạy thực nghiệm trên cơ sở dữ liệu thực tế và được trình bày trong Chương 4.

    Bảng 3.2: Xác định tập ST chứa giao tác hỗ trợ S1
    Bảng 3.2: Xác định tập ST chứa giao tác hỗ trợ S1

    CHƯƠNG 4: THỬ NGHIỆM VÀ ĐÁNH GIÁ

      Thời gian thực thi phụ thuộc vào cấu trúc của từng CSDL và độ dài của các tập mục nhạy cảm cần ẩn, ngoài ra thuật toán EHSHA-UI phụ thuộc vào việc quét qua tập dữ liệu nhiều lần để chọn giao tác mục tiêu và mục mục tiêu. Đối với thuật toán đề xuất EHSHA-UI-Improved được áp dụng hệ số alpha thực hiện giảm giá trị số lượng xvic có trong từng giao tác mà không cần phải quét lại dữ liệu nhiều lần. Kết quả được hiển thị trong Hình 4.2 có thể thấy rằng thuật toán EHSHA-UI-Improved có hiệu suất tốt hơn so với thuật toán EHSHA-UI.

      Trong năm kết quả hiển thị tỷ lệ tương đồng về cấu trúc của CSDL sửa đổi D' so với CSDL gốc D của thuật toán EHSHA-UI-Improved tốt hơn thuật toán EHSHA-UI. Lý do là thuật toán EHSHA-UI-Improved thực hiện giảm giá trị số lượng xvic có trong từng giao tác theo hệ số alpha, nên hạn chế được việc loại bỏ xvic ra khỏi giao tác. Từ Hình 4.3 có thể thấy rằng thuật toán EHSHA-UI- Improved được đề xuất hoạt động tốt hơn so với thuật toán EHSHA-UI trên năm bộ dữ liệu.

      IUS (Tỷ lệ tương đồng về hữu ích trung bình của tập các HAUI trong CSDL sửa đổi D' (HAUIs') so với tập các HAUI trong CSDL gốc D (HAUIs)). Từ các kết quả được thể hiện trong Hình 4.4 có thể thấy rằng IUS giảm khi số lượng SHUIs tăng lên do cần phải ẩn nhiều tập mục hơn bằng cách xóa SHUIs hoặc giảm hữu ích của chúng. Các thử nghiệm trên đã chỉ ra rằng thuật toán EHSHA- UI-Improved cải thiện so với thuật toán EHSHA-UI về thời gian chạy, tỷ lệ tương đồng về cấu trúc dữ liệu, tỷ lệ tương đồng về giá trị hữu ích của CSDL và tỷ lệ tương đồng về giá trị hữu ích trung bình của tập SHAUIs giữa CSDL gốc D và CSDL sửa đổi D'.

      Những kết quả thực nghiệm này chứng minh rằng cải tiến mới được sử dụng trong thuật toán EHSHA-UI- Improved là có ý nghĩa và cải thiện đáng kể hiệu suất để ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm.

      Hình 4.1: Kết quả so sánh thời gian thực thi của hai thuật toán
      Hình 4.1: Kết quả so sánh thời gian thực thi của hai thuật toán