Nghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tác

Nghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tác

Trang 1

-

Tô Phú Khương

NGHIÊN CỨU PHƯƠNG PHÁP ẨN CÁC TẬP MỤC

CÓ ĐỘ HỮU ÍCH TRUNG BÌNH CAO NHẠY CẢM

TRONG CƠ SỞ DỮ LIỆU GIAO TÁC

Chuyên ngành: Hệ Thống thông tin

Mã số: 8.48.01.04

TÓM TẮT ĐỀ ÁN THẠC SĨ (Theo định hướng ứng dụng)

TP HỒ CHÍ MINH - NĂM 2023

Trang 2

Đề án tốt nghiệp được hoàn thành tại

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Người hướng dẫn khoa học: TS Nguyễn Khắc Chiến

Phản biện 1: ……… Phản biện 2: ………

Đề án tốt nghiệp sẽ được bảo vệ trước Hội đồng chấm đề

án tốt nghiệp thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông

Vào lúc: giờ ngày tháng năm

Có thể tìm hiểu đề án tốt nghiệp tại:

- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

Trang 3

MỞ ĐẦU

1 Lý do chọn đề tài

Bài toán khai thác tập mục có độ hữu ích cao trong cơ

sở dữ liệu (CSDL) giao tác đã trở thành một vấn đề quan trọng trong những thập kỷ gần đây Trong khai thác tập mục có độ hữu ích cao truyền thống, độ hữu ích của một tập mục được định nghĩa là tổng các hữu ích của các mục của nó, trong các giao tác mà nó xuất hiện Một vấn đề quan trọng với định nghĩa này là nó không tính đến độ dài của tập mục Bởi vì độ hữu ích của tập mục lớn thường lớn hơn độ hữu ích của tập mục nhỏ, thuật toán khai thác tập mục có độ hữu ích cao truyền thống có

xu hướng thiên về việc tìm kiếm một tập hợp các tập mục lớn

Vì vậy, định nghĩa này không phải là một phép đo hợp lý về độ hữu ích Để cung cấp một đánh giá tốt hơn về độ hữu ích của từng tập mục, bài toán khai thác tập mục độ hữu ích trung bình cao đã được đề xuất Nó giới thiệu phép đo độ hữu ích trung bình, xem xét cả độ dài của tập mục và độ hữu ích của chúng,

và do đó phù hợp hơn trong các tình huống thực tế

Khai thác tập mục có độ hữu ích trung bình cao (HAUIM) bao gồm phân tích CSDL giao tác định lượng của khách hàng để xác định các tập mục độ hữu ích trung bình cao,

đó là tập hợp các mục có độ hữu ích trung bình cao (ví dụ: Lợi nhuận) Nhiều thuật toán đã được thiết kế để nhận dạng cái mới, hữu ích và những mẫu bất ngờ trong dữ liệu, có thể giúp hiểu dữ liệu, hỗ trợ ra quyết định và cung cấp thông tin chi tiết

về sở thích của người dùng Tuy nhiên, một vấn đề chính là tri

Trang 4

thức được phát hiện bởi các kỹ thuật này cũng có thể tiết lộ thông tin riêng tư, nhạy cảm hoặc thông tin chiến lược như thông tin thẻ tín dụng, các mẫu mua hàng từ các cá nhân và số nhận dạng cá nhân

Tập mục hữu ích trung bình cao nhạy cảm là tập mục được sử dụng để hỗ trợ ra quyết định Thông tin này rất quan trọng đối với chủ sở hữu CSDL Nếu nó bị phát hiện bởi các đối thủ cạnh tranh, hoạt động kinh doanh của chủ sở hữu CSDL có thể bị ảnh hưởng Để đảm bảo rằng thông tin này được bảo toàn, tập mục hữu ích trung bình cao nhạy cảm phải được ẩn khỏi CSDL trước khi được chia sẻ ra bên ngoài

Vì thế, đề án sẽ tập chung nghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong CSDL giao tác nhầm giảm thiểu thời gian thực hiện và các hiệu ứng phụ

2 Tổng quan về vấn đề nghiên cứu

Bài toán ẩn các tập mục độ hữu ích trung bình cao nhạy cảm đang là chủ đề được nhiều nhà nghiên cứu quan tâm Mục tiêu của bài toán là bảo vệ các thông tin nhạy cảm không thể khai phá được bằng các phương pháp khai phá tập mục độ hữu ích trung bình cao với cùng một ngưỡng độ hữu ích tối thiểu do người dùng quy định Đồng thời, các phương pháp ẩn tập mục

có độ hữu ích trung bình cao nhạy cảm làm giảm thiểu các hiệu ứng phụ trên các thông tin không nhạy cảm và tính toàn vẹn của CSDL ban đầu Hiện đã có một số phương pháp ẩn hiệu quả để giải quyết vấn đề này, tuy nhiên những phương pháp này vẫn còn tạo ra các hiệu ứng phụ không mong muốn Kết quả thực nghiệm cho thấy thuật toán đề xuất hiệu quả hơn các thuật toán hiện có về thời gian thực hiện, tỷ lệ tương đồng về

Trang 5

cấu trúc dữ liệu, tỷ lệ tương đồng về giá trị hữu ích của CSDL

và tỷ lệ tương đồng về giá trị hữu ích trung bình của tập SHAUIs giữa CSDL gốc D và CSDL sửa đổi D'

3 Mục tiêu nghiên cứu của đề tài

Nghiên cứu các phương pháp ẩn tập mục có độ hữu ích trung bình cao nhạy cảm hiện có dựa trên các công trình đã công bố gần đây Từ đó chỉ ra những ưu điểm và hạn chế của

nó để đề xuất giải pháp hiệu quả hơn về mặt thời gian chạy cũng như các phép đo về mặt hiệu ứng phụ tạo ra bởi quá trình

ẩn

4 Đối tượng nghiên cứu

Các kỹ thuật khai thác tập mục có độ hữu ích trung bình cao trong CSDL giao tác

Các kỹ thuật ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong CSDL giao tác

5 Những nội dung chính yếu cần nghiên cứu

Nghiên cứu và tìm hiểu những công trình đã công bố liên quan đến khai thác tập mục có độ hữu ích trung bình cao (HAUI) Tìm hiểu những công trình liên quan bài toán ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong CSDL giao tác: Chỉ ra được những ưu điểm và hạn chế của nó, từ đó

đề xuất hướng nghiên cứu tiếp theo Tìm hiểu các thông số đánh giá tính hiệu quả của các phương pháp ẩn tập mục có độ hữu ích trung bình cao nhạy cảm trong CSDL giao tác Tiến hành cài đặt phương pháp ẩn tập mục có độ hữu ích trung bình cao nhạy cảm đề xuất để so sánh với các phương pháp cùng loại khác Thực nghiệm trên các CSDL giao tác

Trang 6

CHƯƠNG 1: MỘT SỐ VẤN ĐỀ LIÊN QUAN

ĐẾN TẬP MỤC CÓ ĐỘ HỮU ÍCH

TRUNG BÌNH CAO

1.1 Các khái niệm liên quan đến khai thác tập mục có

độ hữu ích trung bình cao

1.1.1 Khai phá tri thức và khai thác dữ liệu

1.1.1.1 Các bước chính của quá trình khai phá dữ liệu

1.1.1.2 Kiến trúc một hệ thống khai phá dữ liệu

1.1.1.3 Ứng dụng của khai phá dữ liệu

1.1.2 Khai phá tập mục độ hữu ích trung bình cao

1.1.3 Ứng dụng khai thác tập mục độ hữu ích trung bình cao

1.1.4 Phương pháp khai phá tập mục hữu ích trung bình cao

1.2 Bài toán ẩn tập mục có độ hữu ích trung bình cao

Khi thực hiện khai phá tập phổ biến người ta đã bỏ qua giá trị độ hữu ích được gắn với mỗi mục Có những tập mục không phải là tập phổ biến nhưng lại có giá trị độ hữu ích cao hơn nhiều so với tập phổ biến Trong thực tế, việc khai phá các tập mục mang giá trị độ hữu ích cao là rất quan trọng và có ý nghĩa rất lớn trong đời sống xã hội Từ đó dẫn đến một hướng nghiên cứu mới trong khai phá dữ liệu, đó là khai phá tập mục

độ hữu ích cao

Cụ thể, một siêu thị kinh doanh hàng trăm mặt hàng từ nhiều nhà cung cấp khác nhau Họ bày bán các mặt hàng theo

Trang 7

từng khu vực, việc sắp xếp các mặt hàng phụ thuộc vào chiến lược kinh doanh, kích thích khách hàng Mỗi mặt hàng được bán sẽ đem lại một giá trị lợi nhuận được xác định là chênh lệch giữa giá bán và giá mua Theo đó, mỗi khách hàng vào siêu thị mua một vài mặt hàng với số lượng nhất định, tập hợp tất cả sản phẩm khách hàng mua sẽ đem lại một giá trị lợi nhuận cho siêu thị, được gọi là một giao tác Tất cả các giao tác

sẽ được siêu thị lưu trữ lại và tạo ra một CSDL giao tác Người quản lý siêu thị muốn tập hợp tất cả sản phẩm mà khách hàng

đã mua đem lại lợi nhuận cho siêu thị (ví dụ: 30% tổng lợi nhuận), từ đó đưa ra các chiến lược kinh doanh, tiếp thị hoặc sắp xếp các mặt hàng cạnh nhau và đưa ra các chương trình khuyến mãi, khuyến khích khách hàng mua sản phẩm này thì

sẽ mua thêm một sản phẩm khác trong các sản phẩm đã tìm ra

Bài toán khai phá tập mục độ hữu ích cao đã được nhóm tác giả R.C Chan, và cộng sự đề xuất vào năm 2003 [13] Cùng với sự phát triển của nền kinh tế, nhu cầu tính toán doanh thu, hiệu quả kinh doanh theo thời gian thực với lượng

dữ liệu lớn ngày càng trở nên cấp thiết

Khai phá tập mục độ hữu ích cao là bài toán mở rộng và tổng quát của khai phá tập phổ biến Trong khai phá tập mục

độ hữu ích cao, giá trị của mục trong giao tác được quan tâm nhiều nhất (như số lượng đã bán của mặt hàng), ngoài ra còn có bảng lợi nhuận cho biết độ hữu ích mang lại khi bán mặt hàng

đó Độ hữu ích của tập mục là số đo lợi nhuận của tập mục đóng góp trong CSDL, nó có thể là tổng lợi nhuận hay tổng chi phí của tập mục

Trang 8

Một trong những lý do của khai phá tập mục độ hữu ích cao là khám phá ra tất cả các tập mục có độ hữu ích không nhỏ hơn ngưỡng độ hữu ích tối thiếu do người dùng quy định Từ

đó xác định được các tập mục độ hữu ích cao, các tập mục độ hữu ích cao nhạy cảm Sau đó xây dựng các phương pháp bảo

vệ các dữ liệu nhạy cảm, làm hạn chế các thông tin nhạy cảm

bị lộ ra ngoài, nhất là trong kinh doanh

Bài toán Khai phá tập mục độ hữu ích cao được sử dụng trên CSDL giao tác Đề án này sử dụng CSDL giao tác D như sau

Bảng 1.6: Tập mục hữu ích trung bình cao HAUIs

Trang 9

xi trong giao tác Tq kết hợp với một trọng số ký hiệu là q(xi, Tq)

Cho CSDL giao tác gồm 10 giao tác từ T1 đến T10 Trong đó a, b, c, d, là các item (giả sử là các mặt hàng) và các giá trị gắn với các item là số lượng của từng mặt hàng (Bảng 1.4) Giá trị lợi nhuận thu được khi bán item tương ứng (Bảng 1.5) Tập mục độ hữu ích trung bình cao thu được (Bảng 1.6)

Đề án sử dụng một số định nghĩa như sau

Trang 10

Định nghĩa 1.1: Độ hữu ích trung bình của một mục ij

trong giao tác Tq được ký hiệu: au(ij,Tq) =

Ví dụ: au(a,T1) = = = 12

Định nghĩa 1.2: Độ hữu ích trung bình của k-itemset X

trong giao tác Tq được ký hiệu:

au(X,Tq) =

Định nghĩa 1.3: Độ hữu ích trung bình của tập mục X

trong CSDL giao tác D, được ký hiệu:

Ví dụ: au(bd) = au(bd,T3) + au(bd,T8) + au(bd,T9) = 7 + 3 + 14 = 24

Định nghĩa 1.4: Một tập mục X được gọi là tập mục

hữu ích trung bình cao trong CSDL D nếu giá trị hữu ích trung bình của X không nhỏ hơn ngưỡng độ hữu ích trung bình tối

thiểu 𝛽 cho trước

số thuật toán khai thác cũng đã được đề xuất để khai thác các tập mục hữu ích trung bình cao (HAUI) từ CSDL giao tác

Trang 11

Hiện có nhiều công trình nghiên cứu đề xuất ra các thuật toán khai phá tập mục độ hữu ích trung bình cao hiệu quả Năm 2011, Hong và cộng sự [1] đã đề xuất thuật toán TPAU, đây là thuật toán khai thác HAUI đầu tiên, về bản chất

là hai pha TPAU xác định giới hạn trên được gọi là giới hạn trên độ hữu ích trung bình (AUUB) để duy trì tính chất downward closure Nếu giá trị AUUB của một tập mục không thỏa ngưỡng độ hữu ích trung bình tối thiểu, thì tập mục đó và tất cả các tập cha (supersets) của nó không thể là HAUI TPAU thực hiện tìm kiếm theo cấp độ đòi hỏi thời gian chạy dài Một giải pháp khác, năm 2012, Lan và cộng sự [5] đã đề xuất thuật toán PBAU phát triển một kỹ thuật dựa trên phép chiếu và cấu trúc lập chỉ mục để tăng tốc quá trình khai thác HAUI Ngoài PBAU, Lan và cộng sự [4] đã trình bày một giới hạn trên chặt chẽ hơn dựa trên khái niệm tiền tố để giảm số lượng tập mục ứng viên Năm 2014, Tien Lu và cộng sự [12] đã đề xuất một thuật toán HAUI dựa trên cây sử dụng cây HAUI và một cấu trúc mới cho các tập mục để tăng tốc độ tính toán

Năm 2010, Lin và cộng sự [7] đã đề xuất thuật toán HAUI-growth khai thác HAUI dựa trên cây khác để tránh quét CSDL nhiều lần Sau đó, năm 2016 Lin và cộng sự [8] đã đề xuất thuật toán HAUI-Miner một pha hiệu quả được trình bày kết hợp cấu trúc danh sách có tên là danh sách độ hữu ích trung bình (AU) để khai thác HAUI Nó áp dụng mô hình AUUB để loại bỏ các ứng viên yếu khỏi không gian tìm kiếm Ngoài ra, năm 2017, Lin và cộng sự [10] tiếp tục đề xuất thuật toán EHAUPM, thuật toán này bổ sung hai giới hạn trên chặt chẽ

Trang 12

hơn có tên là Tiện ích giới hạn trên lỏng lẻo hơn (Looser Upper-Bound Utility - LUB) và Giới hạn trên chặt chẽ hơn được sửa đổi (Revised Tighter Upper Bound - RTUB) để loại

bỏ đáng kể các tập mục ứng viên không tiềm năng Trong khi

đó, năm 2017 Yun và cộng sự [21] đã đề xuất thuật toán MHAI

đã đưa ra một cấu trúc danh sách mới HAI-list và nhiều chiến lược cắt tỉa để thúc đẩy quá trình khai thác HAUI Một số công trình nghiên cứu khác về vấn đề khai thác HAUI đã được thảo luận trong [11], [15], [16], [19]

1.4 Kết luận Chương 1

Bài toán khai phá tập mục độ hữu ích trung bình cao đã tìm ra các giá trị hữu ích dựa trên ngưỡng tối thiểu do người dùng đặt ra Trong kinh doanh dữ liệu cần được chia sẻ giữa các tổ chức khác nhau để cùng có lợi trong hợp tác kinh doanh Tuy nhiên, việc chia sẻ dữ liệu mang lại nhiều rủi ro để lộ ra một số tập mục hữu ích trung bình cao này có liên quan đến vấn đề nhạy cảm, vì vậy trước khi chia sẻ dữ liệu ra bên ngoài thì cần phải ẩn các tập mục nhạy cảm đi Để giải quyết vấn đề

đó, bài toán ẩn tập mục có độ hữu ích trung bình cao nhạy cảm

được đề xuất

Trang 13

CHƯƠNG 2: PHƯƠNG PHÁP ẨN TẬP MỤC CÓ ĐỘ HỮU ÍCH

TRUNG BÌNH CAO NHẠY CẢM

2.1 Phương pháp khai thác tập mục có độ hữu ích trung bình cao nhạy cảm

Bảo vệ tính riêng tư trong khai phá tập mục hữu ích trung bình cao (PPAUIM) có mục đích che giấu đi các thông tin riêng tư/nhạy cảm ẩn chứa trong CSDL sao cho chúng không thể được khai thác bởi các thuật toán khai phá tập mục hữu ích trung bình cao (HAUIM) khi chia sẻ CSDL ra bên ngoài Có nhiều phương pháp tiếp cận để giải quyết vấn đề này, trong đó phương pháp phổ biến nhất hiện nay là sử dụng kỹ thuật sửa đổi một số mục dữ liệu tại một số giao tác của CSDL gốc để tạo ra một bản sao CSDL sao cho các thông tin riêng tư/nhạy cảm không thể khai thác được từ bản sao CSDL Việc sửa đổi các mục dữ liệu có thể gây ra các hiệu ứng phụ đối với bản sao CSDL như: Làm mất đi các mục không nhạy cảm hoặc sinh ra các mục dữ liệu mới, làm thay đổi về cấu trúc của CSDL gốc

Trong đề án này sử dụng một số định nghĩa sau được tham khảo trong công trình [2], [15], [17]

Cho các tập mục có độ hữu ích trung bình cao nhạy cảm cần phải ẩn, ký hiệu là SHAUI = {S1, S2, …, Sm}, trong đó

Si ∈ SHAUI, (1 ≤ d ≤ m) Bài toán ẩn tập mục độ hữu ích trung bình cao nhạy cảm là việc sửa đổi CSDL D ban đầu thành

Trang 14

CSDL D’ sao cho độ hữu ích của tất cả tập mục nhạy cảm Si ∈ SHAUI phải nhỏ hơn ngưỡng độ hữu ích tối thiểu do người dùng đặt ra

Định nghĩa 2.1 (Tập mục hữu ích trung bình cao nhạy cảm): Một tập mục Si ∈ HAUIs được xác định là tập mục

mà chủ sở hữu CSDL không muốn bị khai thác bởi các thuật toán HAUIM khi CSDL được chia sẻ hoặc công bố ra bên ngoài, khi đó tập mục Si được gọi là tập mục hữu ích trung bình

cao nhạy cảm Gọi SHAUIs là tập gồm các tập mục hữu ích

trung bình cao nhạy cảm thì: SHAUIs = {Si|Si ∈ HAUIs}

Định nghĩa 2.2: Ẩn tập các tập mục SHAUIs là quá

trình sửa đổi CSDL gốc D trở thành CSDL sửa đổi D’ (để chia

sẻ hoặc công bố ra bên ngoài), sao cho chỉ duy nhất các tập mục hữu ích trung bình cao không nhạy cảm có thể được khai phá từ CSDL D’ bởi các thuật toán HAUIM

Định nghĩa 2.3 (Mục mục tiêu): Mục mục tiêu (xvic) là mục thuộc tập mục hữu ích trung bình cao nhạy cảm Si cần ẩn, sao cho khi giảm giá trị hữu ích nội của mục xvic tại giao tác hỗ trợ tập mục Si sẽ giảm thiểu được hiệu ứng phụ của quá trình sửa đổi này gây ra trên CSDL

Định nghĩa 2.4 (Giao tác mục tiêu): Giao tác mục tiêu

(Tvic) là giao tác mà khi giảm giá trị hữu ích nội của mục xvictại giao tác Tvic sẽ giảm thiểu được hiệu ứng phụ của quá trình sửa đổi này gây ra trên CSDL

Quá trình sửa đổi dữ liệu của bài toán ẩn các tập mục

độ hữu ích trung bình cao nhạy cảm gồm ba bước sau

Trang 15

Bước 1: Áp dụng các thuật toán khai phá độ hữu ích trung bình cao trên CSDL giao tác D để có được tất cả các tập mục độ hữu ích trung bình cao (HAUIs);

Bước 2: Xác định tập hợp các tập mục nhạy cảm (các tập mục độ hữu ích trung bình cao nhạy cảm) SHAUIs dựa trên các yêu cầu của người dùng;

Bước 3: Áp dụng thuật toán ẩn các tập mục độ hữu ích trung bình cao nhạy cảm để tạo ra CSDL được sửa đổi D’

2.2 Tác dụng phụ

Các tiêu chí đánh giá tiêu chuẩn của PPDM như hiding failure (HF), missing cost (MC) và artiﬁcial cost (AC) được sử dụng để đánh giá hiệu suất của các thuật toán được đề xuất Ngoài ra, do các thuật toán được sử dụng trong PPUM có các cân nhắc khác nhau so với các thuật toán được sử dụng trong PPDM, nên ba biện pháp tương tự mới là DSS (Database Structure Similarity là tỷ lệ tương

đồng về cấu trúc của CSDL sửa đổi D’ so với CSDL gốc D),

DUS (Database Utility Similarity là tỷ lệ tương đồng về hữu ích giữa CSDL D’ với CSDL D), và IUS (Itemsets Utility Similarity là tỷ lệ tương đồng về hữu ích trung bình của tập

các HAUIs trong CSDL sửa đổi D’ (HAUIs’) so với tập các HAUIs trong CSDL gốc D (HAUIs)) được giới thiệu như là

tiêu chí mới để đánh giá hiệu suất của các thuật toán đã phát triển cho PPUM

Định nghĩa 2.8 (DSS - Database Structure Similarity):

DSS là tỷ lệ tương đồng về cấu trúc của CSDL sửa đổi D’ so

với CSDL gốc D DSS chỉ xem xét liệu các mục hoặc tập

Trang 16

mục có mặt hay không trong các giao tác Dựa trên tiêu chí này, nó đánh giá mức độ tương tự giữa CSDL gốc và CSDL

đã được làm sạch Được xác định như sau:

DSS =

trong đó và lần lượt là mẫu giao tác thứ k trong

CSDL D và D’ 𝑓𝑟𝑒𝑞( ) và 𝑓𝑟𝑒𝑞( ) lần lượt là độ phổ

biến của mẫu giao tác thứ k trong CSDL D và D’

Định nghĩa 2.9 (DUS - Database utility similarity):

DUS là tỷ lệ tương đồng về hữu ích giữa CSDL D’ với CSDL

D DUS được sử dụng để đo lượng tổn thất hữu ích trong

toàn bộ tập dữ liệu Biện pháp này có thể được sử dụng để tiết lộ lượng hữu ích đã bị loại bỏ (tổn thất hữu ích) do quá trình làm sạch, đây là tiêu chí phù hợp cho PPUM Độ tương đồng của hữu ích CSDL cao hơn cho thấy ít thông tin

bị mất hơn trong quá trình làm sạch Được xác định như sau:

DUS =

với tu(Tc) là hữu ích của giao tác Tc và được định nghĩa: tu(T𝑐)

= ∑x𝑖∈Tc 𝑢(𝑥𝑖,𝑇𝑐)

Định nghĩa 2.10 (IUS - Itemsets Utility Similarity):

IUS là tỷ lệ tương đồng về hữu ích trung bình của tập các HAUIs trong CSDL sửa đổi D’ (HAUIs’) so với tập các HAUIs trong CSDL gốc D (HAUIs) Tiêu chí này tương tự như MC (Mising cost) nhưng cung cấp đánh giá thực tế hơn cho PPUM, đặc biệt khi khoảng cách giữa các hữu ích của

Trang 17

các HUIs được phát hiện và ngưỡng hữu ích tối thiểu là lớn Được xác định như sau:

Thuật toán EHSHA-UI

Chiến lược ẩn các tập mục độ hữu ích trung bình cao nhạy cảm trong CSDL giao tác là sửa đổi CSDL D bằng cách giảm số lượng hoặc xoá một số mục trong CSDL sao cho độ hữu ích trung bình cao của tập mục nhạy cảm giảm xuống dưới ngưỡng độ hữu ích trung bình tối thiểu

Thuật toán [18] được viết dưới dạng mã giả và thực hiện như sau:

- Đầu vào: CSDL gốc D là CSDL sẽ khai thác được các tập

mục hữu ích trung bình cao nhạy cảm; tập các tập mục SHAUIs là các tập mục hữu ích trung bình cao nhạy cảm được khai thác từ CSDL D cần được ẩn; ngưỡng hữu ích trung bình tối thiểu 𝛽

- Thực hiện ẩn lần lượt các tập mục hữu ích trung bình cao nhạy cảm S i ∈ SHAUIs

- Đầu ra: CSDL sửa đổi D’ là CSDL đã được sửa đổi sao cho

tập SHAUIs không thể khai thác được bởi các thuật toán HAUIM với ngưỡng hữu ích trung bình 𝛽

Trang 18

4 while ((d ≥ 0) do //lặp quá trình sửa dữ liệu

7 q(xvic,Tvic) = q(xvic,Tvic) - k;

8 d = -1; //kết thúc sửa dữ liệu vì Si đã được

ẩn

10 Quét tập ST để tìm Tvic sao cho au(Si,Tvic)

đạt cực đại;

11 Tìm xvic ∈ Si, sao cho xvic ít phổ biến nhất

trong tập {X ∈ nonHAUIs|X ⊆ Tvic};

12 Cập nhật lại d = d - au(Si,Tvic);

13 q(xvic, Tvic) = 0; //Xoá xvic ra khỏi Tvic;

14 Loại Tvic ra khỏi ST;

16 Return D’;

17 }

Trang 19

Ví dụ minh họa: Chạy thử thuật toán trên với CSDL

trong Bảng 1.4, Bảng 1.5 và Bảng 1.6, với tập mục nhạy cảm SHAUIs = {bf, ab, a} và ngưỡng độ hữu ích trung bình tối thiểu 𝛽 = 15 => S1 = S1 = {bf}, S2 = {ab}, S3 = {a}

o Dòng 6: Không có cặp pair thoả điều kiện

o Dòng 10: Quét qua ST tìm Tvic

au(S1,T1) = 2 au(S1,T3) = 3.5 au(S1,T6) = 2.5 au(S1,T9) = 4.5 au(S1,T10) = 5.5

Có au(S1,T10) = 5.5 lớn nhất, chọn T10 làm Tvic

o Dòng 11: Tìm xvic

Tập mục b xuất hiện 2 lần

Trang 20

Tập mục f xuất hiện 2 lần

=> Chọn ngẩu nhiên b làm xvic

o Dòng 12: Cập nhật lại d = d – au(S1,T10) = 3 – 5.5 = 2.5 < 0

-o Dòng 13: X-oá xvic khỏi Tvic

o Dòng 14: Xoá Tvic khỏi ST

Bảng 2.3: Tập mục hữu ích trung bình cao

HID Itemsets Utility TIDs

Trang 21

o Dòng 6: Không có cặp pair thoả điều kiện

o Dòng 10: Quét qua ST tìm Tvic

au(S2,T1) = 7 au(S2,T3) = 7 au(S2,T4) = 8

Có au(S2,T4) = 8 lớn nhất, chọn T4 làm Tvic

o Dòng 11: Tìm xvic

Trang 22

Tập mục a xuất hiện 2 lần Tập mục b xuất hiện 2 lần

=> Chọn ngẩu nhiên a làm xvic

o Dòng 12: Cập nhật lại d = d – au(S2,T4) = 7 – 8 = -1 >

0

o Dòng 13: Xoá xvic khỏi Tvic

o Dòng 14: Xoá Tvic khỏi ST

Bảng 2.6: Tập mục hữu ích trung bình cao

HID Itemsets Utility TIDs

Tiêu đề	Nghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tác
Tác giả	Tô Phú Khương
Người hướng dẫn	TS. Nguyễn Khắc Chiến
Trường học	Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành	Hệ Thống thông tin
Thể loại	Đề án tốt nghiệp thạc sĩ
Năm xuất bản	2023
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	47
Dung lượng	835,49 KB