Nghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tácNghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tác
Trang 1-
Tô Phú Khương
NGHIÊN CỨU PHƯƠNG PHÁP ẨN CÁC TẬP MỤC
CÓ ĐỘ HỮU ÍCH TRUNG BÌNH CAO NHẠY CẢM
TRONG CƠ SỞ DỮ LIỆU GIAO TÁC
Chuyên ngành: Hệ Thống thông tin
Mã số: 8.48.01.04
TÓM TẮT ĐỀ ÁN THẠC SĨ (Theo định hướng ứng dụng)
TP HỒ CHÍ MINH - NĂM 2023
Trang 2Đề án tốt nghiệp được hoàn thành tại
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: TS Nguyễn Khắc Chiến
Phản biện 1: ……… Phản biện 2: ………
Đề án tốt nghiệp sẽ được bảo vệ trước Hội đồng chấm đề
án tốt nghiệp thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông
Vào lúc: giờ ngày tháng năm
Có thể tìm hiểu đề án tốt nghiệp tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
Trang 3MỞ ĐẦU
1 Lý do chọn đề tài
Bài toán khai thác tập mục có độ hữu ích cao trong cơ
sở dữ liệu (CSDL) giao tác đã trở thành một vấn đề quan trọng trong những thập kỷ gần đây Trong khai thác tập mục có độ hữu ích cao truyền thống, độ hữu ích của một tập mục được định nghĩa là tổng các hữu ích của các mục của nó, trong các giao tác mà nó xuất hiện Một vấn đề quan trọng với định nghĩa này là nó không tính đến độ dài của tập mục Bởi vì độ hữu ích của tập mục lớn thường lớn hơn độ hữu ích của tập mục nhỏ, thuật toán khai thác tập mục có độ hữu ích cao truyền thống có
xu hướng thiên về việc tìm kiếm một tập hợp các tập mục lớn
Vì vậy, định nghĩa này không phải là một phép đo hợp lý về độ hữu ích Để cung cấp một đánh giá tốt hơn về độ hữu ích của từng tập mục, bài toán khai thác tập mục độ hữu ích trung bình cao đã được đề xuất Nó giới thiệu phép đo độ hữu ích trung bình, xem xét cả độ dài của tập mục và độ hữu ích của chúng,
và do đó phù hợp hơn trong các tình huống thực tế
Khai thác tập mục có độ hữu ích trung bình cao (HAUIM) bao gồm phân tích CSDL giao tác định lượng của khách hàng để xác định các tập mục độ hữu ích trung bình cao,
đó là tập hợp các mục có độ hữu ích trung bình cao (ví dụ: Lợi nhuận) Nhiều thuật toán đã được thiết kế để nhận dạng cái mới, hữu ích và những mẫu bất ngờ trong dữ liệu, có thể giúp hiểu dữ liệu, hỗ trợ ra quyết định và cung cấp thông tin chi tiết
về sở thích của người dùng Tuy nhiên, một vấn đề chính là tri
Trang 4thức được phát hiện bởi các kỹ thuật này cũng có thể tiết lộ thông tin riêng tư, nhạy cảm hoặc thông tin chiến lược như thông tin thẻ tín dụng, các mẫu mua hàng từ các cá nhân và số nhận dạng cá nhân
Tập mục hữu ích trung bình cao nhạy cảm là tập mục được sử dụng để hỗ trợ ra quyết định Thông tin này rất quan trọng đối với chủ sở hữu CSDL Nếu nó bị phát hiện bởi các đối thủ cạnh tranh, hoạt động kinh doanh của chủ sở hữu CSDL có thể bị ảnh hưởng Để đảm bảo rằng thông tin này được bảo toàn, tập mục hữu ích trung bình cao nhạy cảm phải được ẩn khỏi CSDL trước khi được chia sẻ ra bên ngoài
Vì thế, đề án sẽ tập chung nghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong CSDL giao tác nhầm giảm thiểu thời gian thực hiện và các hiệu ứng phụ
2 Tổng quan về vấn đề nghiên cứu
Bài toán ẩn các tập mục độ hữu ích trung bình cao nhạy cảm đang là chủ đề được nhiều nhà nghiên cứu quan tâm Mục tiêu của bài toán là bảo vệ các thông tin nhạy cảm không thể khai phá được bằng các phương pháp khai phá tập mục độ hữu ích trung bình cao với cùng một ngưỡng độ hữu ích tối thiểu do người dùng quy định Đồng thời, các phương pháp ẩn tập mục
có độ hữu ích trung bình cao nhạy cảm làm giảm thiểu các hiệu ứng phụ trên các thông tin không nhạy cảm và tính toàn vẹn của CSDL ban đầu Hiện đã có một số phương pháp ẩn hiệu quả để giải quyết vấn đề này, tuy nhiên những phương pháp này vẫn còn tạo ra các hiệu ứng phụ không mong muốn Kết quả thực nghiệm cho thấy thuật toán đề xuất hiệu quả hơn các thuật toán hiện có về thời gian thực hiện, tỷ lệ tương đồng về
Trang 5cấu trúc dữ liệu, tỷ lệ tương đồng về giá trị hữu ích của CSDL
và tỷ lệ tương đồng về giá trị hữu ích trung bình của tập SHAUIs giữa CSDL gốc D và CSDL sửa đổi D'
3 Mục tiêu nghiên cứu của đề tài
Nghiên cứu các phương pháp ẩn tập mục có độ hữu ích trung bình cao nhạy cảm hiện có dựa trên các công trình đã công bố gần đây Từ đó chỉ ra những ưu điểm và hạn chế của
nó để đề xuất giải pháp hiệu quả hơn về mặt thời gian chạy cũng như các phép đo về mặt hiệu ứng phụ tạo ra bởi quá trình
ẩn
4 Đối tượng nghiên cứu
Các kỹ thuật khai thác tập mục có độ hữu ích trung bình cao trong CSDL giao tác
Các kỹ thuật ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong CSDL giao tác
5 Những nội dung chính yếu cần nghiên cứu
Nghiên cứu và tìm hiểu những công trình đã công bố liên quan đến khai thác tập mục có độ hữu ích trung bình cao (HAUI) Tìm hiểu những công trình liên quan bài toán ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong CSDL giao tác: Chỉ ra được những ưu điểm và hạn chế của nó, từ đó
đề xuất hướng nghiên cứu tiếp theo Tìm hiểu các thông số đánh giá tính hiệu quả của các phương pháp ẩn tập mục có độ hữu ích trung bình cao nhạy cảm trong CSDL giao tác Tiến hành cài đặt phương pháp ẩn tập mục có độ hữu ích trung bình cao nhạy cảm đề xuất để so sánh với các phương pháp cùng loại khác Thực nghiệm trên các CSDL giao tác
Trang 6CHƯƠNG 1: MỘT SỐ VẤN ĐỀ LIÊN QUAN
ĐẾN TẬP MỤC CÓ ĐỘ HỮU ÍCH
TRUNG BÌNH CAO
1.1 Các khái niệm liên quan đến khai thác tập mục có
độ hữu ích trung bình cao
1.1.1 Khai phá tri thức và khai thác dữ liệu
1.1.1.1 Các bước chính của quá trình khai phá dữ liệu
1.1.1.2 Kiến trúc một hệ thống khai phá dữ liệu
1.1.1.3 Ứng dụng của khai phá dữ liệu
1.1.2 Khai phá tập mục độ hữu ích trung bình cao
1.1.3 Ứng dụng khai thác tập mục độ hữu ích trung bình cao
1.1.4 Phương pháp khai phá tập mục hữu ích trung bình cao
1.2 Bài toán ẩn tập mục có độ hữu ích trung bình cao
Khi thực hiện khai phá tập phổ biến người ta đã bỏ qua giá trị độ hữu ích được gắn với mỗi mục Có những tập mục không phải là tập phổ biến nhưng lại có giá trị độ hữu ích cao hơn nhiều so với tập phổ biến Trong thực tế, việc khai phá các tập mục mang giá trị độ hữu ích cao là rất quan trọng và có ý nghĩa rất lớn trong đời sống xã hội Từ đó dẫn đến một hướng nghiên cứu mới trong khai phá dữ liệu, đó là khai phá tập mục
độ hữu ích cao
Cụ thể, một siêu thị kinh doanh hàng trăm mặt hàng từ nhiều nhà cung cấp khác nhau Họ bày bán các mặt hàng theo
Trang 7từng khu vực, việc sắp xếp các mặt hàng phụ thuộc vào chiến lược kinh doanh, kích thích khách hàng Mỗi mặt hàng được bán sẽ đem lại một giá trị lợi nhuận được xác định là chênh lệch giữa giá bán và giá mua Theo đó, mỗi khách hàng vào siêu thị mua một vài mặt hàng với số lượng nhất định, tập hợp tất cả sản phẩm khách hàng mua sẽ đem lại một giá trị lợi nhuận cho siêu thị, được gọi là một giao tác Tất cả các giao tác
sẽ được siêu thị lưu trữ lại và tạo ra một CSDL giao tác Người quản lý siêu thị muốn tập hợp tất cả sản phẩm mà khách hàng
đã mua đem lại lợi nhuận cho siêu thị (ví dụ: 30% tổng lợi nhuận), từ đó đưa ra các chiến lược kinh doanh, tiếp thị hoặc sắp xếp các mặt hàng cạnh nhau và đưa ra các chương trình khuyến mãi, khuyến khích khách hàng mua sản phẩm này thì
sẽ mua thêm một sản phẩm khác trong các sản phẩm đã tìm ra
Bài toán khai phá tập mục độ hữu ích cao đã được nhóm tác giả R.C Chan, và cộng sự đề xuất vào năm 2003 [13] Cùng với sự phát triển của nền kinh tế, nhu cầu tính toán doanh thu, hiệu quả kinh doanh theo thời gian thực với lượng
dữ liệu lớn ngày càng trở nên cấp thiết
Khai phá tập mục độ hữu ích cao là bài toán mở rộng và tổng quát của khai phá tập phổ biến Trong khai phá tập mục
độ hữu ích cao, giá trị của mục trong giao tác được quan tâm nhiều nhất (như số lượng đã bán của mặt hàng), ngoài ra còn có bảng lợi nhuận cho biết độ hữu ích mang lại khi bán mặt hàng
đó Độ hữu ích của tập mục là số đo lợi nhuận của tập mục đóng góp trong CSDL, nó có thể là tổng lợi nhuận hay tổng chi phí của tập mục
Trang 8Một trong những lý do của khai phá tập mục độ hữu ích cao là khám phá ra tất cả các tập mục có độ hữu ích không nhỏ hơn ngưỡng độ hữu ích tối thiếu do người dùng quy định Từ
đó xác định được các tập mục độ hữu ích cao, các tập mục độ hữu ích cao nhạy cảm Sau đó xây dựng các phương pháp bảo
vệ các dữ liệu nhạy cảm, làm hạn chế các thông tin nhạy cảm
bị lộ ra ngoài, nhất là trong kinh doanh
Bài toán Khai phá tập mục độ hữu ích cao được sử dụng trên CSDL giao tác Đề án này sử dụng CSDL giao tác D như sau
Bảng 1.6: Tập mục hữu ích trung bình cao HAUIs
Trang 9xi trong giao tác Tq kết hợp với một trọng số ký hiệu là q(xi, Tq)
Cho CSDL giao tác gồm 10 giao tác từ T1 đến T10 Trong đó a, b, c, d, là các item (giả sử là các mặt hàng) và các giá trị gắn với các item là số lượng của từng mặt hàng (Bảng 1.4) Giá trị lợi nhuận thu được khi bán item tương ứng (Bảng 1.5) Tập mục độ hữu ích trung bình cao thu được (Bảng 1.6)
Đề án sử dụng một số định nghĩa như sau
Trang 10Định nghĩa 1.1: Độ hữu ích trung bình của một mục ij
trong giao tác Tq được ký hiệu: au(ij,Tq) =
Ví dụ: au(a,T1) = = = 12
Định nghĩa 1.2: Độ hữu ích trung bình của k-itemset X
trong giao tác Tq được ký hiệu:
au(X,Tq) =
Định nghĩa 1.3: Độ hữu ích trung bình của tập mục X
trong CSDL giao tác D, được ký hiệu:
Ví dụ: au(bd) = au(bd,T3) + au(bd,T8) + au(bd,T9) = 7 + 3 + 14 = 24
Định nghĩa 1.4: Một tập mục X được gọi là tập mục
hữu ích trung bình cao trong CSDL D nếu giá trị hữu ích trung bình của X không nhỏ hơn ngưỡng độ hữu ích trung bình tối
thiểu 𝛽 cho trước
số thuật toán khai thác cũng đã được đề xuất để khai thác các tập mục hữu ích trung bình cao (HAUI) từ CSDL giao tác
Trang 11Hiện có nhiều công trình nghiên cứu đề xuất ra các thuật toán khai phá tập mục độ hữu ích trung bình cao hiệu quả Năm 2011, Hong và cộng sự [1] đã đề xuất thuật toán TPAU, đây là thuật toán khai thác HAUI đầu tiên, về bản chất
là hai pha TPAU xác định giới hạn trên được gọi là giới hạn trên độ hữu ích trung bình (AUUB) để duy trì tính chất downward closure Nếu giá trị AUUB của một tập mục không thỏa ngưỡng độ hữu ích trung bình tối thiểu, thì tập mục đó và tất cả các tập cha (supersets) của nó không thể là HAUI TPAU thực hiện tìm kiếm theo cấp độ đòi hỏi thời gian chạy dài Một giải pháp khác, năm 2012, Lan và cộng sự [5] đã đề xuất thuật toán PBAU phát triển một kỹ thuật dựa trên phép chiếu và cấu trúc lập chỉ mục để tăng tốc quá trình khai thác HAUI Ngoài PBAU, Lan và cộng sự [4] đã trình bày một giới hạn trên chặt chẽ hơn dựa trên khái niệm tiền tố để giảm số lượng tập mục ứng viên Năm 2014, Tien Lu và cộng sự [12] đã đề xuất một thuật toán HAUI dựa trên cây sử dụng cây HAUI và một cấu trúc mới cho các tập mục để tăng tốc độ tính toán
Năm 2010, Lin và cộng sự [7] đã đề xuất thuật toán HAUI-growth khai thác HAUI dựa trên cây khác để tránh quét CSDL nhiều lần Sau đó, năm 2016 Lin và cộng sự [8] đã đề xuất thuật toán HAUI-Miner một pha hiệu quả được trình bày kết hợp cấu trúc danh sách có tên là danh sách độ hữu ích trung bình (AU) để khai thác HAUI Nó áp dụng mô hình AUUB để loại bỏ các ứng viên yếu khỏi không gian tìm kiếm Ngoài ra, năm 2017, Lin và cộng sự [10] tiếp tục đề xuất thuật toán EHAUPM, thuật toán này bổ sung hai giới hạn trên chặt chẽ
Trang 12hơn có tên là Tiện ích giới hạn trên lỏng lẻo hơn (Looser Upper-Bound Utility - LUB) và Giới hạn trên chặt chẽ hơn được sửa đổi (Revised Tighter Upper Bound - RTUB) để loại
bỏ đáng kể các tập mục ứng viên không tiềm năng Trong khi
đó, năm 2017 Yun và cộng sự [21] đã đề xuất thuật toán MHAI
đã đưa ra một cấu trúc danh sách mới HAI-list và nhiều chiến lược cắt tỉa để thúc đẩy quá trình khai thác HAUI Một số công trình nghiên cứu khác về vấn đề khai thác HAUI đã được thảo luận trong [11], [15], [16], [19]
1.4 Kết luận Chương 1
Bài toán khai phá tập mục độ hữu ích trung bình cao đã tìm ra các giá trị hữu ích dựa trên ngưỡng tối thiểu do người dùng đặt ra Trong kinh doanh dữ liệu cần được chia sẻ giữa các tổ chức khác nhau để cùng có lợi trong hợp tác kinh doanh Tuy nhiên, việc chia sẻ dữ liệu mang lại nhiều rủi ro để lộ ra một số tập mục hữu ích trung bình cao này có liên quan đến vấn đề nhạy cảm, vì vậy trước khi chia sẻ dữ liệu ra bên ngoài thì cần phải ẩn các tập mục nhạy cảm đi Để giải quyết vấn đề
đó, bài toán ẩn tập mục có độ hữu ích trung bình cao nhạy cảm
được đề xuất
Trang 13CHƯƠNG 2: PHƯƠNG PHÁP ẨN TẬP MỤC CÓ ĐỘ HỮU ÍCH
TRUNG BÌNH CAO NHẠY CẢM
2.1 Phương pháp khai thác tập mục có độ hữu ích trung bình cao nhạy cảm
Bảo vệ tính riêng tư trong khai phá tập mục hữu ích trung bình cao (PPAUIM) có mục đích che giấu đi các thông tin riêng tư/nhạy cảm ẩn chứa trong CSDL sao cho chúng không thể được khai thác bởi các thuật toán khai phá tập mục hữu ích trung bình cao (HAUIM) khi chia sẻ CSDL ra bên ngoài Có nhiều phương pháp tiếp cận để giải quyết vấn đề này, trong đó phương pháp phổ biến nhất hiện nay là sử dụng kỹ thuật sửa đổi một số mục dữ liệu tại một số giao tác của CSDL gốc để tạo ra một bản sao CSDL sao cho các thông tin riêng tư/nhạy cảm không thể khai thác được từ bản sao CSDL Việc sửa đổi các mục dữ liệu có thể gây ra các hiệu ứng phụ đối với bản sao CSDL như: Làm mất đi các mục không nhạy cảm hoặc sinh ra các mục dữ liệu mới, làm thay đổi về cấu trúc của CSDL gốc
Trong đề án này sử dụng một số định nghĩa sau được tham khảo trong công trình [2], [15], [17]
Cho các tập mục có độ hữu ích trung bình cao nhạy cảm cần phải ẩn, ký hiệu là SHAUI = {S1, S2, …, Sm}, trong đó
Si ∈ SHAUI, (1 ≤ d ≤ m) Bài toán ẩn tập mục độ hữu ích trung bình cao nhạy cảm là việc sửa đổi CSDL D ban đầu thành
Trang 14CSDL D’ sao cho độ hữu ích của tất cả tập mục nhạy cảm Si ∈ SHAUI phải nhỏ hơn ngưỡng độ hữu ích tối thiểu do người dùng đặt ra
Định nghĩa 2.1 (Tập mục hữu ích trung bình cao nhạy cảm): Một tập mục Si ∈ HAUIs được xác định là tập mục
mà chủ sở hữu CSDL không muốn bị khai thác bởi các thuật toán HAUIM khi CSDL được chia sẻ hoặc công bố ra bên ngoài, khi đó tập mục Si được gọi là tập mục hữu ích trung bình
cao nhạy cảm Gọi SHAUIs là tập gồm các tập mục hữu ích
trung bình cao nhạy cảm thì: SHAUIs = {Si|Si ∈ HAUIs}
Định nghĩa 2.2: Ẩn tập các tập mục SHAUIs là quá
trình sửa đổi CSDL gốc D trở thành CSDL sửa đổi D’ (để chia
sẻ hoặc công bố ra bên ngoài), sao cho chỉ duy nhất các tập mục hữu ích trung bình cao không nhạy cảm có thể được khai phá từ CSDL D’ bởi các thuật toán HAUIM
Định nghĩa 2.3 (Mục mục tiêu): Mục mục tiêu (xvic) là mục thuộc tập mục hữu ích trung bình cao nhạy cảm Si cần ẩn, sao cho khi giảm giá trị hữu ích nội của mục xvic tại giao tác hỗ trợ tập mục Si sẽ giảm thiểu được hiệu ứng phụ của quá trình sửa đổi này gây ra trên CSDL
Định nghĩa 2.4 (Giao tác mục tiêu): Giao tác mục tiêu
(Tvic) là giao tác mà khi giảm giá trị hữu ích nội của mục xvictại giao tác Tvic sẽ giảm thiểu được hiệu ứng phụ của quá trình sửa đổi này gây ra trên CSDL
Quá trình sửa đổi dữ liệu của bài toán ẩn các tập mục
độ hữu ích trung bình cao nhạy cảm gồm ba bước sau
Trang 15Bước 1: Áp dụng các thuật toán khai phá độ hữu ích trung bình cao trên CSDL giao tác D để có được tất cả các tập mục độ hữu ích trung bình cao (HAUIs);
Bước 2: Xác định tập hợp các tập mục nhạy cảm (các tập mục độ hữu ích trung bình cao nhạy cảm) SHAUIs dựa trên các yêu cầu của người dùng;
Bước 3: Áp dụng thuật toán ẩn các tập mục độ hữu ích trung bình cao nhạy cảm để tạo ra CSDL được sửa đổi D’
2.2 Tác dụng phụ
Các tiêu chí đánh giá tiêu chuẩn của PPDM như hiding failure (HF), missing cost (MC) và artificial cost (AC) được sử dụng để đánh giá hiệu suất của các thuật toán được đề xuất Ngoài ra, do các thuật toán được sử dụng trong PPUM có các cân nhắc khác nhau so với các thuật toán được sử dụng trong PPDM, nên ba biện pháp tương tự mới là DSS (Database Structure Similarity là tỷ lệ tương
đồng về cấu trúc của CSDL sửa đổi D’ so với CSDL gốc D),
DUS (Database Utility Similarity là tỷ lệ tương đồng về hữu ích giữa CSDL D’ với CSDL D), và IUS (Itemsets Utility Similarity là tỷ lệ tương đồng về hữu ích trung bình của tập
các HAUIs trong CSDL sửa đổi D’ (HAUIs’) so với tập các HAUIs trong CSDL gốc D (HAUIs)) được giới thiệu như là
tiêu chí mới để đánh giá hiệu suất của các thuật toán đã phát triển cho PPUM
Định nghĩa 2.8 (DSS - Database Structure Similarity):
DSS là tỷ lệ tương đồng về cấu trúc của CSDL sửa đổi D’ so
với CSDL gốc D DSS chỉ xem xét liệu các mục hoặc tập
Trang 16mục có mặt hay không trong các giao tác Dựa trên tiêu chí này, nó đánh giá mức độ tương tự giữa CSDL gốc và CSDL
đã được làm sạch Được xác định như sau:
DSS =
trong đó và lần lượt là mẫu giao tác thứ k trong
CSDL D và D’ 𝑓𝑟𝑒𝑞( ) và 𝑓𝑟𝑒𝑞( ) lần lượt là độ phổ
biến của mẫu giao tác thứ k trong CSDL D và D’
Định nghĩa 2.9 (DUS - Database utility similarity):
DUS là tỷ lệ tương đồng về hữu ích giữa CSDL D’ với CSDL
D DUS được sử dụng để đo lượng tổn thất hữu ích trong
toàn bộ tập dữ liệu Biện pháp này có thể được sử dụng để tiết lộ lượng hữu ích đã bị loại bỏ (tổn thất hữu ích) do quá trình làm sạch, đây là tiêu chí phù hợp cho PPUM Độ tương đồng của hữu ích CSDL cao hơn cho thấy ít thông tin
bị mất hơn trong quá trình làm sạch Được xác định như sau:
DUS =
với tu(Tc) là hữu ích của giao tác Tc và được định nghĩa: tu(T𝑐)
= ∑x𝑖∈Tc 𝑢(𝑥𝑖,𝑇𝑐)
Định nghĩa 2.10 (IUS - Itemsets Utility Similarity):
IUS là tỷ lệ tương đồng về hữu ích trung bình của tập các HAUIs trong CSDL sửa đổi D’ (HAUIs’) so với tập các HAUIs trong CSDL gốc D (HAUIs) Tiêu chí này tương tự như MC (Mising cost) nhưng cung cấp đánh giá thực tế hơn cho PPUM, đặc biệt khi khoảng cách giữa các hữu ích của
Trang 17các HUIs được phát hiện và ngưỡng hữu ích tối thiểu là lớn Được xác định như sau:
Thuật toán EHSHA-UI
Chiến lược ẩn các tập mục độ hữu ích trung bình cao nhạy cảm trong CSDL giao tác là sửa đổi CSDL D bằng cách giảm số lượng hoặc xoá một số mục trong CSDL sao cho độ hữu ích trung bình cao của tập mục nhạy cảm giảm xuống dưới ngưỡng độ hữu ích trung bình tối thiểu
Thuật toán [18] được viết dưới dạng mã giả và thực hiện như sau:
- Đầu vào: CSDL gốc D là CSDL sẽ khai thác được các tập
mục hữu ích trung bình cao nhạy cảm; tập các tập mục SHAUIs là các tập mục hữu ích trung bình cao nhạy cảm được khai thác từ CSDL D cần được ẩn; ngưỡng hữu ích trung bình tối thiểu 𝛽
- Thực hiện ẩn lần lượt các tập mục hữu ích trung bình cao nhạy cảm S i ∈ SHAUIs
- Đầu ra: CSDL sửa đổi D’ là CSDL đã được sửa đổi sao cho
tập SHAUIs không thể khai thác được bởi các thuật toán HAUIM với ngưỡng hữu ích trung bình 𝛽
Trang 184 while ((d ≥ 0) do //lặp quá trình sửa dữ liệu
7 q(xvic,Tvic) = q(xvic,Tvic) - k;
8 d = -1; //kết thúc sửa dữ liệu vì Si đã được
ẩn
10 Quét tập ST để tìm Tvic sao cho au(Si,Tvic)
đạt cực đại;
11 Tìm xvic ∈ Si, sao cho xvic ít phổ biến nhất
trong tập {X ∈ nonHAUIs|X ⊆ Tvic};
12 Cập nhật lại d = d - au(Si,Tvic);
13 q(xvic, Tvic) = 0; //Xoá xvic ra khỏi Tvic;
14 Loại Tvic ra khỏi ST;
16 Return D’;
17 }
Trang 19Ví dụ minh họa: Chạy thử thuật toán trên với CSDL
trong Bảng 1.4, Bảng 1.5 và Bảng 1.6, với tập mục nhạy cảm SHAUIs = {bf, ab, a} và ngưỡng độ hữu ích trung bình tối thiểu 𝛽 = 15 => S1 = S1 = {bf}, S2 = {ab}, S3 = {a}
o Dòng 6: Không có cặp pair thoả điều kiện
o Dòng 10: Quét qua ST tìm Tvic
au(S1,T1) = 2 au(S1,T3) = 3.5 au(S1,T6) = 2.5 au(S1,T9) = 4.5 au(S1,T10) = 5.5
Có au(S1,T10) = 5.5 lớn nhất, chọn T10 làm Tvic
o Dòng 11: Tìm xvic
Tập mục b xuất hiện 2 lần
Trang 20Tập mục f xuất hiện 2 lần
=> Chọn ngẩu nhiên b làm xvic
o Dòng 12: Cập nhật lại d = d – au(S1,T10) = 3 – 5.5 = 2.5 < 0
-o Dòng 13: X-oá xvic khỏi Tvic
o Dòng 14: Xoá Tvic khỏi ST
Bảng 2.3: Tập mục hữu ích trung bình cao
HID Itemsets Utility TIDs
Trang 21o Dòng 6: Không có cặp pair thoả điều kiện
o Dòng 10: Quét qua ST tìm Tvic
au(S2,T1) = 7 au(S2,T3) = 7 au(S2,T4) = 8
Có au(S2,T4) = 8 lớn nhất, chọn T4 làm Tvic
o Dòng 11: Tìm xvic
Trang 22Tập mục a xuất hiện 2 lần Tập mục b xuất hiện 2 lần
=> Chọn ngẩu nhiên a làm xvic
o Dòng 12: Cập nhật lại d = d – au(S2,T4) = 7 – 8 = -1 >
0
o Dòng 13: Xoá xvic khỏi Tvic
o Dòng 14: Xoá Tvic khỏi ST
Bảng 2.6: Tập mục hữu ích trung bình cao
HID Itemsets Utility TIDs