1. Trang chủ
  2. » Giáo Dục - Đào Tạo

nghiên cứu phương pháp ẩn các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tác

79 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Để giÁi quy¿t mối lo ng¿i này, bài toán Án các tÅp māc có đá hāu ích trung bình cao đ°ÿc nghiên cąu, đó là sÿa đổi c¡ sở dā liáu giao tác để đÁm bÁo rằng các tÅp māc có đá hāu ích trung

Trang 1

Tô Phú Kh°¢ng

CÓ Đà HĂU ÍCH TRUNG BÌNH CAO NH¾Y CÀM

TRONG C¡ Sæ DĂ LIÆU GIAO TÁC

ĐÀ ÁN TH¾C S) KĀ THUÊT (Theo đßnh h°ãng ąng dāng)

TP.Hà CHÍ MINH – NĂM 2023

Trang 2

HàC VIÆN CÔNG NGHÆ B¯U CHÍNH VIÄN THÔNG

Tô Phú Kh°¢ng

CÓ Đà HĂU ÍCH TRUNG BÌNH CAO NH¾Y CÀM

TRONG C¡ Sæ DĂ LIÆU GIAO TÁC Chuyên ngành: HÇ thßng thông tin

Mã sß: 8.48.01.04 ĐÀ ÁN TH¾C S) KĀ THUÊT

(Theo đßnh h°ãng ąng dāng)

NG¯äI H¯âNG DÂN KHOA HàC:

TP.Hà CHÍ MINH - NĂM 2023

Trang 3

LäI CAM ĐOAN

Tôi cam đoan đÁ án: <Nghiên cÿu phương pháp ẩn các tập mục có độ hữu

ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tác= là công trình nghiên cąu

căa chính tôi

Các số liáu đ°ÿc sÿ dāng trong đÁ án là trung thực và chính xác Ngoài nhāng nái dung nghiên cąu căa đÁ án, các vấn đÁ đ°ÿc trình bày đÁu là nhāng tìm hiểu và nghiên cąu căa tôi hoặc là đ°ÿc trích dÃn từ các nguồn tài liáu có ghi tham khÁo rõ ràng, hÿp pháp

Trong đÁ án, tôi có tham khÁo mát số tài liáu căa mát số tác giÁ đ°ÿc liát kê t¿i danh māc tài liáu tham khÁo

TP.HCM, Ngày 12 tháng 10 năm 2023

Hác viên thực hiÇn đÁ án

Trang 4

LäI CÀM ¡N

Trong suốt quá trình hác tÅp và nghiên cąu thực hián đÁ án tốt nghiáp th¿c s*, ngoài nß lực căa bÁn thân, tôi đã nhÅn đ°ÿc sự h°ãng dÃn nhiát tình quý báu căa quý Th¿y Cô, cùng vãi sự đáng viên và ăng há căa gia đình, b¿n bè và đồng nghiáp Vãi lòng kính tráng và bi¿t ¡n sâu sắc, tôi xin gÿi låi cÁm ¡n chân thành tãi:

ThÅy TS NguyÅn KhÍc Chi¿n, ng°åi th¿y kính yêu đã h¿t lòng giúp đỡ,

h°ãng dÃn, đáng viên, t¿o điÁu kián cho tôi trong suốt quá trình thực hián và hoàn thành đÁ án tốt nghiáp th¿c s*

Ban Giám đốc, Phòng Đào t¿o sau đ¿i hác và quý Th¿y Cô đã t¿o mái điÁu kián thuÅn lÿi giúp tôi hoàn thành đÁ án

Tôi xin chân thành cÁm ¡n gia đình, b¿n bè, đồng nghiáp trong c¡ quan đã đáng viên Hß trÿ tôi trong lúc khó khăn để tôi có thể hác tÅp và hoàn thành đÁ án Mặc dù đã có nhiÁu cố gắng, nß lực, nh°ng do thåi gian và kinh nghiám nghiên cąu khoa hác còn h¿n ch¿ nên không thể tránh khỏi nhāng thi¿u sót Tôi rất mong nhÅn đ°ÿc sự góp ý căa quý Th¿y Cô cùng b¿n bè đồng nghiáp để ki¿n thąc căa tôi ngày mát hoàn thián h¡n

Xin chân thành cÁm ¡n!

TP.HCM, Ngày 12 tháng 10 năm 2023

Hác viên thực hiÇn đÁ án

Trang 5

2.Tổng quan vÁ vấn đÁ nghiên cąu 2

3.Māc tiêu nghiên cąu căa đÁ tài 6

4.Đối t°ÿng nghiên cąu 6

5.Nhāng nái dung chính y¿u c¿n nghiên cąu 6

CH¯¡NG 1: MàT SÞ VÂN ĐÀ LIÊN QUAN Đ¾N TÊP MĀC CÓ Đà HĂU ÍCH TRUNG BÌNH CAO 8

1.1 Các khái niám liên quan đ¿n khai thác tÅp māc có đá hāu ích trung bình cao 81.1.1 Khai phá tri thāc và khai thác dữ liệu 8

1.1.1.1 Các b°ãc chính căa quá trình khai phá dā liáu 8

1.1.1.2 Ki¿n trúc mát há thống khai phá dā liáu 10

1.1.1.3 Ąng dāng căa khai phá dā liáu 13

1.1.2 Khai phá tập mục độ hữu ích trung bình cao 13

1.1.3 Āng dụng khai thác tập mục độ hữu ích trung bình cao 16

1.1.4 Phương pháp khai phá tập mục hữu ích trung bình cao 16

1.2 Bài toán Án tÅp māc có đá hāu ích trung bình cao 19

1.3 Mát số thuÅt toán khai phá tÅp māc đá hāu ích trung bình cao 22

1.4 K¿t luÅn Ch°¡ng 1 23

CH¯¡NG 2: PH¯¡NG PHÁP ÆN TÊP MĀC CÓ Đà HĂU ÍCH TRUNG BÌNH CAO NH¾Y CÀM 24

Trang 6

2.1 Ph°¡ng pháp khai thác tÅp māc có đá hāu ích trung bình cao nh¿y cÁm 24

2.2 Tác dāng phā 26

2.3 Ph°¡ng pháp Án các tÅp māc có đá hāu ích trung bình cao nh¿y cÁm 29

2.4 ¯u điểm và h¿n ch¿ căa các ph°¡ng pháp 38

a.Thời gian thực thi 52

b.DSS (Tỷ lệ tương đồng về cấu trúc cÿa CSDL sửa đổi D' so với CSDL gốc D) 53

c DUS (Tỷ lệ tương đồng về hữu ích giữa CSDL D' với CSDL D) 54

d IUS (Tỷ lệ tương đồng về hữu ích trung bình cÿa tập các HAUI trong CSDL sửa đổi D' (HAUIs') so với tập các HAUI trong CSDL gốc D (HAUIs)) 55

4.3 K¿t luÅn Ch°¡ng 4 56

K¾T LUÊN VÀ H¯âNG PHÁT TRIÂN 57

DANH MĀC TÀI LIÆU THAM KHÀO 58

Trang 7

DANH MĀC CÁC THUÊT NGĂ, CHĂ VI¾T TÌT

DSS Database Structure Similarity. Tỷ lá t°¡ng đồng vÁ cấu trúc căa CSDL

sÿa đổi D' so vãi CSDL gốc D.DUS Database utility similarity Tỷ lá t°¡ng đồng vÁ hāu ích giāa

HAUIHItemset igh Average Utility TÅp māc hāu ích trung bình caoHAUIM High Average Utility Itemset MiningKhai thác tÅp māc có đá hāu ích

trung bình cao

cao nh¿y cÁm không Án đ°ÿcIUS Itemsets Utility Similarity

Tỷ lá t°¡ng đồng vÁ hāu ích trung bình căa tÅp các HAUIs trong CSDL sÿa đổi D' so vãi tÅp các HAUIs trong CSDL gốc D

cao không nh¿y cÁm bß mấtPPAUIMPrivacy Preserving Average Utility Itemset

Trang 8

QTDBQuantitative Transaction DatabaseC¡ sở dā liáu giao tác đßnh l°ÿngSHAUISUensitive tility Itemset High Average TÅp māc hāu ích trung bình cao

nh¿y cÁm

Trang 9

DANH SÁCH BÀNG

BÁng 1.1: C¡ sở dā liáu giao tác (biểu dián d¿ng ngang) 14

BÁng 1.2: C¡ sở dā liáu giao tác (biểu dißn d¿ng dác) 15

BÁng 1.3: C¡ sở dā liáu giao tác (biểu dißn d¿ng ma trÅn) 15

BÁng 1.4: CSDL giao tác D 20

BÁng 1.5: Giá trß lÿi nhuÅn căa CSDL D 21

BÁng 1.6: TÅp māc hāu ích trung bình cao HAUIs 21

BÁng 3.7: TÅp māc hāu ích trung bình cao 49

BÁng 4.1: C¡ sở dā liáu dùng cho thực nghiám 51

Trang 10

DANH SÁCH HÌNH VẼ

Hình 1.1: Khai thác dā liáu là mát b°ãc trong quá trình khám phá tri thąc 9

Hình 1.2: Ki¿n trúc há thống khai thác dā liáu 11

Hình 2.1 Quy trình PPUM chung 24

Hình 2.2 Mối quan há giāa các tÅp māc tr°ãc và sau quá trình PPDM 26

Hình 2.3 TÅp hÿp các tÅp māc nh¿y cÁm mà quy trình PPDM không Án đ°ÿc 27

Hình 2.4 Mising cost do quy trình làm s¿ch 27

Hình 2.5 Artificial cost phát sinh từ quy trình PPDM 28

Hình 4.1: K¿t quÁ so sánh thåi gian thực thi căa hai thuÅt toán 52

Hình 4.2: DSS Tỷ lá t°¡ng đồng vÁ cấu trúc dā liáu khi thực hián Án 53

Hình 4.3: DUS Tỷ lá t°¡ng đồng vÁ giá trß hāu ích căa CSDL khi thực hián Án 54

Hình 4.4: IUS Tỷ lá t°¡ng đồng vÁ giá trß hāu ích trung bình căa tÅp SHAUIs giāa CSDL gốc D và CSDL sÿa đổi D' khi thực hián Án 55

Trang 11

Mæ ĐÄU

Bài toán khai thác tÅp māc có đá hāu ích cao trong c¡ sở dā liáu (CSDL) giao tác đã trở thành mát vấn đÁ quan tráng trong nhāng thÅp kỷ g¿n đây Trong khai thác tÅp māc có đá hāu ích cao truyÁn thống, đá hāu ích căa mát tÅp māc đ°ÿc đßnh ngh*a là tổng các hāu ích căa các māc căa nó, trong các giao tác mà nó xuất hián Mát vấn đÁ quan tráng vãi đßnh ngh*a này là nó không tính đ¿n đá dài căa tÅp māc Bởi vì đá hāu ích căa tÅp māc lãn th°ång lãn h¡n đá hāu ích căa tÅp māc nhỏ, thuÅt toán khai thác tÅp māc có đá hāu ích cao truyÁn thống có xu h°ãng thiên vÁ viác tìm ki¿m mát tÅp hÿp các tÅp māc lãn Vì vÅy, đßnh ngh*a này không phÁi là mát phép đo hÿp lý vÁ đá hāu ích Để cung cấp mát đánh giá tốt h¡n vÁ đá hāu ích căa từng tÅp māc, bài toán khai thác tÅp māc đá hāu ích trung bình cao đã đ°ÿc đÁ xuất Nó giãi thiáu phép đo đá hāu ích trung bình, xem xét cÁ đá dài căa tÅp māc và đá hāu ích căa chúng, và do đó phù hÿp h¡n trong các tình huống thực t¿

Khai thác tÅp māc có đá hāu ích trung bình cao (HAUIM) bao gồm phân tích c¡ sở dā liáu giao tác đßnh l°ÿng căa khách hàng để xác đßnh các tÅp māc đá hāu ích trung bình cao, đó là tÅp hÿp các māc có đá hāu ích trung bình cao (ví dā: Lÿi nhuÅn) NhiÁu thuÅt toán đã đ°ÿc thi¿t k¿ để nhÅn d¿ng cái mãi, hāu ích và nhāng mÃu bất ngå trong dā liáu, có thể giúp hiểu dā liáu, hß trÿ ra quy¿t đßnh và cung cấp thông tin chi ti¿t vÁ sở thích căa ng°åi dùng Tuy nhiên, mát vấn đÁ chính là tri thąc đ°ÿc phát hián bởi các kỹ thuÅt này cũng có thể ti¿t lá thông tin riêng t°, nh¿y cÁm hoặc thông tin chi¿n l°ÿc nh° thông tin thẻ tín dāng, các mÃu mua hàng từ các cá nhân và số nhÅn d¿ng cá nhân Do đó, các cá nhân có thể phÁi đối mặt vãi các mối đe dáa vÁ quyÁn riêng t° và dā liáu căa há có thể bß l¿m dāng ĐiÁu quan tráng nāa là bÁo vá thông tin riêng t° và nh¿y cÁm căa các doanh nghiáp mang l¿i cho há lÿi th¿ chi¿n l°ÿc so vãi đối thă c¿nh tranh cũng nh° bÁo vá quyÁn riêng t° căa nhân viên và khách hàng căa há Chẳng h¿n, n¿u mát công ty công khai dā liáu hoặc chia sẻ dā liáu vãi các cáng tác viên, thì có nguy c¡ mát số thông tin nh¿y cÁm có thể bß trích xuất từ đó

Trang 12

bằng thuÅt toán khai phá dā liáu Để giÁi quy¿t mối lo ng¿i này, bài toán Án các tÅp māc có đá hāu ích trung bình cao đ°ÿc nghiên cąu, đó là sÿa đổi c¡ sở dā liáu giao tác để đÁm bÁo rằng các tÅp māc có đá hāu ích trung bình cao nh¿y cÁm không thể bß phát hián

TÅp māc hāu ích trung bình cao nh¿y cÁm là tÅp māc đ°ÿc sÿ dāng để hß trÿ ra quy¿t đßnh Thông tin này rất quan tráng đối vãi chă sở hāu c¡ sở dā liáu N¿u nó bß phát hián bởi các đối thă c¿nh tranh, ho¿t đáng kinh doanh căa chă sở hāu c¡ sở dā liáu có thể bß Ánh h°ởng Để đÁm bÁo rằng thông tin này đ°ÿc bÁo toàn, tÅp māc hāu ích trung bình cao nh¿y cÁm phÁi đ°ÿc Án khỏi c¡ sở dā liáu tr°ãc khi đ°ÿc chia sẻ ra bên ngoài

Xuất phát từ nhāng lý do trên, tôi chán đÁ tài <Nghiên cÿu phương pháp ẩn

các tập mục có độ hữu ích trung bình cao nhạy cảm trong cơ sở dữ liệu giao tác=

làm đÁ tài nghiên cąu cho đÁ án tốt nghiáp căa mình

Các kỹ thuÅt khai phá dā liáu trong đó có các kỹ thuÅt khai thác tÅp māc có đá hāu ích trung bình cao đã đóng mát vai trò quan tráng để phân tích CSDL giao tác NhiÁu thuÅt toán đã đ°ÿc thi¿t k¿ để rút trích ra tri thąc mãi, hāu ích và nhāng mÃu bất ngå trong dā liáu, có thể giúp ng°åi sÿ dāng hiểu dā liáu, hß trÿ ra quy¿t đßnh và cung cấp thông tin chi ti¿t vÁ sở thích căa ng°åi dùng

Khai thác tÅp māc có đá hāu ích trung bình cao sÿ dāng đá hāu ích trung bình để lo¿i bỏ sự phā thuác căa ràng buác đá dài vào hāu ích tÅp māc TPAU [1] là thuÅt toán khai thác HAUI đ¿u tiên, vÁ bÁn chất là hai pha TPAU xác đßnh giãi h¿n trên đ°ÿc gái là giãi h¿n trên đá hāu ích trung bình (AUUB) để duy trì tính chất downward closure N¿u giá trß AUUB căa mát tÅp māc không thỏa ng°ỡng đá hāu ích trung bình tối thiểu, thì tÅp māc đó và tất cÁ các tÅp cha (supersets) căa nó không thể là HAUI TPAU thực hián tìm ki¿m theo cấp đá đòi hỏi thåi gian ch¿y dài Mát giÁi pháp khác, PBAU [5] phát triển mát kỹ thuÅt dựa trên phép chi¿u và cấu trúc lÅp chỉ māc để tăng tốc quá trình khai thác HAUI Ngoài PBAU, Lan và cáng sự [4] đã trình

Trang 13

bày mát giãi h¿n trên chặt chẽ h¡n dựa trên khái niám tiÁn tố để giÁm số l°ÿng tÅp māc ąng viên Tien Lu [12] đã đÁ xuất mát thuÅt toán HAUI dựa trên cây sÿ dāng cây HAUI và mát cấu trúc mãi cho các tÅp māc để tăng tốc đá tính toán HAUI-growth [7] là mát thuÅt toán khai thác HAUI dựa trên cây khác để tránh quét c¡ sở dā liáu nhiÁu l¿n Ngoài ra, mßi nút trong cây duy trì mát mÁng để giā thông tin vÁ đá hāu ích trung bình căa các tÅp māc Sau đó, thuÅt toán HAUI-Miner [8] mát pha hiáu quÁ đ°ÿc trình bày k¿t hÿp cấu trúc danh sách có tên là danh sách đá hāu ích trung bình (AU) để khai thác HAUI Nó áp dāng mô hình AUUB để lo¿i bỏ các ąng viên y¿u khỏi không gian tìm ki¿m EHAUPM [10] là mát thuÅt toán khác để khai thác HAUI, thuÅt toán này bổ sung hai giãi h¿n trên chặt chẽ h¡n có tên là Tián ích giãi h¿n trên lỏng lẻo h¡n (Looser Upper - Bound Utility - LUB) và Giãi h¿n trên chặt chẽ h¡n đ°ÿc sÿa đổi (Revised Tighter Upper Bound - RTUB) để lo¿i bỏ đáng kể các tÅp māc ąng viên không tiÁm năng Ngoài ra, nó k¿t hÿp mát cấu trúc danh sách mãi đ°ÿc gái là danh sách đá hāu ích trung bình đ°ÿc sÿa đổi (MAU) và các chi¿n l°ÿc cắt tỉa khác nhau để cÁi thián hiáu suất Trong khi đó, MHAI [21] đã đ°a ra mát cấu trúc danh sách mãi HAI-list và nhiÁu chi¿n l°ÿc cắt tỉa để thúc đÁy quá trình khai thác HAUI Mát số công trình nghiên cąu khác vÁ vấn đÁ khai thác HAUI đã đ°ÿc thÁo luÅn trong [11], [15], [16], [19]

HAUIM có ąng dāng trong nhiÁu l*nh vực Chẳng h¿n, HAUIM có thể đ°ÿc sÿ dāng trong bối cÁnh kinh doanh để ti¿p thß chéo và phát triển các chi¿n l°ÿc quÁng bá mãi để tăng doanh số bán các sÁn phÁm có lÿi nhuÅn cao [17], để phân tích dā liáu phát trực tuy¿n (ví dā: Phân tích luồng nhấp chuát vào web dựa trên thåi gian dành cho mßi trang web), và để khám phá các mÃu gen quan tráng trong dā liáu y t¿ [22] Nh°ng các HAUI đ°ÿc tìm thấy trong CSDL giao tác có thể ti¿t lá thông tin cá nhân hoặc chi¿n l°ÿc, điÁu này có thể gây ra vấn đÁ Ví dā: Mát công ty th°¡ng m¿i đián tÿ có thể muốn chia sẻ dā liáu vÁ các giao tác khách hàng căa mình vãi mát công ty khác d°ãi d¿ng CSDL giao tác để cáng tác nh°ng có thể không muốn ti¿t lá các mÃu có lÿi nhất (HAUI) xuất hián trong dā liáu để công ty kia không thể sÿ dāng thông tin này để làm lÿi th¿ cho mình Đây là mát mối quan tâm quan tráng vì dā liáu do

Trang 14

các công ty thu thÅp vÁ khách hàng đặc biát khó thu thÅp và có giá trß đối vãi các nhiám vā khác nhau nh° giãi thiáu sÁn phÁm Do đó, mong muốn có quyÁn kiểm soát nhāng gì có thể tìm thấy trong dā liáu bằng thuÅt toán HAUIM Ví dā thą hai là dā liáu đ°ÿc thu thÅp từ các công cā tìm ki¿m lãn vÁ các truy vấn tìm ki¿m Mát truy vấn tìm ki¿m có thể đ°ÿc biểu dißn d°ãi d¿ng mát CSDL giao tác trong đó mßi giao tác là mát tÅp hÿp các từ khóa trong mát truy vấn và trong đó đá hāu ích căa các từ khóa có thể là th°ãc đo t¿m quan tráng căa các từ (ví dā: T¿n suất thuÅt ngā) Vì dā liáu truy vấn tìm ki¿m rất có giá trß đối vãi doanh nghiáp, nên viác Án các liên k¿t quan tráng giāa các từ khóa tr°ãc khi công khai dā liáu truy vấn tìm ki¿m để giā lÿi th¿ c¿nh tranh cũng là điÁu hÿp lý Do đó, nh° đ°ÿc thúc đÁy bởi nhāng ví dā này, viác chia sẻ mát CSDL giao tác có thể dÃn đ¿n các mối đe dáa vÁ quyÁn riêng t°, bÁo mÅt hoặc tổn thất lÿi nhuÅn Do đó, rõ ràng c¿n phÁi Án các HAUI nh¿y cÁm để ngăn ng°åi dùng trái phép phát hián ra chúng

Àn tÅp māc hāu ích trung bình cao nh¿y cÁm là công viác nhằm māc đích che giấu các thông tin riêng t°/nh¿y cÁm mà chă sở hāu không muốn chúng bß khai thác bởi các thuÅt toán HAUIM, để tránh các răi ro gặp phÁi khi các thông tin này bß khai thác và sÿ dāng vào các māc đích mà có thể gây ra các tác đáng xấu cho chă sở hāu CSDL hoặc các cá nhân có liên quan Năm 2018, các tác giÁ trong [2] đÁ xuất ph°¡ng pháp và thuÅt toán Án tÅp māc hāu ích trung bình cao nh¿y cÁm có tên là HHAUSI Ph°¡ng pháp ti¿p cÅn căa thuÅt toán này là sÿa c¡ sở dā liáu gốc để giÁm giá trß hāu ích trung bình căa tÅp māc nh¿y cÁm xuống thấp h¡n ng°ỡng hāu ích trung bình tối thiểu ThuÅt toán HHAUSI sÿ dāng ba đ¡n vß đo l°ång để đánh giá hiáu ąng phā căa thuÅt toán, gồm: HF (Tỷ lá tÅp māc hāu ích trung bình cao nh¿y cÁm không Án đ°ÿc); MC (Tỷ lá tÅp māc hāu ích trung bình cao không nh¿y cÁm bß mất); DIF (Tỷ lá sai khác giāa CSDL gốc so vãi CSDL sÿa đổi) Ph°¡ng pháp chán māc māc tiêu và giao tác māc tiêu để sÿa dā liáu căa thuÅt toán HHAUSI là t°¡ng tự nh° thuÅt toán HHUIF [20] nên hiáu ąng phā căa thuÅt toán vÃn còn cao, bởi vì ph°¡ng pháp lựa chán māc māc tiêu và giao tác māc tiêu để sÿa căa thuÅt toán HHUIF là dựa vào māc có đá hāu ích cao nhất Để giÁi quy¿t h¿n ch¿ căa thuÅt toán HHAUSI, công trình căa Huỳnh

Trang 15

Triáu Vỹ và cáng sự [18] đã đÁ xuất thuÅt toán có tên gái là EHSHA-UI, thuÅt toán EHSHA-UI sÿ dāng các ph°¡ng pháp chán lựa māc māc tiêu và giao tác māc tiêu khác nhau cho từng tr°ång hÿp māc māc tiêu đ°ÿc xóa và sÿa để giÁm hiáu ąng phā Để giÁm thiểu hiáu ąng phā căa quá trình sÿa đổi dā liáu gây ra, nhóm tác giÁ sÿ dāng các ph°¡ng pháp lựa chán māc māc tiêu và giao tác māc tiêu khác nhau cho tr°ång hÿp giÁm giá trß hāu ích nái căa māc māc tiêu và tr°ång hÿp xóa māc māc tiêu Mặc dù k¿t quÁ thực nghiám căa thuÅt toán EHSHA-UI mang l¿i mát số hiáu quÁ nhất đßnh, tuy nhiên thåi gian thực hián căa thuÅt toán EHSHA-UI cũng nh° các hiáu ąng phā vÃn đ°ÿc sinh ra đáng kể

Trong công trình [6] nghiên cąu vấn đÁ Án các HAUI phổ bi¿n (FHAUI) trong mát CSDL giao tác Bài toán này bao gồm viác sÿa đổi c¡ sở dā liáu để Án tất cÁ các FHAUI đối vãi ng°ỡng hß trÿ và đá hāu ích tối thiểu nhất đßnh, đ°ÿc ký hiáu là ms và ms Trong công trình này, FHAUI là tÅp māc có đá hāu ích trung bình cao có t¿n số xuất hián không nhỏ h¡n ms Lý do để xem xét không chỉ đá hāu ích trung bình mà cÁ t¿n suất xuất hián là do các ràng buác vÁ t¿n suất cũng đ°ÿc sÿ dāng theo cách truyÁn thống trong khai thác mÃu để lác ra các mÃu nhißu (có thể xuất hián tình cå hoặc không đáng kể do t¿n suất xuất hián thấp căa chúng) Ví dā: N¿u mát số hành vi căa khách hàng chỉ đ°ÿc quan sát mát vài l¿n trong c¡ sở dā liáu giao tác căa khách hàng hoặc n¿u mát số từ khóa chỉ xuất hián mát vài l¿n trong các truy vấn tìm ki¿m, nhāng mÃu đó có thể bß bỏ qua Do đó, Án các mÃu bằng cách xem xét cÁ hai y¿u tố (đá hāu ích và t¿n số xuất hián) h¡n là chỉ xem xét mát y¿u tố Bài báo này giÁi quy¿t nhāng vấn đÁ này bằng cách thi¿t k¿ mát thuÅt toán hiáu quÁ cho FHAUIH có tên là H-FHAUI ThuÅt toán sÿ dāng cách ti¿p cÅn biên lấy ý t°ởng từ công viác tr°ãc đó vÁ Án tÅp māc phổ bi¿n [14] trong đó tính chất downward closure căa phép đo đá hß trÿ đ°ÿc sÿ dāng để giÁm không gian tìm ki¿m Tuy nhiên, viác mở ráng cách ti¿p cÅn biên này cho bài toán FHAUIH không dß dàng bởi vì hàm đá hāu ích trung bình không thỏa mãn tính chất downward closure Nghiên cąu này đÁ xuất mát đ°ång biên d°ãi mở ráng, đ°ÿc áp dāng cho các giãi h¿n trên y¿u trên au và đ°ÿc

Trang 16

tích hÿp vào thuÅt toán H-FHAUI đ°ÿc đÁ xuất để Án các FHAUI mát cách hiáu quÁ bằng cách chỉ Án mát tÅp hÿp con nhỏ các FHAUI

Tuy nhiên, trong đÁ án này, tôi chỉ tÅp trung xem xét mát y¿u tố là đá hāu ích trung bình cao dùng để Án các tÅp māc có đá hāu ích trung bình cao trong CSDL giao tác Ph°¡ng pháp đÁ xuất trong đÁ án này sẽ tÅp trung so sánh, đánh giá vãi các thuÅt toán trong công trình năm 2018 [2] và năm 2021 [18] Māc tiêu căa đÁ án là đÁ xuất đ°ÿc ph°¡ng pháp Án các tÅp māc có đá hāu ích trung bình cao nh¿y cÁm trong CSDL giao tác sao cho giÁm thåi gian thực hián cũng nh° giÁm thiểu các hiáu ąng phā: T¿o ra tÅp māc mãi, Án nh¿m các tÅp māc không nh¿y cÁm khác, giÁm tối thiểu sự sai khác giāa CSDL tr°ãc và sau khi sÿa đổi,…

Nghiên cąu các ph°¡ng pháp Án tÅp māc có đá hāu ích trung bình cao nh¿y cÁm hián có dựa trên các công trình đã công bố g¿n đây Từ đó chỉ ra nhāng °u điểm và h¿n ch¿ căa nó để đÁ xuất giÁi pháp hiáu quÁ h¡n vÁ mặt thåi gian ch¿y cũng nh° các phép đo vÁ mặt hiáu ąng phā t¿o ra bởi quá trình Án

- Các kỹ thuÅt khai thác tÅp māc có đá hāu ích trung bình cao trong CSDL giao tác

- Các kỹ thuÅt Án các tÅp māc có đá hāu ích trung bình cao nh¿y cÁm trong CSDL giao tác

- Nghiên cąu và tìm hiểu nhāng công trình đã công bố liên quan đ¿n khai thác tÅp māc có đá hāu ích trung bình cao (HAUI)

- Nghiên cąu và tìm hiểu nhāng công trình liên quan bài toán Án các tÅp māc có đá hāu ích trung bình cao nh¿y cÁm trong c¡ sở dā liáu giao tác: Chỉ ra đ°ÿc nhāng °u điểm và h¿n ch¿ căa nó, từ đó đÁ xuất h°ãng nghiên cąu ti¿p theo

Trang 17

- Tìm hiểu các thông số đánh giá tính hiáu quÁ căa các ph°¡ng pháp Án tÅp māc có đá hāu ích trung bình cao nh¿y cÁm trong c¡ sở dā liáu giao tác

- Ti¿n hành cài đặt ph°¡ng pháp Án tÅp māc có đá hāu ích trung bình cao nh¿y cÁm đÁ xuất để so sánh vãi các ph°¡ng pháp cùng lo¿i khác

- Thực nghiám trên các c¡ sở dā liáu giao tác đ°ÿc lấy trên trang web http://www.philippe-fournier-viger.com/spmf/index.php?link=datasets.php

- Môi tr°ång thực nghiám: Máy vi tính cài há điÁu hành Win 10 và ngôn ngā lÅp trình là Java, Python,…

Trang 18

CH¯¡NG 1: MàT SÞ VÂN ĐÀ LIÊN QUAN Đ¾N TÊP MĀC CÓ Đà HĂU ÍCH TRUNG BÌNH CAO

bình cao

1.1.1 Khai phá tri thÿc và khai thác dữ liệu

Khai phá tri thąc là viác rút trích tri thąc mát cách tự đáng và hiáu quÁ từ mát khối dā liáu lãn Tri thąc đó th°ång ở d¿ng các mÃu có tính chất không t¿m th°ång, không t°ång minh ch°a đ°ÿc bi¿t đ¿n và có tiÁm năng mang l¿i lÿi ích

<Phát hiện tri thāc trong CSDL là một quá trình không tầm thường nhận ra

Là l*nh vực nghiên cąu và triển khai đ°ÿc phát triển nhanh chóng và ráng lãn, l¿i đ°ÿc rất nhiÁu nhóm nghiên cąu t¿i nhiÁu đßa điểm khác nhau trên th¿ giãi đồng thåi quan tâm, nên tồn t¿i rất nhiÁu cách ti¿p cÅn khác nhau đối vãi l*nh vực KDD Vì lý do đó mà trong nhiÁu tài liáu, các nhà khoa hác trên th¿ giãi đã sÿ dāng nhiÁu thuÅt ngā khác nhau mà chúng đ°ÿc coi là mang cùng ngh*a vãi KDD nh° chi¿t lác tri thąc (knowledge extraction), phát hián thông tin (information discovery), thu ho¿ch thông tin (information harvesting), khai quÅt dā liáu (data archaeology) và xÿ lý mÃu dā liáu (data pattern processing)

Mô hình quá trình khai phá dā liáu cũng đ°ÿc cÁi ti¿n, phù hÿp vãi māc tiêu kinh doanh và māc tiêu phát triển căa từng tổ chąc Tồn t¿i mát số mô hình thiên h°ãng công nghá

1.1.1.1 Các b°ãc chính căa quá trình khai phá dā liáu

NhiÁu ng°åi xem khai thác dā liáu nh° là mát từ đồng ngh*a vãi mát thuÅt ngā phổ bi¿n đ°ÿc sÿ dāng, khám phá tri thąc từ dā liáu, hoặc KDD, trong khi nhāng ng°åi khác xem khai thác dā liáu chỉ đ¡n thu¿n là mát b°ãc c¿n thi¿t trong quá trình khám phá tri thąc Quá trình khám phá tri thąc đ°ÿc thể hián trong Hình 1.1 là mát chußi lặp đi lặp l¿i các b°ãc sau:

Trang 19

Data Base

Data warehouseCleaning &

Knowledge

Hình 1.1: Khai thác dă liÇu là mát b°ãc trong quá trình khám phá tri thąc

Làm s¿ch dā liáu (để lo¿i bỏ nhißu và dā liáu không phù hÿp) Tích hÿp dā liáu, n¡i mà nhiÁu nguồn dā liáu có thể đ°ÿc k¿t hÿp (Mát xu h°ãng phổ bi¿n trong ngành công nghiáp thông tin là để thực hián làm s¿ch dā liáu và tích hÿp dā liáu nh° là mát b°ãc tiÁn xÿ lý, n¡i mà các dā liáu k¿t quÁ đ°ÿc l°u trā trong mát kho dā liáu) Chán lựa dā liáu, n¡i dā liáu có liên quan đ¿n nhiám vā phân tích đ°ÿc lấy từ c¡ sở dā liáu: Là b°ãc trích chán nhāng tÅp dā liáu c¿n đ°ÿc khai phá từ các tÅp dā liáu lãn (databases, data warehouses, data repositories) ban đ¿u theo mát số tiêu chí nhất đßnh

B°ãc 1: Bi¿n đổi dā liáu, n¡i mà dā liáu đ°ÿc bi¿n đổi và hÿp nhất thành các hình thąc thích hÿp cho khai thác bằng cách thực hián tóm tắt hoặc tÅp hÿp các ho¿t đáng (đôi khi chuyển đổi dā liáu và hÿp nhất đ°ÿc thực hián tr°ãc khi quá trình lựa chán dā liáu, đặc biát là trong tr°ång hÿp các kho dā liáu GiÁm dā liáu cũng có thể đ°ÿc thực hián để có đ°ÿc mát đ¿i dián nhỏ h¡n căa dā liáu gốc mà không bß mất toàn vẹn căa nó)

Trang 20

B°ãc 2: Khai thác dā liáu (mát quá trình c¿n thi¿t mà các ph°¡ng pháp thông minh đ°ÿc áp dāng để trích xuất các mÃu dā liáu): Đây đ°ÿc xem là b°ãc quan tráng nhất trong quá trình KDD Nó áp dāng mát số kỹ thuÅt KPDL (chă y¿u là từ hác máy và các l*nh vực khác) để khai phá, trích chán đ°ÿc nhāng mÃu (patterns) thông tin, nhāng mối liên há (relationships) đặc biát trong dā liáu

B°ãc 3: Đánh giá mÃu (để xác đßnh các mô hình thực sự thú vß đ¿i dián cho ki¿n thąc dựa trên các bián pháp): Thành ph¿n này th°ång sÿ dāng các đá đo và t°¡ng tác vãi thành ph¿n KPDL để tÅp trung tìm ki¿m các mÃu Nó có thể sÿ dāng các ng°ỡng để lác ra các mÃu phát hián đ°ÿc Ngoài ra, thành ph¿n đánh giá mÃu có thể đ°ÿc tích hÿp vãi thành ph¿n KPDL, phā thuác vào các ph°¡ng pháp KPDL đ°ÿc sÿ dāng

B°ãc 4: Biểu dißn tri thąc (n¡i trực quan và kỹ thuÅt biểu dißn tri thąc đ°ÿc sÿ dāng để trình bày ki¿n thąc khai thác cho ng°åi sÿ dāng): Nhāng mÃu thông tin và mối liên há trong dā liáu đã đ°ÿc khai phá ở b°ãc trên đ°ÿc chuyển d¿ng và biểu dißn ở mát d¿ng g¿n gũi vãi ng°åi sÿ dāng nh° đồ thß, cây, bÁng biểu, luÅt, Đồng thåi b°ãc này cũng đánh giá nhāng tri thąc khám phá đ°ÿc nhāng tiêu chí nhất đßnh

Từ b°ãc 1 đ¿n 4 là các hình thąc khác nhau căa tiÁn xÿ lý dā liáu, n¡i dā liáu đ°ÿc chuÁn bß cho khai thác Các b°ãc khai thác dā liáu có thể t°¡ng tác vãi ng°åi sÿ dāng hoặc mát c¡ sở tri thąc Các mÃu thú vß đ°ÿc trình bày cho ng°åi sÿ dāng và có thể đ°ÿc l°u trā nh° ki¿n thąc mãi trong c¡ sở tri thąc

1.1.1.2 Ki¿n trúc mát há thống khai phá dā liáu

Ki¿n trúc căa há thống KPDL có thể có các thành ph¿n chính sau:

Trang 21

C¡ sở tri thąc(Knowledge Base)

Giao dián ng°åi dùng(User interface)

Đánh giá mÃu(Pattern Evaluation)Bá máy khai thác dā liáu

(Data Mining Engine)

CSDL/Kho DL(Database/Data Warehous e Server)TiÁn xÿ lý dā liáu

(Data Cleaning, Integration, Selection)

Hình 1.2: Ki¿n trúc hÇ thßng khai thác dă liÇu

Trong ki¿n trúc này, các nguồn dā liáu cho các há thống KPDL bao gồm hoặc CSDL, hoặc kho dā liáu, hoặc WWW, hoặc kho chąa dā liáu kiểu bất kỳ khác, hoặc tổ hÿp các kiểu đã liát kê nói trên C¡ sở tri thąc, bao gồm các tri thąc hián có vÁ miÁn ąng dāng, đ°ÿc sÿ dāng trong thành ph¿n KPDL để làm tăng tính hiáu quÁ căa thành ph¿n này Mát số tham số căa thuÅt toán KPDL t°¡ng ąng sẽ đ°ÿc tinh chỉnh theo tri thąc miÁn sẵn có từ c¡ sở tri thąc trong há thống

C¡ sở tri thąc còn đ°ÿc sÿ dāng trong viác đánh giá các mÃu đã khai phá đ°ÿc xem chúng có thực sự hấp dÃn hay không, trong đó có đối chąng vãi các tri thąc đã có trong c¡ sở tri thąc N¿u mÃu khai phá đ°ÿc thực sự hấp dÃn thì đ°ÿc bổ sung vào c¡ sở tri thąc để phāc vā cho ho¿t đáng ti¿p theo căa há thống Nh° vÅy, nguồn tri thąc bổ sung vào c¡ sở tri thąc ở đây không chỉ từ lÅp luÅn logic để có tri thąc mãi, mà còn cho con ng°åi hiểu bi¿t thêm vÁ th¿ giãi khách quan để bổ sung vào tri thąc đ°ÿc phát hián mát cách tự đáng từ nguồn dā liáu KPDL là mát b°ãc chính trong quá trình phát hián tri thąc từ số l°ÿng lãn dā liáu đã l°u trā trong CSDL, kho dā

Trang 22

liáu hoặc các n¡i l°u trā khác K¿t quÁ căa b°ãc này là nhāng mÃu đáng quan tâm đ°ÿc đ°a đ¿n cho ng°åi dùng hoặc l°u giā nh° là tri thąc mãi trong c¡ sở tri thąc

+ CSDL, kho dā liáu, WWW, kho chąa dā liáu khác: Đây là mát hoặc mát tÅp CSDL, kho dā liáu, World Wide Web, hoặc kho chąa dā liáu kiểu bất kỳ khác, hoặc tổ hÿp các kiểu đã liát kê nói trên Các kỹ thuÅt làm s¿ch dā liáu và tích hÿp dā liáu có thể đ°ÿc thực hián trên dā liáu

+ Server CSDL/Kho dā liáu: Có trách nhiám lấy dā liáu liên quan dựa trên yêu c¿u căa ng°åi KPDL

+ C¡ sở tri thąc: Đây là miÁn tri thąc đ°ÿc sÿ dāng để h°ãng dÃn viác tìm ki¿m hoặc đánh giá sự thú vß căa các mÃu quan tâm Tri thąc này có thể bao gồm các mąc phân cấp khái niám, đ°ÿc sÿ dāng để tổ chąc các thuác tính hoặc giá trß thuác tính thành các cấp trừu t°ÿng Tri thąc nh° đá tin cÅy căa ng°åi sÿ dāng, có thể đ°ÿc sÿ dāng để đánh giá đá thú vß căa mÃu Các ví dā khác căa miÁn tri thąc là các ràng buác thú vß bổ sung hoặc ng°ỡng, và siêu dā liáu (mô tÁ dā liáu từ nhiÁu nguồn không đồng nhất)

+ Bá máy khai phá dā liáu: Đây là thành ph¿n c¿n thi¿t đối vãi há thống KPDL, bao gồm mát tÅp các chąc năng nh° mô tÁ, phân tích tính k¿t hÿp và tính t°¡ng quan, phân lãp, dự báo, phân tích cām, phân tích ngo¿i lai, và phân tích sự ti¿n hóa

+ Đánh giá mÃu: Thành ph¿n này th°ång sÿ dāng các đá đo và t°¡ng tác vãi thành ph¿n KPDL để tÅp trung tìm ki¿m các mÃu thú vß Nó có thể sÿ dāng các ng°ỡng để lác ra các mÃu phát hián đ°ÿc Ngoài ra, thành ph¿n đánh giá mÃu có thể đ°ÿc tích hÿp vãi thành ph¿n KPDL, phā thuác vào các ph°¡ng pháp KPDL đ°ÿc sÿ dāng

+ Giao dián ng°åi dùng: Thành ph¿n này là thành ph¿n giao ti¿p giāa ng°åi sÿ dāng và há thống KPDL; cho phép ng°åi dùng t°¡ng tác vãi há thống bằng cách xác đßnh mát truy vấn hoặc mát nhiám vā KPDL, cung cấp thông tin để giúp tÅp trung tìm ki¿m, thăm dò và KPDL dựa trên k¿t quÁ KPDL trung gian Ngoài ra, thành ph¿n này cho phép ng°åi dùng tìm các l°ÿc đồ CSDL, kho dā liáu hoặc các cấu trúc dā

Trang 23

liáu, đánh giá các mÃu khai phá đ°ÿc, và trực quan hoá các mÃu trong các d¿ng khác nhau

1.1.1.3 Ąng dāng căa khai phá dā liáu

Mặc dù KPDL là mát xu h°ãng nghiên cąu t°¡ng đối mãi, nh°ng thu hút nhiÁu nhà nghiên cąu bởi vì các ąng dāng thực t¿ căa nó trong nhiÁu l*nh vực Sau đây là mát số ąng dāng tiêu biểu:

+ Phân tích dā liáu và hß trÿ ra quy¿t đßnh: Ąng dāng này là phổ bi¿n trong th°¡ng m¿i, tài chính và thß tr°ång chąng khoán,…

+ Y t¿: Tìm ki¿m sự liên quan tiÁm năng giāa các triáu chąng, chÁn đoán, và ph°¡ng pháp điÁu trß,…

+ Khai phá text và web: Tóm tắt tài liáu, khôi phāc văn bÁn và tìm ki¿m văn bÁn, phân lãp văn bÁn và siêu văn bÁn,…

+ Tin sinh hác: Tìm ki¿m và so sánh thông tin di truyÁn điển hình hoặc đặc biát nh° bá gen và DNA, các mối quan há ng¿m giāa mát số gen và mát số bánh di truyÁn,…

+ Tài chính và thß tr°ång chąng khoán: Kiểm tra dā liáu để trích xuất thông tin dự đoán cho giá căa các lo¿i cổ phi¿u,…

+ Nhāng ąng dāng khác: Vißn thông, bÁo hiểm y t¿, thiên văn hác, chống khăng bố, thể thao,…

1.1.2 Khai phá tập mục độ hữu ích trung bình cao

Khai thác tÅp māc đá hāu ích cao (HUIM) đã trở thành mát vấn đÁ quan tráng trong nhāng thÅp kỷ g¿n đây Trong khai thác tÅp māc đá hāu ích cao truyÁn thống, đá hāu ích căa mát tÅp māc đ°ÿc đßnh ngh*a là tổng các hāu ích căa các māc căa nó, trong các giao tác mà nó xuất hián Mát vấn đÁ quan tráng vãi đßnh ngh*a này là nó không tính đ¿n đá dài căa tÅp māc Bởi vì đá hāu ích căa tÅp māc lãn th°ång lãn h¡n đá hāu ích căa tÅp māc nhỏ, thuÅt toán khai thác tÅp māc đá hāu ích cao truyÁn thống có xu h°ãng thiên vÁ viác tìm ki¿m mát tÅp hÿp các tÅp māc lãn Vì vÅy, đßnh ngh*a này không phÁi là mát phép đo hÿp lý vÁ đá hāu ích Để cung cấp mát đánh giá tốt h¡n vÁ đá hāu ích căa từng tÅp māc, nhiám vā khai thác tÅp māc đá hāu ích trung

Trang 24

bình cao (HAUIM) đã đ°ÿc đÁ xuất Nó giãi thiáu th°ãc đo đá hāu ích trung bình, xem xét cÁ đá dài căa tÅp māc và đá hāu ích căa chúng, và do đó phù hÿp h¡n trong các tình huống thực t¿ Mát số thuÅt toán đã đ°ÿc thi¿t k¿ cho nhiám vā này Nhìn chung, chúng có thể đ°ÿc phân lo¿i thành các ph°¡ng pháp ti¿p cÅn theo cấp đá hoặc theo mô hình phát triển Tuy nhiên, cÁ hai đÁu yêu c¿u khối l°ÿng tính toán để tìm ra các tÅp māc có đá hāu ích trung bình cao (HAUI) thực t¿ [12]

Ví dā vÁ CSDL giao tác: Cho tÅp các māc I={i1, i2, , in} Mát giao tác T là mát tÅp con căa I, T  I, CSDL giao tác là tÅp các giao tác D ={T1, T2, , Tm} Mßi giao tác đ°ÿc gán mát đßnh danh TID CSDL này th°ång đ°ÿc sÿ dāng trong kinh doanh th°¡ng m¿i hoặc các há thống ngân hàng CSDL giao tác th°ång đ°ÿc biểu dißn ở d¿ng ngang, d¿ng dác và bÁng ma trÅn

BiÃu diÅn giao tác d¿ng ngang: Là trình bày giao tác d°ãi d¿ng mát danh

sách, mßi giao tác có mát mã đßnh danh riêng (TID), mßi giao tác chąa mát danh sách các māc

BÁng 1.1: C¢ sç dă liÇu giao tác (biÃu diÇn d¿ng ngang)

BiÃu diÅn giao tác d¿ng dác: Là trình bày danh sách các māc dā liáu, mßi

māc dā liáu chąa tất cÁ các mã đßnh danh giao tác

Trang 25

BÁng 1.2: C¢ sç dă liÇu giao tác (biÃu diÅn d¿ng dác)

Vãi c¡ sở dā liáu từ BÁng 1.1 ta có ma trÅn giao tác nh° sau:

BÁng 1.3: C¢ sç dă liÇu giao tác (biÃu diÅn d¿ng ma trËn)

Trang 26

1.1.3 þng dụng khai thác tập mục độ hữu ích trung bình cao

Khai thác tÅp māc đá hāu ích trung bình cao có ąng dāng trong nhiÁu l*nh vực Chẳng h¿n, khai thác tÅp māc đá hāu ích trung bình cao có thể đ°ÿc sÿ dāng trong bối cÁnh kinh doanh để ti¿p thß chéo và phát triển các chi¿n l°ÿc quÁng bá mãi để tăng doanh số bán các sÁn phÁm có lÿi nhuÅn cao [17], để phân tích dā liáu phát trực tuy¿n (ví dā: Phân tích luồng nhấp chuát vào web dựa trên thåi gian dành cho mßi trang web), và để khám phá các mÃu gen quan tráng trong dā liáu y t¿ [22] Nh°ng các HAUI đ°ÿc tìm thấy trong CSDL giao tác có thể ti¿t lá thông tin cá nhân hoặc chi¿n l°ÿc, điÁu này có thể gây ra vấn đÁ Ví dā: Mát công ty th°¡ng m¿i đián tÿ có thể muốn chia sẻ dā liáu vÁ các giao tác khách hàng căa mình vãi mát công ty khác d°ãi d¿ng CSDL giao tác để cáng tác nh°ng có thể không muốn ti¿t lá các mÃu có lÿi nhất (HAUI) xuất hián trong dā liáu để công ty kia không thể sÿ dāng thông tin này để làm lÿi th¿ cho mình Đây là mát mối quan tâm quan tráng vì dā liáu do các công ty thu thÅp vÁ khách hàng đặc biát khó thu thÅp và có giá trß đối vãi các nhiám vā khác nhau nh° giãi thiáu sÁn phÁm Do đó, mong muốn có quyÁn kiểm soát nhāng gì có thể tìm thấy trong dā liáu bằng thuÅt toán khai thác tÅp māc đá hāu ích trung bình cao Ví dā thą hai là dā liáu đ°ÿc thu thÅp từ các công cā tìm ki¿m lãn vÁ các truy vấn tìm ki¿m Mát truy vấn tìm ki¿m có thể đ°ÿc biểu dißn d°ãi d¿ng mát CSDL giao tác trong đó mßi giao tác là mát tÅp hÿp các từ khóa trong mát truy vấn và trong đó đá hāu ích căa các từ khóa có thể là th°ãc đo t¿m quan tráng căa các từ (ví dā: T¿n suất thuÅt ngā) Vì dā liáu truy vấn tìm ki¿m rất có giá trß đối vãi doanh nghiáp, nên viác Án các liên k¿t quan tráng giāa các từ khóa tr°ãc khi công khai dā liáu truy vấn tìm ki¿m để giā lÿi th¿ c¿nh tranh cũng là điÁu hÿp lý Do đó, nh° đ°ÿc thúc đÁy bởi nhāng ví dā này, viác chia sẻ mát CSDL giao tác có thể dÃn đ¿n các mối đe dáa vÁ quyÁn riêng t°, bÁo mÅt hoặc tổn thất lÿi nhuÅn Do đó, rõ ràng c¿n phÁi Án các HAUI nh¿y cÁm để ngăn ng°åi dùng trái phép phát hián ra chúng

1.1.4 Phương pháp khai phá tập mục hữu ích trung bình cao

Theo Le Bac và các cáng sự [6], trong h¡n hai thÅp kỷ, các kỹ thuÅt khai phá dā liáu đã đóng mát vai trò quan tráng để phân tích c¡ sở dā liáu NhiÁu thuÅt toán

Trang 27

đã đ°ÿc thi¿t k¿ để nhÅn d¿ng cái mãi, hāu ích và nhāng mÃu bất ngå trong dā liáu, có thể giúp hiểu dā liáu, hß trÿ ra quy¿t đßnh và cung cấp thông tin chi ti¿t vÁ sở thích căa ng°åi dùng Tuy nhiên, mát vấn đÁ chính là ki¿n thąc đ°ÿc phát hián bởi các kỹ thuÅt này cũng có thể ti¿t lá thông tin riêng t°, nh¿y cÁm hoặc thông tin chi¿n l°ÿc nh° thông tin thẻ tín dāng, các mÃu mua hàng từ các cá nhân và số nhÅn d¿ng cá nhân Do đó, các cá nhân có thể phÁi đối mặt vãi các mối đe dáa vÁ quyÁn riêng t° và dā liáu căa há có thể bß l¿m dāng ĐiÁu quan tráng nāa là bÁo vá thông tin riêng t° và nh¿y cÁm căa các doanh nghiáp mang l¿i cho há lÿi th¿ chi¿n l°ÿc so vãi đối thă c¿nh tranh cũng nh° bÁo vá quyÁn riêng t° căa nhân viên và khách hàng căa há Chẳng h¿n, n¿u mát công ty công khai dā liáu hoặc chia sẻ dā liáu vãi các cáng tác viên, thì có nguy c¡ mát số thông tin nh¿y cÁm có thể bß trích xuất từ đó bằng thuÅt toán khai phá dā liáu

Để khắc phāc vấn đÁ này, khai phá dā liáu bÁo vá quyÁn riêng t° (PPDM: Privacy-Preserving Data Mining) đã đ°ÿc đÁ xuất để đÁm bÁo rằng các mÃu hoặc thông tin nh¿y cÁm không thể bß trích xuất từ c¡ sở dā liáu Māc tiêu căa PPDM là bi¿n đổi mát c¡ sở dā liáu ban đ¿u để các thuÅt toán khai thác dā liáu không thể phát hián ra thông tin riêng t° và nh¿y cÁm NhiÁu ph°¡ng pháp khác nhau đã đ°ÿc đÁ xuất để Án các quy tắt k¿t hÿp nh¿y cÁm và các tÅp phổ bi¿n trong c¡ sở dā liáu nhß phân Nh°ng đßnh d¿ng c¡ sở dā liáu đ¡n giÁn này không phù hÿp vãi nhiÁu ąng dāng Ví dā: C¡ sở dā liáu nhß phân th°ång đ°ÿc sÿ dāng để thể hián các giao dßch căa khách hàng trong đó mßi bÁn ghi là mát giao tác cho bi¿t mát tÅp hÿp các mặt hàng đã đ°ÿc khách hàng mua Mặc dù hāu ích nh°ng mô hình này bß h¿n ch¿ vì nó không cho phép xem xét số l°ÿng sÁn phÁm và lÿi nhuÅn thu đ°ÿc theo từng māc

Để cung cấp mát mô hình thực t¿ h¡n để biểu dißn các giao tác căa khách hàng, khái niám C¡ sở dā liáu giao tác đßnh l°ÿng (QTDB: Quantitative Transaction Database) đã đ°ÿc giãi thiáu cho bài toán khai thác tÅp māc đá hāu ích cao (HUIM) HUIM là sự tổng quát căa khai thác tÅp māc phổ bi¿n, trong đó māc tiêu là khám phá tất cÁ các tÅp māc (tÅp hÿp các māc đ°ÿc mua bởi khách hàng) có đá hāu ích cao Đá hāu ích là th°ãc đo t¿m quan tráng căa mát tÅp māc (ví dā: VÁ lÿi nhuÅn) và đ°ÿc

Trang 28

đßnh ngh*a là tổng các đá hāu ích căa các māc căa nó trong các giao tác mà nó xuất hián Mát tÅp māc đ°ÿc gái là tÅp māc đá hāu ích cao (HUI) và đ°ÿc cho là có đá hāu ích cao (HU), n¿u đá hāu ích căa nó không nhỏ h¡n ng°ỡng hāu ích tối thiểu do ng°åi dùng xác đßnh, đ°ÿc ký hiáu là mu Để bÁo vá thông tin chi¿n l°ÿc có thể bß ti¿t lá bởi các thuÅt toán HUIM, nhiám vā PPDM Án tÅp māc đá hāu ích cao (HUI) đã đ°ÿc đÁ xuất Nó bao gồm viác Án mát tÅp hÿp các HUI nh¿y cÁm trong số nhāng HUI đ°ÿc tìm thấy trong mát QTDB cho mát giá trß mu nhất đßnh bằng cách sÿa đổi QTDB ban đ¿u để đối thă hoặc đối thă c¿nh tranh không thể phát hián ra chúng trong c¡ sở dā liáu đã sÿa đổi cho cùng mát giá trß mu Mát số thuÅt toán đã đ°ÿc đÁ xuất cho HUIM và để Án các HUI H¿u h¿t các thuÅt toán Án mÃu nh¿y cÁm che giấu các HUI bằng cách giÁm tổng đá hāu ích (chất l°ÿng) căa mát QTDB hoặc bằng cách xóa các giao tác khỏi mát QTDB

Mặc dù HUIM có nhiÁu ąng dāng thực t¿, nh°ng đây là mát nhiám vā khó khăn Mát thách thąc là số l°ÿng các mÃu phÁi đ°ÿc xem xét có thể rất lãn do mát số HUI rất dài có thể xuất hián trong mát QTDB, và nhiÁu tÅp hÿp con căa chúng có thể là các HUI Mát vấn đÁ quan tráng khác là phép đo đá hāu ích không tính đ¿n đá dài căa tÅp māc Nh°ng trên thực t¿, các mÃu dài có thể không thú vß đối vãi ng°åi dùng vì khó có thể quÁng bá nhiÁu mặt hàng cùng nhau H¡n nāa, vì các mÃu dài th°ång có đá hāu ích cao h¡n các mÃu ngắn, nên có thể có xu h°ãng tìm ki¿m các mÃu dài h¡n Để cung cấp mát giÁi pháp thay th¿ cho HUIM nhằm giÁi quy¿t các vấn đÁ này, các nhà nghiên cąu đã đÁ xuất vấn đÁ khai thác tÅp māc đá hāu ích trung bình cao (HAUIM), dựa trên mát phép đo đá hāu ích khác đ°ÿc gái là đá hāu ích trung bình (au) Bên c¿nh viác xem xét đ¡n vß lÿi nhuÅn và số l°ÿng māc trong mát tÅp māc nhất đßnh, HAUIM cũng xem xét số l°ÿng māc mà mßi tÅp māc chąa au căa mát tÅp māc là đá hāu ích căa nó chia cho đá dài căa nó Mát tÅp māc đ°ÿc cho là tÅp māc đá hāu ích trung bình cao (HAUI) n¿u đá hāu ích trung bình căa nó không thấp h¡n ng°ỡng mu do ng°åi dùng xác đßnh tr°ãc NhiÁu thuÅt toán đã đ°ÿc thi¿t k¿ cho HAUIM chẳng h¿n nh° VMHAUI

Trang 29

Khai phá tÅp māc hāu ích trung bình cao là các thuÅt toán (tree, growth, HAUI-miner…) để tính toán trên các CSDL giao tác và giá trß lÿi nhuÅn thu đ°ÿc Các b°ãc thực hián thuÅt toán nh° sau:

HAUI-B°ãc 1: Duyát c¡ sở dā liáu để có đ°ÿc đá hāu ích trung bình căa mát māc ij

1.2 Bài toán Çn tËp māc có đá hău ích trung bình cao

Khi thực hián khai phá tÅp phổ bi¿n ng°åi ta đã bỏ qua giá trß đá hāu ích đ°ÿc gắn vãi mßi māc Có nhāng tÅp māc không phÁi là tÅp phổ bi¿n (có t¿n suất xuất hián thấp) nh°ng l¿i có giá trß đá hāu ích cao h¡n nhiÁu so vãi tÅp phổ bi¿n Trong thực t¿, viác khai phá các tÅp māc mang giá trß đá hāu ích cao là rất quan tráng và có ý ngh*a rất lãn trong đåi sống xã hái Từ đó dÃn đ¿n mát h°ãng nghiên cąu mãi trong khai phá dā liáu, đó là khai phá tÅp māc đá hāu ích cao

Cā thể, mát siêu thß kinh doanh hàng trăm mặt hàng từ nhiÁu nhà cung cấp khác nhau Há bày bán các mặt hàng theo từng khu vực, viác sắp x¿p các mặt hàng phā thuác vào chi¿n l°ÿc kinh doanh, kích thích khách hàng Mßi mặt hàng đ°ÿc bán sẽ đem l¿i mát giá trß lÿi nhuÅn đ°ÿc xác đßnh là chênh lách giāa giá bán và giá mua Theo đó, mßi khách hàng vào siêu thß mua mát vài mặt hàng vãi số l°ÿng nhất đßnh, tÅp hÿp tất cÁ sÁn phÁm khách hàng mua sẽ đem l¿i mát giá trß lÿi nhuÅn cho siêu thß, đ°ÿc gái là mát giao tác Tất cÁ các giao tác sẽ đ°ÿc siêu thß l°u trā l¿i và t¿o ra mát c¡ sở dā liáu giao tác Ng°åi quÁn lý siêu thß muốn tÅp hÿp tất cÁ sÁn phÁm mà khách hàng đã mua đem l¿i lÿi nhuÅn cho siêu thß (ví dā: 30% tổng lÿi nhuÅn), từ đó đ°a ra các chi¿n l°ÿc kinh doanh, ti¿p thß hoặc sắp x¿p các mặt hàng c¿nh nhau và đ°a ra

Trang 30

các ch°¡ng trình khuy¿n mãi, khuy¿n khích khách hàng mua sÁn phÁm này thì sẽ mua thêm mát sÁn phÁm khác trong các sÁn phÁm đã tìm ra

Bài toán khai phá tÅp māc đá hāu ích cao đã đ°ÿc nhóm tác giÁ R.C Chan, Q Yang, Y.D Shen đÁ xuất vào năm 2003 [13] Cùng vãi sự phát triển căa nÁn kinh t¿, nhu c¿u tính toán doanh thu, hiáu quÁ kinh doanh theo thåi gian thực vãi l°ÿng dā liáu lãn ngày càng trở nên cấp thi¿t

Khai phá tÅp māc đá hāu ích cao là bài toán mở ráng và tổng quát căa khai phá tÅp phổ bi¿n Trong khai phá tÅp māc đá hāu ích cao, giá trß căa māc trong giao tác đ°ÿc quan tâm nhiÁu nhất (nh° số l°ÿng đã bán căa mặt hàng), ngoài ra còn có bÁng lÿi nhuÅn cho bi¿t đá hāu ích mang l¿i khi bán mặt hàng đó Đá hāu ích căa tÅp māc là số đo lÿi nhuÅn căa tÅp māc đóng góp trong c¡ sở dā liáu, nó có thể là tổng lÿi nhuÅn hay tổng chi phí căa tÅp māc

Mát trong nhāng lý do căa khai phá tÅp māc đá hāu ích cao là khám phá ra tất cÁ các tÅp māc có đá hāu ích không nhỏ h¡n ng°ỡng đá hāu ích tối thi¿u do ng°åi dùng quy đßnh Từ đó xác đßnh đ°ÿc các tÅp māc đá hāu ích cao, các tÅp māc đá hāu ích cao nh¿y cÁm Sau đó xây dựng các ph°¡ng pháp bÁo vá các dā liáu nh¿y cÁm, làm h¿n ch¿ các thông tin nh¿y cÁm bß lá ra ngoài, nhất là trong kinh doanh

Bài toán Khai phá tÅp māc đá hāu ích cao đ°ÿc sÿ dāng trên c¡ sở dā liáu giao tác ĐÁ án này sÿ dāng CSDL giao tác D nh° sau:

BÁng 1.4: CSDL giao tác D

T1 a(3), b(1), c(5), f(2) T2 d(2), e(3), f(3), g(1) T3 a(2), b(3), d(3), e(5), f(1) T4 a(3), b(2), c(1), e(2) T5 d(2), e(3), f(5) T6 b(2), c(2), f(1), h(2) T7 d(1), e(1), f(3), g(2), h(2) T8 b(1), d(2), h(2)

T9 b(4), d(3), f(1) T10 b(4), d(1), f(3)

Trang 31

BÁng 1.5: Giá trß lÿi nhuËn căa CSDL D

BÁng 1.6: TËp māc hău ích trung bình cao HAUIs

Mát sß khái niÇm vÁ khai phá tËp māc đá hău ích trung bình cao

Cho tÅp các māc I={x1, x2, , xm} Mát giao tác T là mát tÅp con căa I, T  I, CSDL giao tác là tÅp các giao tác D ={T1, T2, , Tn} Mßi giao tác đ°ÿc gán mát đßnh danh Tid Mát tÅp māc X = {x1, x2 … , xk}, vãi xi * I, 1 f i f k Mßi māc xi trong giao tác Tq k¿t hÿp vãi mát tráng số ký hiáu là q(xi, Tq)

Cho CSDL giao tác gồm 10 giao tác từ T1 đ¿n T10 Trong đó a, b, c, d, là các item (giÁ sÿ là các mặt hàng) và các giá trß gắn vãi các item là số l°ÿng căa từng mặt hàng (BÁng 1.4) Giá trß lÿi nhuÅn thu đ°ÿc khi bán item t°¡ng ąng (BÁng 1.5) TÅp māc đá hāu ích trung bình cao thu đ°ÿc (BÁng 1.6) ĐÁ án sÿ dāng mát số đßnh ngh*a

Trang 32

Đßnh ngh*a 1.3: Đá hāu ích trung bình căa tÅp māc X trong CSDL giao tác

D, đ°ÿc ký hiáu: au(X) = ∑X⊆Tq^Tq*Dau(X, Tq)

Ví dā: au(bd) = au(bd,T3) + au(bd,T8) + au(bd,T9) = 7 + 3 + 14 = 24

Đßnh ngh*a 1.4: Mát tÅp māc X đ°ÿc gái là tÅp māc hāu ích trung bình cao

trong CSDL D n¿u giá trß hāu ích trung bình căa X không nhỏ h¡n ng°ỡng đá hāu

ích trung bình tối thiểu Ā cho tr°ãc

HAUIs = {X| au(X) g Ā}

1.3 Mát sß thuËt toán khai phá tËp māc đá hău ích trung bình cao

Mát tÅp māc trong khai thác hāu ích truyÁn thống xem xét lÿi nhuÅn và số l°ÿng māc trong các giao tác bất kể đá dài căa nó Bián pháp hāu ích trung bình sau đó đ°ÿc đÁ xuất Th°ãc đo này là tổng hāu ích căa mát tÅp māc chia cho số l°ÿng māc Mát số thuÅt toán khai thác cũng đã đ°ÿc đÁ xuất để khai thác các tÅp māc hāu ích trung bình cao (HAUI) từ c¡ sở dā liáu giao tác

Hián có nhiÁu công trình nghiên cąu đÁ xuất ra các thuÅt toán khai phá tÅp māc đá hāu ích trung bình cao hiáu quÁ Năm 2011, Hong và cáng sự [1] đã đÁ xuất thuÅt toán TPAU, đây là thuÅt toán khai thác HAUI đ¿u tiên, vÁ bÁn chất là hai pha TPAU xác đßnh giãi h¿n trên đ°ÿc gái là giãi h¿n trên đá hāu ích trung bình (AUUB) để duy trì tính chất downward closure N¿u giá trß AUUB căa mát tÅp māc không thỏa ng°ỡng đá hāu ích trung bình tối thiểu, thì tÅp māc đó và tất cÁ các tÅp cha (supersets) căa nó không thể là HAUI TPAU thực hián tìm ki¿m theo cấp đá đòi hỏi thåi gian ch¿y dài Mát giÁi pháp khác, năm 2012, Lan và cáng sự [5] đã đÁ xuất thuÅt

Trang 33

toán PBAU phát triển mát kỹ thuÅt dựa trên phép chi¿u và cấu trúc lÅp chỉ māc để tăng tốc quá trình khai thác HAUI Ngoài PBAU, Lan và cáng sự [4] đã trình bày mát giãi h¿n trên chặt chẽ h¡n dựa trên khái niám tiÁn tố để giÁm số l°ÿng tÅp māc ąng viên Năm 2014, Tien Lu và cáng sự [12] đã đÁ xuất mát thuÅt toán HAUI dựa trên cây sÿ dāng cây HAUI và mát cấu trúc mãi cho các tÅp māc để tăng tốc đá tính toán

Năm 2010, Lin và cáng sự [7] đã đÁ xuất thuÅt toán HAUI-growth khai thác HAUI dựa trên cây khác để tránh quét c¡ sở dā liáu nhiÁu l¿n Ngoài ra, mßi nút trong cây duy trì mát mÁng để giā thông tin vÁ đá hāu ích trung bình căa các tÅp māc Sau đó, năm 2016 Lin và cáng sự [8] đã đÁ xuất thuÅt toán HAUI-Miner mát pha hiáu quÁ đ°ÿc trình bày k¿t hÿp cấu trúc danh sách có tên là danh sách đá hāu ích trung bình (AU) để khai thác HAUI Nó áp dāng mô hình AUUB để lo¿i bỏ các ąng viên y¿u khỏi không gian tìm ki¿m Ngoài ra, năm 2017, Lin và cáng sự [10] ti¿p tāc đÁ xuất thuÅt toán EHAUPM, thuÅt toán này bổ sung hai giãi h¿n trên chặt chẽ h¡n có tên là Tián ích giãi h¿n trên lỏng lẻo h¡n (Looser Upper-Bound Utility - LUB) và Giãi h¿n trên chặt chẽ h¡n đ°ÿc sÿa đổi (Revised Tighter Upper Bound - RTUB) để lo¿i bỏ đáng kể các tÅp māc ąng viên không tiÁm năng Ngoài ra, nó k¿t hÿp mát cấu trúc danh sách mãi đ°ÿc gái là danh sách đá hāu ích trung bình đ°ÿc sÿa đổi (MAU) và các chi¿n l°ÿc cắt tỉa khác nhau để cÁi thián hiáu suất Trong khi đó, năm 2017 Yun và cáng sự [21] đã đÁ xuất thuÅt toán MHAI đã đ°a ra mát cấu trúc danh sách mãi HAI-list và nhiÁu chi¿n l°ÿc cắt tỉa để thúc đÁy quá trình khai thác HAUI Mát số công trình nghiên cąu khác vÁ vấn đÁ khai thác HAUI đã đ°ÿc thÁo luÅn trong [11], [15], [16], [19]

1.4 K¿t luËn Ch°¢ng 1

Bài toán khai phá tÅp māc đá hāu ích trung bình cao đã tìm ra các giá trß hāu ích dựa trên ng°ỡng tối thiểu do ng°åi dùng đặt ra Trong kinh doanh dā liáu c¿n đ°ÿc chia sẻ giāa các tổ chąc khác nhau để cùng có lÿi trong hÿp tác kinh doanh Tuy nhiên, viác chia sẻ dā liáu mang l¿i nhiÁu răi ro để lá ra mát số tÅp māc hāu ích trung bình cao này có liên quan đ¿n vấn đÁ nh¿y cÁm, vì vÅy tr°ãc khi chia sẻ dā liáu ra bên ngoài thì c¿n phÁi Án các tÅp māc nh¿y cÁm đi Để giÁi quy¿t vấn đÁ đó, bài toán Án tÅp māc có đá hāu ích trung bình cao nh¿y cÁm đ°ÿc đÁ xuất

Trang 34

CH¯¡NG 2: PH¯¡NG PHÁP ÆN TÊP MĀC CÓ Đà HĂU ÍCH TRUNG BÌNH CAO NH¾Y CÀM

cÁm

BÁo vá tính riêng t° trong khai phá tÅp māc hāu ích trung bình cao (PPAUIM) có māc đích che giấu đi các thông tin riêng t°/nh¿y cÁm Án chąa trong c¡ sở dā liáu (CSDL) sao cho chúng không thể đ°ÿc khai thác bởi các thuÅt toán khai phá tÅp māc hāu ích trung bình cao (HAUIM) khi chia sẻ CSDL ra bên ngoài Có nhiÁu ph°¡ng pháp ti¿p cÅn để giÁi quy¿t vấn đÁ này, trong đó ph°¡ng pháp phổ bi¿n nhất hián nay là sÿ dāng kỹ thuÅt sÿa đổi mát số māc dā liáu t¿i mát số giao tác căa CSDL gốc để t¿o ra mát bÁn sao CSDL sao cho các thông tin riêng t°/nh¿y cÁm không thể khai thác đ°ÿc từ bÁn sao CSDL Viác sÿa đổi các māc dā liáu có thể gây ra các hiáu ąng phā đối vãi bÁn sao CSDL nh°: Làm mất đi các māc không nh¿y cÁm hoặc sinh ra các māc dā liáu mãi, làm thay đổi vÁ cấu trúc căa CSDL gốc

Ví dā: Cho mát c¡ sở dā liáu D, mát tÅp hÿp các HUIs H và tÅp hÿp con S căa nó chąa tÅp māc đá hāu ích cao nh¿y cÁm (SHUI) do ng°åi dùng xác đßnh Vấn đÁ căa PPUM là tìm ra mát cách thích hÿp để sÿa đổi D thành mát D′ đã làm s¿ch để che giấu tất cÁ các tÅp māc trong S và giÁm thiểu tác đáng tiêu cực đ¿n các mÃu không nh¿y cÁm trong H

Quy trình chung căa PPUM đ°ÿc mô tÁ trong Hình 2.1

Hình 2.1: Quy trình PPUM chung

Utility

PPUM

Database

Minimum utility threshold

Perturbated Database

HAUIs

SHAUIs

Trang 35

Trong đÁ án này sÿ dāng mát số đßnh ngh*a sau đ°ÿc tham khÁo trong công trình [2], [15], [17]:

Cho các tÅp māc có đá hāu ích trung bình cao nh¿y cÁm c¿n phÁi Án, ký hiáu là SHAUI = {S1, S2, …, Sm}, trong đó Si* SHAUI, (1 f d f m) Bài toán Án tÅp māc đá hāu ích trung bình cao nh¿y cÁm là viác sÿa đổi CSDL D ban đ¿u thành CSDL D’ sao cho đá hāu ích căa tất cÁ tÅp māc nh¿y cÁm Si * SHAUI phÁi nhỏ h¡n ng°ỡng đá hāu ích tối thiểu do ng°åi dùng đặt ra

Đßnh ngh*a 2.1 (TËp māc hău ích trung bình cao nh¿y cÁm): Mát tÅp māc

Si* HAUIs đ°ÿc xác đßnh là tÅp māc mà chă sở hāu CSDL không muốn bß khai thác bởi các thuÅt toán HAUIM khi CSDL đ°ÿc chia sẻ hoặc công bố ra bên ngoài, khi đó tÅp māc Si đ°ÿc gái là tÅp māc hāu ích trung bình cao nh¿y cÁm Gái SHAUIs là tÅp

gồm các tÅp māc hāu ích trung bình cao nh¿y cÁm thì: SHAUIs = {Si|Si * HAUIs}

Đßnh ngh*a 2.2: Àn tÅp các tÅp māc SHAUIs là quá trình sÿa đổi CSDL gốc

D trở thành CSDL sÿa đổi D’ (để chia sẻ hoặc công bố ra bên ngoài), sao cho chỉ duy

nhất các tÅp māc hāu ích trung bình cao không nh¿y cÁm có thể đ°ÿc khai phá từ CSDL D’ bởi các thuÅt toán HAUIM

Đßnh ngh*a 2.3 (Māc māc tiêu): Māc māc tiêu (xvic) là māc thuác tÅp māc hāu ích trung bình cao nh¿y cÁm Si c¿n Án, sao cho khi giÁm giá trß hāu ích nái căa māc xvic t¿i giao tác hß trÿ tÅp māc Si sẽ giÁm thiểu đ°ÿc hiáu ąng phā căa quá trình sÿa đổi này gây ra trên CSDL

Đßnh ngh*a 2.4 (Giao tác māc tiêu): Giao tác māc tiêu (Tvic) là giao tác mà khi giÁm giá trß hāu ích nái căa māc xvic t¿i giao tác Tvic sẽ giÁm thiểu đ°ÿc hiáu ąng phā căa quá trình sÿa đổi này gây ra trên CSDL

Quá trình sÿa đổi dā liáu căa bài toán Án các tÅp māc đá hāu ích trung bình cao nh¿y cÁm gồm ba b°ãc sau:

B°ãc 1: Áp dāng các thuÅt toán khai phá đá hāu ích trung bình cao trên c¡ sở dā liáu giao tác D để có đ°ÿc tất cÁ các tÅp māc đá hāu ích trung bình cao (HAUIs);

B°ãc 2: Xác đßnh tÅp hÿp các tÅp māc nh¿y cÁm (các tÅp māc đá hāu ích trung bình cao nh¿y cÁm) SHAUIs dựa trên các yêu c¿u căa ng°åi dùng;

Trang 36

B°ãc 3: Áp dāng thuÅt toán Án các tÅp māc đá hāu ích trung bình cao nh¿y cÁm để t¿o ra c¡ sở dā liáu đ°ÿc sÿa đổi D’

2.2 Tác dāng phā

Tất cÁ thông tin không Ánh h°ởng đ¿n quyÁn riêng t° nên đ°ÿc giā l¿i để đ¿t đ°ÿc lÿi ích căa quy trình khám phá mÃu Tuy nhiên, viác Án thông tin nh¿y cÁm gây ra mát số tác đáng không mong muốn đối vãi thông tin không nh¿y cÁm Māc tiêu căa PPDM là Án các tÅp māc nh¿y cÁm, đồng thåi ít tác dāng phā trên c¡ sở dā liáu [9] Nói chung, có thể có các tác dāng phā nh°: Hiding failure, Mising cost, Artificial cost Các phép đo căa các tác dāng phā này th°ång đ°ÿc sÿ dāng làm tiêu chí để đánh giá hiáu lực và hiáu quÁ căa các thuÅt toán PPDM Mối quan há giāa các tÅp māc xuất hián trong c¡ sở dā liáu D tr°ãc và sau quá trình PPDM có thể đ°ÿc nhìn thấy trong Hình 2.2, trong đó L đ¿i dián cho các tÅp phổ bi¿n trong D; S đ¿i dián cho các tÅp phổ bi¿n nh¿y cÁm đ°ÿc xác đßnh bởi ng°åi dùng; ∼S đ¿i dián cho các tÅp phổ bi¿n không nh¿y cÁm và L’ biểu thß các tÅp māc phổ bi¿n sau quá trình làm s¿ch

L

L

Hình 2.2: Mßi quan hÇ giăa các tËp māc tr°ãc và sau quá trình PPDM

Đßnh ngh*a 2.5 Hiding failure trong PPDM đ°ÿc ký hiáu là α và đ°ÿc đßnh

ngh*a là: α = S ∩ L′

Trang 37

Hiding failure α đ°ÿc đßnh ngh*a là tÅp hÿp các tÅp māc nh¿y cÁm mà quy trình làm s¿ch dā liáu không thể Án đ°ÿc Lý t°ởng nhất là tÅp hÿp α phÁi trống khi quá trình làm s¿ch k¿t thúc Tác dāng phā α đ°ÿc minh háa trong Hình 2.3

L

L

α

Hình 2.3: TËp hÿp các tËp māc nh¿y cÁm mà quy trình PPDM không Çn đ°ÿc

Đßnh ngh*a 2.6 Missing cost trong PPDM đ°ÿc ký hiáu là ³ và đ°ÿc đßnh

ngh*a là: ³ = ∼S − L′ = (L − S) − L′

Missing cost là tÅp hÿp các tÅp phổ bi¿n không nh¿y cÁm xuất hián trong c¡ sở dā liáu gốc không thể phát hián đ°ÿc trong c¡ sở dā liáu đã đ°ÿc làm s¿ch Tác dāng phā ³ đ°ÿc mô tÁ trong Hình 2.4

Trang 38

Đßnh ngh*a 2.7 Artificial cost trong PPDM đ°ÿc ký hiáu là ´ và đ°ÿc đßnh

ngh*a là: ´ = L’ − L

Artificial cost ´ đ¿i dián cho tÅp hÿp các tÅp phổ bi¿n xuất hián trong c¡ sở dā liáu đã làm s¿ch mà không th°ång xuyên xuất hián trong c¡ sở dā liáu gốc Tác dāng phā ´ đ°ÿc minh háa trong Hình 2.5

L

L

´

Hình 2.5: Artificial cost phát sinh tÿ quy trình PPDM

Các tiêu chí đánh giá tiêu chuÁn căa PPDM nh° hiding failure (HF), missing cost (MC) và artificial cost (AC) đ°ÿc sÿ dāng để đánh giá hiáu suất căa các thuÅt toán đ°ÿc đÁ xuất Ngoài ra, do các thuÅt toán đ°ÿc sÿ dāng trong PPUM có các cân nhắc khác nhau so vãi các thuÅt toán đ°ÿc sÿ dāng trong PPDM, nên ba bián pháp t°¡ng tự mãi là DSS (Database Structure Similarity là tỷ lá t°¡ng đồng vÁ cấu trúc căa CSDL sÿa đổi D’ so vãi CSDL gốc D), DUS (Database Utility Similarity là tỷ lá t°¡ng đồng vÁ hāu ích giāa CSDL D’ vãi CSDL D), và IUS (Itemsets Utility Similarity là tỷ lá t°¡ng đồng vÁ hāu ích trung bình căa tÅp các HAUIs trong CSDL sÿa đổi D’ (HAUIs’) so vãi tÅp các HAUIs trong

CSDL gốc D (HAUIs)) đ°ÿc giãi thiáu nh° là tiêu chí mãi để đánh giá hiáu suất

căa các thuÅt toán đã phát triển cho PPUM

Trang 39

Đßnh ngh*a 2.8 (DSS - Database Structure Similarity): DSS là tỷ lá t°¡ng

đồng vÁ cấu trúc căa CSDL sÿa đổi D’ so vãi CSDL gốc D DSS chỉ xem xét liáu

các māc hoặc tÅp māc có mặt hay không trong các giao tác Dựa trên tiêu chí này, nó đánh giá mąc đá t°¡ng tự giāa c¡ sở dā liáu gốc và c¡ sở dā liáu đã đ°ÿc làm s¿ch Đ°ÿc xác đßnh nh° sau:

DSS = √∑|tpā�㔷∪tpā�㔷2|(freq(tp�㕘�㔷) 2 freq(tp�㕘�㔷))2

k=1

trong đó tp�㕘�㔷 và tp�㕘�㔷2 l¿n l°ÿt là mÃu giao tác thą k trong CSDL D và D’ Āÿÿþ(tp�㕘�㔷) và Āÿÿþ(tp�㕘�㔷2) l¿n l°ÿt là đá phổ bi¿n căa mÃu giao tác thą k trong CSDL D và D’

Đßnh ngh*a 2.9 (DUS - Database utility similarity): DUS là tỷ lá t°¡ng đồng

vÁ hāu ích giāa CSDL D’ vãi CSDL D DUS đ°ÿc sÿ dāng để đo l°ÿng tổn thất

hāu ích trong toàn bá tÅp dā liáu Bián pháp này có thể đ°ÿc sÿ dāng để ti¿t lá l°ÿng hāu ích đã bß lo¿i bỏ (tổn thất hāu ích) do quá trình làm s¿ch, đây là tiêu chí phù hÿp cho PPUM Đá t°¡ng đồng căa hāu ích c¡ sở dā liáu cao h¡n cho thấy ít thông tin bß mất h¡n trong quá trình làm s¿ch Đ°ÿc xác đßnh nh° sau:

DUS = ∑Tc*�㔷2 tu(Tc)

∑Tc*D tu(Tc)

vãi tu(Tc) là hāu ích căa giao tác Tc và đ°ÿc đßnh ngh*a: tu(Tý) = ∑xÿ*Tc ÿ(�㕥ÿ,Āý)

Đßnh ngh*a 2.10 (IUS - Itemsets Utility Similarity): IUS là tỷ lá t°¡ng đồng

vÁ hāu ích trung bình căa tÅp các HAUIs trong CSDL sÿa đổi D’ (HAUIs’) so vãi tÅp các HAUIs trong CSDL gốc D (HAUIs) Tiêu chí này t°¡ng tự nh° MC (Mising cost) nh°ng cung cấp đánh giá thực t¿ h¡n cho PPUM, đặc biát khi khoÁng cách giāa các hāu ích căa các HUIs đ°ÿc phát hián và ng°ỡng hāu ích tối thiểu là lãn Đ°ÿc xác đßnh nh° sau:

IUS = ∑X*HAUIs2 au(X)

∑X*HAUIs au(X)

Māc tiêu bài toán: Àn các tÅp māc có đá hāu ích trung bình cao nh¿y cÁm và giÁm hiáu ąng phā đối vãi các tÅp māc không nh¿y cÁm do quá trình sÿa đổi gây ra

Ngày đăng: 20/09/2024, 09:41

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w