/ Tổ chức và khai thác cơ sở dữ liệu truyền ỉhống
1.4.6. Lựa chọn phương pháp
Các giải thuật khai phá dữ ìiệu tự đơng vẫn mới chỉ ớ giai đoạn phát triển ban
dầu, H iện người ta vần chưa dưa ra dược m ột liêu chuẩn nào trong việc quyết dịnh
sử (lụng phương pháp nào vào trong trường hợp nào thì cĩ hiệu quá. [3]
Mầu hết các kỹ thuật khai phá dữ liệu đều mới đối với lĩnh vực kinh doanh. Hơn nữa lại cố rấ t nhỉểu k ỹ thuật, m ỗi kỹ thuật dược s ồ d ụ n g cho nhiêu bời ¡oản
khác nhau. Vì vậy, ngay sau cẵu hối khai phá dữ ỉiệu là gì sẽ là câu hỏi vậy thì dùng
kỹ thuật nào? Câu trả lời tất nhiên là khơng dơn giản. Mỗi phương pháp đều cĩ điếm mạnh và điểm yếu của nĩ, nhưng hầu hết các điểm yếu đều cĩ thể khắc phục dược.
Vậy thì phải làm như thế nào để áp dụng kỹ thuật một cách thật đơn giản, dễ sử dụng để khơng cảm líìấy những phức tạp vốn cĩ của kỹ thuật đĩ.
1.4.7. Cĩ phải tất cả các mẫu tìm được đều đáng quan tâm?
Hệ thống khai phá dữ liệu cĩ thể sinh ra hàng nghìn hoặc thậm chí hàng triệu mẫu hoặc luật. Do vậy, cĩ một câu hỏi: Cĩ phải tất cả đều ỉà đáng quan tâm? Câu trả lịi là chỉ cĩ I phần nhỏ trong các mẫu hoặc luật ]à đáng quan tâm và hữu ích đối với người sử dụng.
Cĩ một vài câu hỏi dặt ra cho hệ thống khai phá dữ liệu: - Cái gì tạo ra các mẫu quan tâm?
- Hệ thống DM cĩ thể sinh ra tất cả các mẫu quan tâm khơng? - Hệ thống DM cĩ thể sình ra chỉ các m ẫu quan tãm?
Trả lời cầu hỏi thứ nhát: Mẳu là đáng quan tâm nếu: (1) Dễ hiểu đối với con người.
(2) Hợp ỉệ hoặc được dữ liệu kiểm tra với độ chắc chấn nào đĩ, (3) Cĩ khả năng (tiềm năng) hữu ích
(4) Mới ỉạ (novei)
Mẵu cũng là quan tAm nếu nĩ là giả thiết hợp lệ được người đùng xác nhộn. Mẫu quan tơm biểu diễn sự hiểu biết (tri thức).
Cĩ vài đỏ đo cho các mẫu quan tâm, Nĩ dựa trện cấu trúc cùa các mãu đã khám phá và thống kê trên chúng, Chẳng hạn , độ đo cho các luật kết hợp dạng X -» Y là độ hỗ trợ và độ tin cậy của luật. Đ ĩ là xác suất P(XƯY) và xác suất cĩ diều kiện p (Y /X ). Về hình thức, độ hỗ trợ và độ tin cậy là xác định như sau:
Support(X Y) = P(XUY) Confidence(X Y) = P(Y/X)
Nhìn chung các độ đo này cĩ thể được người dùng điều khiển. Câu hỏi thứ hai: Cĩ thể tạo ra tất cả các mẫu cần quan tâm khơng?
Điều đĩ liên quan đến lính hồn thiện của thuật tốn khai phá. N ổ thường khơng thực hiện được và khơng cĩ khả năng đối với các hộ thống khai phá dữ liệu
26
đế sinh ra tất cả các mẫu cĩ thể lồn tại. Thay cho điều ciĩ, người ta tập irung vào mục liơu tìm kiêm . Khai phá luật kết hợp là một ví dụ mà ở đc> sử dụng các độ đo cỏ thế đảm bảo khai phá trọn vẹn, cĩ nghĩa là với ngưỡng độ hỗ trợ và độ tin cậy nhị nhát xác ílịnh trước thì cĩ thể tìm được.
Câu hỏi cuối cùng: Hệ thống khai phổ dữ liệu cĩ thể chỉ sinh ra các mẫu cầti quan tâm kiìơng? - đĩ lằ vấn đề tối líu trong khai phá đữ liệu, Nĩ là mong muốn cao
CẾIO hệ thống khai phá dữ liệu chì sinth ra các m ẫu qua« làm . Điều đĩ cịn là sự
ihách Ihứe trong khai phá dữ liệu.
Kết l u ậ n :
Nội dung của chương đã tìm hiểu quá trình phát hiện tri thức và các vấn đề khai phú dữ liệu. Phát hiện trĩ thức (KDD) là một quá trình rút ra tri íhức từ dữ liệu mà trong dĩ khai phá dứ ỉìệu lằ giai đoạn chù yếu. Khai phá dữ liệu là nhiệm vụ khám phá các mẫu cĩ ích từ số lượng lớn dữ liệu, ở đĩ dữ liệu cĩ thể dược lưu Trữ trong các CSDL, kho dữ liệu hoặc kho lưu trữ thơng tin khác, Nĩ là một lĩnh vực CỊII Irẻ, phái triển lừ các lĩnh vực như các hệ thống CSDL, kho (lữ liệu (DW), thống kê, học máy, trực quan hố dữ liệu,.,. Khám phá tri thức bao gồm nhiều giai đoạn trong dĩ khai phá dữ liệu là giai đoạn quan trọng nhất. Chương này cũng đã tĩm tắt một số phương pháp phổ biến dùng để khai phá dữ liệu và phân tích một số khía cạnh của khai phá dữ liệu. Trong các phương pháp khai phẩ dữ liệu, phát hiện các luật kết hợp là một lĩnh vực đang được quan tâm nghiên cứu mạnh mẽ. Chương sau sẽ í rình bày chi tiết vấn đề khai phá luật kết hợp trên CSDL lớn.
KH AI PHÁ LUẬT KẾT HỢP TRONG c ơ SỎ DỮ LIỆU LỚN
2.1. LUẬT K ẾT HỢP
Khai phá luật kết hợp là một kỹ thuật quan trọng của khai phá dữ ỉiệu được ra đời và phát triển mạnh mẽ trong những num gần đây. Lần đầu được Rakesh Agrawal, Tomasz Imielinski, Amn Swami đề xuất năm 1993 [14,4], Sau đĩ năm 1996 được llakesh Agrawal, Heikki Mannila, Ramakrishnan Srikant, Hannu Toivonen, A. ĩnkeri Verkamo tiếp tục phái triển cải tiến. Những nghiên cứu về luật kết hợp gần dây tập trung xây dựng các thuật tốn khai phá luật kết hợp mới, hiệu quả hoặc cải tiến, phát triển các thuật tốn hiệu quả hơn từ các thụâl tốn đã cĩ.
Chương này trình bày: Bài tốn xuất phát, các khái niệm cơ sở, khai phá luật kết hợp boolean lừ CSDL lác vụ, thuậí tốn Apriorì: tìm tập mục phổ biến sử dụng phương pháp sinh các ứng cử, cách sinh ra các luật kết hựp lừ các tập mục phổ biến. Đổng thời néu một số cải úến để nâng cao hiệu quả của thuật tốn Apriorì. Mặt khác, chương này cũng trình bày một cách tiếp cận khác để lìm các tập mục phổ biến: tìm tạp mục phổ biến khơng cắn sinh các ứng cử như thuậi tốn Apriorì - dĩ là thuật tốn FP-growth. Trong chương này cũng nêu một số vấn đồ khai phá các luật kết hợp đa mức, khai phá luật kết hợp định lưựng và đánh giá độ phức tạp của thuật tối» kỉiai phá luật kết hợp.
2,1.1 Phân tích sự báu hàng cua siêu thị - một ví dụ về dộng CƯ thúc dấy khai phá luật kết hợp £11 ]:
Giả sử rằng là người quản lý của siêu thị, ta muốn biết được về s ở thích mua hàng của khách hàng. Đặc biệt, ta muốn biếí những nhĩm hoặc tập hợp những mậl [làng gì khách hàng thường cùng mua trong một lần đến cửu hiệu. Để trả loi câu hỏi dĩ, cần phân tích trên dữ liệu bán lè của các tác vụ mua bán của khách hàng. Kết quả phân lích cĩ thể sứ dụng cho kế hoạch tiếp thị hoặc chiến lược quảng cáo cũng như sắp xếp các mặt hàng. Như vậy; Cho trước một ỉượng lớn dĩr liệu lưu các thơng tin mua sắm của khách hàng, ta mong muốn phát hiện được những tri thức cĩ giá trị
2 8
nhầm phục vụ cho cửa hàng hoạch định các chiến lược bán hằng như nên thiết kế mẫu quảng cáo thế nào? bơ' trí sắp xếp hàng hố ra sao? cần bổ sung thêm những hàng hố gì? phân loại các đối iưựng khách hàng của cửa hàng để cĩ chiến lược quảng cáo và kinh doanh phù hợp v.v...
Ta cĩ thể sử dụng các biến giá trị Boolean để miêu lả sự cỏ mặt hoặc khơng của mật hàng irong mỗi tác vụ mua bán. Mỗi rổ mua hàng của khách hàng cĩ lh<í miêu tả bởi một vector boolean của các biến này. Các vector boolean đĩ cĩ thể phản lích cho các vụ mua bán để lìm ra sự kết hợp: các tập phổ biến và các mật hàng thường được mua cùng nhau. Chẳng hạn: (hơng tin về những khách hàng mua máy tính cũng cĩ khuynh hướng mua phần mềm quản lý tài chính trong cùng lần mua được miêu tả ỉrong luật kếỉ hợp sau:
" Máy tính => Phần mềm quản lý lài chính"
[Độ hỗ trợ: 2%, độ tin cậy: 60%]
Đ ộ hổ trợ và độ tin cậy là hai dộ đo của sự đáng quan tâm cùa luật. Chúng tương ứng phản ánh sự hữu ích và sự chắc chắn của luật đã khám phá. Đỗ hỗ irợ 2% cỏ nghĩa ià: 2% của tất cả các tác vụ đã phân tích chỉ ra rằng máy tính và phần mém quản ]ý tài chính là đã được mua cùng nhau. CỊI1 độ tin cậy 60% cĩ nghĩa là 60% các khách hàng mua máy tính cũng mua phần mềm. Đặc biệt, các luật kết hợp coi là dáng quan tâm nếu chúng thồ mãn cả hai ngưỡng độ hỗ trợ cực tiểu và dộ tin cậy cực tiểu. Nhũng ngưỡng này cĩ thể đo người dùng hoặc các chuyên gia trong lĩnh vực xác định,
2.1.2. Các khái niệm cơ sở:
Kí hiệu I = {i|, i2, ì,,,} là cập các thuộc tính nhị phân, gọi là các mục ( item). D íà cơ sở dữ liệu của các tác vụ (mỗi vụ mua hàng của một khách hàng nào đĩ được xem là một tác vụ - transaction), ở đĩ mỗi tác vụ T là tập của các mục Tçzỵ. Mỗi tác vụ cĩ một định danh gọi là TID. X là tập cùa các m ục, X ç l . Tác vụ T dược gọ í là chứa X nếu và chỉ nếu X çT . Tác vụ T được biểu diễn như một vectơ nhị phùn, ở đĩ : T[k]=l hoạc T[k]=0.
* Luật kết hợp (Association Rule) : Một luật kết hợp là phát biểu dạng X —» Y, ở đĩ Xçrl, Y c l , và X n Y = 0 .
Đối với luật kết hợp X ^ Y , X được gọi là ỉién dề , Y được gọi ià kết quả của
luíU .
* Dộ hổ trự của một tập mục ( itemsei): Độ hỗ trợ (Supporl) của một tạp mục X irong lập các tác vụ D, kí kiệu supp(X) là tỉ số gíừa sơ' các tác vụ T (cùa D) chứa X và tổng số các lác vụ của D ( hay sơ'phàn trăm của các tốc vụ trong D cĩ chứa X).
|Ịt e D/T 3 x}| supp(X) = í--- --- i
Đ ộ hồ irợ cùa một íập mục cĩ gíá irị giữa 0 và 1, tức ỉà 0< Supp(X) <1 với mọi tập mục X.
* Tập mục phổ biển (frequent ilemset) : Tập tnục X mà supp(X) > minsup , với mitvsup là một giá trị cUo Iriíớc được gọi là lập mục phổ biến (frequent iiemset)
với độ hỗ trợ cực tiểu là minsup.
* Độ hỗ ỉ rợ (Support) của một luật: cho luật r= X —» Y, độ hỗ trợ của luẠi r, kí hiệu supp(r) đưực xác định như sau : supp(r)=supp(XưY),
Như vậy, mội luật kết hợp trong tạp các tắc vụ D vĩi độ hỗ irợ s, thì s là so phán trăm của các tác vụ trong D cĩ chứa X u Y ( chứa cả hai X và Y). Đ ĩ chính là
xác xuất P(X ưY ). Đơ hỗ uợ của mội luật cĩ giá trị giữa 0 và 1.
* Dộ tin cậy ctUt m ột luật (Conßdence): Luật r= X —» Y cĩ độ tin cậy c trong D nếu c ià sổ phân trâm các tác vụ Irong D mà chứa X thí cũng chứa Y. Đ ĩ chính là xác xuất cĩ điều kiện: P(Y/X). Kĩ hiệu độ tin cây của luật r là conf(r) . Độ Ún cậy cúa mội luật cũng cĩ giá irị giữa 0 và l .
supp(X-^Y) = PịXuY)
conf(X-> Y) = P(YỈX)= supp (X uY) /supp (X).
Các luật thoả mãn cà hai ngưỡng: độ hỗ trợ cực liểu ( nìinsup) và độ tin cậy cực tiểu ( minconf) được gọi ià luật kết hợp mạnh (strong) , tức l à : supp(X—> Y) > nùnsup và vonfịX—> Y) > minconf . Người ta thường viết giá trị các độ hỗ trợ và độ tin cậy này giữa 0% và 100% thay cho 0 tới 1.
30
CSDL !m¡ trfi các dû liêu (ne vu. Dfr liêu nie vu cơ ihé diroc luru iw dutfi d;mg bàng k ici i tluroc rn x n.
Khai phá các Iuât két hop trong CSDL iĩn nhtf thé nào? Khai phà Iuât kél hop là qua trlnh gơm 2 bufĩte:
(1) Tim tâ't Cil các tâp mue phơ bien: mơỵ tâp mue là phd bien duoc xàc dinh qua tinh dơ hơ ira và thoa mân dơ hơ tro eue tiéu.
(2) Sinh ra các iuât két hop rnanh lír các tâp mue pho bién; các iuât phài thồ mân dơ hơ tro cutc lieu và dơ tin cây eue tiéu.
Vf du : Cho CSDL D gơm 5 tâc vu sau :
TID Các mue T1 A, C, D T2 B, E T3 A, B, C, E T4 B, E T5 B, D, F Bàng 2.1 C tf sà d it liêu D
Dơ hơ tro cùa các các mue (hay tâp mue chỵ gơm mot mue) duoc minh hoa trong bàng 2.2; à dây mue A xuâ't hiên trong 2 tâc vu T I, T3 cua CSDL D {(ỵude mơ ta trong bàng 2.1) nên supp(A) = 2/5 = 40%.
Mue Sơ' tâc vu D ơ hơ tro supp (X)
A 2 40% B 4 80% C 2 40% D 2 40% E 3 60% F 1 20%
Tuong ur ban g 2.3 tinh dơ hơ tro cua mơt so tâp mue trong CSDL D. Vf du, tâp mue AB xuàt hiên eh! 1 lân trong tac vu T3, do do dơ hơ ira eiia tâp mue này là 20%.
Tàp mue Sơ tac vu D ơ hơ tro supp (X)
A, C 2 40% A, B 1 20% B, D l 20% C, D I 20% A, B, C l 20% A , B, E i 20% A, C, D L 20% B, D, F l 20% A, B, C, E l 20%
Bàng 2.3. Dơ hơ ira cita câc tâp mue
Rang 2.4. tính dơ tin êy cua mơt sơ ỵuât kêt hop sinh ra tir câc tâp mue trong bàng 2.3. Dơ fin eAy 100% eho lufit A —> C cơ nghỵa là trong moi lac vu trong dơ A xuât hiû» ihi C cüng xuât hiên. Dơ tin cûy cua luál này duoc tinh bàng câch chia sơ' cae tac vu mà tftp mue AC xuât hiên là 2 cho SƠ các tâc vu mà mue A xuàl hiên (bàng 2.1).
Luâl kêt hçfp Dơ tin cây conf (X —>Y)
A ^ C 100% A B 50% B -> D 25% A, B C 100% A, C -> B 50% B , E ^ A 33%
32
2.1.3. Mội số tính chát của tập mục phổ biến và luật kết hợp:
Với tập phổ biến ta cĩ 3 lính chất sau: (1) Tính chất ] ( độ hồ trợ của tập cou):
Nếu AcB vĩi A,B là các tập mục thì supp(A) ¿supp(B).
Điều này là rõ ràng vì tất cả các tác vụ trong Đ hỗ trợ B thì cũng hỗ trợ A. (2) Tính chất 2:
Mội lập chứa một tập khơng phổ biến thì cũng là tập khơng phổ hiến.
Nếu tập A khơng đủ độ Ỉ1Ỗ trợ cực tiểu, tức là supp(A) < minsup tili tập B chứa A cũng khơng phải tập phổ biến vì supp(B) < supp(A) < minsup ( Uieo tính chất 1)
(3) Tính chất 3: Các tập con của tập phổ biến cũng là tập phổ biến.
Nếu cập B là tập phổ biến trong D, tức là: supp(B)> minsup , mọi tập con A của B cũng là phồ biến trong D bởi vì supp(A) > supp(B) > minsup theo tính chất 1. Trường hợp đặc biệt, nếu lập A = {i| , i2 , ... , ik } là tập phổ biến thì mọi tập con cĩ
(k-1) mục cùa nĩ cũng là phổ biến, Chú ý rằng ngược lại là khơng đúng. Với luẠl kết lìựp ta cĩ 4 tính chất sau:
(4) Tíuh chất 4: Khơng hợp các luật kết hợp.
Nếu cố X—>Z và Y~>z trong D thỉ khơng nhất thiết XUĩ —>z lả đúng.
Xéí trường hợp X r \Y ~ 0 và các tác vụ trong D hỗ trợ z nếu và chỉ nếu chứng hỗ trợ mỗi X hoặc Y , khi đĩ luật X v Y ~ » z cĩ độ tin cậy 0%.
Tương tự: X~-»Y A X->Z ị=> X -> Y u Z (5) Tính chất 5: Khơng tách luật.
Nếu xuy —¡>z thì K—>Z và Y-±Z chưa chắc xảy ra.
Ví dụ, trường hợp 2 cĩ mặl trong một tác vụ chỉ khi cả hai X và Y cũng cĩ mặt, tức là supp(X uY ) = supp(Z) , nếu dộ hỗ trợ của X và Y đủ lớn hơn supp(XuY), tức là supp{X) > supp(XuY) và supp(Y) > supp(X uY ) Ihì hai luật riêng biệt sẽ khơng đủ độ tin cậy .
Tuy nhiên, đảo lại: x~> YƯZ X-> Y A X->Z
N eu X —> Y và Y , clahìịỉ tu kiiơni> ! h ể s tty ra X—>Z .
Ví dụ: giá sứ T(X) c T(Y) c T (Z ), ớ dĩ T(X), T(Y), T(Z) lương ứng là lập các tác vụ chứa X, Y và z , và độ tin cậy cực tiểu là minconf,
conf(X“»Y) = conf(Y—>Z) = minconf
thế thì : conf(X—>Z) = minconf2 < minconf vì m in co n fd , do dĩ luật X->Z khơng đủ độ tin cây .
Cĩ (hể xem ví dụ sau cho tính khơng bắc cầư: Khơng cĩ liên hệ gì giữa X và z.
X Y z 1 1 0 0 0 0 i 1 0 0 ! 1 0 1 1 1 0 0 (7) Tính chất 7:
N ếu luật A —>{L~A) khơng thoả m ãn độ tin cậy cực tiểu thì luật B-> (L-B) cũng
khống thoả mãn, với các tập m ục L, A, Bv ổ B ç A œ L
Vì supp(B)>supp(A) ( iheo tính chất ỉ) và định nghĩa độ tin cây, chúng ta
nhận dược: coníỊB - , (/, - B)) - M < a ư < min Cữnf
supp(B) supp(A) Cũng như vậy: