- _ Chương 3: Xa& dưng moẩhình khai thá lua&ke&hdp coừrohg sốrong cadkho dédiea phâ tad - Chương 4: Xa% dưng vadriea khai chương trình - _ Kễluậ vađướg phatitriea - Taðliệ tham khaơ Luậ
Trang 1Lé Tu Thanh
KHAI THAC LUAT KET HỢP CÓ TRỌNG SỐ
TRONG CAC KHO DU LIEU PHAN TAN
LUAN VAN THAC SI CONG NGHE THONG TIN
CHUYEN NGANH KHOA HOC MAY TÍNH: 60 48 01
Đà Nẵng - Năm 2009
Trang 2Chương 1— KHAI THAG DƯð IỆ
1.1 Tộg quan ve%hai that dữiệ
1.2 Cat loạ dédiea đươt khai thad
1.2.1 Kiệ cơ sơữdưưiệ quan hed
1.2.2 Kiệ kho chưà dư8iệ
1.2.3 Kiệ cơ sơ/ưưiệ giao dành
1.3 Cat phương phap khai that dédie:
1.3.1 Khai that luậkệhơb
1.3.2 Phaa lop
1.3.3 Phâ nhotn
1.4 Cat heahoag khai that dédie:
1.4.1 Phâ loai theo kiệ cơ sơữlữiệ đươè khai tha
1.4.2 Phâ loai theo kiệ tri thứ hai thá
1.4.3 Phâ loai theo kiệ ky—huậđươb sư0luhg.
1.4.4 Phâ loai theo ứg duhg
1.5 Ke&luaa chương 1
Chương 2- KHAI THAU LUẬ KEA HOP COU RONG SOA:
2.1 Gidiithied
2.1.1 Cat khaiinieén cơ baa vệuậkeš hơp
2.1.2 Khai thá luaiike&hdp trong cơ sdtde
2.3 Cad phương phap khai thá luậkễ hơp
2.3.1 Khai thá luắke&hdp Boolean tưœơ sơ@lưäi
2.3.1.1 Thuậtoá xat định cat taf mut lớ Apriori
2.3.1.2 Xá Amh cab luậkệh: œaị taf mut lơi
2.3.2 Khai that luaike&hdp coửr ong soa
2.3.2.1 Khai that luậkeš hơb coửr ong so&hôg chuaa hồ [5]2.3.3.2 Khai that luaike&hdp cottr ong so&huậ hồ [5]
2.4 Cad thuật†oá song song
2.4.1 Thuậtoá CD
2.4.2 Thuậtoá DD
Luaa vắ that sĩCôg nghễï hoag tin — Leal 6iThanh
Trang 32.5.2.2 Xá đành cad taA mut lớ toaa cut
2.5.3 Xá fish cat luậke§ hơb coửr ong soa
2.5.4 Hah chế
2.6 Kealuaa chương 2
Chương 3— XAK DONG MOMINH KHAI THAU LUAA KEX HOP COU
TRONG SOA RONG CAU KHO DƯð IỆ PHAN TAN 03.1 Mo&nình khai thad luậkeš hơb coừr ohg sốr ong cat kho a phâ
tá 50
3.1.1 Giớthiei
3.1.2 Thuậ†oá xá đờnh cat tậ mut lớ toaa cut
3.2 Xâ dưng mỗnình hệhốg
3.2.1 Chương trình Controller
3.2.2 Chương trình Miner
3.3 Thiệkếhương trình Controller
3.3.1 Tad laf heahoag
3.3.2 Khai that luậkệhơi
3.3.2.1 AgentFacilitator3.3.2.2 Agent
3.3.3 Hiệ thokeắquad.
3.4 Thie§kếhương trình Miner
3.4.1 Đăg nha hệhốg
3.4.2 Tham gia khai that luaike&hdp
3.5 Ke&luaa chương 3
Chương 4- XAK DONG VAđRIỆI KHAI CHƯƠNG TRÌNH
4.1 Xa& dưhg chương trình Controller
4.1.1 Xag dưhg góbuild_ system
4.1.2 Xag% dưhg gómining
4.1.2.1 Xa dưhg cad phương thứ cho AgentFacilitator
4.1.2.2 Xâ doing cad phương thứ cho Ageni
4.1.3 Xag dưhg gódisplay_ results
4.2 Xẫ déhg chương trình Miner
4.2.1 Xa% dưhg gólogin
4.2.2 Ẻ€C 6030000)
Luậ vă that sĩCôg nghệï hoag tin — LệTựThanh
Trang 44.3.4 Đáh gialkệ quaithdtnghiein.
4.4 Kệluậ chương 4
KEA LUAN VÀIƯƠĐG PHÁ TRI ỆI
TÀL IỆĐ THAM KHAO
Luậ vă that sĩCôg nghệï hoag tin — LệTựThanh
Trang 5CSDL Cơ Sơ@Ðư#ä iệ
CD Count Distribution
DD Data Distribution
KDD Knowledge Discovery and Data mining
DW Data Warehouse
RMI Remote Method Invocation
Luậ vắ that sĩCôg nghệï hoag tin — LệTựThanh
Trang 6Baơg 1.1 Cơ sơ0ữiệ giao dich
Baơg 2.1 Môa(bố giao dàh
Baơg 2.2 Dưäiệ giao dàch cua ví dui2
Baơg 2.3 Thôg tin cưâ haag bad leơ
Baơg 2.4 Dư8iệ giao dành
Baơg 2.5 Cat biê k-support cho cat itemset
Baơg 2.6 Cat tham sốạ moa 2
Baơg 2.7 Cat tham sodai mứ 3
Baơg 3.1 Hiệ thịcaị luậke&hơb
Baơg 4.1 Chưị naơg cua cat thaah phầ trong goiibuild_system
Baơg 4.2 Chứ nắg cua cat thanh phầ trong gómining
Baơg 4.3 Cat phương thot đaẽ trưng cua đốätương AgentFacilitator
Baơg 4.4 Cat phương thứ fAắ tréng cua Aoétddng Agent
Baơg 4.5 Chứ nắg cua cá thàh phầ trong display_results.
Baơg 4.6 Chưị nắg cua cat thàh phầ trong logi
Baơg 4.7 Chứ nắg cua cat thanh phầ trong mining
Baơg 4.8 Mộso4ệquaữhưb nghiẹ
Luậ vắ that sĩCôg nghễï hoag tin — LễTự Thanh
Trang 7DANH MUE CAG HÌNH VÈĐOXHỊ
Hình 1.1 Cat bướ trong quattrinh khatn phattri théo
Hình 1.2 Kiế tru cuâ heahoag khai that dédi
Hình 1.3 Kiế truị kho chưà dédies
Hình 1.4 Khai that dédiea ladậ hơp cua nhiề ngaal
Hình 2.1 Sơ đo>ong song dữiệ
Hình 2.2 Sơ đo>ong song nhiễn vui
Hình 2.3 Modhinh heahoag kho dédiea phâ tad
Hình 2.4 S6 độrao độcá taf mut lớ giưã cad kho trong heahoagHình 3.1 Modhinh hễhốg
Hình 3.2 Thuật†oá xaị Ath caị t
Hình 3.3 Sơ đo>hứ nắg cua Controller
Hình 3.4 Sơ foa&hés nắg cua Miner
Luậ vắ that sĩCôg nghệï hoag tin — LệTựThanh
Trang 8dưng ra§lớ và cad lớih vot khá nhau, đaẽ biệtrong lớnh vưb kinh tế/iệ khai
that dédiea cho phep hoath Ath đươb nhiề chiế lươÈ kinh doanh quan trong.
Hiệ nay, trê thếgiớ đaốcoừnhiề côg trình nghiê cou veakhai thá
luậkễhơp Tuy nhiê phầ lớ quaừrình khai that chatam việ vớdư8iệ tậ
trung Tai Vie&Nam lớnhh vưE khai that luaike&hdp vẫ coa rẫmơi, đaẽ biệlà
khai that luậ ke§ hơp trong moa trédag phâ tad Trong moầtrườg phâ tad
việ ap duhg nguyê veh phương phap xưữýnhư dữiệ taa trung khôg coa
chính xá Hơn nda trong moầtrườg phâ tad quátrình xư0iýthôg tin đươb
phâ bốrê nhiề đờa đie#n khá nhau, việ ap duing cat thuậtoá song song cho xưđýdữiệ phâ tad coa nhiề hah chếđaẽ biệlaœhi phí trao độdưđiệ
giưã cat kho làậlớ XuậphatItừïaẽ fies trea chúg toachoh đe*aịnghiê
cứ “KHAI THAG LUẬ KEA HOP COUTRONG SỐTRONG CAG KHO DOO LIEW PHÂI TAN” lam luậ vă tốnghiệ cao hot:
2 Mut tiê vamhiegn vui
Đe*abnag hướg đế nộdung xem xeticad ky8huậkhai thad luậkễäcó
trohg số/aœaị phương phap khai thaị luậkệhơb phâ tá cơ bad Từotphá
triệ vaexag dưhg moẩhình khai thá luậ keš hơb coừrohg sốrong cat kho dữ
liệ phâ tab déa trea tad tư0i độg
Nhieén vụcơ baơ cuê việ nghiê cứ lao
- Tim hiệ tộg quan ve%hai that dédiea
Luaa vắ that sĩCôg nghễï hoag tin — Leal 6iThanh
Trang 9córohg sốrong cat kho dữiệ phâ tá.
3 Đoătươhg vagphain vi nghiê cou
Noatddng nghiê cứ làá mỗhình luậkeđhơp phâ tab, moéhinh nag
đóg vai troaơ sơfcho vied xa% déing chương trình thưÈ nghiện
4 Giathie&nghiea cứ
- Luậkệhơb coừrohg sodrong CSDL
- Mỗiình hoat độg trea mahg Intranet
- Nguyê lyừàaị thuậtoá xưũyừbhâ tad
- Kyỡhua8lậ trình phâ tad đoătương baag ngô ngữJAVA keắ hơp voi
thư việ phâ tá RMI.
5 Phương phap nghiê cou
Thu nha, phâ tích cad tabliệ vadhoag tin liê quan đế đe3ab
L6a choh phương hướg giáquyếvấ fea
Xagi déing modhinh hoaf độg
Triea khai xag dưhg chương trình ứg dưng trea maing Intranet
Kiegn tra, thotnghieén vàïáh giakếqua0
6 Ýighớ khoa hot vađhưb tiễ cua đệab
- Ýhgha khoa hot cua đe*aa Nghiê cou xa& dưng vadriệ khai moghinh
khai that luậke&hơp coừrơhg sốrong cat kho dữiệ phâ tá
- ThưÈ tieé đe3aw Tad ra moBcôg cụhộ—rợcho cat doanh nghieB hoath
Ath caị chiế lươÈ kinh doanh
7 Bo&ut cua luậ vad
Luậ vắ bao goén cat phaa sau fag:
Luậ vắ that sĩCôg nghệï hoag tin — LệTựThanh
Trang 10- _ Chương 3: Xa& dưng moẩhình khai thá lua&ke&hdp coừrohg sốrong cad
kho dédiea phâ tad
- Chương 4: Xa% dưng vadriea khai chương trình
- _ Kễluậ vađướg phatitriea
- Taðliệ tham khaơ
Luậ vă that sĩCôg nghệï hoag tin — LệTựThanh
Trang 111.1 Tộg quan veahai that dédiea
Hiệ nay, khai thá dữiệ laamộtrong nhữg hướg nghiê cứ quan
trohg do khaữnăg coừheẩứg dưng rộg radtrong nhiề lớih vée khaị nhau như
thương mai điệ tư0tàchính, ngâ hang, y tếan ninh,
ĐaØoừađ'nhiề côg trình, cat bàbaị phaơ áh ke&quatnghiea cứ về
khai that dédiea, tuy nhiê phầ lớ đề dda trê cơ sơđlưđiệ cut bộcoừính
chaa “taf trung” Hơn nưã, trong thưb tếviệ đáh gialke&é quaơcuâ quattrinh
khai that dưỡiệ khôg chaaléa và việ xem xelkệ quafá khoaơ mut theo
kiea “coũ hay “khôg” moficadh đơn trịmaœầ thie&phaiixem xeliđế trong soa
cua cá khoaơ mub nag Điề nag có/ừnghớ fắ bie& quan trohg trong cat hea
trdigiup ra quyệđịnh déa và cat kho dédiea đaẽ biệlaœá kho dưãiệ phâ
tá
Khai that dédiea laequattrinh tìm kieé& cat maa trong dédiea baag cath
sư(dưhg cat côg nghệ/a%&yốthuậ khá nhau Aeaxag dưhg nê môhình, fai
diệ trưa tương cua thưb tea Cad maa trong cơ sơ0dữliệ phaơ áh cad quan
hệgiưã cad thuộ tính vố cou
Khai that dédiea laanộ giai đoan thie& yea trong quaừrình khat phat
tri thứ trong cad cơ sơ0lưäi ễ (việtaladDD).
1 2 3 4
Thu thậ và L6a choh và KeBluậ và.
lam sath dưưiệ » biế độdưưiệ " dữiệ = biệ diễ
Hình 1.1 Cat bướ trong quattrinh khaừ phaitri thứ
Luậ vắ that sĩCôg nghễï hoag tin — LễTự Thanh
Trang 12hôp lai.
Lam sath dĩdiea: ladböôù cho phep loá botcat dĩdiea nhieê, dĩdiea dĩ
thöa vaalĩdiea khođg coừính nhaắquaù cao
2 Lö chon döõieô: lieđ quan ñeâ cođg vieô phađ tích ñöôb lag ra töœô sô
dööieô
Bieâ ñoô döõlieô: döðlieô ñöôb bieâ ñoô hoaĩ hôp nha& thanh cad dahg
thích hôb cho vieô khai that baòg cath thöỈ hieô moôsoâhao tad giaô löôb
hoaĩ keâhôp
3 Khai thaù döõlieô: laøuaừrình thieĩ yea, trong ñoừcaù phöông phap hdp
IyừồôỈ ap dưng hedath cat maa dööieô.
4 Ke&luaa: nhaờn rutira cat maa ñuùg, ñá dieô cho tri thot döa vaø mofisoa
biea phap fo
Bieô diea: ñöôE hieô Iaøsö0dưng cad kyốthua8 trd¢ quan hoaĩ mieđ tad
tri thöò Aeahechiea cab tri thöò Aac&khai that cho ngöôøsöduhg.
Böôù khai that döõlieô coùtheảtöông tad vôù ngöôø sö0duhg hoaĩ cô sô0
tri thöù Cab maa ñöôb khai thaù seõñöôb hieô thò cho ngöôp sdtiduhg vaøcoù
theôñöôt löu vaø cô sôôri thöù nhö moôtri thöù môù
Nhö vag, khai that döỡieô laanoôböôù trong quaừrình khaừ phattri tho
trong caò cô sô0öõieô Kieâ truù cua moô heathoag khai that dĩdiea cotthea bao goăn ca thanh phaă chính sau fag:
Luaô vaĩ that sóCođg ngheêï hoag tin — LeêTöï Thanh
Trang 13⁄⁄%GU d.d.¿ựR
_Ư- 5 |
| Mai chufphưà cơ sơfữ.
`” „| liệ hoắ kho dữiệ
Hình 1.2 Kiế truị cua heahoag khai that dédiea
1 Giao diệ đoăhob: khoanag lied lat giưã ngườsư(dưhg vacheahoag khai
that dữiệ, cho phep ngườ sư0duhg tương tad vớ heathoag ba&g cath
đưa ra truy vấ dữiệ hoắ tab vui cung cấ thoag tin hoẩärợcho việ tim
kiến, vađhưb hiệ khai thá dédiea coửính chafthắn doalưa trê kếquaũ
khai thaị dédiea trung gian
2 Đáh giámẫ: thaah phầ nag sư0duhg cat phep fio độchính xá và
†ương tat vớ caị khố khai thá dưãiệ đeđag trung và vied tìm kiến
cad maa đúg Nócoửheả&ư(dưhg mộ ngưỡg cua đo&hính xaị đệob
Luậ vă that sĩCôg nghệï hoag tin — LệTựThanh
Trang 143 Phương tiệ khai thá dữliệ: hag laqwế to4hieš yea đố vớ quaừrình
khai that dédiea vawệyừươơg notbao gồ mộtậ hơp cad khố chứ
năg như môta0đaẽ đie&n, ke&hdp, phâ lơb, phâ tích nhotn, vàđáh
giáphâ tích sai số
4 Maw chuữhưà cơ sdidédiea hoắ kho dédiea: may chufcơ sơ(dữiệ hoắ
kho chưà dư8iệ cha trath nhiegn lag cat dédiea Iiê quan, déa và cat
yea cầ khai thá dữiệ cua ngươịsư(dung
5 Gơ sơ(rlưãiệ, kho dư8iệ: đaậ laanộhoaẽ mộtậ hdp cá cơ sơ(dữiệ,
kho chưà dédiea, baơg tính Cá kyGhuaalam saith dédiea vadich hơb dữ
liệ cộheấïươt thưt hiệ trea dữiệ.
6 Cơ sơữri thứ: đa§ laamiề tri thứ đươb sưflưng đeảhướg daa vied tim
kiến hoắ đáh giaksự đúg đắ cua cá mẫ đươb khai thá
Khai that dư8iệ bao ham việ tích hơb nhiề kyữ8huậtưahiề lớn voc
như côg nghe&ơ sơ(dưđiệ, thốg kêhob ma, tính toá hiệ năg cao, nhậ
dang, cad mang nơron, hiệ thị dưỡiệ, tìm kiegn thôg tin, xư8yừín hiệ và
aah, vagphaa tích dédiea khôg gian Bằg việ khai that dédiea, cab tri tho
đươb khain phácótheảđươb sư(duhg feadfida ra quyeš đờnh, điề khiea xư8ý
quaơ lyừhôg tin, vaưũyừruy vấ Vì vậ, khai that dưØiệ đươb xem laemo&
trong nhữg Ith vưÈ quan trong nha&trong cad hệ—hốg cơ sơ(lữiệ
1.2 Cad loạ dư8iệ đươÈ khai thaờ
Khai thá dédiea coửhệïươt tiế haah vớnhiề loạ dédieắ khá nhau
như: ca’ cơ sơ0dữiệ quan hệcá kho chưà dữiệ, cab cơ sơ0dữiệ giao
dich Ưg vơi moa dữiệ khad nhau vấ đềkhai that dưØiệ cua moa hệ
Luậ vă that sĩCôg nghệï hoag tin — LệTựThanh
Trang 15mỗnhón cat thuộ tính (coa goi laaộhay trương) vadhương lou modtaa lớ
cat bộ(coa gọ lachaag hay baa ghi) Mo&boarong baơg quan heabiea thịmộ
độtươhg, đươb nhậ dahg bớ mo& khồ duy nha& vàđươb môtaũbơũ mộ
nhón cat giaừrịthuộ tính
Dédie& quan he&oừhệfiươb truy caf bớcá truy vấ cơ sơữlưãiệ đươt
việơ0dahg ngô ngưốtruy vấ quan hệchẳg han như SQL, hoắ vớ sự trợ
giup cua cad giao diệ ngườsư(duhg đoằnồ.
1.2.2 Kiệ kho chưà dưđiệ
Giats6CABC laanộ côg ty chuyê kinh doanh vexnaỳ tính vơi hai chỉ
nháh Mộchi nháh tai Thaah Phốlồ°hí Minh vaanộchi nháh tal Thanh
Phố\aaNãg Mỗchi nháh cotcat cơ sơ0ưđiệ cua riêg chỉ nháh đóNhư
vậ việ thốg kêlưđiệ tai mộthơpđiện trea taficatcad chi nháh sễnaB rấ
nhiề khoikhắ vađố nhiề côg sứ, do dữiệ liê quan đế việ kinh doanh
trakhaĩ trea nhiề cơ sơữlưư¡iệ vàakn tai hai thanh phố‹haị nhau
Nea côg ty ABC cómộ kho chưà dữliệ, nhieén vui nag sẽtrơũnê
dễdàg hơn Kho chưà dữliệ laamộ kho thôg tin đươ thu thậ từnhiề
nguồ dữiệ, đươt lưu dướ mộ lươb đồthốg nhaắ vàđaE tal moa vị trí
Cat kho chưà dữliệ đươÈ xa& dưnhg thôg qua quátrình lam sath dữliệ,
biế độ dữliệ, tích hép dữliệ, nab dữiệ, vadam tươi dédiea định kyo
Hình 1.3 moaatkiea trú cơ baơ cua kho chưà dưäiệ cua côg ty ABC
Luậ vă that sĩCôg nghệï hoag tin — LệTựThanh
Trang 16Hình 1.3 Kiế trú kho chưà dédiea
1.2.3 Kiệ cơ sơ#lữiệ giao déeh
C6 sơ0dữliệ giao dé&h gồ mộ tệ tin trong đómỗ baơ ghi biệ
thịmộgiao dàh Mộgiao dành điệ hình goén cotsodimh danh giao dành duy
nha&(kythiea ladTID) vaanộdanh sath cat mu tad thaah giao dàh (chẳg hain
như cat moa haag đươb mua trong mộcưâ haag) Cơ sơ0lữiệ giao dàh coửheả
coừaị baơg kếähơb vớnócá baơg nag chưà cá thôg tin về/iệ bá hang, như ngag giao déch, sodD cua khaịh haag, sodD cua ngươbbá haag, sodD cua
cưâ hang Baơg 1.1 làmộ vi dui veacad giao déch đươb lưu trong baơg
BANHANG
Baơg 1.1 Cơ sơ0ữiệ giao dàh
TID Cat mut
T100 lị, lạ, lạ, lịoT200 la, lạ, Ís, ly
Téequan fieén cua cơ sơưđiệ quan hệbang 1.1 laemo&quan hedoag
nhau bớvì thuộ tinh cá mut chưà moftap hdp go nhiề mut Vì fia so£á
hệhốg cơ sơ(rlưØiệ quan he&hôg hỗrợ cá cấ trú quan hedoag nhau,
cơ sơ0ữliệ giao dàh thương đươb lưu trong tệ tin phẳg theo đờnh dahg
Luậ vă that sĩCôg nghệï hoag tin — LệTựThanh
Trang 17giốg như định dahg cua baơg 1.1.
Negphaa tích chi tie&dddiea, ví dụnhư tim cá mắhaag thédag đươt bad cuag vớ nhau Điề nag coừnghớ cá heathoag khai thá dư8iệ cho dữ
liệ giao dàh pháchaa cá tậ hơb cat mắhaag thương xuyê đươE bad voi
nhau
1.3 Cat phương phab khai that dédiea
Trong phầ trướ, chúg ta đãquan sat nhiề kiệ kho dữliệ vàhệ
thốg cơ sơ@ữiệ maayuárình khai that dữiệ coửhệïươE thét hiệ trea đó
Trong ph n này chúng ta s kh o sácaị phương phab khai that dédiea
Cothai loạ moéhinh chính trong khai that dédiea: dựđoá vàanỗaũ Cab
moéhinh dựđoá coừhệïươb sư(duhg đeảlựbaị cat giaửrịkhôg tương minh,
dda trea cab maa đươb xaị Ath tưœaị kệquafa8iệ Cad modhinh môainie8â
tatcat maa trong dưỡiệ hiệ colivadhddag đươb sưduhg đệab ra cat nhoừi
nhotcotytngh@
Cat ứg dung khai that dédiea tab ra tri thot mơiibầg caịh toéchda dữ
liệ thaah cad môhình, như đãmôta0Ơftrê, hỗtrợ cho ngươp sư0dưng hiệ
đươÈ cat maa trong dữliệ Nó chung, khai thad dữliệ cótheảkhaừ phá
cat loạ kệ quatsau: sựphâ loạ, sựhồ quy, chuỗthơờ gian, sựphâ nhón,
keš hơb, vaedaðỹ tuầ toi
Cat môhình déi đoá dưa và cat ke& quaơlàsự phâ loạ, sự hồ
quy vaechuoa thơp gian Môhình môtaơthương déa và cad ke& qua0làsự
phâ nhotn, kếähơb vaalaỹ tuầ toi
Trong khai that dưỡiệ, cotnhieắ phương phab khaị nhau đaØkhaừ phá
cat tri thứ hated Dướ đa§, chúg ta xem xémộsố@hương phap khai thao
dưäiệ pho&iế
Luậ vă that sĩCôg nghệï hoag tin — LệTựThanh
Trang 181.3.1 Khai that luậke&hơb
Khai thaị luậke&hơb lađìm kiến cad quan he&eahdp giưã tậ hdp cad
độtươhg (gọ laœá muÈ) trong cơ sétdédie& Cad quan he&ebhdp nag đươt
mỗađrong cat luậke&hơb Mỗluậcoừhai thôg sốđo&#ỗrợvàộïin ca§
Noétin cait lagphep fio sứ manh cua luag coa đo&hỗrợtương ứg vơi ýnghœ
thoag kê
1.3.2 Phâ lop
Phâ lơb lagquattrinh tìm kieén cad taf môhình (hay chứ năg) môtaũ
vagphaa biệcaị |6p hay khániẹ dư8iệ, vớmưt đích laccottheésétduihg cat
moéhinh nag đeảdự đoầ mộ lơb cad đố tươhg chưa bie& Môhình thu đươb
nag dda và việ phâ tích mộtậ cat dưäiệ huấ luyệ (tứ làá đốätươhg
dữiệ hated
Moéahinh thu Add nag cótheảđươb biệ diễ ơơnhiề dahg khaị nhau,
chẳg han laœaị |uắ phâ lơb, cad caf quye& đờnh, côg thứ toad hot, hay
cata mahg nơron
1.3.3 Phâ nhoin
Phâ nhoừn chia cơ sơ0dữliệ thanh cad nhotn đố tương khad nhau
Mu đích cua phâ nhotn lagieaim ra cad nhoừn khaị nhau, trong đoừcá thanh
viê cua mỗnhón lađương tựnhau Khôg giốg như phâ lơb, chúg ta khôg
bie& đươE cad nhotn laœá gì khi chúg ta baÉ đầ, hay dưØiệ seốđươt phâ
nhón theo thuoé tính nag Do vai, sau khi tim tha# cad nhoin, thi cad nhoừn nag
coừhe#ươt sư(duhg fegphaa loạ dưäiệ mớ
1.4 Cat he&hoag khai that dưãiệ
Khai that dữiệ laamộ lớnh vư liê ngaah, tậ hơp cua nhiề ngaah
như cat hệthốg cơ sơ0dữliệ, thốg keậ hob má, vàcôg nghệthôg tin
Luậ vă that sĩCôg nghệï hoag tin — LệTựThanh
Trang 19Hơn nưã, tug thuộ và phương phab khai that dư8iệ đươb sư(duhg, nhiề kỹ
thuậ†ừcá ngaah khá coừheảđươb ap duhg, chẳg hain như cat mahg nơron,
IyừhuyếtaB mờbiệ diễ tri thứ, laf trình logic quy nap, hoắ tinh toad hiệ
năg cao Tug thuộ và cat loạ dữiệ đươb khai thá, hoắ cad kiệ ứg
dung khai that dédiea, heahoag khai that dédiea cudg cottheaich hơp nhiề kỹ
thua§ tưephâ tích dưØiệ khôg gian, tim kieé&n thôg tin, nhậ dang, phâ
tích âh, xư8yừín hiệ, đồhộ may tinh, côg nghệeb, kinh tea
Côg nghệ Thoag kê
CSDL |
Khoa hot „| Khai thao l May hot
thoag tin Dédiea
Ngaahkhaờ
Hình 1.4 Khai thá dédiea ladậ hdp cua nhiea ngaah
Bơũvì tinh fia dahg cua nhiề ngaah taf trung và khai that dédiea, việ
nghiê cứ khai that dédiea tad ra cat hệ—hốg khai that dédiea raš§ đa dahg
Vi vậ, đòhoũphaũđưa ra sựphâ loạ roữàg cho cat he8—hốg khai that dữ
liệ Cat hệ—hốg khai that dư8iệ coừheẩđươb phâ loạ theo nhiề tiê chí
sau flag.
1.4.1 Phâ loạ theo kiệ cơ ữiệ đươÈ khai thá
Hệhốg khai that dédiea coWhệđ phâ loạ theo cat kiệ cơ sơfdữ
liệ đươb khai thá Cad hệthốg cơ sơ0dữliệ cótheảđươt phâ loạ theo
Luậ vă that sĩCôg nghệï hoag tin — LệTựThanh
Trang 20nhieă tieđ chí khaù nhau (chaúg hah nhö caù moẩình dö8ieô, hoaĩ caù kieô döõ
lieô, hoaĩ caù öùg dung), moêloá coừheả/eđ caă ky8huaôkhai thaù döõieô cua
rieđg noùVì vax, cat he—hoâg khai that dĩdiea coừhe#föôb phađ loá sao cho
phuchdp
Vi duj nea phađ loá theo cat mođhình döõlieô, chuùg ta coùtheảcoùheô
thoâg khai that dĩdiea quan heagiao dich, höôùg ñoâtöông, quan heôñoôtöông,
hoaĩ kho chöă döõieô Neâ phađ loá theo kieô döõieô xöữyù chuùg ta
coùtheảcoùheôhoâg khai thaù döỡieô khođg gian, thôø gian, vaí baô, hoaĩ fa
phöông tieô
1.4.2 Phađ loai theo kieô tri thöù ñöôb khai thaờ
Cat heôthoâg khai that döØieô coùtheảñöôb phađ loá theo caù kieô tri
thöù Ỉ khai thaù, töờ laødöô vaø caù tính chöù naíg khai that dĩdiea, chaúg
han nhö mođaññaẽ ñieôn, phađ bieô ke&hdp, phađ loá, goô nhoừn, phađ tích hoa
töôhg ngoaa Moô heôthoâg khai that döõlieô toaa dieô thĩ6ag cung capa
nhieă vathoaĩ tích hdp caờ tính chöù naíg khai thaò dĩdiea
Hôn nöê, cat heathoag khai that döêieô cokheđñöôb phađ bieô döa vaø
cad möò tröa töông cua tri tho oôg quaùỈ khai thad, go& coừri thos
hoă (tai möù tröa töôhg cao), tri thöù möù cô bad (tai möù döđieô thoậ hoa tri
thöò tai nhieă möù Moê heôthoâg khai that döõlieô caâ cao coùtheảdeêdang
khatn phattri thöù tai nhie& möò tröø töông
1.4.3 Phađ loai theo kieô kyê8huaôñöôb söung
Cat heôihoâg khai thad dĩdiea coừheẩôfi phađ loá theo cat kyĩthuaĩ
cô baa ñöôb ap duhg Cat kyØhuaô nag cokheôñöôt moêaữheo möù ñoồông
taù cuđ ngöôøsö(duhg (chaúg hah nhö cat heôhoâg töïtrò cat heahoag thaín dog
†öông tad, cad heôhoâg ñieă khieô truy vaâ), hoaĩ cat phöông phap phađ tích döõ
lie ñöôb ap dung (ví dúnhö cad ky—huaB höôùg cô sô(döỡieô hoaĩ höôùg kho
Luaô vaí that sóCođg ngheôï hoag tin — LeôTöïThanh
Trang 21chưà dưäiệ, hot ma, thốg keanhaa dahg, mang néron ).
1.4.4 Phâ loạ theo ứg dung
Cat hệthốg khai that dữliệ cótheảđươÈ phâ loạ theo ứg duhg
maechúg đươÈ sư0duhg Vi dui coltheacotcad he8—hốg khai that dédiea ứg
dưng trong tàchính, viễ thôg, thịtrươag chứg khoá, thé điệ tươ/aa Mo&
soØùg duhg khá thươag yê cầ sự tích hơb ca’ phương phap cua cad ứg
dưng riêg
1.5 Ke&luaa chương 1
Chương 1 đaØiớthiệ toảg quan ve%hai that dư8iệ, cá độtương dữ
liệ đươb khai thá cuđg như cab tri thứ đươÈ tìm thag Bea cahh đó chương
1 cũg đưa ra mộsố@hâ loai cho khai thá dưđiệ Tiế theo, chương 2 sedi
sâ và mộphương pha khai thad dưđiệ quan trong, đoaœhai thá luậke§
hdp coừrohg soa
Luaa vắ that sĩCôg nghễï hoag tin — Leal 6iThanh
Trang 22Chöông 2- KHAI THAU LUAA KEA HOP COỪRONG SOA
2.1 Gidiithiea
Lua& keš hop f66¢ giôù thieô laă ñaă tieđ vaø naĩ 1993 bdi Agrawal,
Imielinski vafwami vaồøokkhôùñaă cho hang loat cat nghieđ cöù veôuaôkeâ
hôp sau nag Hieô nay nghieđ cöù khai thaù cat luaôkeôhôp laanoôtrong nhöñg
höôùg nghieđ cöù döõieô quan trong
Luaôkeôhôb laanoôdahg quan he&eò theo hay dahg lua8if-then ñöôb hoa
trôïbôùdöõi eô
Vôùcaùò khoôlöông dĩdiea khoag loaiang ñöôt taf hôb vadöu tröõ nhieă
nganh kinh doanh fang quan tađn vaø vieô khai thaù cad luaôkeâôhôp töœaù cô sot
döỡieô cua hoi Vieô khatn phaùcaù quan he&e&hdp thuù/òtrong cad löông baô
ghi giao dăh thöông mai raô lôù coheẩhoêrôïcho caò doanh nghieB trong vieô
ñöa ra cat chieâ löôb kinh doanh
Tuy nhieđ, tính höõ ích cua vieô khai that luaôkeôhôb khođg chagiôùhah
trong cat öùg dung kinh doanh Noùcuõg ñöôỈ öùg dung trong vieô phađ tích
gen, vaí baa,
2.1.1 Cat khaùnieô cô bai veôuaôkeôhôb
Tröôò khi fi vaø tìm hieô kyêhuaBkhai thad luaôkeôhôb coitrong soâta cou
moBso&haùnieôn sau:
e D laœô sôidöđieô giao dĩch caă khai that Cô sô0löðieô D laanoôtaB hop
goăn cat giao dăch
© 1 ={l¡, lạ, , Im} lađaB hĩp ta&cafcaù mut coửrong D
e Moêgiao dăh T laømoôtaô hôb cat mub Moê giao dich ñöôb keĩ hôb
vôùmoôñùừnh danh goi lađID
Luaô vaí that sóCođg ngheôï hoag tin — LeôTöïThanh
Trang 23e X làmộtaB hơb chưà cá mưt X đươb gọ làamộtaB mu’ Ned tap
mut X chưà k muÈ thì X đươÈ gọ lađaB k-mut hay lađậ mut kích thướ
k
- Luậkễhơp
Luậ keš hép laemof&quan he&oừlahg X => Y trong đóX vadY laœá taf
mut (X cI,Y cI) vàX ƒ\Y=ø
Hai thôg sốuan trohg cua luaikeahdp làio—ỗrợvàộin ca§
« Noéhoar di Noéhoaréicua tậ mut X, kyừhiệ làup{X}_, lady0ệiưã soa
giao dành trong D cóhưà X vớtộảg sốiao dành trong D.
đo&ộrợ{X) = sup{X} = (số@iao dàh chưà {X})/(toag sốiao déch) (2.1)
Ví dui2.1: Xémộcơ sơ0ưựiệ giao déch nhotD 1 vớbố mut | ={ A,B,C,D} và
boa giao dàhh đươb môaơrong baơg 2-1
Baơg 2.1 Môa(bố giao dàh
TID Cat mut trong giao dàh
T1 A,B.C
T2 B,C,D
IS B
T4 AB
Ta thấ, tộg sốiao dành trong cơ sơ0dưđiệ nag là1 Ta xéđo&—ỗrợ
cua mộsốậ mut sau:
Trang 24Noéhoaréicua luậkệhơp Xx = Y , kyừhiệ lagsup{ X > Y}, ladyũe&á
giao dàh cotchéa cat mut X UY vớtộg sốá giao dich trong cơ sơ0ữiệ.
Ví dut nea lua& {A,B} => C_coừio&—ộrợluậla#@5% thi coừnghớ la#@5% tộg soa
giao dich cua cơ séidédiea cóchưà cad mut {A,B,C } Đo&hỗrợladhôg soa
thoag keaquan trong cuê luậkệhơp
¢ Noain cag: Noain cag cud luậkệhơp X = Y, kythied là conf(X = Y},
laảye&uơ sốiao dich cotchéa XU Y vớsốaơ ghi cóhưà X Hay nó
cath khá, độ—in cas cua luậ la#yệ&á giao dành trong D chưà X mao
cudg đồg thơpchưà Y
Ví dut nea lua& {A,B} => {C} coừïộin cậ 50%, thi cónghớ lađ0% sốgiao déch
chưà cad mut { A,B} coichda mư { C} Độin cậ cuâ luafichathoméa hoad6ng quan giưã X vaY trong tậ dédiea Noain cai làiơn vịđo sứ manh cua lua§
Thoag thươgg cat luậkệhơb yea cầ độin cậ lớ
¢ Goi minsup lamgưỡg đo&ỗrợtộthiệ vàninconf lamgưỡg đỗin cậ
tộ thiệ Cad ngddag nag do ngườ sư0duhg Ada ra lam tiệ chuậ cho
quaửrình khai that cat luậkệhơp
e _ Mộtậ mut đươb gọ lachoa mã ngưỡg đoẩnỗrợtộthiệ nế đo#nỗ
trợcuâ tậ mu đóớ hơn hoắ bằg minsup Nế mộtậ mut thô maa
ngưỡg đo&ỗrợtộthiệ, thì tậ mut đoừđươt gọ la—aB mut hay xa ra,
hay laœá taf mut lớ
e Taf mut cotkhatnắg lađaB mut lớ thi đươE gọ ladaf ứg cươ/iê.
e Ta hơp ta&catcad taf k-mut 16a đươE kyừiiệ làL„ vaeC, la&yừiiệ
cua taf hơp tậcafcá ta k-mut ứg cươ¡i ê
e Cat luậthô mã catminsup vàninconf làá luậmahh.
Luậ vă that sĩCôg nghệï hoag tin — LệTựThanh
Trang 252.1.2 Khai thaự luaọkeóhụb tr ong cụ sụlửừieọ
Vieọ khai that cat luaọkeẽ hụp tửứụ sộtdộdiea chớnh laieọ tỡm tadcat
cat luaọkeỏhụb mahh
Khai that luaọke&hụb laauaựrỡnh goàn hai bửụờ nhử sau:
e Bửụự 1: Tỡm ta&caicad taọ mut lụự Theo ủờnh nghớ, cad taọ mut nag
phaựcoừoọ&oọrụùlụự hụn hoaộ baag ngửụừg ủo&oọrụùtoọthi eọ
 Bửụự 2: Tad ra cat luaọ keó hộp mahh tdecad taọ mut lụự Theo Aah
nghaa, cad luaọ nag phaủ thoõ maừ ủo&hoótrụùtoọ thieọ vaeủoọ—in caọ toỏ
thieọ
Bửụự 1 lađửụự phửũ tap vađoỏ nhieà chi phớ tớnh toad nha&ộ Hieọ naộg toaa
bo&uờ quaựrỡnh khai thaự luaọkeóhụp ủửụb xaự ủờnh bụibửụự 1 Sau khi ủa%aự
ủờnh ủửụb cad taf mub 160, ta deólaag xaự ủành ủửụb cad luaọkeỏhụb
2.3 Cat phửụng phap khai that luaọkeš hụp
2.3.1 Khai thaũ luaake&hdp Boolean tửœụ sụ0ửửieọ giao dàh
Trong phaà nag, chuựg ta se&xem xeựcaũ phửụng phap ủe&hai that cad
lua&ke& hộp daing ủụn gia nha&— cad luaọ keộ hụp Boolean Naa tieõ, chuựg
ta xem xeự thuaa toad Apriori, thuaọ toad cụ baụ cho vied tim caũ taf mut
lụự Sau ủoựủeàaọ fea thuữưb tad ra cad luaọkeọhụb manh tửœaũ taọ mut 16a
ủa8ỡm thag
2.3.1.1 Thuaọtoaự xaự Ach cat taf mut lụự Apriori
Apriori laanoọthuaọtoaự ra&phodbiea cho vieọ khai that caự taọ mut 16a
[6] Teõ cua thuaọtoaự nag ủửụb dda trea kieỏ thửự trửụự cua cad thuoọ tớnh
taf mut lụự Apriori sử0duhg phep laB tim kieg, trong ủoựcaũ taf k-mut ủửụt sửũ
dưng ủeọỡm cat taf (k+1)-mub Naa tieõ, taọ hụp ca’ taọ 1-mut lụự ủửụE tỡm
thag Taf hụb nag ủửụb kyừiieọ lad ; L, ủửụẩ sử0dưhg ủe#ỡm Lạ, taf hdp caự
Luaọ vaờ that súCoõg ngheọù hoag tin — LeọTửùThanh
Trang 26taf 2-mut lớ, La lạ đươ sư0lưng đeđìm La vaœưừiế tut như vai cho đế khi
khôg tìm theén đươb taf k-mu lớ nà nưã Mỗ lầ tìm kiến taf hơb Ly yea
cầ mộlầ quetitoaa bo&ơ sơ0dữiệ Đệhuậ tied cho việ mỗa0chúg ta
kyừiiệ mỗvogg xá định taf hơp k-muc lớ la#,
Đe&ađthiệ hiệ quatcué quaừrình tìm kiến cad tậ mut lớ, mộtính
chaš quan trohg đươb goi làtính cha& Apriori đươE sdtiduing đeảrub gon bớ
khôg gian tìm kiến
Tính cha& Apriori: “Tắ caWá tậ hơb con khôg rỗg cua mộ tậ muÈ lớ
cudg phaũlaœaị tậ mut 16a”
Tinh cha& nag cótheảđươb chứg minh như sau Theo đờnh nghéa, mộ
taf mut lớ lađậ mut thô mã ngưỡg đoẩhỗrợtộthiệ minsup, do đoừno§
taf mut X nea khôg phá lađậ mut lớ thì sup{X} < minsup Nea ta bodsung
the mộ muÈ A và tậ mut X đó thì tậ mu mơi XUA khôg theảxua§
hiệ nhiề lầ trong cad giao déch hơn tậ mưb X, tưị làsup{X+2 A} < Sup[X }.
Vì va% tậ mut XU A khôg phađlađaB mut lớ
Thuậtoá Apriori sươduhg tính chaắ nag đeả‹aị Ath ta hdp L„ tưđậ
hốp L¿.+ Quaửrình xá đờnh ta hop Ly tư4ậ hdp L-; gồn hai bươị như sau:
a Bướ ke&noé
Đêìm L, thuậtoá tab ra mộtaB hdp cad tafa k-mườ coikhatnắg laœá
taf mut 162, goi cad tậ ứg cưiê bằg cath kefinoéL,., vớ chính nou Tậ
hdp cat tậ ứg céiviea nag Ad6t kythied la Goi |; vad; laaá taf mut trong
Li Kyừiiệ |i[j] biệ thomut thưữ trong taf mut |; Theo quy 668, thuậtoáApriori giaưữằg cat mut trong mộgiao dàh hay tậ mut Addt sa6 xế theo
thưừựtừđiệ Cat taf mut trong Ly.; colthe&ke&noévdiinhau nea chúg cotk-2
Luậ vắ that sĩCôg nghệï hoag tin — LệTựThanh
Trang 27mut faa tieđ gioâg nhau Töù laøcaù thanh vieĩ |; vadz cua L,.; keô noâ ñöôb
vôùnhau neâ thođ maõ ñieă kieô:
([1]=lz[1]) A a2} = be LAK A (k-2] = lz[k-2J)A ((5[k-1] < lạ [K-1])
Niea kieô (I:[k-1] < lạ [k-1])_ ña&n bad la&hođg tab cad taô mut truag nhau Taa
mut keêquafföôb tad ra töieô keônoôl; vad; se8aano8taôB k-mut goăn coừcaù
mut lag I;[1], l+[2] 1[k-1],la [k-1]}.
b Böôùtz
€, lađaB hôp cha cuí L, caò thanh vieđ cuđ C;, coừheôađôù hoaĩ khođg
lôă, nhöng taô caŒaù taf k-mưb 16a phaùthuoô C„ Vieô que cô sô0döõieô hea
xaò ñờnh flodhoatrĩi cua moê öùg cöieđ trong C„ seðdaê ñeâ vieô xaù ñờnh Ly
(theo ñònh nghĩ, taô caũcaù öùg cöôvieđ coùñoôhoêtrôï lôăh hôn hoaĩ baag
ngöôõg ño&hoêrôïtoôthieô sedacca’ taô mư lôù vaø/ì vaô, thuoô vaø L,) Tuy
nhieđ, so4öôhg cat dag cöô/ieđ trong C, coỈheôazaôlôù vaøì vaô ñieă nay cou
theô—ab ra quaitrinh tính toad raôtoâ kein Ñeôgiaôn kích thöôù cua Cụ, tính chafi
Apriori ñöôb söôdưhg nhö sau: Moô ta@ (k-1)-muỈ neâ khođg phaũ laøtaô mut
lôă thì nohođg thedacta@ con cuđ moôtaô k-mut lôù Vi vaô, neâ moồùg cöũ
vieđ k-mut coùchöă taf hộp con (k-1)-mu khođg thuoô L,.; thi öùg cöô/ieđ ñoù khođg theô—ôađaB mut lôù vawì vai loá öùg cĩtviea ñoừa khoùC,.
Ví dú2.2: Xetmoôcô sô(dö8ieô giao dănh D goĩn coừhín giao dănh sau fag
Baôg 2.2 Döôieô giao dăch cua ví dui2.2
TID Cad mut
Trang 28'Thuaôtoaù Apriori seôieâ haah xaù fidh cat taô mut lôù nhö sau.
1 Trong laă laĩ ñaă tiea cua thuaôtoaù, moê mut laanoô thaøh vieđ cuđ taô
hộp cad taf öùg cöieđ 1-mưb, C; Thuaôtoaù queti taô cafcab giao dich fied
fieĩn sođaă xuaô§hieô cua t6ag mut
2 Giaœöữaỉg ño&oêrôïgiao dănh toôthieô Ad6b yea caa lak, töù lamgöôõg hoa
hoêrôïtoô thieô laøminsup = ; = 22% Sau ñoùtaB hôp cab taf 1-mub 160, Lj,
coửheấïöôb xaù Ath, fotlasad öùg cöô/ieđ 1-mu madhođ maa fodhoarditoa
thiea
3 Neakhatn phaừtaB hop caò ta 2-mut 16a, Lạ, thuaôtoaù sdfiduihng phep ke&
noôL ¡>4L¡ ñeôab ra taf hôb cab taf öùg cöô/ieđ 2-mưb, C2.
4 Tief theo, thuaôtoaù queùtaôcafŒcaù giao dĩch trong cô sdtdĩdiea D ñeđính
ñoô—oêrôïcuđ moềùg cöôïieđ trong C;
5 Sau ñoùthuaôtoaù xaù ñờnh taô hôp caò taf 2-mut lôù, Lạ Lạ bao goin cad
taf 2-mut öùg cöô/ieđ trong C2 maœoừioô—oêrôïthođ maõ minsup.
6 Vieô tad ra taf hôb cat taf öùg cdtvieĩ 3-mu, C3, ñöôb moaatnhĩ sau:
1) Keano&
Cg =Le >4 Lạ ={{A, B}.{A,C},{A, E},{B,C},{B , D},{B, E}}
bd {{A, B},{A,C},{A, E},{B,C} ,(B, D} ,(B, E}}
={{A, B,C},{A, B, E},(A,C, E} {B,C , D} ,(B,C, E} ,(B, D, E}}
2) Ta, söñdưng tinh cha& Apriori: Ta& caôcaù taf hdp con cua moô tap
Luaa vaĩ that sóCođg ngheêï hoag tin — Leal 6iThanh
Trang 29'Tậcafaị taf hdp con 2-mưt cua { A, B, C} hea ladhanh vieé cua Lo.
Vi vai, giữạ {A, B, C} trong Cs
Cat tậ hép con 2-muÈ cua {A, B, E} là(A, B}, {A, E} và(B, E}
'Tậcafpá taf hơb con 2-mut cua { A, B, E} đề ladhanh viê cua Lạ
Vi vat, giư8ạ {A, B, E} trong Ca
Cat tậ hdp con 2-mub cua {A, C, E} là(A, C}, {A, E} và(C, E}
{C, E} khôg phaiilacthaah viê cua La, và/ì thế C, E} khôg phá
lađớ Vì vam, loai bot{ A, C, E} ra khoũCa
Cat taf hơb con 2-mub cua {B, C, D} làB, C}, {B, D} vàC, D}
{C, D} khôg phaiilachaah viê cua Lạ, vaevi thea C, D} khôg phá
lađớ Vì va, loạ boữ B, C, D} ra khoũCa
Cat taf hơb con 2-mu cua {B, C, E} ladB, C}, {B, E} và(C, E}.
{C, E} khôg phálađhanh viê cua La, vaì thế C, E} khoag phaii
ladda Vi vậ, loạ boữ B, C, E} ra khóCa
Cá taf hép con 2-mub cua {B, D, E} laa B, D}, {B, E} và(D, E}
{D, E} khôg phaiiladhaah viê cua La, và/ì thế D, E} khôg phail
ladớ Vì vậ, loạ boữ B, D, E} ra khoũCa
3) Vì vai sau khi ta Cạ= {{A, B, C}, {A, B, E}}
Đầ tiê ta coká fitnh Oạ dưa và Lạ
Cg=Le oa Lạ= {(¡, lạ, la), (A, B, E), (A, C, E), (B, C, D), (B, ©, E),
(B,D,E)}
Déa và tính chaš Apriori ladaÉ cafá taB hơb con cuâ mộtaB mut
Luậ vắ that sĩCôg nghễï hoag tin — LễTự Thanh
Trang 30168 cudg phaiilad 6a, ta coừheả‹á đành rằg boa taf ứg cư0/iê cuố
cuag khôg thedad6a Vì vaii, ta loạ chúg ra khóCạ Baag cath đó
ta đaữiệkiẹ đươb chi phí tính toad khôg cầ thie& đeảxá địnhh độ
hỗtrợ cua cad ứg cưxiê đoừrong quaừrình quécơ sơ(ữiệ D hea
xá định Lạ
7 Sau đóthuậtoá queticad giao déch trong D đe&aị đờnh Lạ Lạ bao gon cat
taf ứg cươ/iê 3-mut trong Cạ madhô mã ngưỡg đo&oẩrợtộthiệ.
8 Thuậtoá sưdưng phep kefnoa L, ><L, đệab ra taf hdp cab ứg cươ/iê
4-mưb, C¿ Sau khi kệnộ ta thu đươb taf hơp {{A, B, C, E}} Tuy nhiê
sau bươờ tea tậ mut nag bịloạ boì tậ hdp con cua nó B, C, E} khôg
phaũlađớ (khôg thuộ Lạ) Vì vậ C,=Øvadhuậtoá keắthú Thuậtoá
đa8ìm thấ đươb tậca(tá taf mub lớ L = | ]L¡
=
Thuậtoá Apriori
Naa và: Cơ sdidddied cá giao dich D, ngưỡg đo&ộrợtộthiệ minsup.
Naa ra: L, taB hốp tậcafá tậ mut lớ trong D
Trang 31procedure isL ar ge(c,L ¿.;)
1) forall taf con (k-1)-mưÈ s cuâ c
2 if seL,, then
3) return TRUE;
4 else
5) return FALSE;
Bướ 1 cua thuậtoá Apriori tim cat tậ 1-mut 16a, L; Trong cad bươờ
2-12 Ly.1 đươÈ sư(duhg fiedad ra cad tafa ứg céiviea C„ đệìm Ly Ham gen tad ra cat taf ứg cươ/iê vaesau đoừư(dưhg tính cha&Apriori hedaa cad taf
apriori-Luậ vắ that sĩCôg nghệï hoag tin — LệTựThanh
Trang 32mưỈ coùaù taf mưỈ con khođg phaiiladaf mut lôù (böôù 4) Ngay khi tad ra taắ
catcat taf öùg cöWwieđ, thuaôtoaù queù cô sô0döõieô (böôù 5) Vôù moê giao
dănh, ham subset ñöô sö(dưhg ñeđìm ta&cafraù taf hôb con cua giao dĩch madaø
cat öùg cöô/ieđ (böôù 7), vadinh ñonoôrôïcuđ moềùg cöô/ieđ (böôù 8 vaø@)
Cuoôcuøg, taôcafcaù taf öùg cö@&ieđ madhođ maa ñoôhoêtrôï toa thieô seØab
thanh taB hdp cat ta8 mut lôù, L Sau ñoùmoôthuữu coửheôiöôt gó ñeôab ra
cad luaô keĩ hdp tĩecad taf mut lôù ñoù ThuaBtoaù nag seðñöôb mođiaũirong
ñoah tieâ theo
ThuôtưE apriori-gen thöỈ hieô hai cođg vied laøkeô noa vaøta Trong
böôù ke&nog Ly; ñöôb keânoôvôùL¿.¡ (Li >4 Lự.¡ ) ñeôab ra cad taf öùg cöũ
vieđ C, (cat böôù 1 — 5) Phaă ta (cat böôù 6-9) ap duhg tính cha&Apriori hea
loá bo%caò öùg cö0vieđ chöă cad taf hôb con khođg phañ laøtaô mut lôù
Böôò kie#n tra xem ca taf hốp con coùphaũlaôaô mut lôù hay khođg ñöôỈ moa
†añrong thudut isLarge
2.3.1.2 Xaù ñănh cad luaôkeôhôb töœaò taf mut lôù
Sau khi tim tha# caù taô mut lôù töøcaù giao dỉh trong cô sô0döØieô
D, chuùg ta deấdaøg xaò ñờnh ñöôt cad luaô keâ hôb mahh töœaò taf mut lôù
ñoùCaò luaôkeêhôb manh laecad luaôthođ mad cathodhoardĩitoĩthiea vaøioôin
Cai toôthieô, töù laaoừio&noêrôïlôù hôn hoaĩ baòg minsup vaœoừioôin caô lôù
hôn hoaĩ baỉg minconf Quattrinh nag coừheôïöôb thö hieô ba&g cath söduhg
bieô thöờ sau
sup(A UB) (2.2)
conf (A => B) = sup(A)
Trong ñoùsup(A_ B) laøo#oẩrôïcuí taô mut (AB), sup(A) laøo&—oẩôrôïcuđ
taf mut A Dĩa tređ cođg thöù nag, cad luaôke&hôb coửheôïöôb tad ra nhö sau:
¢ Vôùmoêñta8 mưt lôù |, tad ra taôcafŒaù taô hdp con khođg roêg cua |
Luaô vaí that sóCođg ngheôï hoag tin — LeôTöïThanh
Trang 33sup(s)
e Vớmộtậ con s, tad ra luậke&hơb s => (¡- s) nea = minconf
Thuaatoad: Xá đờnh cat luaike&hdp tưœaị taa mut 160
Naa và: c,L
Naa ra: Cad luậkễhơp tho maa c
Phương thứ:
1 Tìm tẫ cafá taf con khôg rỗg (X) cua mỗtậ mut lớ | trong tap
hơp cad tậ mu 16a L
2 Vớmỗtậ con X, ta thu đươb luậdahg x = (¡- X) xá Ath tyđệiưã
đo&—ộrợcuê tậ mu 160! vớđo&oẩrợcuâ tậ con X
« nea tyđệnag lơà hơn hoắ bằg ngưỡg độin cậ toăthi ệ c thì luậcó
giárịvaaiư8ạ
© _ ngươÈ lai, nea tyệag nhothén c thì luậkhôg cotgiattrovadoal bouậ
nag.
3 ThưE hiệ bướ 1 vadbướ 2 cho tậcafŒaị tậ mut lớ cò lai
GiafEư0ư8iệ chưà tậ mut lớ I={ A, B, E} Đệìm cat luậcoửhệab ra
†ưđaB mut lớ |, faa tiê ta xá định cad tậ con khôg rỗg cua! Cat taf conkhôg rỗg cua | là{ A, B}, {A, E}, {B, E}, {A}, {B} vad E} cad luậđươb tab
ra là
AABSE [:z=‡=s| AAE=bB [cons = 2 =100%|
2 2 BAE=A | conf =2 =100% AS>BAE | conf === 33%
: 2 2
BS ANE | conf =7=29% B= AAB | conf =2 =100%
Nea ngưỡg độin ca§ tộthiệ 1ad70%, thi chcóuậthưừhai, luắ thou
ba vaduaBcuộcusg làœaị |uắkeahdp mahh
Luậ vắ that sĩCôg nghễï hoag tin — LễTự Thanh
Trang 342.3.2 Khai thá luậke§ hơp coửr ohg soa
Trong thưb te&hi khai thá luậkếhơb ta khôg chađơn thuầ xem xetilao
cá item “coũ hay “khôg” trong khi đến support mađhư sựứg vớ mỗitem
cog đươt kem theo mộtrohg sốweight) nhaờ mo8aũnưị fogquan trong cua
item Khi giaũquyệtheo khániễn nag tat giafOai, Chun Hing đaØ1ưa ra moBsố
thuậtoá coừiê quan đế phương pha tinh support cho cat itemset déa trea
trong so&uê ca item [5]
2.3.2.1 Khai that luậkễhơb cottr ong so&hôg chuaa hồ [5]
a Cad fAmh ngh@
e Trong so&uâ Itemset: laanộsốhưÈ w (0<=w<=1) biệ thịcho més fogquan
trohg cua Itemset đóChẳg hain: Nea Itemset X cottrohg sodaaw=0.95 thì ta
nónóauan trong hơn khi X cottrong sodaaw=0.1 trea cuag cơ sơ(dưưiệ giao
dèh D
e Luậkếhơb nhịphâ trohg sốBinary Weight Association Rule): Laduậcó
dang x >Y vớtậ cat item I={i;, iz, in) trea cơ sơđlưđiệ giao dàh D,
XCI,YCI vàX ¬Y=ĩ
e Sofie support trong sốkhôg chuậ hồ) cua cat luậtrơhg sốhhịphâ
X => Y đươÈ Ath nghớ:
waar ve x w, ) (Support(XUY)) (2.3)
ie(XOY)
Trong đoừ w:, wa, wn} ladrong sođương ứg cua cad item { i:,a, in}
Việ tim cad luậ ke& hơp đág quan tân dưä và hai yea tốlàcá
ngưỡg cho trươị minsup vàni nconf
Luậ vắ that sĩCôg nghễï hoag tin — LễTự Thanh
Trang 35e Large Weight ItemSet: mộtrohg sodX đươb gọ ladarge weight itemset nea
mưị hỗrợtrohg sốkhôg chuaắ hồ) cua itemset X ladớ hơn hoắ bằg
minsup Tứ laavsupport(X)
¢ Mộ luaB ke hơp trohg sốđươb gọ làđág quan tắn nea độtin cậ cua
itemset ( x UY ) cũg laanộlarge weight itemset
Ví dụ2.4: Giaœưfữhôg tin cuâ mộcưâ hang bat lefcho bơũbaơg 2.1 vàlư8iệ
giao dàh D đươb cho bơũbaơg 2.2 (barcode đươE sư(duhg đệđơn giaơ hồ tea
cat item)
Baơg 2.3 Thôg tin cưâ haag bá led
Bar code Item Weight
Trang 36e Khaiinieén veabiea K-support
Gia&ư0X;, Xo, Xa ladafa con cua X, khi đoửa cot
'Weight-Support(X)>min(weight-Support(X ;), weight(X,))
Noiicath khá, trohg so@uâ cat taf con đươt tăg lea Support cua ba&kỳ
taf con nà cua mộk-support phá nhofhơn Support cua k-ItemSet đó Tư&há
nieđn nag ngươpta đưa ra khániein biê k-support
Cho mộ cơ sơ0dữiệ giao dich D vớ |p| giao dàh, goi Support-Count
(SC) cua ItemSet X làốá giao déch chưà x vậhô maa đié kiệ sau nea X
laanộlarge weight ltemSet:
wminsupx |D|
3a;
Boaiez.1: Goi | lađaB cat item Giafsư0Y Iaanộd-ltemset, q<k Trong
SC(X)= (2.4)
taf cad Item coa lai I-Y, goi cat item vớ(k-q) trong sođớ nhađlađ,, ira, inp:
Khi fottrohg sốộđa cua bẫkyanộk-itemset chưà Y lao
keq
WK = Swit dw, (2.5)
iy m
Trong đoừộg thétnhaaladoag cua q-itemset Y vadoag thưừ2 ladoag cua
k-q trong sodoafia coa lai
Từ(2.5), mộ biê dướ fioé vớ cad sốđến tố thiệ cho mộ large
k-itemset chưà Y đươÈ cho bơũsốnguyê:
nor) =| mare) (26)
Ta got B(Y,k) ladbiea k-Support cua Y
Luaa vắ that sĩCôg nghễï hoag tin — Leal 6iThanh
Trang 37Vi duivôùdöôieô baôg 2.3 ôữređ, bieđ 3-Support cho item {2,4} lao
04x7 ]_„
(0.3+0.8)+0.9
Niea nag coùnghđ lameâ ItemSet {2,4} laøaB con cua baš kydarge
3-itemset nao thì sodieĩ cua 3-itemset {2,4} phaùlôù hôn hoaẽ baòg 2.
b Thuaôtoaù [5]
Thuafi toad khai thaù luaô ke& hĩp coùtrohg soâtöông töï nhö thuaô toad
Apriori Tuy nhieđ do tính cha&cottrohg soâcuđ cat itemset magtrong moB soa
böôù coksöï khaò bie& Tröôò heêta cuñg sinh ra ca large weight Itemset theo
kích thöôù taíg daa nhöng do caò taf con cua cat large itemset cottheakhoag
phaiiladarge itemset nea ta khođg theasinh ra cat candidate k-ItemSet moôcaùh
deêlagg tödaô cat large (k-1)-ltemSet nhö trong thuaôtoaù Apriori Chính vi vai
mata phaiitim moôcaùh naø ñoừieồu trö%&-ItemSet maœhuùg cottheĩgsinh ra
cat j-ItemSet ( (j > +) trong ca’ giai ñoah tieâ theo Nearich choh k-ItemSet to
CSDL, ta sö0duhg ca’ gialtrobiea j-Support Thöt hieô laø Cab bieđ j-Support
ñöôb tinh cho taâcafaù candidate k-ItemSet, trong ñoù lagnoôso&aôkyœiöê k
vagkich thöôù lôù nhaš coùtheảcoă cua cat large ItemSet Nea soâñeân cua
k-ItemSet toă tai laenhothdn taĩ cabcaù bieđ j-Support thì ta coùheảnoù raỉg noù
khođg theôađaô con cua ba§ kyanoô large weight ItemSet nao trong giai ñoah
sap tôùvamoừcoừheôïöôt caĨta Ai Moôk-ItemSet mamoùcoừhe&ö(dưng trong
caù large weight ItemSet trong giai ñoah tôùthì noeðïöôE löu giöõaø C,.
Vi dútöœoâieô baôg 2.3, vôùwminsup=1 Ta thöô‹em coừnhhöõg taf mut
naø ladarge weight itemset
Tröôù he& soâïeân cua taš caŒaù item (coi nhö laøi-itemset) cottheatinh
ñöôb baỉg cath queùCSDL moôlaă vackich thöôù toôña cotthezcotcua caù large
weight itemset cuũg coửheđìm ñöôb Trong ví dưïnag, kích thöôờ toôña coửhe&où
Luaô vaĩ that sóCođg ngheêï hoag tin — LeêTöï Thanh
Trang 38cua cat large weight itemset là‡ vàœá sốđeứn cua cat item { 1, 2, 3, 4, 5}
tương ứg lad 4, 5, 2, 6, 7}
Goi 1-itemset cua item 1 làlạ Neatim cat large weight itemset cótheả
đươb, gọ laœá candidate itemset, ta phaũ lưu giữcaị large weight itemset có
khatnắg trong giai đoah hiệ thơn Neahét hiệ đươb điề nag, ta phađtính biê
k-support theo côg thứ:
VớgiaŒưfữằg, cat itemset đaØđươè sap thưừựtheo trong số&uâ chúg.
'Tương tựcaị biê k-support cho cad itemset coa lai, ta cotbatig sau:
Baơg 2.5 Cat biê k-support cho cat itemset
Theo đànhh nghda cua biê k-support, vơi sốđến cua item 1 là‡ vaecou
B(X,3), B(X,4) laenhothén hoắ bằg 4, ngụyừằg item 1 coửhệadậ con cua
Luaa vắ that sĩCôg nghễï hoag tin — Leal 6iThanh
Trang 39moả large weight 3-itemset hoaé 4-itemset Chuùg ta lỏu gidditem 1 trong moả
la taf cat candidate itemset Baèg cath tỏông tdi vôùựoăsoảaảdtem 2, 4 vad, ta
cuõg lỏu giỏửrong taf cad candidate itemset ựỏôÈ goi laụC¡ C; la#aB cua cad
candidate itemset lỏu gidécad weighted i-itemset vôù cat taả con cotkhatnaaég
cua cat large weight itemset Item 3 seửòcaÉta vi khoâg coừnoảbieâ k-support
naụ cua item 3 B(X,2), B(X,3), B(X,4) nhofhôn hoaé baòg soáựeán cua item 3
(=2) Do ựoùC; lađaả {{1}, {2}, {4}, {5}} Baèg phỏông phap tỏông tai taficati
cat candidate vadarge weight itemset seđỉỏôE sinh ra bôũphỏông phap lap
ứeảìm cad large weight 2-itemset, ta sedag taf candidate 1-itemset C¡ fied
noăthanh cat 2-itemset sau hag:
{1,2}, {1,4}, {1,5}, {2,4}, {2,5}, {4.5}
'TỏụỦaò itemset ựaữnoùtreâ, ta sedcaé ta cat cat itemset maenotnhothén
cat bieâ k-support vada con cat itemset khoâg colmaétrong C; Sau ựoùta ca
nhaBlaỉ cad soấỉeán cho cat itemset vađìm Ca vad ;, taf cua cat large weight
2-itemset Tieá trình nag tieá tut cho fea khi khoâg coa candidate nao ựỏôb tim
thag Kef&quatcua vieả thét hieả nag nhỏ sau:
Baôg 2.6 Cat tham sodai mỏù 2
Itemset | Support Weight 3 + Lao | Lỏuvaụ
Support | support | support | large? Ce.
Trang 40{245 5 1.43 3 Coù Coù
Do {2,4,5} khođg the8ođêrôïñeđab theĩn cat 4-itemset (möù 4)
neđ thuaBtoaù keắthuù tal hag
Cat luaôseðöôb sinh ra töœieô tim toaa bo#aù itemset
Thuaĩtoaa khai thaò luaôke&hôb khođg chuaô hoă:
Cat kyừieô trong thuaôtoaù:
D: Cô sô@ööieô giao dăh
W: Taf cat trong sodtem
Ly Tap large k-ltemSet
Cy: Tai cat k-ItemSet cotthedadaf con cua caù j-ltemSet vôù j > k
SC(X): Soầông cat giao dăhh chöă X
wminsup: Ngöôõg weight Support
minconf: Ngöôõg ñoôin cast
Size: Soâoôña cat large weight ItemSet coửheảeoừiöôE trong D
Algorithim MINWAL(O)
Input: Mo&CSDL giao dănh D, caò ngöôõg minsup, minconf, trong sodcua cad
item w, ñöôỈ saĩ xeâ thöừöïtaíg daa, toảg soâiao dich vadoag soâaù item.
Output: Moôdanh sath cat luaôñaùg quan tađn
1) main Algorithm(wminsup, minconf, D, w)