1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Công nghệ thông tin: Khai thác luật kết hợp có trọng số trong các kho dữ liệu phân tán

92 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Khai thác luật kết hợp có trọng số trong các kho dữ liệu phân tán
Tác giả Lộ Tự Thanh
Trường học Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Công nghệ thông tin
Thể loại Luận văn thạc sĩ
Năm xuất bản 2009
Thành phố Đà Nẵng
Định dạng
Số trang 92
Dung lượng 39,76 MB

Nội dung

- _ Chương 3: Xa& dưng moẩhình khai thá lua&ke&hdp coừrohg sốrong cadkho dédiea phâ tad - Chương 4: Xa% dưng vadriea khai chương trình - _ Kễluậ vađướg phatitriea - Taðliệ tham khaơ Luậ

Trang 1

Lé Tu Thanh

KHAI THAC LUAT KET HỢP CÓ TRỌNG SỐ

TRONG CAC KHO DU LIEU PHAN TAN

LUAN VAN THAC SI CONG NGHE THONG TIN

CHUYEN NGANH KHOA HOC MAY TÍNH: 60 48 01

Đà Nẵng - Năm 2009

Trang 2

Chương 1— KHAI THAG DƯð IỆ

1.1 Tộg quan ve%hai that dữiệ

1.2 Cat loạ dédiea đươt khai thad

1.2.1 Kiệ cơ sơữdưưiệ quan hed

1.2.2 Kiệ kho chưà dư8iệ

1.2.3 Kiệ cơ sơ/ưưiệ giao dành

1.3 Cat phương phap khai that dédie:

1.3.1 Khai that luậkệhơb

1.3.2 Phaa lop

1.3.3 Phâ nhotn

1.4 Cat heahoag khai that dédie:

1.4.1 Phâ loai theo kiệ cơ sơữlữiệ đươè khai tha

1.4.2 Phâ loai theo kiệ tri thứ hai thá

1.4.3 Phâ loai theo kiệ ky—huậđươb sư0luhg.

1.4.4 Phâ loai theo ứg duhg

1.5 Ke&luaa chương 1

Chương 2- KHAI THAU LUẬ KEA HOP COU RONG SOA:

2.1 Gidiithied

2.1.1 Cat khaiinieén cơ baa vệuậkeš hơp

2.1.2 Khai thá luaiike&hdp trong cơ sdtde

2.3 Cad phương phap khai thá luậkễ hơp

2.3.1 Khai thá luắke&hdp Boolean tưœơ sơ@lưäi

2.3.1.1 Thuậtoá xat định cat taf mut lớ Apriori

2.3.1.2 Xá Amh cab luậkệh: œaị taf mut lơi

2.3.2 Khai that luaike&hdp coửr ong soa

2.3.2.1 Khai that luậkeš hơb coửr ong so&hôg chuaa hồ [5]2.3.3.2 Khai that luaike&hdp cottr ong so&huậ hồ [5]

2.4 Cad thuật†oá song song

2.4.1 Thuậtoá CD

2.4.2 Thuậtoá DD

Luaa vắ that sĩCôg nghễï hoag tin — Leal 6iThanh

Trang 3

2.5.2.2 Xá đành cad taA mut lớ toaa cut

2.5.3 Xá fish cat luậke§ hơb coửr ong soa

2.5.4 Hah chế

2.6 Kealuaa chương 2

Chương 3— XAK DONG MOMINH KHAI THAU LUAA KEX HOP COU

TRONG SOA RONG CAU KHO DƯð IỆ PHAN TAN 03.1 Mo&nình khai thad luậkeš hơb coừr ohg sốr ong cat kho a phâ

tá 50

3.1.1 Giớthiei

3.1.2 Thuậ†oá xá đờnh cat tậ mut lớ toaa cut

3.2 Xâ dưng mỗnình hệhốg

3.2.1 Chương trình Controller

3.2.2 Chương trình Miner

3.3 Thiệkếhương trình Controller

3.3.1 Tad laf heahoag

3.3.2 Khai that luậkệhơi

3.3.2.1 AgentFacilitator3.3.2.2 Agent

3.3.3 Hiệ thokeắquad.

3.4 Thie§kếhương trình Miner

3.4.1 Đăg nha hệhốg

3.4.2 Tham gia khai that luaike&hdp

3.5 Ke&luaa chương 3

Chương 4- XAK DONG VAđRIỆI KHAI CHƯƠNG TRÌNH

4.1 Xa& dưhg chương trình Controller

4.1.1 Xag dưhg góbuild_ system

4.1.2 Xag% dưhg gómining

4.1.2.1 Xa dưhg cad phương thứ cho AgentFacilitator

4.1.2.2 Xâ doing cad phương thứ cho Ageni

4.1.3 Xag dưhg gódisplay_ results

4.2 Xẫ déhg chương trình Miner

4.2.1 Xa% dưhg gólogin

4.2.2 Ẻ€C 6030000)

Luậ vă that sĩCôg nghệï hoag tin — LệTựThanh

Trang 4

4.3.4 Đáh gialkệ quaithdtnghiein.

4.4 Kệluậ chương 4

KEA LUAN VÀIƯƠĐG PHÁ TRI ỆI

TÀL IỆĐ THAM KHAO

Luậ vă that sĩCôg nghệï hoag tin — LệTựThanh

Trang 5

CSDL Cơ Sơ@Ðư#ä iệ

CD Count Distribution

DD Data Distribution

KDD Knowledge Discovery and Data mining

DW Data Warehouse

RMI Remote Method Invocation

Luậ vắ that sĩCôg nghệï hoag tin — LệTựThanh

Trang 6

Baơg 1.1 Cơ sơ0ữiệ giao dich

Baơg 2.1 Môa(bố giao dàh

Baơg 2.2 Dưäiệ giao dàch cua ví dui2

Baơg 2.3 Thôg tin cưâ haag bad leơ

Baơg 2.4 Dư8iệ giao dành

Baơg 2.5 Cat biê k-support cho cat itemset

Baơg 2.6 Cat tham sốạ moa 2

Baơg 2.7 Cat tham sodai mứ 3

Baơg 3.1 Hiệ thịcaị luậke&hơb

Baơg 4.1 Chưị naơg cua cat thaah phầ trong goiibuild_system

Baơg 4.2 Chứ nắg cua cat thanh phầ trong gómining

Baơg 4.3 Cat phương thot đaẽ trưng cua đốätương AgentFacilitator

Baơg 4.4 Cat phương thứ fAắ tréng cua Aoétddng Agent

Baơg 4.5 Chứ nắg cua cá thàh phầ trong display_results.

Baơg 4.6 Chưị nắg cua cat thàh phầ trong logi

Baơg 4.7 Chứ nắg cua cat thanh phầ trong mining

Baơg 4.8 Mộso4ệquaữhưb nghiẹ

Luậ vắ that sĩCôg nghễï hoag tin — LễTự Thanh

Trang 7

DANH MUE CAG HÌNH VÈĐOXHỊ

Hình 1.1 Cat bướ trong quattrinh khatn phattri théo

Hình 1.2 Kiế tru cuâ heahoag khai that dédi

Hình 1.3 Kiế truị kho chưà dédies

Hình 1.4 Khai that dédiea ladậ hơp cua nhiề ngaal

Hình 2.1 Sơ đo>ong song dữiệ

Hình 2.2 Sơ đo>ong song nhiễn vui

Hình 2.3 Modhinh heahoag kho dédiea phâ tad

Hình 2.4 S6 độrao độcá taf mut lớ giưã cad kho trong heahoagHình 3.1 Modhinh hễhốg

Hình 3.2 Thuật†oá xaị Ath caị t

Hình 3.3 Sơ đo>hứ nắg cua Controller

Hình 3.4 Sơ foa&hés nắg cua Miner

Luậ vắ that sĩCôg nghệï hoag tin — LệTựThanh

Trang 8

dưng ra§lớ và cad lớih vot khá nhau, đaẽ biệtrong lớnh vưb kinh tế/iệ khai

that dédiea cho phep hoath Ath đươb nhiề chiế lươÈ kinh doanh quan trong.

Hiệ nay, trê thếgiớ đaốcoừnhiề côg trình nghiê cou veakhai thá

luậkễhơp Tuy nhiê phầ lớ quaừrình khai that chatam việ vớdư8iệ tậ

trung Tai Vie&Nam lớnhh vưE khai that luaike&hdp vẫ coa rẫmơi, đaẽ biệlà

khai that luậ ke§ hơp trong moa trédag phâ tad Trong moầtrườg phâ tad

việ ap duhg nguyê veh phương phap xưữýnhư dữiệ taa trung khôg coa

chính xá Hơn nda trong moầtrườg phâ tad quátrình xư0iýthôg tin đươb

phâ bốrê nhiề đờa đie#n khá nhau, việ ap duing cat thuậtoá song song cho xưđýdữiệ phâ tad coa nhiề hah chếđaẽ biệlaœhi phí trao độdưđiệ

giưã cat kho làậlớ XuậphatItừïaẽ fies trea chúg toachoh đe*aịnghiê

cứ “KHAI THAG LUẬ KEA HOP COUTRONG SỐTRONG CAG KHO DOO LIEW PHÂI TAN” lam luậ vă tốnghiệ cao hot:

2 Mut tiê vamhiegn vui

Đe*abnag hướg đế nộdung xem xeticad ky8huậkhai thad luậkễäcó

trohg số/aœaị phương phap khai thaị luậkệhơb phâ tá cơ bad Từotphá

triệ vaexag dưhg moẩhình khai thá luậ keš hơb coừrohg sốrong cat kho dữ

liệ phâ tab déa trea tad tư0i độg

Nhieén vụcơ baơ cuê việ nghiê cứ lao

- Tim hiệ tộg quan ve%hai that dédiea

Luaa vắ that sĩCôg nghễï hoag tin — Leal 6iThanh

Trang 9

córohg sốrong cat kho dữiệ phâ tá.

3 Đoătươhg vagphain vi nghiê cou

Noatddng nghiê cứ làá mỗhình luậkeđhơp phâ tab, moéhinh nag

đóg vai troaơ sơfcho vied xa% déing chương trình thưÈ nghiện

4 Giathie&nghiea cứ

- Luậkệhơb coừrohg sodrong CSDL

- Mỗiình hoat độg trea mahg Intranet

- Nguyê lyừàaị thuậtoá xưũyừbhâ tad

- Kyỡhua8lậ trình phâ tad đoătương baag ngô ngữJAVA keắ hơp voi

thư việ phâ tá RMI.

5 Phương phap nghiê cou

Thu nha, phâ tích cad tabliệ vadhoag tin liê quan đế đe3ab

L6a choh phương hướg giáquyếvấ fea

Xagi déing modhinh hoaf độg

Triea khai xag dưhg chương trình ứg dưng trea maing Intranet

Kiegn tra, thotnghieén vàïáh giakếqua0

6 Ýighớ khoa hot vađhưb tiễ cua đệab

- Ýhgha khoa hot cua đe*aa Nghiê cou xa& dưng vadriệ khai moghinh

khai that luậke&hơp coừrơhg sốrong cat kho dữiệ phâ tá

- ThưÈ tieé đe3aw Tad ra moBcôg cụhộ—rợcho cat doanh nghieB hoath

Ath caị chiế lươÈ kinh doanh

7 Bo&ut cua luậ vad

Luậ vắ bao goén cat phaa sau fag:

Luậ vắ that sĩCôg nghệï hoag tin — LệTựThanh

Trang 10

- _ Chương 3: Xa& dưng moẩhình khai thá lua&ke&hdp coừrohg sốrong cad

kho dédiea phâ tad

- Chương 4: Xa% dưng vadriea khai chương trình

- _ Kễluậ vađướg phatitriea

- Taðliệ tham khaơ

Luậ vă that sĩCôg nghệï hoag tin — LệTựThanh

Trang 11

1.1 Tộg quan veahai that dédiea

Hiệ nay, khai thá dữiệ laamộtrong nhữg hướg nghiê cứ quan

trohg do khaữnăg coừheẩứg dưng rộg radtrong nhiề lớih vée khaị nhau như

thương mai điệ tư0tàchính, ngâ hang, y tếan ninh,

ĐaØoừađ'nhiề côg trình, cat bàbaị phaơ áh ke&quatnghiea cứ về

khai that dédiea, tuy nhiê phầ lớ đề dda trê cơ sơđlưđiệ cut bộcoừính

chaa “taf trung” Hơn nưã, trong thưb tếviệ đáh gialke&é quaơcuâ quattrinh

khai that dưỡiệ khôg chaaléa và việ xem xelkệ quafá khoaơ mut theo

kiea “coũ hay “khôg” moficadh đơn trịmaœầ thie&phaiixem xeliđế trong soa

cua cá khoaơ mub nag Điề nag có/ừnghớ fắ bie& quan trohg trong cat hea

trdigiup ra quyệđịnh déa và cat kho dédiea đaẽ biệlaœá kho dưãiệ phâ

Khai that dédiea laequattrinh tìm kieé& cat maa trong dédiea baag cath

sư(dưhg cat côg nghệ/a%&yốthuậ khá nhau Aeaxag dưhg nê môhình, fai

diệ trưa tương cua thưb tea Cad maa trong cơ sơ0dữliệ phaơ áh cad quan

hệgiưã cad thuộ tính vố cou

Khai that dédiea laanộ giai đoan thie& yea trong quaừrình khat phat

tri thứ trong cad cơ sơ0lưäi ễ (việtaladDD).

1 2 3 4

Thu thậ và L6a choh và KeBluậ và.

lam sath dưưiệ » biế độdưưiệ " dữiệ = biệ diễ

Hình 1.1 Cat bướ trong quattrinh khaừ phaitri thứ

Luậ vắ that sĩCôg nghễï hoag tin — LễTự Thanh

Trang 12

hôp lai.

Lam sath dĩdiea: ladböôù cho phep loá botcat dĩdiea nhieê, dĩdiea dĩ

thöa vaalĩdiea khođg coừính nhaắquaù cao

2 Lö chon döõieô: lieđ quan ñeâ cođg vieô phađ tích ñöôb lag ra töœô sô

dööieô

Bieâ ñoô döõlieô: döðlieô ñöôb bieâ ñoô hoaĩ hôp nha& thanh cad dahg

thích hôb cho vieô khai that baòg cath thöỈ hieô moôsoâhao tad giaô löôb

hoaĩ keâhôp

3 Khai thaù döõlieô: laøuaừrình thieĩ yea, trong ñoừcaù phöông phap hdp

IyừồôỈ ap dưng hedath cat maa dööieô.

4 Ke&luaa: nhaờn rutira cat maa ñuùg, ñá dieô cho tri thot döa vaø mofisoa

biea phap fo

Bieô diea: ñöôE hieô Iaøsö0dưng cad kyốthua8 trd¢ quan hoaĩ mieđ tad

tri thöò Aeahechiea cab tri thöò Aac&khai that cho ngöôøsöduhg.

Böôù khai that döõlieô coùtheảtöông tad vôù ngöôø sö0duhg hoaĩ cô sô0

tri thöù Cab maa ñöôb khai thaù seõñöôb hieô thò cho ngöôp sdtiduhg vaøcoù

theôñöôt löu vaø cô sôôri thöù nhö moôtri thöù môù

Nhö vag, khai that döỡieô laanoôböôù trong quaừrình khaừ phattri tho

trong caò cô sô0öõieô Kieâ truù cua moô heathoag khai that dĩdiea cotthea bao goăn ca thanh phaă chính sau fag:

Luaô vaĩ that sóCođg ngheêï hoag tin — LeêTöï Thanh

Trang 13

⁄⁄%GU d.d.¿ựR

_Ư- 5 |

| Mai chufphưà cơ sơfữ.

`” „| liệ hoắ kho dữiệ

Hình 1.2 Kiế truị cua heahoag khai that dédiea

1 Giao diệ đoăhob: khoanag lied lat giưã ngườsư(dưhg vacheahoag khai

that dữiệ, cho phep ngườ sư0duhg tương tad vớ heathoag ba&g cath

đưa ra truy vấ dữiệ hoắ tab vui cung cấ thoag tin hoẩärợcho việ tim

kiến, vađhưb hiệ khai thá dédiea coửính chafthắn doalưa trê kếquaũ

khai thaị dédiea trung gian

2 Đáh giámẫ: thaah phầ nag sư0duhg cat phep fio độchính xá và

†ương tat vớ caị khố khai thá dưãiệ đeđag trung và vied tìm kiến

cad maa đúg Nócoửheả&ư(dưhg mộ ngưỡg cua đo&hính xaị đệob

Luậ vă that sĩCôg nghệï hoag tin — LệTựThanh

Trang 14

3 Phương tiệ khai thá dữliệ: hag laqwế to4hieš yea đố vớ quaừrình

khai that dédiea vawệyừươơg notbao gồ mộtậ hơp cad khố chứ

năg như môta0đaẽ đie&n, ke&hdp, phâ lơb, phâ tích nhotn, vàđáh

giáphâ tích sai số

4 Maw chuữhưà cơ sdidédiea hoắ kho dédiea: may chufcơ sơ(dữiệ hoắ

kho chưà dư8iệ cha trath nhiegn lag cat dédiea Iiê quan, déa và cat

yea cầ khai thá dữiệ cua ngươịsư(dung

5 Gơ sơ(rlưãiệ, kho dư8iệ: đaậ laanộhoaẽ mộtậ hdp cá cơ sơ(dữiệ,

kho chưà dédiea, baơg tính Cá kyGhuaalam saith dédiea vadich hơb dữ

liệ cộheấïươt thưt hiệ trea dữiệ.

6 Cơ sơữri thứ: đa§ laamiề tri thứ đươb sưflưng đeảhướg daa vied tim

kiến hoắ đáh giaksự đúg đắ cua cá mẫ đươb khai thá

Khai that dư8iệ bao ham việ tích hơb nhiề kyữ8huậtưahiề lớn voc

như côg nghe&ơ sơ(dưđiệ, thốg kêhob ma, tính toá hiệ năg cao, nhậ

dang, cad mang nơron, hiệ thị dưỡiệ, tìm kiegn thôg tin, xư8yừín hiệ và

aah, vagphaa tích dédiea khôg gian Bằg việ khai that dédiea, cab tri tho

đươb khain phácótheảđươb sư(duhg feadfida ra quyeš đờnh, điề khiea xư8ý

quaơ lyừhôg tin, vaưũyừruy vấ Vì vậ, khai that dưØiệ đươb xem laemo&

trong nhữg Ith vưÈ quan trong nha&trong cad hệ—hốg cơ sơ(lữiệ

1.2 Cad loạ dư8iệ đươÈ khai thaờ

Khai thá dédiea coửhệïươt tiế haah vớnhiề loạ dédieắ khá nhau

như: ca’ cơ sơ0dữiệ quan hệcá kho chưà dữiệ, cab cơ sơ0dữiệ giao

dich Ưg vơi moa dữiệ khad nhau vấ đềkhai that dưØiệ cua moa hệ

Luậ vă that sĩCôg nghệï hoag tin — LệTựThanh

Trang 15

mỗnhón cat thuộ tính (coa goi laaộhay trương) vadhương lou modtaa lớ

cat bộ(coa gọ lachaag hay baa ghi) Mo&boarong baơg quan heabiea thịmộ

độtươhg, đươb nhậ dahg bớ mo& khồ duy nha& vàđươb môtaũbơũ mộ

nhón cat giaừrịthuộ tính

Dédie& quan he&oừhệfiươb truy caf bớcá truy vấ cơ sơữlưãiệ đươt

việơ0dahg ngô ngưốtruy vấ quan hệchẳg han như SQL, hoắ vớ sự trợ

giup cua cad giao diệ ngườsư(duhg đoằnồ.

1.2.2 Kiệ kho chưà dưđiệ

Giats6CABC laanộ côg ty chuyê kinh doanh vexnaỳ tính vơi hai chỉ

nháh Mộchi nháh tai Thaah Phốlồ°hí Minh vaanộchi nháh tal Thanh

Phố\aaNãg Mỗchi nháh cotcat cơ sơ0ưđiệ cua riêg chỉ nháh đóNhư

vậ việ thốg kêlưđiệ tai mộthơpđiện trea taficatcad chi nháh sễnaB rấ

nhiề khoikhắ vađố nhiề côg sứ, do dữiệ liê quan đế việ kinh doanh

trakhaĩ trea nhiề cơ sơữlưư¡iệ vàakn tai hai thanh phố‹haị nhau

Nea côg ty ABC cómộ kho chưà dữliệ, nhieén vui nag sẽtrơũnê

dễdàg hơn Kho chưà dữliệ laamộ kho thôg tin đươ thu thậ từnhiề

nguồ dữiệ, đươt lưu dướ mộ lươb đồthốg nhaắ vàđaE tal moa vị trí

Cat kho chưà dữliệ đươÈ xa& dưnhg thôg qua quátrình lam sath dữliệ,

biế độ dữliệ, tích hép dữliệ, nab dữiệ, vadam tươi dédiea định kyo

Hình 1.3 moaatkiea trú cơ baơ cua kho chưà dưäiệ cua côg ty ABC

Luậ vă that sĩCôg nghệï hoag tin — LệTựThanh

Trang 16

Hình 1.3 Kiế trú kho chưà dédiea

1.2.3 Kiệ cơ sơ#lữiệ giao déeh

C6 sơ0dữliệ giao dé&h gồ mộ tệ tin trong đómỗ baơ ghi biệ

thịmộgiao dàh Mộgiao dành điệ hình goén cotsodimh danh giao dành duy

nha&(kythiea ladTID) vaanộdanh sath cat mu tad thaah giao dàh (chẳg hain

như cat moa haag đươb mua trong mộcưâ haag) Cơ sơ0lữiệ giao dàh coửheả

coừaị baơg kếähơb vớnócá baơg nag chưà cá thôg tin về/iệ bá hang, như ngag giao déch, sodD cua khaịh haag, sodD cua ngươbbá haag, sodD cua

cưâ hang Baơg 1.1 làmộ vi dui veacad giao déch đươb lưu trong baơg

BANHANG

Baơg 1.1 Cơ sơ0ữiệ giao dàh

TID Cat mut

T100 lị, lạ, lạ, lịoT200 la, lạ, Ís, ly

Téequan fieén cua cơ sơưđiệ quan hệbang 1.1 laemo&quan hedoag

nhau bớvì thuộ tinh cá mut chưà moftap hdp go nhiề mut Vì fia so£á

hệhốg cơ sơ(rlưØiệ quan he&hôg hỗrợ cá cấ trú quan hedoag nhau,

cơ sơ0ữliệ giao dàh thương đươb lưu trong tệ tin phẳg theo đờnh dahg

Luậ vă that sĩCôg nghệï hoag tin — LệTựThanh

Trang 17

giốg như định dahg cua baơg 1.1.

Negphaa tích chi tie&dddiea, ví dụnhư tim cá mắhaag thédag đươt bad cuag vớ nhau Điề nag coừnghớ cá heathoag khai thá dư8iệ cho dữ

liệ giao dàh pháchaa cá tậ hơb cat mắhaag thương xuyê đươE bad voi

nhau

1.3 Cat phương phab khai that dédiea

Trong phầ trướ, chúg ta đãquan sat nhiề kiệ kho dữliệ vàhệ

thốg cơ sơ@ữiệ maayuárình khai that dữiệ coửhệïươE thét hiệ trea đó

Trong ph n này chúng ta s kh o sácaị phương phab khai that dédiea

Cothai loạ moéhinh chính trong khai that dédiea: dựđoá vàanỗaũ Cab

moéhinh dựđoá coừhệïươb sư(duhg đeảlựbaị cat giaửrịkhôg tương minh,

dda trea cab maa đươb xaị Ath tưœaị kệquafa8iệ Cad modhinh môainie8â

tatcat maa trong dưỡiệ hiệ colivadhddag đươb sưduhg đệab ra cat nhoừi

nhotcotytngh@

Cat ứg dung khai that dédiea tab ra tri thot mơiibầg caịh toéchda dữ

liệ thaah cad môhình, như đãmôta0Ơftrê, hỗtrợ cho ngươp sư0dưng hiệ

đươÈ cat maa trong dữliệ Nó chung, khai thad dữliệ cótheảkhaừ phá

cat loạ kệ quatsau: sựphâ loạ, sựhồ quy, chuỗthơờ gian, sựphâ nhón,

keš hơb, vaedaðỹ tuầ toi

Cat môhình déi đoá dưa và cat ke& quaơlàsự phâ loạ, sự hồ

quy vaechuoa thơp gian Môhình môtaơthương déa và cad ke& qua0làsự

phâ nhotn, kếähơb vaalaỹ tuầ toi

Trong khai that dưỡiệ, cotnhieắ phương phab khaị nhau đaØkhaừ phá

cat tri thứ hated Dướ đa§, chúg ta xem xémộsố@hương phap khai thao

dưäiệ pho&iế

Luậ vă that sĩCôg nghệï hoag tin — LệTựThanh

Trang 18

1.3.1 Khai that luậke&hơb

Khai thaị luậke&hơb lađìm kiến cad quan he&eahdp giưã tậ hdp cad

độtươhg (gọ laœá muÈ) trong cơ sétdédie& Cad quan he&ebhdp nag đươt

mỗađrong cat luậke&hơb Mỗluậcoừhai thôg sốđo&#ỗrợvàộïin ca§

Noétin cait lagphep fio sứ manh cua luag coa đo&hỗrợtương ứg vơi ýnghœ

thoag kê

1.3.2 Phâ lop

Phâ lơb lagquattrinh tìm kieén cad taf môhình (hay chứ năg) môtaũ

vagphaa biệcaị |6p hay khániẹ dư8iệ, vớmưt đích laccottheésétduihg cat

moéhinh nag đeảdự đoầ mộ lơb cad đố tươhg chưa bie& Môhình thu đươb

nag dda và việ phâ tích mộtậ cat dưäiệ huấ luyệ (tứ làá đốätươhg

dữiệ hated

Moéahinh thu Add nag cótheảđươb biệ diễ ơơnhiề dahg khaị nhau,

chẳg han laœaị |uắ phâ lơb, cad caf quye& đờnh, côg thứ toad hot, hay

cata mahg nơron

1.3.3 Phâ nhoin

Phâ nhoừn chia cơ sơ0dữliệ thanh cad nhotn đố tương khad nhau

Mu đích cua phâ nhotn lagieaim ra cad nhoừn khaị nhau, trong đoừcá thanh

viê cua mỗnhón lađương tựnhau Khôg giốg như phâ lơb, chúg ta khôg

bie& đươE cad nhotn laœá gì khi chúg ta baÉ đầ, hay dưØiệ seốđươt phâ

nhón theo thuoé tính nag Do vai, sau khi tim tha# cad nhoin, thi cad nhoừn nag

coừhe#ươt sư(duhg fegphaa loạ dưäiệ mớ

1.4 Cat he&hoag khai that dưãiệ

Khai that dữiệ laamộ lớnh vư liê ngaah, tậ hơp cua nhiề ngaah

như cat hệthốg cơ sơ0dữliệ, thốg keậ hob má, vàcôg nghệthôg tin

Luậ vă that sĩCôg nghệï hoag tin — LệTựThanh

Trang 19

Hơn nưã, tug thuộ và phương phab khai that dư8iệ đươb sư(duhg, nhiề kỹ

thuậ†ừcá ngaah khá coừheảđươb ap duhg, chẳg hain như cat mahg nơron,

IyừhuyếtaB mờbiệ diễ tri thứ, laf trình logic quy nap, hoắ tinh toad hiệ

năg cao Tug thuộ và cat loạ dữiệ đươb khai thá, hoắ cad kiệ ứg

dung khai that dédiea, heahoag khai that dédiea cudg cottheaich hơp nhiề kỹ

thua§ tưephâ tích dưØiệ khôg gian, tim kieé&n thôg tin, nhậ dang, phâ

tích âh, xư8yừín hiệ, đồhộ may tinh, côg nghệeb, kinh tea

Côg nghệ Thoag kê

CSDL |

Khoa hot „| Khai thao l May hot

thoag tin Dédiea

Ngaahkhaờ

Hình 1.4 Khai thá dédiea ladậ hdp cua nhiea ngaah

Bơũvì tinh fia dahg cua nhiề ngaah taf trung và khai that dédiea, việ

nghiê cứ khai that dédiea tad ra cat hệ—hốg khai that dédiea raš§ đa dahg

Vi vậ, đòhoũphaũđưa ra sựphâ loạ roữàg cho cat he8—hốg khai that dữ

liệ Cat hệ—hốg khai that dư8iệ coừheẩđươb phâ loạ theo nhiề tiê chí

sau flag.

1.4.1 Phâ loạ theo kiệ cơ ữiệ đươÈ khai thá

Hệhốg khai that dédiea coWhệđ phâ loạ theo cat kiệ cơ sơfdữ

liệ đươb khai thá Cad hệthốg cơ sơ0dữliệ cótheảđươt phâ loạ theo

Luậ vă that sĩCôg nghệï hoag tin — LệTựThanh

Trang 20

nhieă tieđ chí khaù nhau (chaúg hah nhö caù moẩình dö8ieô, hoaĩ caù kieô döõ

lieô, hoaĩ caù öùg dung), moêloá coừheả/eđ caă ky8huaôkhai thaù döõieô cua

rieđg noùVì vax, cat he—hoâg khai that dĩdiea coừhe#föôb phađ loá sao cho

phuchdp

Vi duj nea phađ loá theo cat mođhình döõlieô, chuùg ta coùtheảcoùheô

thoâg khai that dĩdiea quan heagiao dich, höôùg ñoâtöông, quan heôñoôtöông,

hoaĩ kho chöă döõieô Neâ phađ loá theo kieô döõieô xöữyù chuùg ta

coùtheảcoùheôhoâg khai thaù döỡieô khođg gian, thôø gian, vaí baô, hoaĩ fa

phöông tieô

1.4.2 Phađ loai theo kieô tri thöù ñöôb khai thaờ

Cat heôthoâg khai that döØieô coùtheảñöôb phađ loá theo caù kieô tri

thöù Ỉ khai thaù, töờ laødöô vaø caù tính chöù naíg khai that dĩdiea, chaúg

han nhö mođaññaẽ ñieôn, phađ bieô ke&hdp, phađ loá, goô nhoừn, phađ tích hoa

töôhg ngoaa Moô heôthoâg khai that döõlieô toaa dieô thĩ6ag cung capa

nhieă vathoaĩ tích hdp caờ tính chöù naíg khai thaò dĩdiea

Hôn nöê, cat heathoag khai that döêieô cokheđñöôb phađ bieô döa vaø

cad möò tröa töông cua tri tho oôg quaùỈ khai thad, go& coừri thos

hoă (tai möù tröa töôhg cao), tri thöù möù cô bad (tai möù döđieô thoậ hoa tri

thöò tai nhieă möù Moê heôthoâg khai that döõlieô caâ cao coùtheảdeêdang

khatn phattri thöù tai nhie& möò tröø töông

1.4.3 Phađ loai theo kieô kyê8huaôñöôb söung

Cat heôihoâg khai thad dĩdiea coừheẩôfi phađ loá theo cat kyĩthuaĩ

cô baa ñöôb ap duhg Cat kyØhuaô nag cokheôñöôt moêaữheo möù ñoồông

taù cuđ ngöôøsö(duhg (chaúg hah nhö cat heôhoâg töïtrò cat heahoag thaín dog

†öông tad, cad heôhoâg ñieă khieô truy vaâ), hoaĩ cat phöông phap phađ tích döõ

lie ñöôb ap dung (ví dúnhö cad ky—huaB höôùg cô sô(döỡieô hoaĩ höôùg kho

Luaô vaí that sóCođg ngheôï hoag tin — LeôTöïThanh

Trang 21

chưà dưäiệ, hot ma, thốg keanhaa dahg, mang néron ).

1.4.4 Phâ loạ theo ứg dung

Cat hệthốg khai that dữliệ cótheảđươÈ phâ loạ theo ứg duhg

maechúg đươÈ sư0duhg Vi dui coltheacotcad he8—hốg khai that dédiea ứg

dưng trong tàchính, viễ thôg, thịtrươag chứg khoá, thé điệ tươ/aa Mo&

soØùg duhg khá thươag yê cầ sự tích hơb ca’ phương phap cua cad ứg

dưng riêg

1.5 Ke&luaa chương 1

Chương 1 đaØiớthiệ toảg quan ve%hai that dư8iệ, cá độtương dữ

liệ đươb khai thá cuđg như cab tri thứ đươÈ tìm thag Bea cahh đó chương

1 cũg đưa ra mộsố@hâ loai cho khai thá dưđiệ Tiế theo, chương 2 sedi

sâ và mộphương pha khai thad dưđiệ quan trong, đoaœhai thá luậke§

hdp coừrohg soa

Luaa vắ that sĩCôg nghễï hoag tin — Leal 6iThanh

Trang 22

Chöông 2- KHAI THAU LUAA KEA HOP COỪRONG SOA

2.1 Gidiithiea

Lua& keš hop f66¢ giôù thieô laă ñaă tieđ vaø naĩ 1993 bdi Agrawal,

Imielinski vafwami vaồøokkhôùñaă cho hang loat cat nghieđ cöù veôuaôkeâ

hôp sau nag Hieô nay nghieđ cöù khai thaù cat luaôkeôhôp laanoôtrong nhöñg

höôùg nghieđ cöù döõieô quan trong

Luaôkeôhôb laanoôdahg quan he&eò theo hay dahg lua8if-then ñöôb hoa

trôïbôùdöõi eô

Vôùcaùò khoôlöông dĩdiea khoag loaiang ñöôt taf hôb vadöu tröõ nhieă

nganh kinh doanh fang quan tađn vaø vieô khai thaù cad luaôkeâôhôp töœaù cô sot

döỡieô cua hoi Vieô khatn phaùcaù quan he&e&hdp thuù/òtrong cad löông baô

ghi giao dăh thöông mai raô lôù coheẩhoêrôïcho caò doanh nghieB trong vieô

ñöa ra cat chieâ löôb kinh doanh

Tuy nhieđ, tính höõ ích cua vieô khai that luaôkeôhôb khođg chagiôùhah

trong cat öùg dung kinh doanh Noùcuõg ñöôỈ öùg dung trong vieô phađ tích

gen, vaí baa,

2.1.1 Cat khaùnieô cô bai veôuaôkeôhôb

Tröôò khi fi vaø tìm hieô kyêhuaBkhai thad luaôkeôhôb coitrong soâta cou

moBso&haùnieôn sau:

e D laœô sôidöđieô giao dĩch caă khai that Cô sô0löðieô D laanoôtaB hop

goăn cat giao dăch

© 1 ={l¡, lạ, , Im} lađaB hĩp ta&cafcaù mut coửrong D

e Moêgiao dăh T laømoôtaô hôb cat mub Moê giao dich ñöôb keĩ hôb

vôùmoôñùừnh danh goi lađID

Luaô vaí that sóCođg ngheôï hoag tin — LeôTöïThanh

Trang 23

e X làmộtaB hơb chưà cá mưt X đươb gọ làamộtaB mu’ Ned tap

mut X chưà k muÈ thì X đươÈ gọ lađaB k-mut hay lađậ mut kích thướ

k

- Luậkễhơp

Luậ keš hép laemof&quan he&oừlahg X => Y trong đóX vadY laœá taf

mut (X cI,Y cI) vàX ƒ\Y=ø

Hai thôg sốuan trohg cua luaikeahdp làio—ỗrợvàộin ca§

« Noéhoar di Noéhoaréicua tậ mut X, kyừhiệ làup{X}_, lady0ệiưã soa

giao dành trong D cóhưà X vớtộảg sốiao dành trong D.

đo&ộrợ{X) = sup{X} = (số@iao dàh chưà {X})/(toag sốiao déch) (2.1)

Ví dui2.1: Xémộcơ sơ0ưựiệ giao déch nhotD 1 vớbố mut | ={ A,B,C,D} và

boa giao dàhh đươb môaơrong baơg 2-1

Baơg 2.1 Môa(bố giao dàh

TID Cat mut trong giao dàh

T1 A,B.C

T2 B,C,D

IS B

T4 AB

Ta thấ, tộg sốiao dành trong cơ sơ0dưđiệ nag là1 Ta xéđo&—ỗrợ

cua mộsốậ mut sau:

Trang 24

Noéhoaréicua luậkệhơp Xx = Y , kyừhiệ lagsup{ X > Y}, ladyũe&á

giao dàh cotchéa cat mut X UY vớtộg sốá giao dich trong cơ sơ0ữiệ.

Ví dut nea lua& {A,B} => C_coừio&—ộrợluậla#@5% thi coừnghớ la#@5% tộg soa

giao dich cua cơ séidédiea cóchưà cad mut {A,B,C } Đo&hỗrợladhôg soa

thoag keaquan trong cuê luậkệhơp

¢ Noain cag: Noain cag cud luậkệhơp X = Y, kythied là conf(X = Y},

laảye&uơ sốiao dich cotchéa XU Y vớsốaơ ghi cóhưà X Hay nó

cath khá, độ—in cas cua luậ la#yệ&á giao dành trong D chưà X mao

cudg đồg thơpchưà Y

Ví dut nea lua& {A,B} => {C} coừïộin cậ 50%, thi cónghớ lađ0% sốgiao déch

chưà cad mut { A,B} coichda mư { C} Độin cậ cuâ luafichathoméa hoad6ng quan giưã X vaY trong tậ dédiea Noain cai làiơn vịđo sứ manh cua lua§

Thoag thươgg cat luậkệhơb yea cầ độin cậ lớ

¢ Goi minsup lamgưỡg đo&ỗrợtộthiệ vàninconf lamgưỡg đỗin cậ

tộ thiệ Cad ngddag nag do ngườ sư0duhg Ada ra lam tiệ chuậ cho

quaửrình khai that cat luậkệhơp

e _ Mộtậ mut đươb gọ lachoa mã ngưỡg đoẩnỗrợtộthiệ nế đo#nỗ

trợcuâ tậ mu đóớ hơn hoắ bằg minsup Nế mộtậ mut thô maa

ngưỡg đo&ỗrợtộthiệ, thì tậ mut đoừđươt gọ la—aB mut hay xa ra,

hay laœá taf mut lớ

e Taf mut cotkhatnắg lađaB mut lớ thi đươE gọ ladaf ứg cươ/iê.

e Ta hơp ta&catcad taf k-mut 16a đươE kyừiiệ làL„ vaeC, la&yừiiệ

cua taf hơp tậcafcá ta k-mut ứg cươ¡i ê

e Cat luậthô mã catminsup vàninconf làá luậmahh.

Luậ vă that sĩCôg nghệï hoag tin — LệTựThanh

Trang 25

2.1.2 Khai thaự luaọkeóhụb tr ong cụ sụlửừieọ

Vieọ khai that cat luaọkeẽ hụp tửứụ sộtdộdiea chớnh laieọ tỡm tadcat

cat luaọkeỏhụb mahh

Khai that luaọke&hụb laauaựrỡnh goàn hai bửụờ nhử sau:

e Bửụự 1: Tỡm ta&caicad taọ mut lụự Theo ủờnh nghớ, cad taọ mut nag

phaựcoừoọ&oọrụùlụự hụn hoaộ baag ngửụừg ủo&oọrụùtoọthi eọ

 Bửụự 2: Tad ra cat luaọ keó hộp mahh tdecad taọ mut lụự Theo Aah

nghaa, cad luaọ nag phaủ thoõ maừ ủo&hoótrụùtoọ thieọ vaeủoọ—in caọ toỏ

thieọ

Bửụự 1 lađửụự phửũ tap vađoỏ nhieà chi phớ tớnh toad nha&ộ Hieọ naộg toaa

bo&uờ quaựrỡnh khai thaự luaọkeóhụp ủửụb xaự ủờnh bụibửụự 1 Sau khi ủa%aự

ủờnh ủửụb cad taf mub 160, ta deólaag xaự ủành ủửụb cad luaọkeỏhụb

2.3 Cat phửụng phap khai that luaọkeš hụp

2.3.1 Khai thaũ luaake&hdp Boolean tửœụ sụ0ửửieọ giao dàh

Trong phaà nag, chuựg ta se&xem xeựcaũ phửụng phap ủe&hai that cad

lua&ke& hộp daing ủụn gia nha&— cad luaọ keộ hụp Boolean Naa tieõ, chuựg

ta xem xeự thuaa toad Apriori, thuaọ toad cụ baụ cho vied tim caũ taf mut

lụự Sau ủoựủeàaọ fea thuữưb tad ra cad luaọkeọhụb manh tửœaũ taọ mut 16a

ủa8ỡm thag

2.3.1.1 Thuaọtoaự xaự Ach cat taf mut lụự Apriori

Apriori laanoọthuaọtoaự ra&phodbiea cho vieọ khai that caự taọ mut 16a

[6] Teõ cua thuaọtoaự nag ủửụb dda trea kieỏ thửự trửụự cua cad thuoọ tớnh

taf mut lụự Apriori sử0duhg phep laB tim kieg, trong ủoựcaũ taf k-mut ủửụt sửũ

dưng ủeọỡm cat taf (k+1)-mub Naa tieõ, taọ hụp ca’ taọ 1-mut lụự ủửụE tỡm

thag Taf hụb nag ủửụb kyừiieọ lad ; L, ủửụẩ sử0dưhg ủe#ỡm Lạ, taf hdp caự

Luaọ vaờ that súCoõg ngheọù hoag tin — LeọTửùThanh

Trang 26

taf 2-mut lớ, La lạ đươ sư0lưng đeđìm La vaœưừiế tut như vai cho đế khi

khôg tìm theén đươb taf k-mu lớ nà nưã Mỗ lầ tìm kiến taf hơb Ly yea

cầ mộlầ quetitoaa bo&ơ sơ0dữiệ Đệhuậ tied cho việ mỗa0chúg ta

kyừiiệ mỗvogg xá định taf hơp k-muc lớ la#,

Đe&ađthiệ hiệ quatcué quaừrình tìm kiến cad tậ mut lớ, mộtính

chaš quan trohg đươb goi làtính cha& Apriori đươE sdtiduing đeảrub gon bớ

khôg gian tìm kiến

Tính cha& Apriori: “Tắ caWá tậ hơb con khôg rỗg cua mộ tậ muÈ lớ

cudg phaũlaœaị tậ mut 16a”

Tinh cha& nag cótheảđươb chứg minh như sau Theo đờnh nghéa, mộ

taf mut lớ lađậ mut thô mã ngưỡg đoẩhỗrợtộthiệ minsup, do đoừno§

taf mut X nea khôg phá lađậ mut lớ thì sup{X} < minsup Nea ta bodsung

the mộ muÈ A và tậ mut X đó thì tậ mu mơi XUA khôg theảxua§

hiệ nhiề lầ trong cad giao déch hơn tậ mưb X, tưị làsup{X+2 A} < Sup[X }.

Vì va% tậ mut XU A khôg phađlađaB mut lớ

Thuậtoá Apriori sươduhg tính chaắ nag đeả‹aị Ath ta hdp L„ tưđậ

hốp L¿.+ Quaửrình xá đờnh ta hop Ly tư4ậ hdp L-; gồn hai bươị như sau:

a Bướ ke&noé

Đêìm L, thuậtoá tab ra mộtaB hdp cad tafa k-mườ coikhatnắg laœá

taf mut 162, goi cad tậ ứg cưiê bằg cath kefinoéL,., vớ chính nou Tậ

hdp cat tậ ứg céiviea nag Ad6t kythied la Goi |; vad; laaá taf mut trong

Li Kyừiiệ |i[j] biệ thomut thưữ trong taf mut |; Theo quy 668, thuậtoáApriori giaưữằg cat mut trong mộgiao dàh hay tậ mut Addt sa6 xế theo

thưừựtừđiệ Cat taf mut trong Ly.; colthe&ke&noévdiinhau nea chúg cotk-2

Luậ vắ that sĩCôg nghệï hoag tin — LệTựThanh

Trang 27

mut faa tieđ gioâg nhau Töù laøcaù thanh vieĩ |; vadz cua L,.; keô noâ ñöôb

vôùnhau neâ thođ maõ ñieă kieô:

([1]=lz[1]) A a2} = be LAK A (k-2] = lz[k-2J)A ((5[k-1] < lạ [K-1])

Niea kieô (I:[k-1] < lạ [k-1])_ ña&n bad la&hođg tab cad taô mut truag nhau Taa

mut keêquafföôb tad ra töieô keônoôl; vad; se8aano8taôB k-mut goăn coừcaù

mut lag I;[1], l+[2] 1[k-1],la [k-1]}.

b Böôùtz

€, lađaB hôp cha cuí L, caò thanh vieđ cuđ C;, coừheôađôù hoaĩ khođg

lôă, nhöng taô caŒaù taf k-mưb 16a phaùthuoô C„ Vieô que cô sô0döõieô hea

xaò ñờnh flodhoatrĩi cua moê öùg cöieđ trong C„ seðdaê ñeâ vieô xaù ñờnh Ly

(theo ñònh nghĩ, taô caũcaù öùg cöôvieđ coùñoôhoêtrôï lôăh hôn hoaĩ baag

ngöôõg ño&hoêrôïtoôthieô sedacca’ taô mư lôù vaø/ì vaô, thuoô vaø L,) Tuy

nhieđ, so4öôhg cat dag cöô/ieđ trong C, coỈheôazaôlôù vaøì vaô ñieă nay cou

theô—ab ra quaitrinh tính toad raôtoâ kein Ñeôgiaôn kích thöôù cua Cụ, tính chafi

Apriori ñöôb söôdưhg nhö sau: Moô ta@ (k-1)-muỈ neâ khođg phaũ laøtaô mut

lôă thì nohođg thedacta@ con cuđ moôtaô k-mut lôù Vi vaô, neâ moồùg cöũ

vieđ k-mut coùchöă taf hộp con (k-1)-mu khođg thuoô L,.; thi öùg cöô/ieđ ñoù khođg theô—ôađaB mut lôù vawì vai loá öùg cĩtviea ñoừa khoùC,.

Ví dú2.2: Xetmoôcô sô(dö8ieô giao dănh D goĩn coừhín giao dănh sau fag

Baôg 2.2 Döôieô giao dăch cua ví dui2.2

TID Cad mut

Trang 28

'Thuaôtoaù Apriori seôieâ haah xaù fidh cat taô mut lôù nhö sau.

1 Trong laă laĩ ñaă tiea cua thuaôtoaù, moê mut laanoô thaøh vieđ cuđ taô

hộp cad taf öùg cöieđ 1-mưb, C; Thuaôtoaù queti taô cafcab giao dich fied

fieĩn sođaă xuaô§hieô cua t6ag mut

2 Giaœöữaỉg ño&oêrôïgiao dănh toôthieô Ad6b yea caa lak, töù lamgöôõg hoa

hoêrôïtoô thieô laøminsup = ; = 22% Sau ñoùtaB hôp cab taf 1-mub 160, Lj,

coửheấïöôb xaù Ath, fotlasad öùg cöô/ieđ 1-mu madhođ maa fodhoarditoa

thiea

3 Neakhatn phaừtaB hop caò ta 2-mut 16a, Lạ, thuaôtoaù sdfiduihng phep ke&

noôL ¡>4L¡ ñeôab ra taf hôb cab taf öùg cöô/ieđ 2-mưb, C2.

4 Tief theo, thuaôtoaù queùtaôcafŒcaù giao dĩch trong cô sdtdĩdiea D ñeđính

ñoô—oêrôïcuđ moềùg cöôïieđ trong C;

5 Sau ñoùthuaôtoaù xaù ñờnh taô hôp caò taf 2-mut lôù, Lạ Lạ bao goin cad

taf 2-mut öùg cöô/ieđ trong C2 maœoừioô—oêrôïthođ maõ minsup.

6 Vieô tad ra taf hôb cat taf öùg cdtvieĩ 3-mu, C3, ñöôb moaatnhĩ sau:

1) Keano&

Cg =Le >4 Lạ ={{A, B}.{A,C},{A, E},{B,C},{B , D},{B, E}}

bd {{A, B},{A,C},{A, E},{B,C} ,(B, D} ,(B, E}}

={{A, B,C},{A, B, E},(A,C, E} {B,C , D} ,(B,C, E} ,(B, D, E}}

2) Ta, söñdưng tinh cha& Apriori: Ta& caôcaù taf hdp con cua moô tap

Luaa vaĩ that sóCođg ngheêï hoag tin — Leal 6iThanh

Trang 29

'Tậcafaị taf hdp con 2-mưt cua { A, B, C} hea ladhanh vieé cua Lo.

Vi vai, giữạ {A, B, C} trong Cs

Cat tậ hép con 2-muÈ cua {A, B, E} là(A, B}, {A, E} và(B, E}

'Tậcafpá taf hơb con 2-mut cua { A, B, E} đề ladhanh viê cua Lạ

Vi vat, giư8ạ {A, B, E} trong Ca

Cat tậ hdp con 2-mub cua {A, C, E} là(A, C}, {A, E} và(C, E}

{C, E} khôg phaiilacthaah viê cua La, và/ì thế C, E} khôg phá

lađớ Vì vam, loai bot{ A, C, E} ra khoũCa

Cat taf hơb con 2-mub cua {B, C, D} làB, C}, {B, D} vàC, D}

{C, D} khôg phaiilachaah viê cua Lạ, vaevi thea C, D} khôg phá

lađớ Vì va, loạ boữ B, C, D} ra khoũCa

Cat taf hơb con 2-mu cua {B, C, E} ladB, C}, {B, E} và(C, E}.

{C, E} khôg phálađhanh viê cua La, vaì thế C, E} khoag phaii

ladda Vi vậ, loạ boữ B, C, E} ra khóCa

Cá taf hép con 2-mub cua {B, D, E} laa B, D}, {B, E} và(D, E}

{D, E} khôg phaiiladhaah viê cua La, và/ì thế D, E} khôg phail

ladớ Vì vậ, loạ boữ B, D, E} ra khoũCa

3) Vì vai sau khi ta Cạ= {{A, B, C}, {A, B, E}}

Đầ tiê ta coká fitnh Oạ dưa và Lạ

Cg=Le oa Lạ= {(¡, lạ, la), (A, B, E), (A, C, E), (B, C, D), (B, ©, E),

(B,D,E)}

Déa và tính chaš Apriori ladaÉ cafá taB hơb con cuâ mộtaB mut

Luậ vắ that sĩCôg nghễï hoag tin — LễTự Thanh

Trang 30

168 cudg phaiilad 6a, ta coừheả‹á đành rằg boa taf ứg cư0/iê cuố

cuag khôg thedad6a Vì vaii, ta loạ chúg ra khóCạ Baag cath đó

ta đaữiệkiẹ đươb chi phí tính toad khôg cầ thie& đeảxá địnhh độ

hỗtrợ cua cad ứg cưxiê đoừrong quaừrình quécơ sơ(ữiệ D hea

xá định Lạ

7 Sau đóthuậtoá queticad giao déch trong D đe&aị đờnh Lạ Lạ bao gon cat

taf ứg cươ/iê 3-mut trong Cạ madhô mã ngưỡg đo&oẩrợtộthiệ.

8 Thuậtoá sưdưng phep kefnoa L, ><L, đệab ra taf hdp cab ứg cươ/iê

4-mưb, C¿ Sau khi kệnộ ta thu đươb taf hơp {{A, B, C, E}} Tuy nhiê

sau bươờ tea tậ mut nag bịloạ boì tậ hdp con cua nó B, C, E} khôg

phaũlađớ (khôg thuộ Lạ) Vì vậ C,=Øvadhuậtoá keắthú Thuậtoá

đa8ìm thấ đươb tậca(tá taf mub lớ L = | ]L¡

=

Thuậtoá Apriori

Naa và: Cơ sdidddied cá giao dich D, ngưỡg đo&ộrợtộthiệ minsup.

Naa ra: L, taB hốp tậcafá tậ mut lớ trong D

Trang 31

procedure isL ar ge(c,L ¿.;)

1) forall taf con (k-1)-mưÈ s cuâ c

2 if seL,, then

3) return TRUE;

4 else

5) return FALSE;

Bướ 1 cua thuậtoá Apriori tim cat tậ 1-mut 16a, L; Trong cad bươờ

2-12 Ly.1 đươÈ sư(duhg fiedad ra cad tafa ứg céiviea C„ đệìm Ly Ham gen tad ra cat taf ứg cươ/iê vaesau đoừư(dưhg tính cha&Apriori hedaa cad taf

apriori-Luậ vắ that sĩCôg nghệï hoag tin — LệTựThanh

Trang 32

mưỈ coùaù taf mưỈ con khođg phaiiladaf mut lôù (böôù 4) Ngay khi tad ra taắ

catcat taf öùg cöWwieđ, thuaôtoaù queù cô sô0döõieô (böôù 5) Vôù moê giao

dănh, ham subset ñöô sö(dưhg ñeđìm ta&cafraù taf hôb con cua giao dĩch madaø

cat öùg cöô/ieđ (böôù 7), vadinh ñonoôrôïcuđ moềùg cöô/ieđ (böôù 8 vaø@)

Cuoôcuøg, taôcafcaù taf öùg cö@&ieđ madhođ maa ñoôhoêtrôï toa thieô seØab

thanh taB hdp cat ta8 mut lôù, L Sau ñoùmoôthuữu coửheôiöôt gó ñeôab ra

cad luaô keĩ hdp tĩecad taf mut lôù ñoù ThuaBtoaù nag seðñöôb mođiaũirong

ñoah tieâ theo

ThuôtưE apriori-gen thöỈ hieô hai cođg vied laøkeô noa vaøta Trong

böôù ke&nog Ly; ñöôb keânoôvôùL¿.¡ (Li >4 Lự.¡ ) ñeôab ra cad taf öùg cöũ

vieđ C, (cat böôù 1 — 5) Phaă ta (cat böôù 6-9) ap duhg tính cha&Apriori hea

loá bo%caò öùg cö0vieđ chöă cad taf hôb con khođg phañ laøtaô mut lôù

Böôò kie#n tra xem ca taf hốp con coùphaũlaôaô mut lôù hay khođg ñöôỈ moa

†añrong thudut isLarge

2.3.1.2 Xaù ñănh cad luaôkeôhôb töœaò taf mut lôù

Sau khi tim tha# caù taô mut lôù töøcaù giao dỉh trong cô sô0döØieô

D, chuùg ta deấdaøg xaò ñờnh ñöôt cad luaô keâ hôb mahh töœaò taf mut lôù

ñoùCaò luaôkeêhôb manh laecad luaôthođ mad cathodhoardĩitoĩthiea vaøioôin

Cai toôthieô, töù laaoừio&noêrôïlôù hôn hoaĩ baòg minsup vaœoừioôin caô lôù

hôn hoaĩ baỉg minconf Quattrinh nag coừheôïöôb thö hieô ba&g cath söduhg

bieô thöờ sau

sup(A UB) (2.2)

conf (A => B) = sup(A)

Trong ñoùsup(A_ B) laøo#oẩrôïcuí taô mut (AB), sup(A) laøo&—oẩôrôïcuđ

taf mut A Dĩa tređ cođg thöù nag, cad luaôke&hôb coửheôïöôb tad ra nhö sau:

¢ Vôùmoêñta8 mưt lôù |, tad ra taôcafŒaù taô hdp con khođg roêg cua |

Luaô vaí that sóCođg ngheôï hoag tin — LeôTöïThanh

Trang 33

sup(s)

e Vớmộtậ con s, tad ra luậke&hơb s => (¡- s) nea = minconf

Thuaatoad: Xá đờnh cat luaike&hdp tưœaị taa mut 160

Naa và: c,L

Naa ra: Cad luậkễhơp tho maa c

Phương thứ:

1 Tìm tẫ cafá taf con khôg rỗg (X) cua mỗtậ mut lớ | trong tap

hơp cad tậ mu 16a L

2 Vớmỗtậ con X, ta thu đươb luậdahg x = (¡- X) xá Ath tyđệiưã

đo&—ộrợcuê tậ mu 160! vớđo&oẩrợcuâ tậ con X

« nea tyđệnag lơà hơn hoắ bằg ngưỡg độin cậ toăthi ệ c thì luậcó

giárịvaaiư8ạ

© _ ngươÈ lai, nea tyệag nhothén c thì luậkhôg cotgiattrovadoal bouậ

nag.

3 ThưE hiệ bướ 1 vadbướ 2 cho tậcafŒaị tậ mut lớ cò lai

GiafEư0ư8iệ chưà tậ mut lớ I={ A, B, E} Đệìm cat luậcoửhệab ra

†ưđaB mut lớ |, faa tiê ta xá định cad tậ con khôg rỗg cua! Cat taf conkhôg rỗg cua | là{ A, B}, {A, E}, {B, E}, {A}, {B} vad E} cad luậđươb tab

ra là

AABSE [:z=‡=s| AAE=bB [cons = 2 =100%|

2 2 BAE=A | conf =2 =100% AS>BAE | conf === 33%

: 2 2

BS ANE | conf =7=29% B= AAB | conf =2 =100%

Nea ngưỡg độin ca§ tộthiệ 1ad70%, thi chcóuậthưừhai, luắ thou

ba vaduaBcuộcusg làœaị |uắkeahdp mahh

Luậ vắ that sĩCôg nghễï hoag tin — LễTự Thanh

Trang 34

2.3.2 Khai thá luậke§ hơp coửr ohg soa

Trong thưb te&hi khai thá luậkếhơb ta khôg chađơn thuầ xem xetilao

cá item “coũ hay “khôg” trong khi đến support mađhư sựứg vớ mỗitem

cog đươt kem theo mộtrohg sốweight) nhaờ mo8aũnưị fogquan trong cua

item Khi giaũquyệtheo khániễn nag tat giafOai, Chun Hing đaØ1ưa ra moBsố

thuậtoá coừiê quan đế phương pha tinh support cho cat itemset déa trea

trong so&uê ca item [5]

2.3.2.1 Khai that luậkễhơb cottr ong so&hôg chuaa hồ [5]

a Cad fAmh ngh@

e Trong so&uâ Itemset: laanộsốhưÈ w (0<=w<=1) biệ thịcho més fogquan

trohg cua Itemset đóChẳg hain: Nea Itemset X cottrohg sodaaw=0.95 thì ta

nónóauan trong hơn khi X cottrong sodaaw=0.1 trea cuag cơ sơ(dưưiệ giao

dèh D

e Luậkếhơb nhịphâ trohg sốBinary Weight Association Rule): Laduậcó

dang x >Y vớtậ cat item I={i;, iz, in) trea cơ sơđlưđiệ giao dàh D,

XCI,YCI vàX ¬Y=ĩ

e Sofie support trong sốkhôg chuậ hồ) cua cat luậtrơhg sốhhịphâ

X => Y đươÈ Ath nghớ:

waar ve x w, ) (Support(XUY)) (2.3)

ie(XOY)

Trong đoừ w:, wa, wn} ladrong sođương ứg cua cad item { i:,a, in}

Việ tim cad luậ ke& hơp đág quan tân dưä và hai yea tốlàcá

ngưỡg cho trươị minsup vàni nconf

Luậ vắ that sĩCôg nghễï hoag tin — LễTự Thanh

Trang 35

e Large Weight ItemSet: mộtrohg sodX đươb gọ ladarge weight itemset nea

mưị hỗrợtrohg sốkhôg chuaắ hồ) cua itemset X ladớ hơn hoắ bằg

minsup Tứ laavsupport(X)

¢ Mộ luaB ke hơp trohg sốđươb gọ làđág quan tắn nea độtin cậ cua

itemset ( x UY ) cũg laanộlarge weight itemset

Ví dụ2.4: Giaœưfữhôg tin cuâ mộcưâ hang bat lefcho bơũbaơg 2.1 vàlư8iệ

giao dàh D đươb cho bơũbaơg 2.2 (barcode đươE sư(duhg đệđơn giaơ hồ tea

cat item)

Baơg 2.3 Thôg tin cưâ haag bá led

Bar code Item Weight

Trang 36

e Khaiinieén veabiea K-support

Gia&ư0X;, Xo, Xa ladafa con cua X, khi đoửa cot

'Weight-Support(X)>min(weight-Support(X ;), weight(X,))

Noiicath khá, trohg so@uâ cat taf con đươt tăg lea Support cua ba&kỳ

taf con nà cua mộk-support phá nhofhơn Support cua k-ItemSet đó Tư&há

nieđn nag ngươpta đưa ra khániein biê k-support

Cho mộ cơ sơ0dữiệ giao dich D vớ |p| giao dàh, goi Support-Count

(SC) cua ItemSet X làốá giao déch chưà x vậhô maa đié kiệ sau nea X

laanộlarge weight ltemSet:

wminsupx |D|

3a;

Boaiez.1: Goi | lađaB cat item Giafsư0Y Iaanộd-ltemset, q<k Trong

SC(X)= (2.4)

taf cad Item coa lai I-Y, goi cat item vớ(k-q) trong sođớ nhađlađ,, ira, inp:

Khi fottrohg sốộđa cua bẫkyanộk-itemset chưà Y lao

keq

WK = Swit dw, (2.5)

iy m

Trong đoừộg thétnhaaladoag cua q-itemset Y vadoag thưừ2 ladoag cua

k-q trong sodoafia coa lai

Từ(2.5), mộ biê dướ fioé vớ cad sốđến tố thiệ cho mộ large

k-itemset chưà Y đươÈ cho bơũsốnguyê:

nor) =| mare) (26)

Ta got B(Y,k) ladbiea k-Support cua Y

Luaa vắ that sĩCôg nghễï hoag tin — Leal 6iThanh

Trang 37

Vi duivôùdöôieô baôg 2.3 ôữređ, bieđ 3-Support cho item {2,4} lao

04x7 ]_„

(0.3+0.8)+0.9

Niea nag coùnghđ lameâ ItemSet {2,4} laøaB con cua baš kydarge

3-itemset nao thì sodieĩ cua 3-itemset {2,4} phaùlôù hôn hoaẽ baòg 2.

b Thuaôtoaù [5]

Thuafi toad khai thaù luaô ke& hĩp coùtrohg soâtöông töï nhö thuaô toad

Apriori Tuy nhieđ do tính cha&cottrohg soâcuđ cat itemset magtrong moB soa

böôù coksöï khaò bie& Tröôò heêta cuñg sinh ra ca large weight Itemset theo

kích thöôù taíg daa nhöng do caò taf con cua cat large itemset cottheakhoag

phaiiladarge itemset nea ta khođg theasinh ra cat candidate k-ItemSet moôcaùh

deêlagg tödaô cat large (k-1)-ltemSet nhö trong thuaôtoaù Apriori Chính vi vai

mata phaiitim moôcaùh naø ñoừieồu trö%&-ItemSet maœhuùg cottheĩgsinh ra

cat j-ItemSet ( (j > +) trong ca’ giai ñoah tieâ theo Nearich choh k-ItemSet to

CSDL, ta sö0duhg ca’ gialtrobiea j-Support Thöt hieô laø Cab bieđ j-Support

ñöôb tinh cho taâcafaù candidate k-ItemSet, trong ñoù lagnoôso&aôkyœiöê k

vagkich thöôù lôù nhaš coùtheảcoă cua cat large ItemSet Nea soâñeân cua

k-ItemSet toă tai laenhothdn taĩ cabcaù bieđ j-Support thì ta coùheảnoù raỉg noù

khođg theôađaô con cua ba§ kyanoô large weight ItemSet nao trong giai ñoah

sap tôùvamoừcoừheôïöôt caĨta Ai Moôk-ItemSet mamoùcoừhe&ö(dưng trong

caù large weight ItemSet trong giai ñoah tôùthì noeðïöôE löu giöõaø C,.

Vi dútöœoâieô baôg 2.3, vôùwminsup=1 Ta thöô‹em coừnhhöõg taf mut

naø ladarge weight itemset

Tröôù he& soâïeân cua taš caŒaù item (coi nhö laøi-itemset) cottheatinh

ñöôb baỉg cath queùCSDL moôlaă vackich thöôù toôña cotthezcotcua caù large

weight itemset cuũg coửheđìm ñöôb Trong ví dưïnag, kích thöôờ toôña coửhe&où

Luaô vaĩ that sóCođg ngheêï hoag tin — LeêTöï Thanh

Trang 38

cua cat large weight itemset là‡ vàœá sốđeứn cua cat item { 1, 2, 3, 4, 5}

tương ứg lad 4, 5, 2, 6, 7}

Goi 1-itemset cua item 1 làlạ Neatim cat large weight itemset cótheả

đươb, gọ laœá candidate itemset, ta phaũ lưu giữcaị large weight itemset có

khatnắg trong giai đoah hiệ thơn Neahét hiệ đươb điề nag, ta phađtính biê

k-support theo côg thứ:

VớgiaŒưfữằg, cat itemset đaØđươè sap thưừựtheo trong số&uâ chúg.

'Tương tựcaị biê k-support cho cad itemset coa lai, ta cotbatig sau:

Baơg 2.5 Cat biê k-support cho cat itemset

Theo đànhh nghda cua biê k-support, vơi sốđến cua item 1 là‡ vaecou

B(X,3), B(X,4) laenhothén hoắ bằg 4, ngụyừằg item 1 coửhệadậ con cua

Luaa vắ that sĩCôg nghễï hoag tin — Leal 6iThanh

Trang 39

moả large weight 3-itemset hoaé 4-itemset Chuùg ta lỏu gidditem 1 trong moả

la taf cat candidate itemset Baèg cath tỏông tdi vôùựoăsoảaảdtem 2, 4 vad, ta

cuõg lỏu giỏửrong taf cad candidate itemset ựỏôÈ goi laụC¡ C; la#aB cua cad

candidate itemset lỏu gidécad weighted i-itemset vôù cat taả con cotkhatnaaég

cua cat large weight itemset Item 3 seửòcaÉta vi khoâg coừnoảbieâ k-support

naụ cua item 3 B(X,2), B(X,3), B(X,4) nhofhôn hoaé baòg soáựeán cua item 3

(=2) Do ựoùC; lađaả {{1}, {2}, {4}, {5}} Baèg phỏông phap tỏông tai taficati

cat candidate vadarge weight itemset seđỉỏôE sinh ra bôũphỏông phap lap

ứeảìm cad large weight 2-itemset, ta sedag taf candidate 1-itemset C¡ fied

noăthanh cat 2-itemset sau hag:

{1,2}, {1,4}, {1,5}, {2,4}, {2,5}, {4.5}

'TỏụỦaò itemset ựaữnoùtreâ, ta sedcaé ta cat cat itemset maenotnhothén

cat bieâ k-support vada con cat itemset khoâg colmaétrong C; Sau ựoùta ca

nhaBlaỉ cad soấỉeán cho cat itemset vađìm Ca vad ;, taf cua cat large weight

2-itemset Tieá trình nag tieá tut cho fea khi khoâg coa candidate nao ựỏôb tim

thag Kef&quatcua vieả thét hieả nag nhỏ sau:

Baôg 2.6 Cat tham sodai mỏù 2

Itemset | Support Weight 3 + Lao | Lỏuvaụ

Support | support | support | large? Ce.

Trang 40

{245 5 1.43 3 Coù Coù

Do {2,4,5} khođg the8ođêrôïñeđab theĩn cat 4-itemset (möù 4)

neđ thuaBtoaù keắthuù tal hag

Cat luaôseðöôb sinh ra töœieô tim toaa bo#aù itemset

Thuaĩtoaa khai thaò luaôke&hôb khođg chuaô hoă:

Cat kyừieô trong thuaôtoaù:

D: Cô sô@ööieô giao dăh

W: Taf cat trong sodtem

Ly Tap large k-ltemSet

Cy: Tai cat k-ItemSet cotthedadaf con cua caù j-ltemSet vôù j > k

SC(X): Soầông cat giao dăhh chöă X

wminsup: Ngöôõg weight Support

minconf: Ngöôõg ñoôin cast

Size: Soâoôña cat large weight ItemSet coửheảeoừiöôE trong D

Algorithim MINWAL(O)

Input: Mo&CSDL giao dănh D, caò ngöôõg minsup, minconf, trong sodcua cad

item w, ñöôỈ saĩ xeâ thöừöïtaíg daa, toảg soâiao dich vadoag soâaù item.

Output: Moôdanh sath cat luaôñaùg quan tađn

1) main Algorithm(wminsup, minconf, D, w)

Ngày đăng: 08/11/2024, 17:30

HÌNH ẢNH LIÊN QUAN

Hình 1.1 Cat bướ trong quattrinh khaừ phaitri thứ - Luận văn thạc sĩ Công nghệ thông tin: Khai thác luật kết hợp có trọng số trong các kho dữ liệu phân tán
Hình 1.1 Cat bướ trong quattrinh khaừ phaitri thứ (Trang 11)
Hình 1.2 Kieá truò cua heahoag khai that dédiea - Luận văn thạc sĩ Công nghệ thông tin: Khai thác luật kết hợp có trọng số trong các kho dữ liệu phân tán
Hình 1.2 Kieá truò cua heahoag khai that dédiea (Trang 13)
Hỡnh 1.3 Kieỏ truự kho chửà dộdiea 1.2.3. Kiệ cơ sơ#lữiệ giao déeh - Luận văn thạc sĩ Công nghệ thông tin: Khai thác luật kết hợp có trọng số trong các kho dữ liệu phân tán
nh 1.3 Kieỏ truự kho chửà dộdiea 1.2.3. Kiệ cơ sơ#lữiệ giao déeh (Trang 16)
Hình 1.4 Khai thá dédiea ladậ hdp cua nhiea ngaah Bơũvì tinh fia dahg cua nhiề ngaah taf trung và khai that dédiea, việ nghiê cứ khai that dédiea tad ra cat hệ—hốg khai that dédiea raš§ đa dahg. - Luận văn thạc sĩ Công nghệ thông tin: Khai thác luật kết hợp có trọng số trong các kho dữ liệu phân tán
Hình 1.4 Khai thá dédiea ladậ hdp cua nhiea ngaah Bơũvì tinh fia dahg cua nhiề ngaah taf trung và khai that dédiea, việ nghiê cứ khai that dédiea tad ra cat hệ—hốg khai that dédiea raš§ đa dahg (Trang 19)
Hình 2.1 Sô fozsong song dédiea Trong môhình song song nhieén vui moa thuậ toad tiê biệ làthuaB toad phõ tỏ dưọiệ DD đươt giớthiệ trong [7] - Luận văn thạc sĩ Công nghệ thông tin: Khai thác luật kết hợp có trọng số trong các kho dữ liệu phân tán
Hình 2.1 Sô fozsong song dédiea Trong môhình song song nhieén vui moa thuậ toad tiê biệ làthuaB toad phõ tỏ dưọiệ DD đươt giớthiệ trong [7] (Trang 48)
Hỡnh 2.2 S6 ủo%ong song nhie#n vuù 2.4.1. Thuậtoá CD - Luận văn thạc sĩ Công nghệ thông tin: Khai thác luật kết hợp có trọng số trong các kho dữ liệu phân tán
nh 2.2 S6 ủo%ong song nhie#n vuù 2.4.1. Thuậtoá CD (Trang 49)
Hình 2.4 S6 fiodrao độcaị taf mut lớ giưã cad kho trong heahoag - Luận văn thạc sĩ Công nghệ thông tin: Khai thác luật kết hợp có trọng số trong các kho dữ liệu phân tán
Hình 2.4 S6 fiodrao độcaị taf mut lớ giưã cad kho trong heahoag (Trang 55)
Hình 3.1 Moahinh heahoag - Luận văn thạc sĩ Công nghệ thông tin: Khai thác luật kết hợp có trọng số trong các kho dữ liệu phân tán
Hình 3.1 Moahinh heahoag (Trang 58)
Hình 3.2 ThuaRtoá xá Ath cad tậ mut lớ trong moẩnình mớ - Luận văn thạc sĩ Công nghệ thông tin: Khai thác luật kết hợp có trọng số trong các kho dữ liệu phân tán
Hình 3.2 ThuaRtoá xá Ath cad tậ mut lớ trong moẩnình mớ (Trang 60)
Hình 3.3 Sơ đo&gt;hứ nắg cua Controller 3.3.1. Tad laa heahoag - Luận văn thạc sĩ Công nghệ thông tin: Khai thác luật kết hợp có trọng số trong các kho dữ liệu phân tán
Hình 3.3 Sơ đo&gt;hứ nắg cua Controller 3.3.1. Tad laa heahoag (Trang 64)
Hình 3.4 Sơ đo&gt;hứ nắg cua Miner - Luận văn thạc sĩ Công nghệ thông tin: Khai thác luật kết hợp có trọng số trong các kho dữ liệu phân tán
Hình 3.4 Sơ đo&gt;hứ nắg cua Miner (Trang 68)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w