Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 83 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
83
Dung lượng
1,15 MB
Nội dung
TONG QUAN YE KHAI PHA DIY LIEU CHUCFNG 1. TONG QUAN VE KHAI PHA Dir LIEU 1.1. Khii niem va khai phi d* lieu 1.1.1. GM thifu vi Mai plui chi Wu Trong nhcmg am gin day, su phat then mph me ciut CNT'T va nganh ding nghiep phis cimg da lam cho kha ning thu nhap va Itru fru thong tin ciia cac thimg thong tin tang nhanh met cach cheng mat. Ben conh do viec tin hoc hea met each 6 at va nhanh chiong cac hoot dOng san xuat, kinh doanh cling nhu nhieu lInh Arc hog dOng khk di tio ra cho chimg to met lucmg de lieu luu tray Ichting 16. Hang trieu CSDL da dugc sir dung trong cac host dong san xuat, kinh doanh, wan trong do co nhieu CSDL cac len cot Gigabyte, thorn chi la Terabye. So bang nay din tin ye'u cau cap thiet la can co nhung k9 thuit va ding cu mei de to Ong chuyen doi Wong de lieu khang to Ida thanh the tri thirc co ich. Tir do, cac Id thuili khai pha de lieu di fro thanh met linh we then so dm nen cting nghe thong tin the giei hien nay. 1.1.2. Dinh nghia vi khai pith dfr lifu Phat hien tri thirc (Knowledge Discovery) trong cac co se du lieu la met qui trinh nhan biet the miu ho4c the mo Mob trong de lieu voi cac tinh fling: hqp thee mei, kha ich, va c6 the hiau duqc. Con khai thic de lieu (data mining) la men nge tuong del mei, no ra din vao khoang nhfrng nam cu . & cua dun thap 4 1980. C6 nit nhieu djnh nghia khac nhau ve khai phi de lieu. Giao su Tom Mitchell da dua ra djnh nghia cita khai pha de lieu nhu sau:" Khai phi de lieu la viec sir dung da lieu lich sir de kham phi nheng qui tic va cai thien nhcmg quyet djnh tong tuong lai". Veri met each ti6'p c4r1 ling dung han, tien si Fayyad da phat bleu:" Khai phi da lieu durang duqc xem la viec kham phi tri thirc trong cac co se de lieu, la meat qua trinh trich xuat nheng thong tin in, trues day chua hi& va co kha fling heu ich, duel ding cac quy luat, rang bu0c, qui tic trong co se du lieu". Con cac nha thong ke thi xem" khai phi da lieu nhu la min qua trinh phan tich dugc thiet ke tham do mitt luong coc len cac der lieu nhim phat hien ra cac miu thich hqp vil hok cac mOi quan he mang tinh he thing gifts cac hien va sau de se hqp thirc hoi cac ket qua rim duqc bing each ap dung the miu da phat hien duqc cho tip con mei cita de lieu". Trang 1190 A11278 — Doan Thanh Cong A11500 — Nguyin Dec Hoing TONG QUAN VE KHAI PHA DIY LI$U N6i tom lai: khai pha 80 lieu la met buoy trong quy trinh phat hien tri thirc gom co cac that town khai thic du lieu chuyen dimg dtrOi met se quy djnh ve hieu qua tinh town chap nhan duqc di tim ra cac mitt hoac cac me hinh trong dO lieu. 1.2. Cic bulk trong khai phi do Ilea 1.2.1. Clic ki thuOt khan ph6 drr lifu M3c du khai thic dfr lieu nhu lit met thuat nge tuong del mai, nhung hau bet cac ky thuat khai thic du lieu da ten tai tong nhieu nim. Ma tier than cita khai thic dur lieu deu xuat phat tir: thong ke, hoc may ya co so a lieu. Mot so thOt town khai thic d0 lieu, bao gOm ca hOi quy, chugi that wan, va cay quyet djnh deu duqc phat minh boi cac nhi thOng ke hqc. Ky thuorhei quy" CIA ton tai trong nhieu the kY. Cac thuat toan"chuOi than gian" di duqc nghien ciru trong nhieu thap ky. Thuat town thy quyet djnh la met trong nhieu k9 thuat gin day, co nien dai tir gifta nhUng nam 1980. Khan thic d0 lieu tap trong yao phat hien to (king ho#c ban qr ()Ong matt. Met di thuat town hoc may(machine learning) duqc lip dtmg cho khai thic dti lieu: a. Mang noron (Neural networks) Day la mot trong nhftng icy thuat khai pha du lieu dirge ling dung ph6 bien Men nay. K9 thuat nay phat trien dva ten ' met nen tang town hqc vtIng yang, kha nang h ' tan ' luyen trong ky thuat nay (lira tren mil hinh than kinh trong trong cita con ngu&i. Kat qua ma mpg naron hqc duqc c6 kha nang tao ra cac mo hinh dv bio, dv doin yeti de chinh xitc yi dO tin cay cao. NO co kha nang phat hien ra duqc cac xu bluing phirc tap ma k9 thuat thong thubng Ichic kh6 c6 the phat hien ra duqc. Tuy nhien phuong phip tnang no ron rat phirc tap yi qua trinh tien Minh no g#p rat nhieu kh6 khan: doi hoi mat nhieu thai gian, nhieu 80 lieu, nhieu Ian lciem tra thir nghiem. b. Giii thuat di truyen Li qui trinh m8 phong theo tier hoi cua tSr nhien. Y Wang chinh cua giai thuat 11 dva vim quy luat di truyen trong bien dOi, chip Ice tv nhien yi tiers boa trong sinh hoc. Viec xay dvng cac thuat town di truyen me phong sinh hoc nhim tim ra cac giii phip tot What bao gem cac btreic sau: - Tao ra ca the ma di truyen dual long cac xau cita met bang ma lct tv han che. - Thiet lap mei tnrang nhan tao tror Th may tinh co cac giii phip co the tham gia"dau tranh sinh tO'n"veri nhau de zit djnh dO do thanh cong hay that hay con goi thich nghi". A11278 — Doan Thanh Gong A11500 — Nguygn Thic Holing Trang 2190 TONG QUAN VE KHAI PHA DIY LISU - Phat trien cac"phep lai ghep" de the gild phip ket hqp vei nhau. Khi do cac rcau mi di truyen cua giii phip cha va mg bi cat di vi xep lai, trong qua trinh sinh sin nhu vay cac kieu dOt bien co the duqc ap dung. - Cung cap mot (lull the cac giii phip ban diu tucmg d6i da long vi a may tinh thqc hien"cu(ic chai tien hem" bing each loci be cac gal phip tir min ca the va thay the chung bing cac con chin hoac cac dOt hien cua cac giai phip bk. Thu* wan se ket thitc khi mot h9 cac giiti phip thinh citing duqc sinh ra. Khai phi de lieu (KPDL) la viec frith chcm d.3c trtmg MI lieu mot each ty doting tir mot Si dii lieu 16n. Tri thin do thtrimg o cac ding maw c6 tinh chat khong tam thuong, An (khong twang minh) nhung 13i co the mang 13i ich lqi lam neu no duce sir clung dung chi). Co the coi KPDL 11 cot lai cfut qua trinh phat hien tri thac trong co so dii lieu (Knowledge Discovery in Databases — KDD) 1.2.2. Luling di lifu Khai thic der lieu la mot trong nhUng thanh vien quan trong trong data warehouse family. Trutmg hqp khai thic dft lieu nio la phu hqp veri dien kien ctla cac luOng der lieu trong mot kith bin kinh doanh dien hinh? Hinh sau minh h9a mot luting dir lieu doanh nghiep dien hinh ma khai that der lieu co the duqc ap dung trong cac giai down Ichic nhau. Application Si Data Mining -4 ill P- O ♦ 4 • Online transaction Processing (OLTP) Onlbe •• ■ Analytical Processing Hinh 1: M6 hinh khai phti du lieu doanh nghiep Trang 3190 A11278 — Doan Thanh Cling A11500 — Nguyln Dire Hoing TONG QUAN VE KHAI PHA Dir Met ung dung kinh doanh luu till the dt1 lieu giao Bich trong met ca so &I lieu bb 15 , giao djch true tuyan (online transaction processing- OLTP). Cie clit lieu OLTP duqc chiet xuat, chuyin doi va nap vio data warehouse met each thuong xuyen. Luqc itO Gila data warehouse thuimg khic nhau tir met luqc 46 OLTP. Met lucre d6 data warehouse dk tnrng cob hinh ding du met ngoi sao hay met bong tuyet.V6i bang giao djch o chinh gifta luqc 46 va dtrqc bao quash bei met be dimension tables(cic bang kich thubc). Tnnk lien, vi ph6 hien nhit, khai that dO lieu co the duqc by dung cho cac kho dO lieu nth ma dft lieu di duct lim mtch. Cac miu duqc phat hien bed cic mo hinh khai thic c6 the duqc trinh bay cho cite nhit quan lt tiep chi thong qua the bio cao. Khai thic dft lieu co the c6 met lien ket true tiep den cic ling dung kinh doanh, ph6 bien nhit la thong qua cac du doin. Nh(mg khai thic dft lieu vio ling dung kinh doanh dang ngay met phO bien han. Vi du: Trong met kich bin bin hang qua Web, met khi met khach hang dit met sin vio trong gio hang, met du bao troy van khai thic der lieu duqc thuc hien de c6 duqc mot danh sich cic sin phAm duqc de nghj dua tren phin tich. Khai thic du lieu cling co the duqc cip dung de pit tich kh6i OLAP, la met cc so du lieu da chieu ved nhieu kich thubc vi don vi do. Kich thy& c6 the len den hang trieu bin ghi do d6 se kho khAn cho vier tim ra mo hinh quan tan. Ky thubt khai thic dO lieu c6 the duqc ap dung de kham phi ra cac mo hinh an trong met khoi OLAP. Vi du: Met thulit than lien ket co the duqc bp dung cho mot Ich6i ban hang, phin tich mau mua ctia khich hing cho met vimg cµ the va then gian. Chling to c6 the ip dung ky thubtIchai thic dO lieu de du bao cac bien phip nhu ban hing vi lqi nhubn. Trong 4190 A11278 — Doan Thanh tong A11500 — Nguyin Due Hoing Gathering TONG QUAN VE KHAI PHA D() LISU 1.2.3. Yong did min m#t dv tin Heal phd dit Eavaluboo of Data Hag Clean-mg Praprocetsr4 40 ! II lai Ktnittir Transfortution Selection Preto-ton I — . Dot i' rin, Alli I erarafra" Dlia qp- Cleansed Preprocessed 4r Target 14 Warted Data Data Hinh 2: Yong doff aia men dv an khai phti du lieu. a. Gom du lieu (gathering) va Trich lqc du lieu (selection) Gom du lieu: Tap hqp du lieu la boat dau tien trong khai phi du lieu. Busk nay lay du lieu tir trong mOt co so de lieu, mOt kho dft lieu, them chi di' lieu tir nhimg nguon cung Ong web. Trich lqc du lieu: O giai down nay du lieu duqc lira chon va phfin chic theo mOt se lieu chuan nao d6. c. Lam sach va tiers xir 15r der lieu (cleansing prepocessing) Lam sach de' lieu: Day la qua trinh xir ly a ga be hoac lam giam nhieu vi each xir 15 , cac gia tri khuyet. Burk lam giarn su mop mer khi hqc. Phan tich stir thich hqp: Nhieu thuOc tinh trong du lieu co the khOng thich hqp hay khong can thiet de phan loai. Vi vay phop phan tich sar thich hqp duqc the hien teen der lieu veri muc dich ger be bat lck nhung thuOc tinh khong thich hqp hay khong can thiet. Trong hqc may bait nay duqc gqi la trich hoc dac tnrng. Phip phan tich nay giup phan loci hieu qua va nfing cao kha rang ma rung. Trong 5190 A11278 — Doan Thinh COng A11500 — Nguyen Dirc Hoang TONG QUAN VE KHAI PHA Dti Giai doan nay la giai don hay bj sao ling, nhtmg thuc 4 no la med buck rat quan trqng trong qua trinh khai phi de lieu. M6t s6 16i thubng mac phai trong khi gom de lieu la de lieu khong day du hok khong thong nhat, thieu chit chi. Vi 4y du lieu thubng chfra cic gia trj vo nghia va kh8ng co kha ning kit not du lieu, vi di; Sinh vien co tuai=200. Giai doan nay nh&m xir ly cac de lieu nhu tren (de lieu vo nghia, de lieu khong co kha fling kit nai). Nheng de lieu ding nay thubng duce xem la thOng tin du thin, khong c6 gia tq. Bed viy day li mOt qua trinh rat quan tong. Neu de lieu khong duqc lam such - tiers xi: ly - chuan bj threw thi se gay nen nheng kit qui sai tech nghiem tang ve sau. d. Chuyen d6i de lieu (tranformation) Trong giai doan nay, de lieu co the duqc to chile va sir dung lai. Muc dich ctia viec chuy'en dal de lieu li lam cho de lieu phit hqp han veri muc dich khai phi de lieu. De lieu co the duqc tong quit him teri cac mirc khai niem cao han. Dieu nay rat him ich cho cac thuk tinh co gia tr1 lien tuc. Vi du, cac gia trj so cua thuk tinh thu nhip duce tang quit hoa sang cac pham vi rai rac nhu thap, twig binh va cao. Tuang Ur, cac thutjc tinh gii trj nhu dtrimg ph6 dirge tong quit hoa ten khai niem cao han nhu thinh ph6. Nher do cac thao tic vio/ra trong qtth tint' xir li se it di. De lieu co the duqc tieu chuan h6a, &lc biet khi the mpg na-ron hay cac phuong phap dung phep do khoing each trong cac buck xir H. Tieu chuan hoa bien dot theo ty le tat ca cac gia trj cita mOt thuk tinh cho truck de chfmg rai vao pham vi chi djnh nhu [-1,0;1,0] hay [0;1,0]. Tuy nhien dieu nay can cher cac thutjc tinh co pham vi ban &anion (nhu thu nhip) co nhieu inh huerng dal veri cac thuk tinh c6 pham vi the) han ban dau (nhu cac thuk tinh nhj phin). e. Phut hien va trich mau de lieu (pattern extraction and discovery) Day la butc to duy trong khai phi de trong giai doan nay nhieu thuit toan khac nhau di duqc sir dung de trich ra cac man tir dft lieu. Thuit town thubng dimg de trich man de lieu li thuit town phan loci dir lieu, kit hqp MI lieu, thuit town ma hinh hoa de lieu min ur. Li mOt trong cac buerc quan IA:mg nhat vi tan thin gian What cita qua trinh KDD, trong d6 sir dung nheng phuang phip thong minh de chat Ice ra nhimg nth dt1 lieu. Chu yeu la cac k9 thujt ciut machine learning (hoc may) de khai phi, trich chon nheng mau (patterns), cac rang bu6c lien he (realionships) biet trong dit lieu A11278 — Doan Thanh Cong A11500 — NguyIn Dim Hoing Trang 6190 TONG QUAN VE KIIAI PHA Din Lieu C6 the cac mo hinh khong china cac mau c6 the sir dung. Co the la dft lieu hoin than ngiu nhien hoc dft lieu c6 qua nhieu thong tin gay nhieu. Dieu nay you cau can phai lap lai cac buoy lim sach vi chuyin doi dft lieu de chit lqc ra cac dft lieu c6 nghia ham. Day la met qua trinh lap lai vi tot dill len de dtra ra cac th6ng tin phi' hqp, coy nghia yeti ngtrai quan trf f. Dinh gia ket qua ink vi bleu dien tri thirc (evaluation of result and Knowledge presentation) Day la giai doan curfoi sung trong qui trinh khai pha &I lieu, a giai doan nay cac matt dft lieu duqc chiet xuat ra bai phan mem khai phi du lieu. KhOng phai man der lieu nao cling hftu ich, d8i khi no can bi sai tech. Vi vay can phai dua ra nhiing lieu chuir ' danh gia do uu tien cho cac mttu der lieu de rut ra duqc nhemg tri link can thiet. Bieu dien tri thfrc: sir dung cac kgr thuit de bien dien vi the hien tivc quan cho nguiri dung. Cac citch bieu dien nen a clang gait gui vi de hieu vai ngtriri dung nhtr clang dri thj, cay, de dua ra cac bio cao gulp ngtreri quan tri co the dua ra cac quyet djnh mang tinh chat quan tong. 1.2.4. Chain khai phsi din life SAS: la nhit cling cap san pham khai phi de lieu tau uhit .4 mat thi. phan. Dung dau trong linh vuc thOng ke trong nhieu thop kY. Co sa SAS chira met be rat phong pith cac chile ning thOng ke c6 the duqc sir dung cho tit ca cac loai phan tich din Ho trq khai thic van ban, moi tnrimg di) hqa di xay dung cac mg hinh, co cac thuat toan khai thic dit lieu phi') bier nhu: cay quyit djnh, mang naron, hOi quy SPSS: gOm cac san pham khai thic &I lieu nhu"SPSS base"vrAnswer Tree. Ke thira gOi khai thic dft lieu Clementine — mot trong nhiing cong ty Mu lien gith thieu cac khii them luOng khai thic dft lieu, cho phip ngtrai ding lam sach dft chuy'en dOi der lieu vi thvc hien cac mo hinh thin nghiem IBM: sin pham khai thic dft lieu la Intelligent Miner a Disc. N6 chira mitt tap hop cac thuat than va cac cling cu tnrc quan. Dun ra nhiing me hinh khai thic du lieu trong Predictive Modeling Markup Language (PMML). PMML la cac file XML chira me to cim cac matt me hinh vi so lieu thong ke cua cac dirt lieu mau vai !nue Bich du bao Microsoft la nha cung cap dft lieu chuyen nghiep dau lien bao gilm cac tinh ring khai thic trong met ca se der lieu quan he. SQL Server 2000 c6 hai thuat toan khai thic dft lieu la: Microsoft Decision Tree vi Microsoft Clustering. Vai cac phien bin Trang 71 90 A11278 — Doan Thinh Cong A11500 — Nguyen Dim Hoang TONG QUAN VE KHAI PHA DIT LI$U tiep theo cua SQL Server la 2005, 2008, 2012 cic tinh rang khai phi co kr chi lieu ngly cang duqc rang cep va sin phew ctia Microsoft ngly cang chiem linh thj truang Oracle: Oracle 9i twit xtremg vao nim 2000, oft met cap thu#t town khai thic du lieu dtra tren association (141 kit hqp) va Naive Hayes. Oracle lOg bao gam nhieu cong cv va thu#t toin khai thic de lieu hon. Oracle cling kit hqp veri Java Data Mining API la gai phin mem cho khai phi der lieu Angoss: chit yeu xay (tong ck th41 toin decision trees, cluster analysis vi cic me hinh du doin cho phep nguiri dung hieu de lieu ctia ho tir nhieu quan diem khic nhau. Cic th4t win duqc ha trq ben cong co troc quan manh me et4 giii thich flitting tri thirc khai phi duqc, n6 ding liun viec tot vai cic lien ich cita he quan trt Microsoft SQL Server KXEN: cung cep mot s6 thuol town khai phi de lieu nhtr: SVM, regression, time series, segmentation Va cic giai phip khai phi de lieu cho khei OLAP. Ngoai ra, cung cep tien ich Excel add — in de khai phi di lieu trong moi truerng Excel. 13. Cic hiring dip clin den yin a khai phi do lieu 1.3.1. Kiln Ink Su min he thing khai phd Aar Mist Co se du lieu: gam kho de lieu hoc ck cich luu tra thong tin khic (Database, data warehouse, worldwideweb, information repositories). Day la mot hay mot tip cic CSDL, cic kho der lieu, cic trang tinh hay ck dung luu tre thong tin khic.Trong nheng tinh hung co the, thanh phan nay la nguan nh#p (input) dm ck kt thuftt tich hqp va lam such de May chit CSDL hay may chti kho dit lieu (Database or Data warehouse server): may chit nay c6 trich nhiem ley nhemg de lieu thich hqp dtra tren cic you aulchai phi cua ngtroi dung. Trang 8190 A11278 — Doan Thanh C8ng A11500 — Nguyen Dire Hoang TONG QUAN VE KHAI PHA DIY LltU Giao difm ad hos wen Wog Ulm !nog miu May khai phi da , liiu May chi' CSOL hay kho dat lido Lim each yi doh hqp SY lido Co so de , lido Kho canidu Co. so tri thtk (Knowledge base): duqc dung de lureng dan qui trinh tim kiem, danh gia the mau ket qui duqc tim they. Ca sa tri thirc c6 the 11 the phan cap khai niem, niem tin ciia ngutri sir dung, cac ring but* hay the ngtrecng gii tri, sieu &I lieu May khai pith du lieu (Data mining engine): Thinh phan nay chira cic khai chirc ming thuc hien tac vu khai phi da lieu nhu: die trung h6a, ket hqp, phan lop, phfin cum, phan tich su tien Module danh gib malt (Pattern evaluation): Thinh phin nay c6 the duqc tich hqp vio thinh phan Data mining engine. NO co the dung cac nguOng ve do quan tam de 19c mau da kham phi duqc. Cling co the module danh gia mau duqc tich hqp vio module khai phi, toy theo su cii dit ctia phucmg phip khai phi duqc dung. Giao di en do hpa nguai dung (Graphical user interface): Thinh phin ha trq su Wang tic gift nguai sir dung vi he thing khai phi du lieu. - Nguiti sir dung co the chi djnh cau troy vin hay tic vu khai phi du lieu. - Ngubi sir dung co the duqc cung cap thong tin ha my vies tim kiem, thuc hien khai phi du lieu saw hcm thong qua cic ket qui khai phi trung gian. - Ngtroi sir dung sung co the xem cic Itrqc dO co s6 dit lieu/kho der lieu, cac eau trite chl lieu; dinh gia cic mau khai phi duqc; true quan hea cac mau nay a cic clang khic nhau. Trang 91 90 A11278 — Doan Thanh Gong A11500 — Nguyen Disc Hoing TONG QUAN VE KHAI PHA Dir tau 1.3.2. Clic chic sang chills ciao Mai pho dile lieu Cac chfrc nang nay duqc the hien qua a. Dac trtmg hem va phan biet: Dac flung h6a 11 viec tong ket town b0 the dk diem hay cac tinh chat chung cua mot lop du lieu dich. DO lieu d6 twang Ung veri mot kip do ngtthi dung dac ta bang mot cdu truy van CSDL. DO lieu tra ve ctia qua trinh ddc hung hem co the &the bieu dien bang nhOng khuon ding khic nhau. b. Phan tich sv ket hqp: La kham pha ra cac luat ket hqp trong mot tap lern dO lieu. Cac IWO ket hqp the hien m6i quan he glad cac gia tri thuOc fink ma ta nhan thdy duqc to tan suat xuat hien ding veri nhau. Cac ludt ket hqp duqt kham phi to mot tap lern cac ban ghi giao dich trong kinh doanh vi nhOng luat coy nghia co the gitip cho cac nha doanh nghiep ra quyet dinh. c. Phan lop va dtr down: Phan lop la qua trinh tim mot tap cac m8 hinh (hoac cac clue= nang) m8 ta va phan biet cac lop du lieu. Ck mo hinh nay se duck sir di v ing cho ink dich dv doin ve lop cua mot s6 d6i twang. Vi'ec xay dvng m8 hinh dva tren sv phan tich cita mitt tap cac dir lieu huan luyen, mitt m8 hinh nhu vay co the duck bleu dien trong nhieu Bang: ludt phan 16p, cay quyet dinh hay mpg naron De phan lop vi dv doin co the thvc hien tunic mot sv phan tich thich hqp. Sr phan tich d6 nhitm xac dinh nhOng thutjc firth kheng tham gia vi qua trinh phan lop vi dv down, cluing se bi loai tth sau buerc nay. d. Phan cvni: !Chong gating nhu phan lop vi dv down, phan cvm se phan tich cac dai twang clit lieu khi chua biet nhan cfia lop. Sr phan cvm co attic dich nh6m cac dEti tuqng lai then nguyen Cac d6i twang trong ding mot nhom gio t ng nhau a mt . = cao nhit vi cac d6i thong khac nhom giting nhau it nhat. e. Phan tich phan ter ngoai cuOc: Trang 10190 A11278 — Doan Thinh Cong A11500 — Nguyen Mc Hoang [...]... la met ngen nger truy van khai pha (Wien duct dinh nghia trong OLE DB climh cho khai pha de lieu DMX duqc thiet ke hau het cac khan niem quan he va eau true cua no dva tren ngon nge truy van SQL Trang 31190 A11278 — Doan Thanh Cong A11500 — Nguyen Dirc Hoang ICHAI PHA Dg LIEU TRONG SQL SERVER 2012 Tren SQL Server 2012, ngoii viec sir dung cling cm SQL server data tool de khai phi du lieu mat cich tnic... KHAI PHA DO' LIEU TRONG SQL SERVER 2012 CHICONG 3 KHAI PHA "Kr LI$U TRONG SQL SERVER 2012 3.1 Mil hinh OLE DB trong SQL Sever 3.1.1 Gliti thifu Duqc giei thieu vio thing 7 Nam 2000 N6 co nguen geoc tir hai ding nghe ca se der lieu chinh: OLE DB vi SQL Tieu chu& nay thong qua cac khai niem co sa de lieu quan he va nhieu ap dung cita chting vac linh yip khai thac der lieu Phan cot lOi cea OLE DB la Data... Thiet lap cac nhom mo to cac case trong dataset lien quan den nhau nhu the nao Trang 341 90 A11278 — Doan Thanh Cong A11500 — Nguyen Dec Hoang KHAI PHA Dir LIEU TRONG SQL SERVER 2012 Microsoft SQL Server Analysis Services cung cap nhieu thuit town cho ck giii phip khai thic du lieu cilia ban Cic thuit town nay li tip con cita tat ca cic thuit town co the duqc clang cho viec khai chic du lieu Ban cling c6... lieu bang cach dac to cac thuat loan khai pha de lieu veri cac thong se phh hqp Sau qua trinh huk luyOn, the ma hinh khai pha du lieu luu trir cac matt ma thuat toan khai pha tim ra duqc Trong khi met bang quan he la tip cac bin ghi thi me hinh khai pha du lieu la tap cac matt Model Creation: khai niem ve tao and hinh dan gian la tao ra met me hinh khai pha de lieu trong, gin giong nhu cach ma tao ra... cua Y len X 2.4 Lust ket hqp a Geri thieu Duqc gieri thieu tir nam 1993, bai toan khai thic 101 kat hqp nhan dirge rat nhieu sir quan tam ciia cac nha khoa hoe Ngay nay viec khai thic cac luit nhu v3y van 11 mot trong nhftng phuong phip khai thie matt ph6 hien nhat trong viec khai phi tri thiic va khai pha Mt lieu n Trong host dOng san xuat kinh doanh, vi di kinh doanh cac mat hang t i sieu thi, cac... Mimi Ira 3.2 Cic thuat tom khai phi de lieu trong SQL Server 2012 Thuat toan khai that de lieu la met kg thuat de tao ra cac mo hinh khai that tien phai phan tich thitt lap ciia du lieu, him tao ra met me hinh, met thuat toan kiem cac mau d4c trung va xu hurling Thuat toan sau do sir dung nhtmg kit qui cup viec phan tich nay de xac djnh cac tham se dm mo hinh khai that MO hinh khai that ma met thuat toan... dinh nghia phip toin Shape Scalar Column va Table Column: met cOt trong mo hinh khai pha no giOng nhu met cot trong mo hinh quan he, no cling dirqc goi la bien hay thuoc tinh trong thwAt ngil thong ke Trang 301 90 A11278 — Doan Thanh Cong A11500 — NguyIn Dirc Hoing KRAI PHA LIEU TRONG SQL SERVER 2012 Thy theo mvc Bich sir dung, me hinh khai phi de lieu co the do 4 kieu cot la: khem, dau vao, dv doan... the hieu then khai niem la met tip cac dong ma mai dang co cac cot dit lieu Chuang trinh se duyet cac rowset de lAy ra cac dit lieu khac nhau Ket qua truy yin tra ye la met tip cac rowset co dung bang (gam column ya row) Trang 29i 90 A11278 — Doan Thanh Ding A11500 — Nguyen Dec Hoang KHAI PHA DC! LIEU TRONG SQL SERVER 2012 Hinh 6: Ccic doi Won trong OLE DB 3.1.2 Clic khdi nifm co ban trong OLE DB cho... lieu trong hai tap con du lieu, 6 day xet ca trtrOng hqp tap con du lieu nay thuoc tap con kia Nghia la xic dinh dit lieu trong mot nhOm con ciia dOi tuqng c6 khac ding kE so vOi toan b0 dt)i tirqng hay Ichong? Theo cach nay, sai sot du lieu hay sal Rich so veri gia tri thong thu6ng se duqc phat hien Trang 271 90 A11278 — Doin Thanh Cling A11500 — Nguyen Due Hoang KHAI PHA DO' LIEU TRONG SQL SERVER. .. Nguyen Dec Hoing KHAI PRA D' LIEU TRONG SQL SERVER 2012 Cac chucmg trinh irng dung do the ket non tin cac nguan clit lieu khai pha khac nhau thOng qua cac ket non OLE DB hoic ADO Mai OLE DB cho met nguan dit lieu Data Mining, cung cap met tip cac giai thuit khai pha de lieu Cac thuit town nay co the truy xuAt bit 4 nguan de lieu dung bang nao th8ng qua OLE DB Du lieu nguan c6 the luu ter a trong nhieu clung . trong co so dii lieu (Knowledge Discovery in Databases — KDD) 1.2.2. Luling di lifu Khai thic der lieu la mot trong nhUng thanh vien quan trong trong data warehouse family. Trutmg hqp khai. troy van trong khai phi dit lieu phii cung cap cho ngtrai sir dung mot neon nge thuin lien, gait gfri nhu SQL trong CSDL quan he. Khai phi de lieu di duqc ling dung rat thinh tong trong CSDL. dft lieu chuyen nghiep dau lien bao gilm cac tinh ring khai thic trong met ca se der lieu quan he. SQL Server 2000 c6 hai thuat toan khai thic dft lieu la: Microsoft Decision Tree vi Microsoft