Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 71 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
71
Dung lượng
1,71 MB
Nội dung
hướng dẫn đọc toàn văn báo cáo KQNC ! ! Bạn muốn đọc nhanh thông tin cần thiết ? Hy đọc qua Mục lục bên tay trái bạn trước đọc báo cáo ( với Acrobat 4.0 trở lên, cho trỏ chuột vào đề mục để đọc toàn dòng bị che khuất ) ! Chọn đề mục muốn đọc nháy chuột vào ! ! Bạn muốn phóng to hay thu nhỏ trang báo cáo hình ? Chọn, nháy chuột vào kích th thưước có sẵn Menu , ! Mở View Menu, Chọn Zoom to ! Chọn tỷ lệ có sẵn hộp kích th thưước muốn,, Nhấn OK tự điền tỷ lệ theo ý muốn Chúc bạn hài lòng với thông tin đđưược cung cấp I HC THI NGUYấN TRNG I HC CễNG NGH THễNG TIN & TRUYN THễNG NGUYN NGC ANH NGHIấN CU V TH NGHIM MT S THUT TON PHT HIN CC TH CON THNG XUYấN Luận văn thạc Sĩ KHOA HC MY TNH Thái Nguyên - 2014 S húa bi Trung tõm Hc liu http://www.lrc-tnu.edu.vn/ M U Hin nay, cỏc phng phỏp khai phỏ d liu ang phi i din vi s lng ngy cng gia tng ca cỏc i tng d liu phc Bờn cnh ú th l mt cu trỳc d liu tng quỏt, cú th s dng mụ hỡnh húa cỏc i d liu tng phc ú v khai phỏ th thng xuyờn l mt nhng quan trng khai phỏ th Vic khai phỏ th tỡm th thng xuyờn nhm xỏc nh tt c cỏc th mt d liu th vi giỏ tr ngng cho trc [1],[3] Nhng khú khn ca khai phỏ th thng xuyờn ny sinh hai , ú l: lit kờ tt c cỏc th CSDL th v tớnh toỏn hm h tr ca cỏc th ny CSDL Do cỏc nh ca th cú th c sp xp theo nhiu cỏch, mt th cú th cú s lng ln cỏc bn hỡnh hc tng ng, c gi l th ng cu lit kờ tt c cỏc th con, ta phi tớnh toỏn phự hp vi quy tc biu din th gii quyt th ng cu Hn na, vic kim tra nu mt th cú cha mt CSDL th hay khụng c xem nh bi toỏn NP-khú v c gi l bi toỏn th ng cu Trong tt c cỏc trng hp, vic tớnh toỏn hm h tr chim chi phớ nhiu nht vic tỡm cỏc th thng xuyờn ca CSDL Tuy nhiờn, s phc ca nhng ny s gim CSDL th cú thờm thụng tin v cỏc nh v cỏc cnh ó c gỏn nhón Cú th s dng cỏc nhón hn ch cỏc nh cú th to thnh cỏc cp quỏ trỡnh kim tra s ng cu ca th Tuy nhiờn, nu CSDL th cha c gỏn nhón hoc ch cú mt s ớt cỏc nhón thỡ phc ca bi toỏn s lm gim ỏng k kớch thc ca d liu Nh vy, khai phỏ th núi chung v khai phỏ th thng xuyờn núi riờng cng gp nhiu khú khn, vỡ vy ta cn la chn phng phỏp S húa bi Trung tõm Hc liu http://www.lrc-tnu.edu.vn/ v thut toỏn phự hp gii quyt cho tng bi toỏn c th, em li hiu qu cao ú chớnh l ý ngha thc tin ca ti Ni dung ca lun v cỏc cn gii quyt: Tỡm hiu v cỏc phng phỏp khai phỏ d liu th Tỡm hiu cỏc thut toỏn phỏt hin th thng xuyờn CSDL th Ci t th nghim thut toỏn phỏt hin cỏc th thng xuyờn CSDL th Phng phỏp nghiờn cu + Nghiờn cu v khai phỏ d liu th vi trng tõm l phỏt hin cỏc th thng xuyờn CSDL th + Tỡm hiu cỏc ngun thụng tin t cỏc sỏch,bi bỏo,tp chớ, Internet ,liờn quan n khai phỏ d liu th Cu trỳc lun chia lm chng: Chng 1: Tng quan v khai phỏ d liu th trỡnh by tng quan cỏc hng nghiờn cu hin v khai phỏ d liu th Chng 2: Phỏt hin cỏc cu trỳc thng xuyờn trỡnh by c s lý thuyt th, cỏch tip cn da trờn Apriori, cỏch tip cn da trờn s phỏt trin mu Chng 3: Cỏc thut toỏn phỏt hin th thng xuyờn trỡnh by mt s thut toỏn phỏt hin th thng xuyờn theo chin lc tỡm kim theo chiu rng v chiu sõu Chng 4: Thit k h thng th nghim trỡnh by kt qu ci t ca thut toỏn chng S húa bi Trung tõm Hc liu http://www.lrc-tnu.edu.vn/ CHNG 1: TNG QUAN V KHAI PH D LIU TH 1.1 TNG QUAN V KHAI PH D LIU TH: Khai phỏ d liu th l mt s cỏc lnh vc quan trng khai phỏ d liu Hu ht ngun d liu hin cú th biu din c di dng cu trỳc d liu th, chng hn nh: d liu t mng Internet, mng xó hi, cu trỳc protein, hp cht húa hc, Do ú, khai phỏ d liu th nhm tỡm kim cỏc thụng tin hu ớch mt lng ln d liu l ang c cỏc nh nghiờn cu v cỏc t chc CNTT quan tõm 1.1.1 nh ngha d liu ln: Hin nay, thut ng D liu ln (Big data) ang thu hỳt s quan tõm cng nh t nhng thỏch thc mi vi cỏc nh nghiờn cu, cỏc nh cung cp dch v cụng ngh thụng tin v cỏc t chc, doanh nghip D liu ln c xem nh s i tt yu ca quỏ trỡnh bựng n thụng tin Trong nhiu nm qua, cỏc doanh nghip thng a cỏc quyt nh kinh doanh da trờn d liu giao dch c lu tr c s d liu quan h Ngoi nhng d liu quan trng li thng dng tim nng, phi truyn thng, phi cu trỳc li cú th c khai thỏc mt cỏch hu ớch, gim chi phớ c v lu tr v tớnh toỏn Khi d liu ln c c khai thỏc v phõn tớch, kt hp vi d liu doanh nghip truyn thng thỡ cỏc doanh nghip s cú cỏi nhỡn ton din v sõu sc hn v tỡnh hỡnh kinh doanh ca h, dn ti nõng cao nng sut v v th cnh tranh Do ú, ngy cng cú nhiu cụng ty tỡm kim cú c cỏc d liu phi truyn thng nhng rt cú giỏ tr cụng vic kinh doanh ny Cú th nh ngha mt cỏch chung nht thỡ D liu ln l mt hp ca cỏc d liu ln v/hoc phc m nhng phng phỏp hin ti ca CNTT cha th phõn tớch v x lý tt c chỳng S húa bi Trung tõm Hc liu http://www.lrc-tnu.edu.vn/ D liu ln bao gm c tớnh cht v ln lu tr (Volume), a dng, phc (Variety) v tng trng nhanh chúng (Velocity)[8] D liu ln thng cp ti cỏc kiu d liu nh sau: - D liu doanh nghip truyn thng: bao gm cỏc thụng tin khỏch hng, d liu giao dch, d liu k toỏn tng hp - D liu cm bin hoc mỏy sinh d liu: bao gm cỏc bn ghi chi tit cỏc cuc gi, nht ký web, h o thụng minh, d liu t cỏc cm bin, cỏc h thng d liu truyn thng - D liu xó hi: bao gm cỏc lung thụng tin phn hi ca khỏch hng, d liu t cỏc trang nht ký v mng xó hi nh Twitter, Facebook, 1.1.2 Gii phỏp d liu ln ca mt s nh cung cp dch v: * Gii phỏp Big data ca Oracle Oracle l nh cung cp u tiờn cung cp mt gii phỏp hon chnh v tớch hp gii quyt y yờu cu v d liu ln ca doanh nghip Cỏc d liu ln ca Oracle trung trờn ý tng cú th phỏt trin kin trỳc d liu doanh nghip hin ti kt hp d liu ln v cung cp giỏ tr kinh doanh, linh hot, hiu sut gii quyt yờu cu v d liu ln vi doanh nghip Vi vic gii thiu ng dng Qun lý D liu ln (Oracle Big Data Appliance), Oracle cung cp mt gii phỏp hon chnh ỏp ng mi yờu cu liờn quan n d liu ln ca doanh nghip Thit b x lý d liu ln Oracle Big Data Appliance, cựng vi mỏy ch c s d liu Oracle Exadata v Mỏy ch thụng tin h tr quyt nh Oracle Exalytics mi, giỳp khỏch hng cú thu thp, t chc, phõn tớch v khai thỏc ti a giỏ tr ca d liu ln Oracle Big Data Appliance cú th c tớch hp d dng vi c s d liu Oracle Database 11g, Oracle Exadata Database Machine v Oracle Exalytics Business Intelligence Machine S húa bi Trung tõm Hc liu http://www.lrc-tnu.edu.vn/ * Gii phỏp Big Data ca Microsoft Gii phỏp Big Data ca Microsoft da trờn nn tng SQL Server, Hadoop, Windows Azure v Windows Server, cung cp cỏc cụng c qun lý, m rng nhm t c cỏi nhỡn sõu sc hn v d liu ca doanh nghip, thỳc y hiu qu kinh doanh Microsoft Big Data cho phộp qun lý hu nh bt k loi d liu no, bt k kớch thc hoc v trớ Microsoft s dng SQL Server 2012 v SQL Server Parallel Data Warehouse qun lý cỏc d liu ln cú cu trỳc Vi d liu phi cu trỳc, Microsoft s dng Hadoop trờn Windows Azure v Windows Server, s cho phộp x lý d liu phi cu trỳc vi quy mụ hng petabyte Vi d liu lung, Microsoft s dng cụng c SQL Server StreamInsight qun lý cỏc d liu lung vi thi gian thc Microsoft Big Data cho phộp lm phong phỳ thờm d liu vi bt k loi d liu no: Ca hng d liu Azure Marketplace cho phộp cỏc doanh nghip cú c d liu ca bờn th ba; b cụng c phũng thớ nghim Data Explorer Azure dnh cho cỏc d liu xut v Data Hub dnh cho vic to cỏc ca hng d liu riờng 1.2 TNG QUAN V KHAI PH TH CON THNG XUYấN: Cho mt CSDL th D, mt hm h tr ca th G D, c vit l sup(G, D) l s lng cỏc th D cú cha th G nh mt cnh to nờn th Cho giỏ tr ngng h tr cc tiu smin, khai phỏ th thng xuyờn bao gm vic tỡm cỏc th liờn thụng thng xuyờn D Cú hai nhúm phng phỏp c xut gii quyt trờn, ú l: nhúm phng phỏp khai phỏ theo chiu rng v nhúm phng phỏp khai phỏ theo chiu sõu: S húa bi Trung tõm Hc liu http://www.lrc-tnu.edu.vn/ Mt s k thut khai phỏ theo chiu rng nh: k thut AGM c phỏt trin bi Inokuchi, k thut FSG c xut bi Kuramochi v Karypis Cỏc k thut ny khai phỏ th theo tng mc ú mi mc cha cỏc th cú nhiu hn mt nh hoc mt cnh so vi mc trc ú Cỏc th thng xuyờn ca mc tip theo c tỡm bng cỏch, u tiờn to cỏc th ng viờn vi cỏc cp th ca mc hin ti, sau ú lc cỏc th khụng thng xuyờn u im chớnh ca nhng k thut ny da trờn nguyờn tc u tiờn bng cỏch mt th ch c xem l thng xuyờn nu tt c cỏc th ca nú l thng xuyờn Vỡ mt th c tỡm sau tỡm cỏc th ca nú, ú cú th loi b cỏc th khụng thng xuyờn m khụng cn phi tớnh toỏn hm h tr ca chỳng bng cỏch kim tra nu cỏc th ca chỳng l thng xuyờn Tuy nhiờn, nhúm phng phỏp tỡm kim theo chiu rng cú hai ú l: sinh nhiu th ng viờn v yờu cu v lu tr cỏc th thng xuyờn mi mc Nhúm phng phỏp khai phỏ theo chiu sõu ó khc phc nhng ny bng cỏch tỡm kim th theo chiu sõu, cú th k n mt s thut toỏn nh: gSpan c xut bi Han v Yan, FFSM c xut bi Huan, v GASTON bi Nijssen v Kok T tng ca nhúm phng phỏp ny bt u vi mt th cú cha mt nh hoc mt cnh thng xuyờn, nhng k thut ny c m rng quy bng cỏch thờm mi mt cnh gia hai nh hin ti hoc thờm mi mt nh kt ni ti mt nh hin ti khỏc Vỡ mt th l khụng thng xuyờn hn cỏc th ca nú, ú khụng cn m rng ti cỏc th khụng thng xuyờn Cỏc th khụng thng xuyờn cú th c b bt m khụng xy ri ro gỡ quỏ trỡnh khai phỏ 1.3 KT LUN Chng trỡnh by tng quan v khai phỏ d liu th ú cú nờu ca khai phỏ d liu th l tỡm nhng thụng tin hu ớch mt S húa bi Trung tõm Hc liu http://www.lrc-tnu.edu.vn/ lng ln d liu, a nh ngha chung nht v d liu ln (Big Data) v cỏc gii phỏp Big Data ca Oracle v Microsoft Trỡnh by tng quan v khai phỏ th thng xuyờn theo hai nhúm phng phỏp ú l nhúm phng phỏp khai phỏ theo chiu rng v nhúm phng phỏp khai phỏ theo chiu sõu cựng vi u v nhc im ca hai nhúm phng phỏp ny S húa bi Trung tõm Hc liu http://www.lrc-tnu.edu.vn/ CHNG 2: PHT HIN CC CU TRC CON THNG XUYấN 2.1 C S Lí THUYT TH Chỳng ta biu din nh ca th g bng V(g) v cnh bng E(g) Mt hm nhón L ỏnh x mt nh hoc mt cnh ti mt nhón Mt th gl mt th ca th g khỏc nu tn ti mt th ng cu t g ti g 2.1.1 nh ngha 2.1 (Graph): Chomt nhón node bng ch cỏi (alphabet) LV v mt nhón cnh bng ch cỏi LE th g (cú hng) c nh ngha bng b gm thnh phn g=(V , E, à, ), ú: V biu din mt hu hn cỏc node EVìV biu din mt cỏc cnh à:VLV biu din mt hm ghi nhón node :ELE biu din mt hm ghi nhón cnh Tp V cú th c coi l mt cỏc nh danh nỳt v thng c chn bng V = {1, , | V |} Trong V xỏc nh cỏc nỳt, cỏc cnh E th hin cu trỳc ca th ú l mt nỳt u V c kt ni vi mt nỳt v V bng mt cnh= (u, v) nu (u, v) E Hm ghi nhón cú th c s dng tớch hp thụng tin v cỏc node v cỏc cnh vo cỏc th bng cỏch gỏn cỏc thuc tớnh t LV v LE ti cỏc node v cỏc cnh tng ng th c nh ngha trờn bao gm mt s trng hp c bit nh ngha th vụ hng, cho mt th hin yờu cu u, v u, v E cho mi cnh E cho (u, v) = (v, u) Trong trng hp th khụng thuc tớnh, bng ch cỏi nhón c xỏc nh bi LV S húa bi Trung tõm Hc liu LE , bi vy mi node v mi http://www.lrc-tnu.edu.vn/ v41 e011 e011 e121 e121 e231 e231 e341 # Do thi g3 # Do thi g4 t # g3 t # g4 v01 v02 v11 v11 v22 v22 v32 v32 v41 v41 e011 v51 e031 e011 e121 e121 e231 e151 e341 e231 e341 Hỡnh 4.1 Tp input.lgp biu din th u vo S húa bi Trung tõm Hc liu http://www.lrc-tnu.edu.vn/ 4.1.3 Biu din th Cụng c biu din th cú chc nng húa th t d liu u vo hoc d liu u Mi d liu th s tng ng vi mt form th.Giao din cụng c hin th th nh sau: Hỡnh 4.2 Giao din biu din th Chn d liu th, tựy chn "nh mu" cho phộp mi nhón nh s cú mt mu, sau ú nhn nỳt "Hin th", cỏc th tng ng s c hin th Vớ d Hỡnh 4.3 l mt cỏc form biu din d liu th Hỡnh 4.3 Biu din th S húa bi Trung tõm Hc liu http://www.lrc-tnu.edu.vn/ 4.2 NH GI 4.2.1 Kim tra thut toỏn Trong quỏ trỡnh xõy dng v ci t thut toỏn, thỡ iu quan trng l tớnh ỳng n ca thut toỏn Hc viờn ó a vo mt s d liu mu nh cú th mụ hỡnh húa bng ha, ú Hỡnh 4.4 biu din CSDL th u vo, ngng h tr ti thiu l 80% thỡ kt qu s cho l th thng xuyờn tha ngng v c biu din Hỡnh 4.5 Hỡnh 4.4 C s d liu th u vo S húa bi Trung tõm Hc liu http://www.lrc-tnu.edu.vn/ Hỡnh 4.5 Tp kt qu cỏc th thng xuyờn 4.2.2 ỏnh giỏ thut toỏn Ngy nay, vi s i cụng ngh lu tr v x lý d liu ln, hc viờn ó nghiờn cu v la chn thut toỏn gSpan ci t trờn h tng ny Thut toỏn gSpan cú u im hn so vi thut toỏn AGM cng nh FSG l khụng to cỏc ng viờn, ú lm gim c chi phớ tớnh toỏn cng nh khụng gian lu tr Do ú, thut toỏn l la chn tt cho gii phỏp ci t trờn h tng lu tr v x lý d liu ln gii quyt cỏc bi toỏn tỡm th thng xuyờn CSDL th ln Trong lun ny, hc viờn a vo mt s mu d liu v ó thu c mt s kt qu kh quan Nú phn ỏnh c tớnh ỳng n ca thut toỏn bi toỏn Nu d liu vo vi lng th giao dch nh, thỡ thut toỏn s chy rt nhanh Nhng khi lng th giao dch ln, thỡ kt qu tr v s chm hn ng thi, tham s ngng ti thiu cú nh hng rt ln ti S húa bi Trung tõm Hc liu http://www.lrc-tnu.edu.vn/ thi gian x lý Nu ngng ti thiu nh thỡ thut toỏn chon kt qu chm, nhng ngng ti thiu ln thỡ thut toỏn cho kt qu nhanh hn Hỡnh 4.6 biu din hiu sut ca thut toỏn chy vi d liu th, m mi th 500 nh, 1500 cnh, ngng h tr ti thiu l 40%, s lng th giao dch thay i t 500 n 5000 th, thỡ thi gian thay i tng ng Hỡnh 4.6 Hiu sut thut toỏn chy vi s th giao dch thay i Trong Hỡnh 4.7biu din hiu sut ca thut toỏn chy vi d liu th, m mi th 500 nh, 1500 cnh, s lng th giao dch l 3000 th v ngng h tr ti thiu thay i t 40% n 90% , thỡ thi gian thay i tng ng S húa bi Trung tõm Hc liu http://www.lrc-tnu.edu.vn/ Hỡnh 4.7 Hiu sut thut toỏn chy vi ngng h tr ti thiu thay i 4.3.KT LUN Phn mm th nghim ci t thut toỏn tỡm cỏc th thng xuyờn CSDL th c hc viờn phỏt trin da trờn thut toỏn gSpan c X Yan and J Han a Thut toỏn gSpan c trin khai trờn h tng lu tr v x lý d liu ln vi kt qu kh quan S dng mụi trng mỏy o Java chy ng dng biu din th bng v ci t phn mm th nghim lờn h tng lu tr v x lý d liu ln ng thi hc viờn ó chy mt s d liu mu v cú ỏnh giỏ v kt qu ca thut toỏn S húa bi Trung tõm Hc liu http://www.lrc-tnu.edu.vn/ KT LUN V HNG PHT TRIN KT LUN Ni dng lun ó tỡm hiu cỏc lý thuyt v khai phỏ d liu th: bao gm c s lý thuyt thi,cỏch tip cn phỏt hin cu trỳc thng xuyờn da vo thut toỏn Apriori v cỏch tip cn da trờn s phỏt trin mu,ni dung chớnh l cỏc thut toỏn phỏt hin th thng xuyờn vi mt ngng h tr ti thiu minsup cho trc mt c s d liu th Lun trung vo hai chin lc tỡm kim ú l chin lc tỡm kim theo chiu rng gm cỏc thut toỏn Subdue, FSM v chin lc tỡm kim theo chiu sõu gm cỏc thut toỏn gSpan, FFSM, Grew Chng trỡnh th nghim c xõy dng nhm chng minh tớnh kh thi ca cỏc kt qu nghiờn cu Chng trỡnh hon thin cn cú s u t nhiu hn v mt thi gian v cụng sc ti cú th tip tc phỏt trin em ling dng ỏp ng c yờu cu thc t HNG PHT TRIN CA TI Xõy dng chng trỡnh thc nghim vi giao din thõn thin vi ngi dựng quỏ trỡnh nhp tham s u vo ca thut toỏn.Tip tc nghiờn cu v ci t cỏc thut toỏn khai phỏ th thng xuyờn khỏc (Subdue, FSM FFSM,Grew) khng nh tớnh hiu qu ca chỳng khai phỏ d liu th t cỏc kho d liu th ln S húa bi Trung tõm Hc liu http://www.lrc-tnu.edu.vn/ TI LIU THAM KHO Ting Anh: [1] D.J.Cook and L.B.Holder (2000), Graph Base Data Mining, IEEE Intelligent Systems, 15(2),pp 32-41 [2] J Huan, W Wang, and J Prins (2003), Efficient mining of frequent subgraph in the presence of isomorphism In Proceedings of the 3rd IEEE International Conference on Data Mining (ICDM),pp.549-552 [3] L.B.Holder,D.J.Cook and S.Djoko(1994), Substructure Discovery in the SUBDUE System.In Proceedings of the AAAI Workshop on Knowledge Discovery in Databases, pp 169 -180 [4] J R Ullman (1976), An algorithm for subgraph isomorphism.Journal of theACM,23(1),pp.3142 [5] M Moy(May 2005) Using tmods to run the best friends group detection algorithm 21st CenturyTechnologies Internal Publication [6] Jun Huan, Wei Wang, Jan Prins, Efficient Mining of Frequent Subgraph in the Presence of Isomorphism, pp.1-16 [7] Lawrence B Holder,Nikhil S Ketkar,Diane J Cook,Subdue: Compression-Based Frequent Pattern Discovery in Graph Data, pp.5-6 [8] Bismita Srichandan, Rajshekhar Sunderraman, OO-FSG: An ObjectOriented Approach to Mine Frequent Subgraphs,pp.11-12 [9] Xifeng Yan,Jiawei Han,gSpan: Graph-Based Substructure Pattern Mining, pp.5-6 [10] Lawrence B Holder,Diane J Cook,Mining Graph Data Wiley- interscience a john wiley & sons, inc., publication ,pp 101-154 S húa bi Trung tõm Hc liu http://www.lrc-tnu.edu.vn/ S húa bi Trung tõm Hc liu http://www.lrc-tnu.edu.vn/ LI CAM OAN Tụi xin cam oan ton b ni dung bn lun ny l tụi t su tm, tra cu v phỏt trin thut toỏn ỏp ng ni dung yờu cu ca ti Ni dung bn lun cha tng c cụng b hay xut bn di bt k hỡnh thc no v cng khụng c chộp t bt k mt cụng trỡnh nghiờn cu no Tt c phn mó ngun ca chng trỡnh u tụi t tỡm kim v xõy dng th nghim Nu sai tụi xin tụi xin hon ton chu trỏch nhim Thỏi Nguyờn, thỏng 09 nm 2014 Ngi cam oan Nguyn Ngc Anh S húa bi Trung tõm Hc liu http://www.lrc-tnu.edu.vn/ LI CM N Em xin chõn thnh cm n cỏc Thy, Cụ giỏo khoa Cụng ngh thụng tin v cỏc cỏn b, nhõn viờn cỏc phũng o to trng i hc Cụng ngh thụng tin & truyn thụng - i hc Thỏi nguyờn ó luụn nhit tỡnh giỳp v to iu kin tt nht cho em sut quỏ trỡnh hc ti trng Xin chõn thnh cm n cỏc anh, cỏc ch v cỏc bn hc viờn lp Cao hc K11I - trng i hc Cụng ngh thụng tin & truyn thụng thuc i hc Thỏi nguyờn ó luụn ng viờn, giỳp v nhit tỡnh chia s vi tụi nhng kinh nghim hc tp, cụng tỏc sut khoỏ hc Tụi xin chõn thnh cm n Ban giỏm hiu trng i hc cụng nghip thnh ph H Chớ Minh, ban lónh o c s trng i hc cụng nghip thnh ph H Chớ Minh c s Thanh húa, lónh o khoa cụng ngh c s ó to iu kin tt nht tụi cú th hon thnh tt p khoỏ hc Cao hc ny c bit tụi xin by t lũng bit n sõu sc n thy giỏoTS.Nguyn Nh Sn ó tn tỡnh giỳp tụi hỡnh thnh, nghiờn cu v hon chnh lun Mc dự ó cú nhiu c gng, song s hn hp v thi gian, iu kin nghiờn cu v trỡnh , lun khụng trỏnh nhng khim khuyt Em chõn thnh mong nhn c s úng gúp ý kin ca cỏc thy, cụ giỏo v ng nghip gn xa Thỏi nguyờn, thỏng 09 nm 2014 Ngi thc hin lun Nguyn Ngc Anh S húa bi Trung tõm Hc liu http://www.lrc-tnu.edu.vn/ DANH MC THUT NG V T VIT TT Thut ng Vit tt í ngha Cụng ngh thụng tin CNTT Cụng ngh thụng tin C s d liu CSDL C s d liu Directed Acyclic Graph DAG th nh hng phi chu trỡnh FSM Khai phỏ th thng xuyờn AGM Khai phỏ th da trờn Apriori Frequent Subgraphs Mining Apriori Graph Mining Fast Frequent Subgraph Mining Canonical Adjacency Matrix Maximum Common Subgraph FFSM Khai phỏ th thng xuyờn bn vng CAM Ma trn k chớnh tc MCS th ph bin cc i S húa bi Trung tõm Hc liu http://www.lrc-tnu.edu.vn/ DANH MC HèNH V , BNG BIU Hỡnh 2.1 (b) ng cu vi (a), (c) ng cu vi mt th ca (a) 11 Hỡnh 2.3 Mu c s d liu th 12 Hỡnh 2.4 Cỏc th thng xuyờn 12 Hỡnh 2.5: Tỏm cõy khụng cú th t nhn c t mt cõy cú th t 14 Hỡnh 3.1 th hỡnh A sau nộn c biu din hỡnh B 22 Hỡnh 3.2Biu din cỏc th d liu 25 Hỡnh 3.3 Cõy tỡm kim theo chiu sõu 28 Hỡnh 3.4 Mó DFS/ th gia tng 31 Hỡnh 3.5 Biu din hai th ng cu 34 Hỡnh 3.6 Ba ma trn k ca th gỏn nhón P hỡnh 3.5 35 Hỡnh 3.7 Biu din ma trn riờng cc i 35 Hỡnh 3.8 Cõy CAM ca th P hỡnh 3.5 38 Hỡnh 3.9 Biu din thao tỏc hũa nhp cho bn trng hp 41 Hỡnh 3.10 Cõy CAM ti u ca th P biu din hỡnh 3.5 43 Hỡnh 4.1 Tp input.lgp biu din th u vo 56 Hỡnh 4.2 Giao din biu din th 57 Hỡnh 4.3 Biu din th 57 Hỡnh 4.4 C s d liu th u vo 58 Hỡnh 4.5 Tp kt qu cỏc th thng xuyờn 59 Hỡnh 4.6 Hiu sut thut toỏn chy vi s th giao dch thay i 60 Hỡnh 4.7 Hiu sut thut toỏn chy vi ngng h tr ti thiu thay i 61 S húa bi Trung tõm Hc liu http://www.lrc-tnu.edu.vn/ MC LC M U CHNG 1: TNG QUAN V KHAI PH D LIU TH 1.1 TNG QUAN V KHAI PH D LIU TH: .4 1.1.1 nh ngha d liu ln: .4 1.1.2 Gii phỏp d liu ln ca mt s nh cung cp dch v: 1.2 TNG QUAN V KHAI PH TH CON THNG XUYấN: 1.3 KT LUN .7 CHNG 2: PHT HIN CC CU TRC CON THNG XUYấN 2.1 C S Lí THUYT TH 2.1.1 nh ngha 2.1 (Graph): .9 2.1.2 nh ngha 2.2 (Subgraph): 10 2.1.3 nh ngha 2.3 (Graph Isomorphism): 10 2.1.4 nh ngha 2.4 (Subgraph Isomorphism): 11 2.1.5 nh ngha 2.5 (Maximum Common Subgraph, MCS): 11 2.1.6 nh ngha 2.6 (Frequent Graph) 12 2.2 CC DNG CHUN CA CY 12 2.2.1 Dng chun ca cõy theo chiu rng: 16 2.2.2 Dng chun ca cõy theo chiu sõu: 17 2.3 CCH TIP CN DA TRấN APRIORI 18 2.4 CCH TIP CN DA TRấN S PHT TRIN MU 20 2.5 KT LUN 21 CHNG 3: CC THUT TON PHT HIN TH CON THNG XUYấN 22 3.1 CHIN LC TèM KIM THEO CHIU RNG: 22 3.1.1 Thut toỏn SUBDUE 22 3.1.2 Thut toỏn FSG 25 3.2 CHIN LC TèM KIM THEO CHIU SU: 27 v 3.2.1 Thut toỏn gSpan (Graph-Based Substructure Pattern Mining) 27 3.2.2 Thut toỏn FFSM 32 3.2.3 Thut toỏn GREW 45 3.3 KT LUN 51 CHNG 4: THIT K H THNG TH NGHIM THUT TON 52 4.1 CI T TH NGHIM THUT TON gSpan 52 4.1.1 Mó lnh thut toỏn gSpan 52 4.1.2 D liu th nghim 54 4.1.3 Biu din th 57 4.2 NH GI 58 4.2.1 Kim tra thut toỏn 58 4.2.2 ỏnh giỏ thut toỏn 59 4.3.KT LUN 61 KT LUN V HNG PHT TRIN 62 TI LIU THAM KHO 63 S húa bi Trung tõm Hc liu http://www.lrc-tnu.edu.vn/