MỞ ĐẦU Lý do chọn đề tài Trong hoạt động nghiên cứu khoa học, các bài báo khoa học đóng một vai trò rất quan trọng. Nó không chỉ là một bản báo cáo về một công trình nghiên cứu, mà còn là một đóng góp cho kho tàng tri thức của thế giới. Khoa học tiến bộ cũng nhờ một phần lớn vào thông tin từ những bài báo khoa học, bởi vì qua chúng mà các nhà khoa học có dịp trao đổi, chia sẻ và học hỏi kinh nghiệm lẫn nhau. Vì vậy, các bài báo đăng trên tạp chí phải đảm bảo tính mới và hàm lượng khoa học của việc nghiên cứu nên việc đưa ra quyết định cuối cùng để chọn bài nào được đăng trên tạp chí dựa vào kết quả phản biện của các chuyên gia. Với các hệ hỗ trợ quyết định đã được nghiên cứu và phát triển rất nhiều trong những thập niên vừa qua, nó đóng một vai trò cơ bản cho khả năng cung cấp thông tin giúp ích rất nhiều cho nhà quản lý, cho con người ra quyết định. Hệ thống máy tính hỗ trợ quyết định các nhiệm vụ như thu thập thông tin, xây dựng mô hình, phân tích, kết hợp và thực hiện quyết định. Vấn đề phân lớp và dự đoán là khâu rất quan trọng trong khai phá dữ liệu và học máy, phát hiện tri thức. Có nhiều phương pháp phân lớp được đề xuất, mỗi phương pháp đều có lợi thế và bất lợi riêng khi sử dụng nhưng kỹ thuật Support Vector Machines (SVM) được đánh giá là công cụ mạnh và tốt nhất hiện nay cho những bài toán phân lớp. Nhiều ứng dụng đã và đang được xây dựng dựa trên kỹ thuật SVM rất hiệu quả. Vì vậy, với mong muốn nghiên cứu và tìm hiểu về việc ứng dụng kỹ thuật phân lớp SVM để hỗ trợ đưa ra quyết định chọn bài đăng trong tạp chí khoa học, tôi chọn đề tài “Tìm hiểu về kỹ thuật phân lớp SVM và ứng dụng vào việc chọn bài đăng trong Tạp chí Khoa học” làm đề tài nghiên cứu. Mục đích nghiên cứu Tìm hiểu kỹ thuật phân lớp SVM. Đồng thời xây dựng một hệ thống ứng dụng phương pháp phân lớp vào việc đưa ra quyết định chọn bài đăng trong tạp chí khoa học. Đối tượng và phạm vi nghiên cứu Khai phá dữ liệu, kỹ thuật phân lớp SVM Phương pháp nghiên cứu Tìm hiểu, phân tích và tổng hợp tài liệu có liên quan từ các nguồn như: Các bài báo, sách, giáo trình trong và ngoài nước. Tiếp đó, tìm hiểu cơ sở lý thuyết để nắm được những yêu cầu, nội dung cụ thể cần giải quyết cho đề tài. Ý nghĩa khoa học và thực tiễn của đề tài Khai phá dữ liệu, là sự khám phá hiệu quả những tri thức từ cơ sở dữ liệu lớn, và nó trở thành một vấn đề cấp thiết cho việc đưa ra những quyết định. Một vấn đề quan trọng và phổ biến trong kỹ thuật khai phá dữ liệu là phân lớp và đã được ứng dụng rộng rãi trong thương mại, y tế, công nghiệp, ... Kỹ thuật phân lớp SVM xuất phát từ nề tảng toán học nên sẽ giúp việc lựa chọn đăng bài báo tạp chí khoa học mang tính khách quan, chính xác cao. Cấu trúc của luận văn Cấu trúc luận văn gồm: Mở đầu, 3 chương nội dung và phần kết luận cùng với tài liệu tham khảo Chương 1: Giới thiệu khai phá dữ liệu và các phương pháp phân lớp dữ liệu. Chương này giới thiệu các khái niệm cơ bản về khai phá dữ liệu và một số phương pháp phân lớp dữ liệu. Chương 2: Kỹ thuật phân lớp dữ liệu SVM. Chương này giới thiệu tổng quan về SVM, kỹ thuật phân lớp SVM tuyến tính, SVM phi tuyến và SVM đa lớp. Chương 3: Chương trình mô phỏng. Chương này giới thiệu tổng quan quy trình chọn bài đăng trên tạp chí, giải quyết bài toán trong việc chọn bài đăng, thu thập dữ liệu, mô phỏng bằng phần mềm Weka.
B GIO DC V O TO I HC HU TRNG I HC KHOA HC TH BCH VI Tìm hiểu kỹ thuật phân lớp SVM ứng dụng vào việc chọn đăng tạp chí khoa học CHUYấN NGNH: KHOA HC MY TNH M S: 60.48.01.01 LUN VN THC S KHOA HC MY TNH Hu, 2015 MC LC Li cam oan Li cm n Mc lc Danh mc cỏc ký hiu, ch vit tt Danh mc cỏc bng Danh mc cỏc hỡnh v M U CHNG TNG QUAN KHAI PH D LIU V CC PHNG PHP PHN LP D LIU 1.1 Tng quan v khai phỏ d liu 1.2 Quỏ trỡnh khai phỏ d liu 1.3 ng dng ca khai phỏ d liu 1.4 Phng phỏp phõn lp d liu 1.4.1 Phõn lp d liu vi cõy quyt nh 1.4.1.1 nh ngha cõy quyt nh 1.4.1.2 Phng phỏp tng quỏt xõy dng cõy quyt nh 1.4.2 Thut toỏn k - means 16 1.4.3 Thut toỏn k lỏng ging gn nht 20 1.5 Tiu kt chng 23 CHNG K THUT PHN LP D LIU SVM 24 2.1 Gii thiu 24 2.2 C s lý thuyt 25 2.2.1 Dng thc tng quỏt ca bi toỏn ti u 25 2.2.2 Dng chun ca bi toỏn ti u 26 2.2.3 Hm Lagrange 26 2.2.4 Bi toỏn i ngu 27 2.2.5 Bi toỏn qui hoch trn li 28 2.3 SVM tuyn tớnh 29 2.3.1 Trng hp mu phõn hoch tuyn tớnh c 29 2.3.2 Trng hp mu khụng phõn hoch tuyn tớnh c 32 2.4 SVM phi tuyn 35 2.4.1 Khụng gian c trng 36 2.4.2 Hm nhõn 38 2.5 Lý thuyt chiu VC 39 2.5.1 ng bao tng quỏt ca mt mu nhn dng 39 2.5.2 Chiu VC 40 2.5.3 Cc tiu húa ng bao li trờn c s cc tiu húa chiu VC 41 2.5.4 Cc tiu húa li theo cu trỳc 41 2.6 Thut toỏn SMO[10] 42 2.6.1 Ti u húa hai nhõn t Lagrange 42 2.6.2 Chn nhõn t Lagrange theo phng phỏp Heuristic 44 2.7 SVM a lp 44 2.7.1 Phng phỏp mt chi mt 45 2.7.2 Phng phỏp mt chi phn cũn li 45 2.8 Tiu kt chng 46 CHNG CHNG TRèNH Mễ PHNG 47 3.1 Gii thiu tng quan v quy trỡnh chn ng bi vit trờn 47 3.1.1 Quy nh v trỡnh by mt bi bỏo khoa hc 47 3.1.2 Quy trỡnh thm nh v xột ng bi bỏo khoa hc 47 3.2 Gii thiu cụng c Weka 48 3.2.1 Cỏc phiờn bn Weka 49 3.2.2 C s chớnh Weka 49 3.2.3 Mn hỡnh Explorer Preprocess 50 3.2.4 Mn hỡnh Explorer Classify 51 3.2.5 Cu trỳc d liu mu 51 3.2.5.1 Cu trỳc CSV 52 3.2.5.2 Cu trỳc Arff 52 3.3 ng dng SVM vo bi toỏn chn bi ng Tp Khoa hc 53 3.3.1 Quy trỡnh gii bi toỏn bng SVM 53 3.3.2 Thc nghim v ỏnh giỏ 56 3.4 Tiu kt chng 57 KT LUN V HNG PHT TRIN 58 TI LIU THAM KHO 59 DANH MC CC Kí HIU, CH VIT TT Va Tp cỏc giỏ tr ca thuc tớnh a DT=(U, CD) Bng quyt nh w vect trng s cỏc thuc tớnh Bin ni lng , Nhõn t Lagrange {f(x,)} H hm (mi tng ng vi mt hm c th) h Chiu VC SVM Support Vector Machine VC Vapnik Chervonenkis SMO Squential Minimal Optimization KKT Karush Kuhn Tucker DANH MC CC BNG S hiu bng Tờn bng Trang 1.1 Bng quyt nh khỏch hng chi Gold 1.2 Bng quyt nh v khỏch hng AllElectronics 13 3.1 Cu trỳc lu tr d liu mu dng CSV 52 3.2 Cu trỳc lu tr d liu mu dng Arff 52 3.3 Danh sỏch cỏc thuc tớnh c trng 55 3.4 Kt qu thc nghim vi cỏc hm nhõn khỏc 56 3.5 Kt qu hun luyn vi hm nhõn tuyn tớnh 56 3.6 So sỏnh kt qu d oỏn ca SVM vi mụ hỡnh cõy quyt nh 57 DANH MC CC HèNH V S hiu hỡnh v Tờn hỡnh v Trang 1.1 Xõy dng mụ hỡnh phõn lp 1.2 Kim tra v ỏnh giỏ mụ hỡnh 1.3 Vớ d cõy quyt nh ng vi Bng 1.1 1.4 Cu trỳc cõy quyt nh 10 1.5 S thut toỏn k means 17 A Tp mu; B Nhõn t d oỏn (bao vũng 2.1 trũn); C- Siờu phng phõn lp mu d oỏn; D 24 Siờu phng phõn lp tt nht Siờu phng phõn chia d liu thnh lp v 2.2 lp + vi m l khong cỏch gia hai l 30 khụng gian R2 2.3 Phõn tỏch tuyn tớnh bng bin ni lng 33 2.4 Trng hp khụng th phõn tỏch tuyn tớnh 35 2.5 nh x t khụng gian d liu X vo khụng gian c trng F 36 2.6 Ba im khụng tỏch c bi ng thng 40 2.7 tin cy VC tng theo h 41 2.8 H hm c chia thnh cỏc theo chiu VC tng dn 41 2.9 Phng phỏp mt chi mt 45 2.10 Phng phỏp mt chi phn cũn li 46 3.1 Mn hỡnh chớnh phn mm Weka 49 3.2 Mn hỡnh Preprocess ca chc nng Explorer 50 3.3 Mn hỡnh Classify ca chc nng Explorer 51 3.4 Mụ hỡnh d oỏn bi ng 54 M U Lý chn ti Trong hot ng nghiờn cu khoa hc, cỏc bi bỏo khoa hc úng mt vai trũ rt quan trng Nú khụng ch l mt bn bỏo cỏo v mt cụng trỡnh nghiờn cu, m cũn l mt úng gúp cho kho tng tri thc ca th gii Khoa hc tin b cng nh mt phn ln vo thụng tin t nhng bi bỏo khoa hc, bi vỡ qua chỳng m cỏc nh khoa hc cú dp trao i, chia s v hc hi kinh nghim ln Vỡ vy, cỏc bi bỏo ng trờn phi m bo tớnh mi v hm lng khoa hc ca vic nghiờn cu nờn vic a quyt nh cui cựng chn bi no c ng trờn da vo kt qu phn bin ca cỏc chuyờn gia Vi cỏc h h tr quyt nh ó c nghiờn cu v phỏt trin rt nhiu nhng thp niờn va qua, nú úng mt vai trũ c bn cho kh nng cung cp thụng tin giỳp ớch rt nhiu cho nh qun lý, cho ngi quyt nh H thng mỏy tớnh h tr quyt nh cỏc nhim v nh thu thp thụng tin, xõy dng mụ hỡnh, phõn tớch, kt hp v thc hin quyt nh Vn phõn lp v d oỏn l khõu rt quan trng khai phỏ d liu v hc mỏy, phỏt hin tri thc Cú nhiu phng phỏp phõn lp c xut, mi phng phỏp u cú li th v bt li riờng s dng nhng k thut Support Vector Machines (SVM) c ỏnh giỏ l cụng c mnh v tt nht hin cho nhng bi toỏn phõn lp Nhiu ng dng ó v ang c xõy dng da trờn k thut SVM rt hiu qu Vỡ vy, vi mong mun nghiờn cu v tỡm hiu v vic ng dng k thut phõn lp SVM h tr a quyt nh chn bi ng khoa hc, tụi chn ti Tỡm hiu v k thut phõn lp SVM v ng dng vo viờc chn bi ng Tp Khoa hc lm ti nghiờn cu Mc ớch nghiờn cu Tỡm hiu k thut phõn lp SVM ng thi xõy dng mt h thng ng dng phng phỏp phõn lp vo vic a quyt nh chn bi ng khoa hc i tng v phm vi nghiờn cu Khai phỏ d liu, k thut phõn lp SVM Phng phỏp nghiờn cu Tỡm hiu, phõn tớch v tng hp ti liu cú liờn quan t cỏc ngun nh: Cỏc bi bỏo, sỏch, giỏo trỡnh v ngoi nc Tip ú, tỡm hiu c s lý thuyt nm c nhng yờu cu, ni dung c th cn gii quyt cho ti í ngha khoa hc v thc tin ca ti Khai phỏ d liu, l s khỏm phỏ hiu qu nhng tri thc t c s d liu ln, v nú tr thnh mt cp thit cho vic a nhng quyt nh Mt quan trng v ph bin k thut khai phỏ d liu l phõn lp v ó c ng dng rng rói thng mi, y t, cụng nghip, K thut phõn lp SVM xut phỏt t n tng toỏn hc nờn s giỳp vic la chn ng bi bỏo khoa hc mang tớnh khỏch quan, chớnh xỏc cao Cu trỳc ca lun Cu trỳc lun gm: M u, chng ni dung v phn kt lun cựng vi ti liu tham kho Chng 1: Gii thiu khai phỏ d liu v cỏc phng phỏp phõn lp d liu Chng ny gii thiu cỏc khỏi nim c bn v khai phỏ d liu v mt s phng phỏp phõn lp d liu Chng 2: K thut phõn lp d liu SVM Chng ny gii thiu tng quan v SVM, k thut phõn lp SVM tuyn tớnh, SVM phi tuyn v SVM a lp Chng 3: Chng trỡnh mụ phng Chng ny gii thiu tng quan quy trỡnh chn bi ng trờn chớ, gii quyt bi toỏn vic chn bi ng, thu thp d liu, mụ phng bng phn mm Weka Chng TNG QUAN KHAI PH D LIU V CC PHNG PHP PHN LP D LIU 1.1 Tng quan v khai phỏ d liu Trong nhng nm gn õy, s phỏt trin ca cụng ngh thụng tin v vic ng dng cụng ngh thụng tin nhiu lnh vc ca i sng, kinh t xó hi cng ng ngha vi lng d liu ó c cỏc c quan thu thp v lu tr ngy cng tng lờn H lu tr cỏc d liu ny vỡ cho rng nú n cha nhng giỏ tr nht nh no ú Tuy nhiờn, theo thng kờ thỡ ch cú mt lng nh ca nhng d liu ny (khong t 5% n 10%) l luụn c phõn tớch, s cũn li h khụng bit s phi lm gỡ hoc cú th lm gỡ vi chỳng nhng h tip tc thu thp v lu tr rt tn kộm vi ý ngh lo s rng s cú cỏi gỡ ú quan trng ó b b qua hoc khụng c tn dng ht ngun d liu ln Mt khỏc, mụi trng cnh tranh, ngi ta ngy cng cn cú nhiu thụng tin vi tc nhanh tr giỳp vic quyt nh v tr li nhng cõu hi mang tớnh cht nh tớnh da trờn mt lng d liu khng l ó cú Mt t l lm th no t chc, khai thỏc nhng lng d liu khng l v a dng ú c? Do vy, khai phỏ d liu (Data mining) i giỳp ta rỳt trớch c nhng thụng tin cú giỏ tr t nhng d liu thụ khng l ta nhn c Khai phỏ d liu l quỏ trỡnh phỏt hin cỏc mụ hỡnh, cỏc tng kt khỏc v cỏc giỏ tr c ly t d liu cho trc Khai phỏ d liu l s thm dũ (kho sỏt) v phõn tớch lng d liu ln khỏm phỏ t d liu cỏc mu hp l, cú ớch v cú th hiu c Hp l l cỏc mu m bo tớnh tng quỏt v cha c bit trc ú, cú ớch l cú th da vo mu ú a cỏc hnh ng phự hp, hiu c l cú th biờn dch v hiu thu ỏo cỏc mu Khai phỏ d liu bt ngun t nhu cu thc t m cỏc k nng phõn tớch ca ngi l khụng y kớch thc v chiu ca d liu, tc tng trng ca d liu l rt ln Thờm vo ú l nhng ỏp ng mnh m ca k thut v kh nng thu thp d liu, lu tr, nng lc tớnh toỏn, phn mm, s thnh tho v chuyờn mụn 46 phõn lp cỏc thnh viờn ca lp th i vi tt c cỏc thnh viờn ca cỏc lp cũn li Vỡ vy, xõy dng cỏc b phõn lp, cỏc mu hun luyn phi ỏnh li nhón Hỡnh 2.10 Phng phỏp mt chi phn cũn li u im ca phng phỏp ny l s b phõn lp ớt, ú tc phõn lp nhanh hn Tuy nhiờn, dự s b phõn lp ớt nhng mi ln hun luyn phõn lp thỡ ton b mu u tham gia, ú thi gian hun luyn tng lờn v nu mt mu b phõn lp sai thỡ s khụng cú c hi thc hin phõn lp li, ú phõn lp ca phng phỏp ny khụng cao 2.8 Tiu kt chng Chng ny ó trỡnh by tng quan v k thut phõn lp SVM, c s lý thuyt toỏn hc v phng phỏp phõn lp d liu da vo k thut SVM nh SVM tuyn tớnh, SVM phi tuyn, lý thuyt chiu VC, SVM a lp 47 Chng CHNG TRèNH Mễ PHNG 3.1 Gii thiu tng quan v quy trỡnh chn ng bi vit trờn 3.1.1 Quy nh v trỡnh by mt bi bỏo khoa hc Ta bi: (Title) Ta bi thng t 10- 15 t phn ỏnh ni dung chớnh ca bi vit Sau ta bi l tờn tỏc gi, chc danh, hc hm hc v Túm tt: í tng v ni dung túm tt ca bi bỏo: Bi bỏo gii qut gỡ (bi cnh nghiờn cu, lý thuyt, thc tin); Túm tt tỡnh hỡnh nghiờn cu nc v th gii, tớnh thi s ca , t Ni dung túm tt khụng quỏ 10 dũng, tng ng khong 120 t Gii quyt : Phng phỏp nghiờn cu, phng tin nghiờn cu, ni dung nghiờn cu thc hin Cỏc d liu trỡnh by theo bng biu, th, hỡnh v Kt qu nghiờn cu v tho lun: Nờu rừ cỏc kt qu t c ca bi bỏo, cỏc gii phỏp v cỏc kin ngh xut, mi liờn h gia kt qu nghiờn cu ca tỏc gi vi nhng phỏt hin khỏc cỏc cụng trỡnh nghiờn cu trc ú Ti liu tham kho: Lit kờ tt c ti liu ó trớch dn bi vit Cỏch trỡnh by theo th t, tờn tỏc gi, tỏc phm, nm thỏng, ni xut bn Bi bỏo cú di khụng quỏ 10 trang 3.1.2 Quy trỡnh thm nh v xột ng bi bỏo khoa hc Tp khụng ng li nhng bi bỏo m chớ/bỏo khỏc ó ng ti Sau ú, cỏc bi bỏo khoa hc c thm nh s b v ni dung, cht lng v hỡnh thc trỡnh by bi Ban biờn Tp chớ: - Nu l Bi vit Ban Biờn t cỏc chuyờn gia vit v nhng thi s v thm nh li cho thy bi vit t yờu cu v ni dung, hỡnh thc thỡ s c a vo cỏc chuyờn mc thớch hp trờn Tp - Nu khụng phi l bi vit Ban Biờn t vit thỡ Ban Biờn s tip tc thm nh sõu v cht lng ni dung, hỡnh thc bi vit, phự hp vi tụn ch, mc ớch hot ng ca Tp 48 Thụng thng, Ban Biờn Tp xem xột cỏc bi vit trờn cỏc phng din sau: (1) S phự hp ni dung bi vit vi tụn ch, mc ớch hot ng v lnh vc ca Tp chớ; (2) Th loi bi vit (u tiờn cỏc bi nghiờn cu khoa hc chuyờn sõu, s dng phng phỏp nh lng, cú hm lng khoa hc cao); (3) Tớnh khụng trựng lp; (4) úng gúp ca bi bỏo vo lý thuyt v thc tin Sau Ban Biờn ó thm nh v tớnh phự hp, bi vit s c gi ti Hi ng biờn (HBT) v cỏc chuyờn gia c mi thm nh, phn bin cht lng bi bỏo Khi HBT hoc chuyờn gia yờu cu tỏc gi sa cha, b sung Tp s gi li tỏc gi bi bỏo chnh sa Bi vit c u tiờn ng theo trỡnh t: Tớnh thi s; cht lng ni dung, kt qu phn bin Cỏc bi bỏo sau ó c biờn tp, b sung theo yờu cu (nu cú), c Ban Biờn la chn bi vit ng trờn tng s theo trỡnh t nờu mc II.2 trỡnh Tng Biờn quyt nh Khi cú s phờ duyt cui cựng ca Tng biờn bi bỏo s c ng trờn Tp Khoa hc vo cỏc s tng ng 3.2 Gii thiu cụng c Weka Weka [11] l mụi trng th nghim khai phỏ d liu cỏc nh khoa hc thuc trng i hc Waitako, NZ, xng v c s úng gúp ca rt nhiu nh nghiờn cu trờn th gii Weka l phn mm mó ngun m, cung cp cụng c trc quan v sinh ng cho mi ngi tỡm hiu v khai phỏ d liu Weka cũn cho phộp cỏc gii thut hc mi phỏt trin cú th tớch hp vo mụi trng ca nú H thng c vit bng java Nú chy c hu ht trờn tt c h iu hnh Weka cung cp nhiu gii thut khỏc vi nhiu phng thc cho quỏ trỡnh x lý c lng kt qu bng s cho bt kỡ mt d liu no Weka cung cp nhng tớnh nng chớnh sau: Bao gm nhiu cụng c a dng thay i d liu, x lý d liu, gii thut hc v phng phỏp ỏnh giỏ Giao din ngi dựng (trc quan húa d liu) Mụi trng so sỏnh cỏc gii thut hc Bn cú th x lý trc d liu, cho vo mt s , v phõn chia cỏc 49 lp kt qu v thc hin nú m khụng cn vit bt c mt chng trỡnh no Weka ly d liu t cỏc file cú nh dng *.csv, *.arff v nú c phỏt sinh t mt file hoc mt bng c s d liu Cỏch s dng Weka l thụng qua giao din ca nú 3.2.1 Cỏc phiờn bn Weka WEKA 3.0: book version: L cỏc phiờn bn th hin nhng chc nng c mụ t quyn sỏch Data Mining : Practical Machine Learning Tools and Techniques (2nd Edition ca Ian.Hwitten v Eibe Frank WEKA 3.2: GUI version : Graphical User Interfaces (Phiờn bn giao din ha) : Ngoi vic vit cỏc cõu lch cú th s dng giao din WEKA 3.3: Development version L phiờn bn phỏt trin vi nhiu ci tin hn so vi cỏc phiờn bn trc ú 3.2.2 Ca s chớnh Weka Hỡnh 3.1 Mn hỡnh chớnh phn mm Weka Explorer: S dng menu la chn Explorer ch s dng nhng b d liu va v nh Experimeter: Cho phộp ngi dựng thc hin nhng bi c bn ng dng phõn lp v k thut hi quy, vi nhng cụng vic cú giỏ tr, phng phỏp v tham s tt nht cho ó cho 50 Cho phộp bn t ng húa x lý, lm cho nú phõn lp v lc d dng vi nhng cỏch thit lp tham s khỏc trờn ton th bng d liu KnowledgeFlow: Cho phộp ngi dựng kộo th nhng chic hp tng trng cho cỏc gii thut v d liu kt ni chỳng li vi v a cu trỳc Simple CLI: S dng cõu lnh 3.2.3 Mn hỡnh Explorer Preprocess Nỳt m cỏc file cú sn trờn mỏy Nỳt m file t mỏy khỏc Nỳt c d liu t mt c s d liu S dng nỳt bn cú th c cỏc tin mu nhiu nh dng nh: nh dng ARFF, nh dng CSV, nh dng C4.5, Hỡnh 3.2 Mn hỡnh Preprocess ca chc nng Explorer 51 3.2.4 Mn hỡnh Explorer Classify Test Options l bng chn la ch kim th ỏnh giỏ hiu qu ca b phõn lp ó c xõy dng: Use training set: S dng hun luyn lm kim th Supplied test set: Ch nh d liu mi lm kim th Cross-validation: Kim th bng phng phỏp Cross-validation Percentage split: Chia d liu ban u thnh hun luyn v kim th theo t l % Classifier output l ni xem kt qu hun luyn: Correctly classified instances S mu phõn lp ỳng theo t l % Incorrectly classified instances S mu phõn lp sai theo t l % Confusion matrix Ma trn nhm ln Hỡnh 3.3 Mn hỡnh Classify ca chc nng Explorer 3.2.5 Cu trỳc d liờu mu Hin cú rt nhiu cu trỳc lu tr cỏc d liu mu c xut bi cỏc chuyờn gia v t chc nghiờn cu v mỏy hc chng hn nh nh dng *.CSV, *.Arff 52 Trong lun ny chn cu trỳc lu tr d liu d s dng v khai thỏc ú l nh dng *.CSV 3.2.5.1 Cu trỳc CSV L mt tin bn cú ti thiu dũng, dũng u l dũng cha cỏc tiờu v dũng th tr i l cỏc dũng d liu : Bng 3.1 Cu trỳc lu tr d liu mu dng CSV Header_1,Header_2,,Header_n Data_1,Data_2,,Data_n Vớ d: Tp d liu bi bỏo khoa hc c cho Bng 3.1 s c t chc nh sau : Id,Dat bai,Linh vuc,Phan bien 1,Phan bien 2,Tinh thoi su,Tinh trang,Quyet dinh 101,0,1,1,2,1,1,Dang 102,0,1,1,2,1,0,Dang 103,0,1,1,2,1,0,'Khong dang' 104,0,1,1,2,1,1,Dang 3.2.5.2 Cu trỳc Arff Bng 3.2 Cu trỳc lu tr d liu mu dng Arff % chỳ thớch @Relation @Attribute @Attribute @Attribute {Giỏ tr 1, Giỏ tr 2,} @Data Kiu thuc tớnh s l mt hai kiu sau: Real (kiu d liu liờn tc) hoc l Discrete (kiu d liu ri rc) Nu thuc tớnh kiu Discrete thỡ khai bỏo thuc tớnh s lit kờ y cỏc giỏ tr m thuc tớnh cú th nhn nh: @Attribute quyet-dinh {0, 1} Vớ d: Tp d liu bi bỏo khoa hc c cho Bng 3.1 s c t chc nh sau: @relation 'SVM-TCKH -64' 53 @attribute Id numeric @attribute 'Dat bai' numeric @attribute 'Linh vuc' numeric @attribute 'Phan bien 1' numeric @attribute 'Phan bien 2' numeric @attribute 'Tinh thoi su' numeric @attribute 'Tinh trang' numeric @attribute 'Quyet dinh' {Dang,'Khong dang'} @data 101,0,1,1,2,1,1,Dang 102,0,1,1,2,1,0,Dang 103,0,1,1,2,1,0,'Khong dang' 104,0,1,1,2,1,1,Dang 3.3 ng dng SVM vo bi toỏn chn bi ng Tp Khoa hc 3.3.1 Quy trỡnh gii bi toỏn bng SVM Quy trỡnh ny c thc hin da trờn phn mm Weka ti [10] giỳp chỳng ta gii bi toỏn phõn loi d liu, thụng thng ngi mi s dng SVM thng khụng t kt qu mong mun vỡ thng b qua mt s bc n gin nhng rt quan trng Trong phn ny, chỳng tụi gii thiu mt s bc n gin v thng cho kt qu kh quan Quy trỡnh chung cho bi toỏn gm bc sau: - Bin i d liu theo dng chun ca mt phn mm SVM - Th ngu nhiờn mt s hm nhõn vi cỏc tham s khỏc - Kim th S dng phng phỏp phõn lp SVM xõy dng mụ hỡnh d oỏn bi c ng Tp Khoa hc (Hỡnh 3.4) 54 Hun luyn D liu hun luyn Tin x lý Mụ hỡnh hun luyn SVM Trớch chn c trng D liu d oỏn D oỏn Kt qu d oỏn Hỡnh 3.4 Mụ hỡnh d oỏn bi ng - Tin x lý Phng phỏp SVM yờu cu mi d liu c biu din nh cỏc vect ca cỏc s thc Nh vy, nu d liu cú cỏc thuc tớnh khụng phi l s thỡ ta cn phi chuyn i d liu ú v dng s Trỏnh cỏc s quỏ ln, thng nờn co gión d liu chuyn v on [-1, 1] hoc [0, 1] - La chn cỏc thuc tớnh c trng kt qu quyt nh chn bi ng trờn t chớnh xỏc cao v khỏch quan thỡ chỳng ta da vo rt nhiu yu t khỏc Vỡ vy, vic a quyt nh chn bi ng phi da vo nhng tiờu nht nh ỏnh giỏ cht lng ca bi vit ú Da vo cỏc kt qu phõn tớch v ỏnh giỏ ca chỳng tụi cựng vi ý kin ca mt s chuyờn gia lnh vc vit bỏo khoa hc, chỳng tụi ó xỏc nh cỏc thụng tin nh hng n cht lng bi vit a quyt nh chn ng T ú, chỳng tụi tin hnh thu thp d liu v lu tr cỏc thụng tin theo cu trỳc Bng 3.1 55 Bng 3.3 Danh sỏch cỏc thuc tớnh c trng Thuc Tớnh STT Id t bi Min Giỏ Tr Mó s bi bỏo (1N) - 1: t bi - 0: Khụng t bi - 1: Khoa hc Giỏo dc Lnh vc - : Khoa hc T nhiờn v K thut Cụng ngh - 3: Khoa hc Xó hi Nhõn v Ngh thut - 1: ng ý ng khụng cn chnh sa Phn bin - 2: ng ý ng nhng cn chnh sa v b sung - 3: Khụng ng ý ng - 1: ng ý ng khụng cn chnh sa Phn bin - 2: ng ý ng nhng cn chnh sa v b sung - 3: Khụng ng ý ng - : Vn mi Tớnh thi s - : Vn c nhng cú tớnh sỏng to - : Vn C Tỡnh trng Quyt nh - 1: ó chnh sa - 0: Khụng chnh sa Thuc tớnh quyt nh ng hay Khụng ng - Hun luyn Giai on hun luyn d liu l rt quan trng gúp phn lm tng chớnh xỏc ca bi toỏn Trong quỏ trỡnh ci t thc nghim, chỳng tụi xõy dng mụ hỡnh hun luyn da vo hm nhõn tuyn tớnh vi cỏc thụng s khỏc - D oỏn Mụ hỡnh hun luyn SVM l kt qu ca giai on hun luyn d liu, cựng vi d liu d oỏn lm u vo cho chng trỡnh d oỏn Vic d oỏn s da vo mụ hỡnh hun luyn SVM s cho kt qu d oỏn ca mỡnh 56 3.3.2 Thc nghiờm v ỏnh giỏ Phn ny tin hnh thc nghim trờn b d liu cỏc bi vit B d liu gm 75 mu dựng hun luyn v 20 mu d oỏn u tiờn, thc nghim cỏc hm nhõn khỏc cho mụ hỡnh SVM vi tham s C = 10 (bng 3.4) Bng 3.4 Kt qu thc nghim vi cỏc hm nhõn khỏc Hun luyn Hm nhõn Kim th Thi gian chớnh xỏc Thi gian chớnh xỏc Tuyn tớnh 0.03 s 90.67% 0.2 s 89.47% a thc bc 0.04 s 84% 0.2s 89.47% RBF (=0.05) 0.02 s 84% 0.04 s 84.21% Kt qu thc nghim bng 3.4 cho thy s dng hm nhõn tuyn tớnh cho chớnh xỏc phõn lp cao nht Vớ d: Kt qu d oỏn bi c chn ng hay khụng ng 313,0,3,2,2,2,1,Dang,Dang 327,1,3,2,2,2,0,'Khong dang','Khong dang' 328,1,3,1,2,2,0,'Khong dang',Dang 329,1,3,2,1,1,1,Dang,Dang 330,1,3,2,1,2,0,'Khong dang','Khong dang' 331,1,3,2,2,2,0,'Khong dang',Dang 332,1,3,3,3,3,0,'Khong dang','Khong dang' 1,0,1,2,2,2,0,'Khong dang',? Tip theo, chỳng ta s dng hm nhõn tuyn tớnh thc hin hun luyn phõn lp d liu vi cỏc giỏ tr C khỏc (bng 3.5) Bng 3.5 Kt qu hun luyn vi hm nhõn tuyn tớnh C 0.01 0.05 0.08 10 20 Hun luyn Thi gian chớnh xỏc 0.04 s 52% 0.04 s 78.67% 0.01 s 80% 0.03 s 90.67% 0.01 s 90.67% Kim th Thi gian chớnh xỏc 0.03 s 57.89% 0.02s 78.95% 0.04 s 84.21% 0.02 s 89.47% 0.02 s 89.47% 57 Kt qu bng 3.5 cho thy cht lng ca mụ hỡnh hun luyn SVM ph thuc vo vic la chn giỏ tr ca tham s C Nu tham s C cng ln thỡ i tng phõn lp chớnh xỏc cao v t l li s cng thp Cui cựng, so sỏnh cỏc kt qu d oỏn theo mụ hỡnh SVM so vi mụ hỡnh cõy quyt nh trờn cựng mt b d liu (bng 3.6) Bng 3.6 So sỏnh kt qu d oỏn ca SVM vi mụ hỡnh cõy quyt nh Phõn lp Hun luyn Kim th Thi gian chớnh xỏc Thi gian chớnh xỏc J48 0.08 s 82.67% 0s 89.47% SVM 0.03 s 90.67% 0.02 s 89.47% Kt qu bng 3.6 cho thy kt qu hun luyn theo mụ hỡnh SVM cú chớnh xỏc cao hn so vi mụ hỡnh cõy quyt nh, nhiờn thi gian nhn dng li chm hn 3.4 Tiu kt chng Chng ny ó trỡnh by tng quan v quy trỡnh chn ng bi vit trờn chớ; gii thiu cụng c Weka v s dng cụng c ny vo phõn lp d oỏn d liu da vo k thut SVM; thc nghim v ỏnh giỏ kt qu 58 KT LUN V HNG PHT TRIN Kt lun Lun ny ó tỡm hiu tng quan v khai phỏ d liu v cỏc phng phỏp phõn lp d liu Bờn cnh ú cng ó tỡm hiu v s dng k thut phõn lp SVM c ỏnh giỏ l mt nhng phng phỏp phõn lp cú chớnh xỏc cao Trờn c s ú, lun xõy dng mụ hỡnh ng dng SVM ỏp dng vo bi toỏn d oỏn bi vit chn ng trờn C th lun t c cỏc kt qu sau: - Trỡnh by tng quan v khai phỏ d liu v cỏc phng phỏp phõn lp d liu - Tỡm hiu k thut phõn lp SVM, cỏc dng SVM - Tin hnh thc nghim v ỏnh giỏ kt qu d oỏn da trờn b d liu cú c Hng phỏt trin - Tip tc nghiờn cu v c s lý thuyt SVM - Xõy dng b d liu a dng hn - Xõy dng phn mm phõn loi chn bi ng da trờn k thut SVM 59 TI LIU THAM KHO Ian Witten, Eibe Frank Data Mining: Practical Machine Learning Tools and Techniques, Second Edition, Morgan Kaufmann Publishers, 2005 Vapnik V (1999) The Nature of Statistical Learning Theory Springer, 2nd edition B Schửlkopf, C.J.C Burgesand A.J Smola, Eds., Advances in Kernel Methods, Cambridge MA: MIT Press, 1999 Christopher J.C Burges (1998), A Tutorial on Support Vector Machines for Pattern Recognition, Proceedings of Int Conference on Data Mining and Knowledge Discovery, Vol 2, No 2, pp 121-167 Kristin P Bennett, Ayhan Demiriz (1998) Semi-Supervised Support Vector Machines NIPS 1998: 368-374 John Ross Quilan (1990), Decision trees and decision making, IEEE transactions on Man and Cybernetics, (20), pp 339-346 Joachims T (1997), Text categorization with Support Vector Machines: Learning with many relevant features, Technical Report 23, LS VIII, University of Dortmund Durgesh K Sriavastava, Lekha Bhambhu, Data classification using support vector machine, Journal of Theoretical and Applied Information Technology, 2005 2009 Jatit J Friedman., Another Approach to Polychotomous Classification, Technical report, Stanford university, US, 1996 10 JohnC.Platt, Fast Training of Support Vector Machines using Sequential Minimal Optimization, In Advences in Kernel Methods Support Vector Learning, pp.185-208, Cambridge, M.A, 1999, MIT Press 11 Website http://www.cs.waikato.ac.nz/ml/weka 60 51,50,49,46,45,40,36,35,30,24 MAU 1-23,25-29,31-34,37-39,41-44,47-48,52-59 td [...]... Machine) l mt phng phỏp phõn lp d liu mi C s ca SVM da trờn nn tng ca lý thuyt hc thng kờ v lý thuyt chiu Vapnik Chervonenkis (VC) ó c phỏt trin bi Vapnik v Chervonenkis [9,10] SVM ó c ỏp dng rt thnh cụng khụng ch trong cỏc lnh vc khai phỏ d liu m cũn trong lnh vc nhn dng nh: nhn dng vn bn, nhn dng ch vit tay, nhn dng mt ngi, phõn loi th rỏc in t í tng ca phng phỏp SVM l tỡm mt siờu phng tt nht m cú th phõn... Rm sao cho x , l im dng ca bi toỏn 29 2.3 SVM tuyn tớnh SVM thc cht l mt bi toỏn ti u Ban u SVM c xõy dng thụng qua bi toỏn phõn lp nh phõn, bi toỏn c phỏt biu nh sau: Cho tp d liu hun luyn D gm l mu: D = {(x1, y1), , (xl, yl)} vi xiRn, yi{-1, 1} l nhón ca xi, i {1,,l} Bi toỏn t ra l xỏc nh hm quyt nh f d oỏn nhón y khi ó bit x, trong ú x khụng nm trong tp mu, ngha l vi mt mu d liu mi xi thỡ cn...4 xỏc nh cỏc yu t nh hng n vic chn bi ng trờn tp chớ khoa hc, k thut khai phỏ d liu phi phỏt hin c nhng bi cú hm lng khoa hc, cú tớnh thi s v kt qu phn bin bi bỏo ú tt l nhng bi ú s cú kh nng c chn ng cao Trong quỏ trỡnh tip nhn v lu tr cỏc bi vit, ti liu, lờn n hng triu file hay bn ghi Vic qun lý v khai thỏc lng ln d liu ny l mt iu rt quan trng trong khõu qun lý v t chc tuyn chn 1.2 Quỏ trỡnh khai... cỏc lp: U1, U2, , Uk, t pi Ui , i 1, , k U k Entropy U pi log2 pi (trong ú pi l t l cỏc i tng i 1 trong T mang nhón lp i) T nh ngha Entropy trờn, chỳng ta thy rng : Entropy = 0 Nu tt c cỏc mu u thuc cựng mt lp Entropy = 1 Nu k=2 v |U1|=|U2| 0 < Entropy < 1 nu thuc cỏc trng hp khỏc Vớ d 1.2: Cho tp U trong Bng 1.1 cú 14 mu, trong ú cú 9 mu thuc lp Cú v 5 mu thuc lp Khụng khi ú ta cú : Entropy(U)=... giỏ tr trung bỡnh cỏc phn t trong nhúm í tng chớnh ca thut toỏn k means l tỡm cỏch phõn nhúm cỏc i tng ó cho vo k nhúm (k l s cỏc nhúm c xỏc nh trc) sao cho o khong cỏch Euclide gia i tng n phn t trung tõm ca nhúm l nh nht Khong cỏch Euclide Cho X, Y trong khụng gian Rm (m chiu) Khong cỏch Euclide gia X v Y, ký hiu d (X, Y) c tớnh nh sau: d X ,Y m x y i 1 i i 2 17 Trong ú X (x1, x2,, xm) Y (y1,... thut toỏn k-mean da vo tiờu chớ: Khong cỏch gia cỏc phn t trong nhúm l nh nht v khong cỏch gia 2 phn t khỏc nhúm l ln nht 1.4.3 Thut toỏn k lỏng ging gn nht Trong thut toỏn phõn lp ny, cỏc i tng d liu c phõn lp da trờn cỏc mu hun luyn gn nú nht Tp hun luyn l tp hp cỏc mu hun luyn ó c gỏn nhón v cú n thuc tớnh, cỏc mu hun luyn cú th c xem nh mt im trong khụng gian n chiu Khi cn phõn lp mt i tng d liu,... 0.715 Trong 3 lỏng ging gn nht thỡ ta thy cú 2 lp Setosa v 1 lp Versicolor Nờn ta kt lun X thuc vo lp Setosa 23 1.5 Tiu kt chng 1 Chng ny ó trỡnh by tng quan v khai phỏ d liu, ng dng ca khai phỏ d liu, v phng phỏp phõn lp d liu, c th : phng phỏp phõn lp d liu da vo cõy quyt nh, thut toỏn k-means v thut toỏn k-lỏng ging gn nht cựng vi cỏc vớ d minh ho 24 Chng 2 K THUT PHN LP D LIU SVM 2.1 Gii thiu SVM. .. cõy quyt nh trờn khụng cú s tham gia ca thuc tớnh Nhit trong thnh phn cõy, cỏc thuc tớnh nh vy c gi chung l cỏc thuc tớnh d tha bi vỡ cỏc thuc tớnh ny khụng nh hng n quỏ trỡnh xõy dng mụ hỡnh ca cõy Trong cỏc thut toỏn c s xõy dng cõy quyt nh ch chp nhn cỏc thuc tớnh tham gia vo quỏ trỡnh phõn lp cú giỏ tr ri rc, bao gm c thuc tớnh c dựng d oỏn trong quỏ trỡnh hc cng nh cỏc thuc tớnh c s dng kim tra... liờn tc Ta kớ hiu Sol M; f và Solloc M; f ln lt l tp cỏc nghim ton cc v nghim a phng ca bi toỏn P M; f Hin nhiờn, Sol M; f Solloc M; f 2.2.2 Dng chun ca bi toỏn ti u Thụng thng, trong (2.1) tp M c cho chi tit hn C th, M : x Rn gi x 0, i 1 m (2.3) vi gi : X R Lỳc ú (2.1) cú th vit li: f x min n xR P g1 , , gm ; f : g1 x 0 gm x 0 (2.4) trong ú, tp chp nhn c xỏc nh... lng thụng tin c tớnh theo cụng thc sau: Gain U , a Entropy U vVa Uv Entropy U v U trong ú Va l tp cỏc giỏ tr ca thuc tớnh a, Uv l mt lp trong phõn hoch ca U i vi thuc tớnh a, tng ng vi giỏ tr v Thuc tớnh c chn phõn nhỏnh l thuc tớnh cú gia lng thụng tin ln nht Vớ d 1.3: Tớnh gia lng thụng tin ca thuc tớnh m trong Bng 1.1 Tp_giỏ_tr ( m)={Cao, TB}, Khi ú : U = [7Cao, 7TB] 3 7 6 UTB [6Cú, 1Khụng] ... phõn lp SVM h tr a quyt nh chn bi ng khoa hc, tụi chn ti Tỡm hiu v k thut phõn lp SVM v ng dng vo viờc chn bi ng Tp Khoa hc lm ti nghiờn cu Mc ớch nghiờn cu Tỡm hiu k thut phõn lp SVM ng thi... s phng phỏp phõn lp d liu Chng 2: K thut phõn lp d liu SVM Chng ny gii thiu tng quan v SVM, k thut phõn lp SVM tuyn tớnh, SVM phi tuyn v SVM a lp Chng 3: Chng trỡnh mụ phng Chng ny gii thiu tng... ti Trong hot ng nghiờn cu khoa hc, cỏc bi bỏo khoa hc úng mt vai trũ rt quan trng Nú khụng ch l mt bn bỏo cỏo v mt cụng trỡnh nghiờn cu, m cũn l mt úng gúp cho kho tng tri thc ca th gii Khoa