Thüc nghi»m
3.1.2 Cæng cö thüc nghi»m
Chóng tæi sß döng c¡c cæng cö sau ” ti‚n h nh thüc nghi»m: 1. vnTokenize 2
vnTokenizer [33] l mºt phƒn m•m t¡ch tł cho c¡c v«n b£n ti‚ng Vi»t. Nâ ph¥n o⁄n v«n b£n ti‚ng Vi»t th nh c¡c ìn và tł vüng (tł, t¶n, ng y th¡ng, con sŁ v c¡c bi”u thøc thæng th÷íng kh¡c) vîi º ch‰nh x¡c cao, kho£ng 96 98%.
1 https://www.tripadvisor.com.vn
vnTokenizer ÷æc vi‚t b‹ng Java. Phƒn m•m y¶u cƒu cƒn ph£i c i °t Java Runtime Environment 1.6+.
Phƒn m•m ÷æc sß döng tł dÆng l»nh ho°c l“p tr…nh thæng qua giao di»n l“p tr…nh øng döng API (Application Programming Interface). ” ch⁄y vnTokenizer, vîi h» i•u h nh MS Windows dòng b£n vnTokenizer.bat, Łi vîi c¡c h» i•u h nh Unix, Linux, MacOS X dòng ./vnTokenizer.sh. T“p tin ƒu v o ph£i l t“p v«n b£n thuƒn tóy ÷æc m¢ hâa UTF-8. K‚t qu£ ÷æc l÷u ‚n c¡c t“p v«n b£n thuƒn tóy ho°c c¡c t“p XML ìn gi£n v luæn ÷æc m¢ hâa UTF-8.
” t¡ch tł cıa mºt t“p tin, Łi vîi h» i•u h nh Windows, sß döng có ph¡p sau: vnTokenizer.bat I <inputFile> -o <outputFile>[options]. C¡c lüa chån (options) câ th”l :
-xo ( ƒu ra xml) Ghi k‚t qu£ v o mºt t»p XML ìn gi£n thay v… ành
d⁄ng v«n b£n m°c ành.
-nu (khæng câ g⁄ch d÷îi) Khæng nŁi c¡c ¥m ti‚t cıa mºt tł b‹ng kþ tü
g⁄ch d÷îi m thay v o â l mºt kho£ng tr›ng.
-sd (nh“n d⁄ng c¥u) nh“n d⁄ng c¥u tr÷îc khi t¡ch tł. N‚u lüa chån n y ÷æc sß döng, ƒu ti¶n, vnTokenizer nh“n d⁄ng c¡c c¥u cıa t“p tin v sau â t¡ch c¡c c¥u ÷æc nh“n d⁄ng. Theo m°c ành, vnTokenizer xß lþ to n bº v«n b£n m khæng chia t¡ch th nh c¡c c¥u.
2. SV Mlight3
SV Mlight [14] l mºt cæng cö thüc thi thu“t to¡n SVM b‹ng C cıa Vapnik cho v§n • nh“n d⁄ng m¤u, hçi quy v håc x‚p lo⁄i. Phƒn m•m cÆn cung c§p c¡c ph÷ìng ph¡p ¡nh gi¡ hi»u su§t mºt c¡ch hi»u qu£.
C¡c °c tr÷ng ch‰nh cıa ch÷ìng tr…nh nh÷ sau:
Thu“t to¡n tŁi hâa nhanh;
Gi£i quy‚t v§n • ph¥n lîp v hçi quy;
Gi£i quy‚t c¡c v§n • x‚p h⁄ng (v‰ dö: håc c¡c chøc n«ng thu hçi trong cæng cö t…m ki‚m Striver);
T‰nh to¡n, ÷îc l÷æng t¿ l» lØi, º ch‰nh x¡c v º bao phı;
Xß lþ h ng ngh…n vector hØ træ;
Xß lþ h ng tr«m ngh…n v‰ dö hu§n luy»n.
SV Mlight bao gçm mºt module håc (svm-learn) v mºt module ph¥n lo⁄i (svm-classify). Modun ph¥n lo⁄i câ th” ÷æc sß döng ” ¡p döng mæ h…nh håc ÷æc cho c¡c v‰ dö mîi.
T»p ƒu v o chøa dœ li»u hu§n luy»n ¢ ÷æc vector hâa. DÆng ƒu ti¶n câ th” l mºt c¥u nh“n x†t v nâ s‡ bà bä qua n‚u chóng b›t ƒu b‹ng d§u 6=.MØi dÆng ti‚p theo l mºt vector ⁄i di»n cho mºt dœ li»u hu§n luy»n v câ ành d⁄ng nh÷ sau:
<dÆng> = <nh¢n>< °c tr÷ng>:<gi¡ trà>< °c tr÷ng>:<gi¡ trà>
. . . < °c tr÷ng>:<gi¡ trà> Chóng tæi c i °t c¡c thu“t to¡n:
Rót tr‰ch kh‰a c⁄nh, ph¥n ho⁄ch t“p D th nh k t“p con.
vector hâa c¡c t“p con theo ành d⁄ng cıa thu“t to¡n SVM. T‰nh i”m x‚p h⁄ng sð th‰ch cıa du kh¡ch düa theo kh‰a c⁄nh.
3.1.3 C¡c b÷îc ti‚n h nh
B÷îc 1: Ti•n xß lþ dœ li»u: ƒu v o l c¡c c¥u nh“n x†t, ti‚n h nh lo⁄i bä c¡c tł dłng, c¡c k‰ hi»u °c bi»t v ti‚n h nh t¡ch tł v«n b£n b‹ng cæng cö
vnTokenize.
B÷îc 2: X¡c ành kh‰a c⁄nh cıa thüc th”, x¡c ành t“p tł lªi v t“p tł chı • cho tłng kh‰a c⁄nh. T“p tł lªi v t“p tł chı • theo tłng kh‰a c⁄nh cıa s£n ph'm kh¡ch s⁄n ÷æc li»t k¶ trong B£ng 3.1.
Ngo i t“p tł lªi v t“p tł chı ” t÷ìng øng vîi mØi kh‰a c⁄nh, chóng tæi cÆn x¡c ành c¡c tł phı ành v ch¿ møc º quan i”m nh÷ sau:
Tł phı ành v ch¿ møc º: "Khæng", "ch÷a", "k†m", "‰t", "thi‚u", "r§t", "vła", "cüc", "cüc k…", "si¶u".
B£ng 3.1: T“p tł lªi v tł chı • theo kh‰a c⁄nh Kh‰a c⁄nh Gi¡ phÆng Và tr‰ PhÆng Dàch vö Nh¥n vi¶n
B÷îc 3: Rót tr‰ch kh‰a c⁄nh ak n‚u trong c¥u câ chøa c¡c tł lªi thuºc kh ‰a c⁄nh ak. Nhâm c¡c c¥u câ còng kh‰a c⁄nh l⁄i th nh mºt t“p. K‚t qu£ câ 5 t“p con c¡c c¥u nh“n x†t t÷ìng øng vîi tłng kh‰a c⁄nh. K‚t qu£ sau khi t¡ch t“p D th nh 5 t“p kh‰a c⁄nh: B£ng 3.2: K‚t qu£ rót tr‰ch kh‰a c⁄nh Kh‰a c⁄nh Gi¡ phÆng Và tr‰ PhÆng Dàch vö Nh¥n vi¶n
B÷îc 4. Ti‚n h nh vector hâa c¡c t“p con theo ành d⁄ng cıa thu“t to¡n SVM
<dÆng> = <nh¢n quan i”m><tł chı •>:<gi¡ trà><tł chı •>:<gi¡ trà> . . . <tł chı •>:<gi¡ trà>
V‰ dö: "Nh¥n vi¶n th¥n thi»n v nhi»t t…nh, °c bi»t l qu£n lþ r§t chu ¡o, quan t¥m tîi kh¡ch h ng". C¥u n y s‡ ÷æc vector hâa düa tr¶n t“p tł chı • v t“p tł phı ành, ch¿ møc º nh÷ sau:
1 1:1 2:0 3:1 4:0 5:0 6:0 7:0 8:1 9:1 10:0 11:0 12:0 13:0 14:0 15:0 16:0 17:0 18:019:0 20:0 21:0 22:0 23:0 24:0 25:0 26:0 27:0 28:0 29:0 30:0 31:0 32:0 33:0 34:0 19:0 20:0 21:0 22:0 23:0 24:0 25:0 26:0 27:0 28:0 29:0 30:0 31:0 32:0 33:0 34:0 35:0
36:0 37:0 38:0 39:0
Vîi nh¢n quan i”m ÷æc g¡n l 1 v… c¥u n y thuºc quan i”m t‰ch cüc (G¡n nh¢n quan i”m l -1 n‚u c¥u thuºc quan i”m ti¶u cüc)
H…nh 3.1: ành d⁄ng dœ li»u trong cæng cö SV Mlight
B÷îc 5. Vîi mØi t“p con chia ng¤u nhi¶n th nh hai phƒn dœ li»u hu§n luy»n
v ki”m tra theo t¿ l» 7:3 (7 phƒn dœ li»u dòng ” l m t“p dœ li»u hu§n luy»n, 3 phƒn dœ li»u dòng ” l m t“p dœ li»u ¡nh gi¡). Vîi c¡c t“p hu§n luy»n ti‚n h nh håc bº ph¥n lîp quan i”m. Ta câ ÷æc mæ h…nh ph¥n lîp.
B÷îc 6. Ti‚n h nh ph¥n lîp quan i”m tr¶n t“p dœ li»u ki”m tra. B÷îc 7: T‰nh i”m x‚p h⁄ng cho mØi kh‰a c⁄nh.
3.1.4 º o
Chóng tæi sß döng t“p dœ li»u ¡nh gi¡ (t“p dœ li»u ÷æc g¡n nh¢n thı cæng) ÷a v o bº ph¥n lîp ÷æc x¥y düng tr¶n t“p hu§n luy»n. Sau â t‰nh to¡n c¡c gi¡ trà: º ch‰nh x¡c(precision P ), º bao phı(recall R) v º o F1(Ti¶u chu'n ¡nh gi¡) ÷æc dòng ” ¡nh gi¡ ch§t l÷æng cıa thu“t to¡n ph¥n lîp.
Trong â c¡c gi¡ trà: P , R, F1 ÷æc t‰nh nh÷ sau:
P =
R =
F 1 =
Trong â:
truepositive: SŁ c¥u ÷æc ph¥n lo⁄i óng v o lîp t‰ch cüc.
f alsepositive: SŁ c¥u ÷æc ph¥n lo⁄i sai v o lîp t‰ch cüc. f alsenegative: SŁ c¥u ÷æc ph¥n lo⁄i sai v o lîp ti¶u cüc.
V‰ dö, bº ph¥n lîp nh“n d⁄ng ÷æc 10 c¥u l thuºc ph¥n lîp t‰ch cüc trong mºt bº dœ li»u ¡nh gi¡ gçm 12 c¥u thuºc ph¥n lîp t‰ch cüc v cÆn l⁄i l c¡c c¥u thuºc ph¥n lîp ti¶u cüc. N‚u trong 10 c¥u bº ph¥n lîp ¢ nh“n d⁄ng l thuºc ph¥n lîp t‰ch cüc câ 9 c¥u óng v 1 c¥u nh“n d⁄ng sai th… ta câ:
P = 9=10 = 90%
R = 9=12 = 75%