Cæng cö thüc nghi»m

Một phần của tài liệu Phân tích quan điểm dựa theo khía cạnh và ứng dụng xác định sở thích của du khách về sản phẩm du lịch (Trang 33 - 39)

Thüc nghi»m

3.1.2 Cæng cö thüc nghi»m

Chóng tæi sß döng c¡c cæng cö sau ” ti‚n h nh thüc nghi»m: 1. vnTokenize 2

vnTokenizer [33] l mºt phƒn m•m t¡ch tł cho c¡c v«n b£n ti‚ng Vi»t. Nâ ph¥n o⁄n v«n b£n ti‚ng Vi»t th nh c¡c ìn và tł vüng (tł, t¶n, ng y th¡ng, con sŁ v c¡c bi”u thøc thæng th÷íng kh¡c) vîi º ch‰nh x¡c cao, kho£ng 96 98%.

1 https://www.tripadvisor.com.vn

vnTokenizer ÷æc vi‚t b‹ng Java. Phƒn m•m y¶u cƒu cƒn ph£i c i °t Java Runtime Environment 1.6+.

Phƒn m•m ÷æc sß döng tł dÆng l»nh ho°c l“p tr…nh thæng qua giao di»n l“p tr…nh øng döng API (Application Programming Interface). ” ch⁄y vnTokenizer, vîi h» i•u h nh MS Windows dòng b£n vnTokenizer.bat, Łi vîi c¡c h» i•u h nh Unix, Linux, MacOS X dòng ./vnTokenizer.sh. T“p tin ƒu v o ph£i l t“p v«n b£n thuƒn tóy ÷æc m¢ hâa UTF-8. K‚t qu£ ÷æc l÷u ‚n c¡c t“p v«n b£n thuƒn tóy ho°c c¡c t“p XML ìn gi£n v luæn ÷æc m¢ hâa UTF-8.

” t¡ch tł cıa mºt t“p tin, Łi vîi h» i•u h nh Windows, sß döng có ph¡p sau: vnTokenizer.bat I <inputFile> -o <outputFile>[options]. C¡c lüa chån (options) câ th”ˆl :

-xo ( ƒu ra xml) Ghi k‚t qu£ v o mºt t»p XML ìn gi£n thay v… ành

ˆd⁄ng v«n b£n m°c ành.

-nu (khæng câ g⁄ch d÷îi) Khæng nŁi c¡c ¥m ti‚t cıa mºt tł b‹ng kþ tü

ˆg⁄ch d÷îi m thay v o â l mºt kho£ng tr›ng.

-sd (nh“n d⁄ng c¥u) nh“n d⁄ng c¥u tr÷îc khi t¡ch tł. N‚u lüa chån n y ÷æc sß döng, ƒu ti¶n, vnTokenizer nh“n d⁄ng c¡c c¥u cıa t“p tin v sau â t¡ch c¡c c¥u ÷æc nh“n d⁄ng. Theo m°c ành, vnTokenizer xß lþ to n bº v«n b£n m khæng chia t¡ch th nh c¡c c¥u.

2. SV Mlight3

SV Mlight [14] l mºt cæng cö thüc thi thu“t to¡n SVM b‹ng C cıa Vapnik cho v§n • nh“n d⁄ng m¤u, hçi quy v håc x‚p lo⁄i. Phƒn m•m cÆn cung c§p c¡c ph÷ìng ph¡p ¡nh gi¡ hi»u su§t mºt c¡ch hi»u qu£.

C¡c °c tr÷ng ch‰nh cıa ch÷ìng tr…nh nh÷ sau:

Thu“t to¡n tŁi hâa nhanh;

ˆGi£i quy‚t v§n • ph¥n lîp v hçi quy;

Gi£i quy‚t c¡c v§n • x‚p h⁄ng (v‰ dö: håc c¡c chøc n«ng thu hçi trong cæng cö t…m ki‚m Striver);

T‰nh to¡n, ÷îc l÷æng t¿ l» lØi, º ch‰nh x¡c v º bao phı;

ˆXß lþ h ng ngh…n vector hØ træ;

Xß lþ h ng tr«m ngh…n v‰ dö hu§n luy»n.

SV Mlight bao gçm mºt module håc (svm-learn) v mºt module ph¥n lo⁄i (svm-classify). Modun ph¥n lo⁄i câ th” ÷æc sß döng ” ¡p döng mæ h…nh håc ÷æc cho c¡c v‰ dö mîi.

T»p ƒu v o chøa dœ li»u hu§n luy»n ¢ ÷æc vector hâa. DÆng ƒu ti¶n câ th” l mºt c¥u nh“n x†t v nâ s‡ bà bä qua n‚u chóng b›t ƒu b‹ng d§u 6=.MØi dÆng ti‚p theo l mºt vector ⁄i di»n cho mºt dœ li»u hu§n luy»n v câ ành d⁄ng nh÷ sau:

<dÆng> = <nh¢n>< °c tr÷ng>:<gi¡ trà>< °c tr÷ng>:<gi¡ trà>

. . . < °c tr÷ng>:<gi¡ trà> Chóng tæi c i °t c¡c thu“t to¡n:

Rót tr‰ch kh‰a c⁄nh, ph¥n ho⁄ch t“p D th nh k t“p con.

ˆvector hâa c¡c t“p con theo ành d⁄ng cıa thu“t to¡n SVM. T‰nh i”m x‚p h⁄ng sð th‰ch cıa du kh¡ch düa theo kh‰a c⁄nh.

3.1ˆ.3 C¡c b÷îc ti‚n h nh

B÷îc 1: Ti•n xß lþ dœ li»u: ƒu v o l c¡c c¥u nh“n x†t, ti‚n h nh lo⁄i bä c¡c tł dłng, c¡c k‰ hi»u °c bi»t v ti‚n h nh t¡ch tł v«n b£n b‹ng cæng cö

ˆvnTokenize.

B÷îc 2: X¡c ành kh‰a c⁄nh cıa thüc th”, x¡c ành t“p tł lªi v t“p tł chı • cho tłng kh‰a c⁄nh. T“p tł lªi v t“p tł chı • theo tłng kh‰a c⁄nh cıa s£n ph'm kh¡ch s⁄n ÷æc li»t k¶ trong B£ng 3.1.

Ngo i t“p tł lªi v t“p tł chı ” t÷ìng øng vîi mØi kh‰a c⁄nh, chóng tæi cÆn x¡c ành c¡c tł phı ành v ch¿ møc º quan i”m nh÷ sau:

Tł phı ành v ch¿ møc º: "Khæng", "ch÷a", "k†m", "‰t", "thi‚u", "r§t", "vła", "cüc", "cüc k…", "si¶u".

B£ng 3.1: T“p tł lªi v tł chı • theo kh‰a c⁄nh Kh‰a c⁄nh Gi¡ phÆng Và tr‰ PhÆng Dàch vö Nh¥n vi¶n ˆ

B÷îc 3: Rót tr‰ch kh‰a c⁄nh ak n‚u trong c¥u câ chøa c¡c tł lªi thuºc kh ‰a c⁄nh ak. Nhâm c¡c c¥u câ còng kh‰a c⁄nh l⁄i th nh mºt t“p. K‚t qu£ câ 5 t“p con c¡c c¥u nh“n x†t t÷ìng øng vîi tłng kh‰a c⁄nh. K‚t qu£ sau khi t¡ch t“p D th nh 5 t“p kh‰a c⁄nh: B£ng 3.2: K‚t qu£ rót tr‰ch kh‰a c⁄nh Kh‰a c⁄nh Gi¡ phÆng Và tr‰ PhÆng Dàch vö Nh¥n vi¶n

ˆB÷îc 4. Ti‚n h nh vector hâa c¡c t“p con theo ành d⁄ng cıa thu“t to¡n SVM

<dÆng> = <nh¢n quan i”m><tł chı •>:<gi¡ trà><tł chı •>:<gi¡ trà> . . . <tł chı •>:<gi¡ trà>

V‰ dö: "Nh¥n vi¶n th¥n thi»n v nhi»t t…nh, °c bi»t l qu£n lþ r§t chu ¡o, quan t¥m tîi kh¡ch h ng". C¥u n y s‡ ÷æc vector hâa düa tr¶n t“p tł chı • v t“p tł phı ành, ch¿ møc º nh÷ sau:

1 1:1 2:0 3:1 4:0 5:0 6:0 7:0 8:1 9:1 10:0 11:0 12:0 13:0 14:0 15:0 16:0 17:0 18:019:0 20:0 21:0 22:0 23:0 24:0 25:0 26:0 27:0 28:0 29:0 30:0 31:0 32:0 33:0 34:0 19:0 20:0 21:0 22:0 23:0 24:0 25:0 26:0 27:0 28:0 29:0 30:0 31:0 32:0 33:0 34:0 35:0

36:0 37:0 38:0 39:0

Vîi nh¢n quan i”m ÷æc g¡n l 1 v… c¥u n y thuºc quan i”m t‰ch cüc (G¡n nh¢n quan i”m l -1 n‚u c¥u thuºc quan i”m ti¶u cüc)

ˆ H…nh 3.1: ành d⁄ng dœ li»u trong cæng cö SV Mlight

B÷îc 5. Vîi mØi t“p con chia ng¤u nhi¶n th nh hai phƒn dœ li»u hu§n luy»n

v ki”m tra theo t¿ l» 7:3 (7 phƒn dœ li»u dòng ” l m t“p dœ li»u hu§n luy»n, 3 phƒn dœ li»u dòng ” l m t“p dœ li»u ¡nh gi¡). Vîi c¡c t“p hu§n luy»n ti‚n h nh håc bº ph¥n lîp quan i”m. Ta câ ÷æc mæ h…nh ph¥n lîp.

ˆB÷îc 6. Ti‚n h nh ph¥n lîp quan i”m tr¶n t“p dœ li»u ki”m tra. B÷îc 7: T‰nh i”m x‚p h⁄ng cho mØi kh‰a c⁄nh.

3.1.4 º o

Chóng tæi sß döng t“p dœ li»u ¡nh gi¡ (t“p dœ li»u ÷æc g¡n nh¢n thı cæng) ÷a v o bº ph¥n lîp ÷æc x¥y düng tr¶n t“p hu§n luy»n. Sau â t‰nh to¡n c¡c gi¡ trà: º ch‰nh x¡c(precision P ), º bao phı(recall R) v º o F1(Ti¶u chu'n ¡nh gi¡) ÷æc dòng ” ¡nh gi¡ ch§t l÷æng cıa thu“t to¡n ph¥n lîp.

Trong â c¡c gi¡ trà: P , R, F1 ÷æc t‰nh nh÷ sau:

P =

R =

F 1 =

Trong â:

truepositive: SŁ c¥u ÷æc ph¥n lo⁄i óng v o lîp t‰ch cüc.

ˆf alsepositive: SŁ c¥u ÷æc ph¥n lo⁄i sai v o lîp t‰ch cüc. f alsenegative: SŁ c¥u ÷æc ph¥n lo⁄i sai v o lîp ti¶u cüc.

V‰ dö, bº ph¥n lîp nh“n d⁄ng ÷æc 10 c¥u l thuºc ph¥n lîp t‰ch cüc trong mºt bº dœ li»u ¡nh gi¡ gçm 12 c¥u thuºc ph¥n lîp t‰ch cüc v cÆn l⁄i l c¡c c¥u thuºc ph¥n lîp ti¶u cüc. N‚u trong 10 c¥u bº ph¥n lîp ¢ nh“n d⁄ng l thuºc ph¥n lîp t‰ch cüc câ 9 c¥u óng v 1 c¥u nh“n d⁄ng sai th… ta câ:

P = 9=10 = 90%

ˆR = 9=12 = 75%

Một phần của tài liệu Phân tích quan điểm dựa theo khía cạnh và ứng dụng xác định sở thích của du khách về sản phẩm du lịch (Trang 33 - 39)

Tải bản đầy đủ (DOCX)

(48 trang)
w