Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 174 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
174
Dung lượng
3,88 MB
Nội dung
I H C QU C GIA TP.HCM TR NG I H C BÁCH KHOA NGUY N QUANG CHÂU MÔ HÌNH RÚT TRÍCH C MT C TR NG NG NGH A TRONG TI NG VI T Chuyên ngành : Khoa h c máy tính Mã s : 60.48.01.01 LU N ÁN TI N S K THU T NG IH NG D N KHOA H C: TP HCM - N M 2011 T I I H C QU C GIA TP.HCM TR NG I H C BÁCH KHOA NGUY N QUANG CHÂU MÔ HÌNH RÚT TRÍCH C MT C TR NG NG NGH A TRONG TI NG VI T Chuyên ngành : Khoa h c máy tính Mã s : 62.48.01.01 LU N ÁN TI N S K THU T NG IH NG D N KHOA H C: TP HCM - N M 2011 T I Mô hình rút trích c m t c tr ng ng ngh a ti ng Vi t L I CAM OAN Tôi cam oan r ng n i dung c a lu n án k t qu nghiên c u c a b n thân T t c nh ng tham kh o t nghiên c u liên quan i u c nêu rõ ngu n g c m t cách rõ ràng t danh m c tài li u tham kh o c p c ph n sau c a lu n án Nh ng óng góp lu n án k t qu nghiên c u c a tác gi án ch a ã c công b báo c a tác gi ph n sau c a lu n c công b b t k công trình khoa h c khác Tác gi lu n án Nguy n Quang Châu Mô hình rút trích c m t c tr ng ng ngh a ti ng Vi t L IC M N Trong trình hoàn thành lu n án này, ã c s t o giúp c th y cô n i t n tình, c quan n i công tác t o m i i u ki n thu n l i b n bè gia ình th ng xuyên ng viên khích l Lu n án không th hoàn thành t t n u s h ng d n s giúp th y h quý báu c a PGS.TS Phan Th T ng d n mà mu n Tôi c#ng mu n t n tình i, Ng i c bày t! lòng bi t n sâu s"c nh t c bày t! lòng bi t n i v i t p th th y cô Khoa CNTT- $ i h c Bách Khoa TP H Chí Minh ã giúp t o i u ki n cho r t nhi u trình h c t p nghiên c u Khoa; c m n Phòng qu n lý sau $ i h c v s h% tr th t c hoàn thành lu n án Tôi chân thành c m n Tr ng $ i h c Công Nghi p TP H Chí Minh, &c bi t khoa CNTT, ã h% tr t o m i i u ki n thu n l i cho trình hoàn thành khóa h c NCS Cu i cùng, c m n t t c b n bè ng ki n thi t th c có nh ng l i i thân ã góp nhi u ý ng viên khích l quý báu giúp hoàn thành t t lu n án Tác gi lu n án Nguy n Quang Châu Mô hình rút trích c m t c tr ng ng ngh a ti ng Vi t TÓM T T World Wide Web (WWW) phát tri n nhanh chóng v i ngu n tài nguyên thông tin ngày phong phú, nhu c u khai thác ngu n thông tin c a ng ng i s' d ng ngày tr nên c p thi t i Vi c khai thác iv i c th c hi n thông qua ph truy h i thông tin (Information Retrieval), tóm l i s ng c a ng th c nh c v n b n (Text Summarization), rút trích thông tin (Information Extraction), M t v n c t lõi c a h th ng khai thác xác rút trích xác c m t v)n b n V n nh &c tr ng ng ngh(a (CT$TNN) c a câu m i quan tâm c a nhà ngôn ng h c, c#ng nh nhà khoa h c l(nh v c x' lý ngôn ng t nhiên b ng máy tính * Vi t Nam, mong mu n có c mt c m t h th ng rút trích &c tr ng ng ngh(a c a câu v)n b n ti ng Vi t, nh m áp ng nhu c u ang b b! ng! h th ng khai thác thông tin $i u ã òi h!i thúc +y vi c nghiên c u phát tri n mô hình rút trích c m t &c tr ng ng ngh(a ti ng Vi t (Vietnamese Key Phrase Information Extraction Model - ViKE) Lu n án nghiên c u rút trích c m t &c tr ng ng ngh(a (CT$TNN) c a câu n ti ng Vi t V i kh o sát t n su t xu t hi n c a c m v)n b n ti ng Vi t, lu n án ã t p trung nghiên c u vi c xác ngh(a (CDT$TNN) cho câu nh rút trích c m danh t &c tr ng ng n ti ng Vi t Lu n án trình bày mô hình ViKE ViKE mô hình k t h p hai h ti p c n chính: (1) h danh t ng ngôn ng h c hay h ng ti p c n xác &c tr ng ng ngh(a, c th s' d ng ph lo i Ontology c a Wikipedia; (2) h &c tr ng ng ngh(a hay h nh c m ng pháp so trùng th ng ti p c n rút trích c m danh t ng ti p c n h c máy, c th s' d ng ph pháp Máy vect h tr (Support Vector Machines – SVMs) Lu n án tính ch t &c tr ng cho ph ng pháp xác ng ngh(a dùng SVMs nh m n"m b"t ng nh c m danh t ng xu t &c tr ng c v trí lô-gích &c tính hình Mô hình rút trích c m t c tr ng ng ngh a ti ng Vi t thái t,ng quát c a CDT$TNN: (a) v trí t câu; (b) nhãn t lo i; (c) c u trúc c m danh t ; (d) t quan h gi a c m danh t $ ánh giá hi u su t h th ng c a mô hình nghi m t p câu c ch n l c t xu t, lu n án th c ngu n ng li u TREC07, TREC06, TREC02 (http://trec.nist.gov/data/) www.lexxe.com (Qiao, 2010) T p câu ti ng Anh c H i Nghiên C u D ch Thu t Tp H Chí Minh d ch sang t p câu ti ng Vi t t ng nh n di n c m danh t công K t qu mô hình ViKE i u hòa l n l xác, y ng ng c b n chuyên gia ngôn &c tr ng ng ngh(a b ng ph t xác, trung bình t 89,52% , 87,63% 88,57% Nh v y v i và mô hình theo h trung bình i u hòa c a mô hình ViKE ã c i thi n hi u su t c a hai mô hình thành ph n (mô hình theo h m c tiêu y ng pháp th ng ti p c n xác c a lu n án ng ti p c n rút trích nh CDT$TNN) áp ng c Mô hình rút trích c m t c tr ng ng ngh a ti ng Vi t M CL C DANH M C CÁC B NG DANH M C CÁC HÌNH 10 Ch ng GI I THI U 11 1.1 M c tiêu ph m vi 11 1.2 Nh ng óng góp c a lu n án 16 1.3 C u trúc c a lu n án 17 Ch ng C S LÝ THUY T NGÔN NG TI NG VI T 19 2.1 Gi i thi u 19 2.2 C s lý thuy t 20 2.3 K t ch Ch ng .29 ng T NG QUAN CÁC MÔ HÌNH RÚT TRÍCH C M T C TR NG 31 3.1 Gi i thi u 31 3.2 Các nghiên c u liên quan 32 3.3 S t 3.4 Ph ng quan gi a h nh CT$T .37 ng pháp ti p c n c a lu n án 38 3.5 K t ch Ch ng ti p c n rút trích xác ng .52 ng MÔ HÌNH XÁC NH C M T TRONG TI NG VI T (ViKEa) -PH C TR NG NG NGH A NG PHÁP SO TRÙNG M U D A TRÊN ONTOLOGY 54 4.1 Gi i thi u 54 4.2 Rút trích c m danh t d n…………………… ……………………… .55 4.3 Công o n xác nh c m danh t &c tr ng ng ngh(a d a ontology……………………………………………………………………………………………………… 62 4.4 K t ch Ch ng ……………………………………………………………… ………………………….73 ng MÔ HÌNH RÚT TRÍCH C M T TRONG TI NG VI T (ViKEe) – PH C TR NG NG NGH A NG PHÁP H C MÁY 75 5.1 Gi i thi u 75 5.2 Ph ng pháp Support Vector Machines 77 Mô hình rút trích c m t c tr ng ng ngh a ti ng Vi t 5.3 Phát bi u toán rút trích CDT$TNN ti ng Vi t 89 5.4 Mô hình ViKEe 90 5.5 K t qu th c nghi m .100 5.6 K t ch Ch ng 101 ng MÔ HÌNH RÚT TRÍCH C M T TRONG TI NG VI T (ViKE) - K T H P H TRÍCH VÀ H NG TI P C N XÁC C TR NG NG NGH A NG TI P C N RÚT NH 102 6.1 Gi i thi u .102 6.2 Mô hình rút trích CDT$TNN ti ng Vi t 103 6.3 H th ng rút trích CDT$TNN ti ng Vi t 105 6.4 $ánh giá hi u su t rút trích CDT$TNN 107 6.5 K t ch Ch ng 112 ng T NG K T 114 7.1 Gi i thi u 114 7.2 Tóm t"t k t qu 7.3 H t c 115 ng phát tri n 116 7.4 K t lu n 117 CÁC BÀI BÁO C A TÁC GI LIÊN QUAN CÁC CÔNG TRÌNH NCKH LIÊN QUAN N LU N ÁN ……119 N LU N ÁN……… 121 TÀI LI U THAM KH O .122 PH L C……………………………………………………………………………….……………….i Mô hình rút trích c m t c tr ng ng ngh a ti ng Vi t DANH M C CÁC T STT T vi t t t BaseNP CT$TNN CDT$TNN VI T T T Di n gi i ti ng Anh Di n gi i ti ng Vi t Base-Noun Phrase C m danh t c s Key phrase C mt Key noun phrase C m danh t &c tr ng ng ngh(a &c tr ng ng ngh(a ViKEa Mô hình rút trích c m danh t Vietnamese Key phrase &c tr ng ng ngh(a ti ng Extraction for Assigment Vi t theo h ng ti p c n xác approach nh CT$TNN ViKEe Mô hình rút trích c m danh t Vietnamese Key phrase &c tr ng ng ngh(a ti ng Extraction for Extraction Vi t theo h ng ti p c n rút approach trích CT$TNN ViKE Vietnamese Key phrase Extraction Mô hình rút trích c m danh t &c tr ng ng ngh(a ti ng Vi t ViO Vietnamese Ontology Ontology ti ng Vi t ViWiki Vietnamese Wikipedia Bách khoa toàn th tr c n ti ng Vi t POS Part-Of-Speech Nhãn t lo i 10 POS Tagging Part-Of- Speech Tagging Gán nhãn t lo i 11 NP Chunking Noun Phrase Chunking 12 IR 13 G m c m danh t Information retrieval Truy h i thông tin ViDic Vietnamese Dictionary T 14 SVMs Support Vector Machines Máy vect h% tr 15 SMO Sequential Minimal Optimisation T i u hóa c c ti u tu n t 16 Vietnamese Word vnWordSegmentation Segmentation 17 vnPOSTagger Vietnamese Part-OfSpeech Tagger i n ti ng Vi t Phân o n t ti ng Vi t Công c gán nhãn t Vi t lo i ti ng Mô hình rút trích c m t 18 NLP c tr ng ng ngh a ti ng Vi t Natural Language Processing X' lý ngôn ng t nhiên Text REtrieval Conference H i ngh v truy h i thông tin v)n b n c t, ch c l n u tiên vào n)m 1992 b i vi n NIST B Qu c Phòng M- 19 TREC 20 1vs1 One vs One K- thu t so sánh M t-M t 21 1vsR One vs Rest K- thu t so sánh M t-Ph n d l i 22 LM Linear Model Mô hình n tính 23 CSDL Database C s d li u 24 JAPE Java Annotation Patterns B x' lý v)n ph m JAPE Engine 25 GATE General Architecture for Ki n trúc x' lý v)n b n Text Engineering 26 IOB IOB Nhãn IOB 27 CS Co-worker C ng s Mô hình rút trích c m t 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 c tr ng ng ngh a ti ng Vi t Mbeki c b u làm t"ng th ng Nam Phi? ng i l p ng i da en l n nh t t i th i i m b u Thabo Mbeki Thabo Mbeki tu"i c b u làm t"ng th ng? ng c a Mbeki giành c gh cu c b u c ? ng nào? Chicago Marathon 1999 c di-n vào ngày nào? Chicago Marathon 1999 có chi u dài bao nhiêu? V n ng viên nam giành chi n th'ng t i gi i Chicago Marathon 1999? V n ng viên n giành chi n th'ng t i gi i Chicago Marathon 1999? Th i gian o t gi i c a v n ng viên nam t i gi i Chicago Marathon 1999 bao nhiêu? Th i gian o t gi i c a v n ng viên n t i gi i Chicago Marathon 1999 bao nhiêu? Li t kê tên qu c gia tham d gi i Chicago Marathon 1999 Gi i ua chó kéo Iditarod c b't u t thành ph nào? Gi i ua chó kéo Iditarod k t thúc thành ph nào? Gi i ua chó kéo Iditarod di-n vào tháng nào? Ai ng i sáng l p gi i ua chó kéo Iditarod? Cho bi t tên nh ng ng i ã giành gi i c a cu c ua chó kéo Iditarod Cu c ua chó kéo Iditarod có chi u dài d m? Th i gian k2 l c ã giành chi n th'ng c a gi i ua chó kéo Iditarod bao nhiêu? Công ty ã tài tr cho gi i ua chó kéo Iditarod? T i Ai C p ã phát hi n kim t tháp? Ba Kim T tháp n m thành ph nào? Tên c a ba i Kim T tháp gì? Kim t tháp l n nh t ã t ng c xây d ng? Kim t tháp l n nh t có chi u cao bao nhiêu? Ba i Kim T tháp ã tu"i? Tên c a kim t tháp khác c a Ai C p Sông Amazon b't ngu n t qu c gia nào? C a sông Amazon qu c gia nào? Sông Amazon có chi u dài bao nhiêu? Tên c a nhánh c a sông Amazon Sông Amazon b't ngu n t dãy núi nào? Tên u ngu n c a sông Amazon gì? Bang c a Hoa K s n xu t nhi u nh t trái b ? Hàm l ng ch t béo trái b bao nhiêu? Trái b s n xu t nh ng s n ph0m th ng m i nào? Nh ng qu c gia s n xu t trái b ? Trái b c tr ng l n u tiên t i Hoa K vào n m nào? Loài sâu b$ e i v i b ? Tên c a quy n sách c a tác gi gì? Ai ã xu t b n sách c a bà? Nhà xu t b n ã ph i tr cho bà ti n có b n th o u tiên c a bà? Bà b't u vi t quy n sách u tiên vào n m nào? Nh ti u thuy t mà bà ã nh n c danh hi u Quy n sách dành cho tr1 em n m c a Whitbread n m 2000? Rowling sinh thành ph nào? Rowling sinh s ng thành ph vào n m 2000? Công ty H.J Heinz có tr s t i thành ph nào? Ai ã tr thành CEO (Giám c i u hành) c a công ty n m 1998? Ai ng i th a h ng c c a công ty ch t m t tai n n hàng không? N c s t cà chua n m Heinz c gi i thi u vào n m nào? xxvi Mô hình rút trích c m t 328 329 330 331 332 333 334 335 336 337 338 339 340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 c tr ng ng ngh a ti ng Vi t B nh ã c Heinz qu ng cáo n c s t cà chua góp ph n ng n ng a? Nh ng công ty th c ph0m ã c Heinz mua? Liên oàn Chèo thuy n Qu c t c bi t n b ng ch vi t t't nào? Cúp Th gi i l n u tiên c a Liên oàn Chèo thuy n Qu c t c di-n vào n m nào? Qu c gia ã giành t"ng c ng b n danh hi u Cúp Th gi i c a Liên oàn Chèo thuy n Qu c t l n u tiên? S ki n Cúp Th gi i c a Liên oàn Chèo thuy n Qu c t c di-n t i nh ng thành ph nào? Ai ã c b u làm ch t#ch c a Liên oàn Chèo thuy n Qu c t n m 1989? i h i th thao Olympic 2000 t i Sydney Australia có thuy n tham gia? ETA ch vi t t't c a ch gì? Kho ng ng i ã b# ETA gi t? M t s nhóm ly khai X Basque có tên gì? ETA ã tuyên b ng ng b'n vào ngày n m 1998? Ng ng b'n b't u vào ngày nào? Vào ngày ETA thông báo r ng ng ng b'n có th ch m d t? Ch ng trình L ng th c th gi i (WFP) t tr s thành ph nào? WFP c thành l p vào n m nào? Ai giám c u tiên c a WFP? Ai giám c c a WFP vào n m 1997? WFP m t c quan c a t" ch c nào? N m 2000, WFP ã phân phát l ng th c cho qu c gia? Nh ng qu c gia ã tài tr cho WFP? Vòng thi u C vua qu c t World Chess Super ã di-n t i âu n m 1996? Vòng thi u k t thúc nào? Có k th tham gia? Kasparov ã ánh b i vòng thi u này? M c ích c a vòng thi u nh m góp ph n th ng nh t nh ng t" ch c c vua th gi i nào? Tuy n c c l p c a ông Timor di-n vào ngày nào? Phi u b u ng h c l p chi m ph n tr m? ông Timor ly khai t qu c gia nào? Qu c gia ã xâm l c ông Timor vào n m nào? L c l ng Qu c t t i ông Timor (INTERFET) ã vào ông Timor vào ngày nào? Nh ng qu c gia ã óng góp quân tham gia INTERFET? INTERFET ã chuy n giao ki m soát cho UNTAET (C quan Lâm th i c a Liên H p qu c t i ông Timor) vào ngày nào? Euro c thông qua vào ngày nào? Ban u có qu c gia Hi p h i Châu Âu thông qua Euro? Ban u có qu c gia Hi p h i Châu Âu l a ch$n không thông qua Euro? Hy L p c ng ý ch p nh n Euro vào ngày nào? Vào n m Euro d ki n hoàn toàn thay th ng ti n qu c gia? Trong cu c tr ng c u dân ý n m 2000 t i an M ch, t( l ng i b/ phi u ph n i ch p nh n Euro ph n tr m? Con v t ng v t có vú u tiên c nhân b n vô tính thành công t t bào tr ng thành? Con v t c sinh vào n m nào? Vi n khoa h$c ã th c hi n trình nhân b n vô tính này? Nh ng ng v t có vú khác ã c nhân bán vô tính t t bào tr ng thành? Nh ng qu c gia ã ban hành nghiêm c m i v i nghiên c u nhân bán vô tính ng i? xxvii Mô hình rút trích c m t 372 373 374 375 376 377 378 379 380 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 397 398 399 400 401 402 403 404 405 406 407 408 409 410 411 412 413 414 415 416 417 418 419 420 421 422 c tr ng ng ngh a ti ng Vi t C s h t nhân Bushehr c t qu c gia nào? Qu c gia ang h tr vi c phát tri n c s này? Các qu c gia khác ã ký k t H p ng làm vi c t i c s này? M c ích c b n ã c thông báo c a c s gì? M&u lò ph n ng h t nhân d ki n s) c s d ng cho c s này? Công tác t i c s ban u c b't u vào n m nào? Padre Pio sinh vào n m nào? Padre Pio sinh âu? Padre Pio m t n m nào? Padre Pio th$ tu"i? Padre Pio c chôn c t thành ph nào? Padre Pio có d u thánh u tiên vào n m nào? Li t kê thánh có d u thánh Frank Sinatra c sinh thành ph nào? Bu"i bi u di-n u tiên c a Sinatra di-n vào n m nào? a ghi u tiên c a Sinatra gì? Ông m t nào? Ông th$ tu"i? Cho bi t tên c a ông William Shakespeare c sinh n m nào? Shakespeare c sinh âu? Shakespeare m t n m nào? Shakespeare th$ tu"i? Shakespeare ã vi t th xonê (bài th tr tình ng'n)? Shakespeare ã vi t v k#ch? Shakespeare ã vi t nh ng lo i k#ch gì? Cole Porter c sinh âu? Cole Porter c sinh n m nào? Cole Porter m t n m nào? Cole Porter so n nh ng lo i nh c nào? Bu"i di-n nh c k#ch Broadway cu i c a Cole Porter gì? Cole Porter ã vi t hát? Âm nh c chuyên nghi p u tiên c a Cole Porter gì? Nissan gi v# trí th m y s nhà s n xu t xe h i Nh t B n? Ai ch t#ch c a T p oàn Nissan? Nissan s n xu t xe h i nh ng qu c gia Nh t B n? Nissan t tr s thành ph nào? Xe h ng sang c a T p oàn Nissan có tên gì? Nissan tr c ây c bi t n v i tên gì? Ai ng i sáng l p nên Giáo h i Các Thánh h u Ngày sau c a Chúa Giê Su Ky Tô? Giáo h i c thành l p vào n m nào? Giáo h i M c môn c b't u t âu? Giáo h i M c môn có thành viên? Li t kê quan ch c ph c b u c ng i c a Giáo h i M c môn Tr s c a Giáo h i M c môn c t âu? Có nhà th ang ho t ng toàn th gi i? Núi l a Pinatubo n m o nào? Núi l a Pinatubo ã phun trào vào n m nào? Bao nhiêu ng i ã b# ch t? Bao nhiêu ng i ã ph i s tán? Núi l a Pinatubo ã không ho t ng c bao lâu? xxviii Mô hình rút trích c m t 423 424 425 426 427 428 429 430 431 432 433 434 435 436 437 438 439 440 441 442 443 444 445 446 447 448 449 450 451 452 453 454 455 456 457 458 459 460 461 462 463 464 465 466 467 468 469 470 471 472 c tr ng ng ngh a ti ng Vi t Các núi l a khác t i Philipin nh ng núi l a nào? Tr n l! t i Johnstown x y nào? Bao nhiêu ng i ã b# ch t tr n l! t i Johnstown? Bao nhiêu n c ã " t i Johnstown? p n c ã gây tr n l! t i Johnstown? p n c ã n m? Johnstown n m bang nào? Nh ng bang khác c a Hoa K ã b# s c v p n c? Tháp Pisa b't u c xây d ng vào n m nào? Tháp Pisa c xây d ng m t bao lâu? Tháp Pisa có góc nghiêng ? Trong nh ng n m 1990, tháp Pisa ã ng th6ng lên ? M t chi phí b o t n Tháp Pisa? Tháp Pisa cao bao nhiêu? Li t kê tháp nghiêng khác V n Lý Tr ng Thành ã c xây d ng cách ngày bao lâu? V n Lý Tr ng Thành dài bao nhiêu? V n Lý Tr ng Thành c s d ng nh m t n phòng th có chi u dài bao nhiêu? V n Lý Tr ng Thành ã c xây d ng d i tri u i nào? V n Lý Tr ng Thành ã c phát hi n nh ng thành ph nào? Carolyn Bessette Kennedy l n lên thành ph nào? Bà ã h$c tr ng trung h$c nào? Bà ã h$c tr ng cao 6ng nào? Bà ã k t hôn v i ai? Bà k t hôn nào? Bà m t vào ngày nào? Các thành viên gia ình bà g m nh ng ai? Janet Reno ã gi ch c v ph vào n m 1993? Bà ã gi ch c v tr c n m 1993? B c a bà sinh âu? Bà l n lên âu? Ai Th tr ng th nh t c a bà vào n m 1999? Bà ã phát hi n b# b nh vào n m 1995? Li t kê tr ng i h$c mà bà ã vi ng th m Patsy Cline c g'n tên i l danh v$ng Hollywood vào n m nào? Bà ã k t hôn v i ai? Bà m t n m nào? Bà m t lý gì? B phim ã d a theo cu c i c a bà? Tên c a nhà s n xu t c a bà gì? Bà ã ghi âm nh ng hát nào? Barry Manilow sinh vào n m nào? Ông ã k t hôn l n? Tên c a b n nh c mà ông ã vi t v Harmonistas? Ông ã theo h$c t i tr ng nh c nào? Ông o di-n âm nh c ngh s, d ng c m nh ng n m 70 cho n ca s nào? Ông ã hát n m 2000 cho nhãn hi u a nào? Li t kê nh ng hát ông ã ghi âm Tên khai sinh c a Meg Ryan gì? Bà k t hôn v i ai? xxix Mô hình rút trích c m t 473 474 475 476 477 478 479 480 481 482 483 484 485 486 487 488 489 490 491 c tr ng ng ngh a ti ng Vi t Bà g p ch ng c a nào? Meg Ryan óng vai nh ng b phim nào? Bà s h u m t hi u sách b phim nào? Ai nam di-n viên b phim ó? Bà s h u m t c s chu0n b# ti c tùng b phim nào? Cu c thi Hoa h u Hoa K 2000 c di-n âu? M ng truy n hình cáp phát cu c bi u di-n tr i này? Cu c thi c di-n vào ngày nào? Ai ã o t v ng mi n Hoa h u Hoa K 2000? Hoa h u Hoa K 200 n t bang nào? Có thành viên ban giám kh o t i cu c thi? N m ng i vào chung k t c a cu c thi nh ng ai? Liên hoan Phim Sundance 1999 c di-n âu? Tên c a giám c m, thu t c a liên hoan phim gì? Liên hoan phim c di-n nào? N di-n viên ã xu t hi n hai phim c trình chi u t i liên hoan phim? B phim ã o t Gi i k#ch b n phim k#ch t i liên hoan phim? B phim ã o t gi i t i liên hoan phim? Li t kê b phim ã c trình chi u t i Liên hoan Phim Sundance 1999 … T p m u câu thu c t website www.vnexpress.net bao g m 4137 câu t ng thu t: 10 11 12 13 14 15 16 17 18 19 … H Chí Minh v# Cha già c a dân t c Vi t nam Con ng i c phát tri n qua nhi u giai o n Tr ng i h$c Công ngh Thông tin thu cTr ng i h$c Qu c gia Tp.H chí Minh Con ng i c phát tri n qua nhi u giai o n Dê loài ng v t s ng theo b y àn Cô Hoa t ng b n $c m t tr m cu n sách hay Anh y pha cà phê v i s a Nh ng di v t d i t m t kho tàng r t quý báo, vô giá Hi u ng, c ng tráng, qu c m thói th ng c a nh ng k1 m i l n sung s c G n sáng lúc ng i ta hay ng say Có nh ng i u anh h/i nghe r t bu n c i Cách m ng tháng Tám thành công em l i c l p, t cho dân t c C Th San h i ng ng ngh#u Nóng d- ch#u h n l nh Ngày mai m t ngày vui s ng c a ng bào ta T Hà N i n H i Phòng 105 km Ch( tay n m ngón th ng làm h/ng vi c Ng i ta th ng dùng dao g$t trái Nhà tr ng t ng b ng khen cho Giáp 4135 4136 4137 Nhà t o m&u th i trang Andre Kim qua i hôm 12/8 tu"i 74 Nhi u hãng bán l1 M, s) công b k t qu kinh doanh quý tu n Trên th# tr ng hàng hóa, xu h ng t ng ng'n h n c a giá vàng th gi i b# phá v3 xxx Mô hình rút trích c m t c tr ng ng ngh a ti ng Vi t PH L C D CÁC D NG CÂU T NG THU T Các d ng câu nghi v n h u d ng cho vi c truy v n thông tin Web (Qiao, 2010) cho th h th ba c a ng c tìm ki m (search engine) Web Câu nghi v n v i Ai (Who): Socceroos ai? - Ai Socceroos? V c a Bill Gate ai? - Ai v c a Bill Gate? Lee Harvey Oswald ã gi t ai? - Ai b# Lee Harvey Oswald gi t? Ng i ám sát t"ng th ng Lincoln ai? - Ai ám sát t"ng th ng Lincoln? Ng i di-n viên n"i ti ng nh t th gi i ai? - Ai ng i di-n viên n"i ti ng nh t th gi i? Tác gi c a Harry Potter ai? - Ai tác gi c a Harry Potter? Câu nghi v n v i “C a ai” (Whose): Bài hát Beat It c a ai? Câu nghi v n v i “Cái gì” (What): Tiêu chu0n c a NASA (cái gì)? N n kinh t M, d a vào gì? Câu nghi v n v i “Cái nào” (Which): 10 Con sông dài nh t th gi i sông nào? - Con sông dài nh t th gi i? 11 - id id ng sâu nh t? ng sâu nh t id ng nào? Câu nghi v n v i “Khi/Lúc nào” (When): 12 Sinh nh t c a n hoàng Elizabeth nào? xxxi Mô hình rút trích c m t c tr ng ng ngh a ti ng Vi t - Khi sinh nh t c a n hoàng Elizabeth? 13 Columbus khám phá America nào? - America c Columbus khám phá nào? 14 Nazis th t b i lúc nào? - Khi Nazis th t b i? Câu nghi v n v i “N i /ch n nào” (Where): 15 Các chim cánh c t âu? - N i chim cánh c t ? 16 T"ng th ng Lincoln b# ám sát 17 Bác H sinh n i nào? âu? - N i sinh c a H Chí Minh âu? Câu nghi v n v i “T i sao” (Why): 18 T i tr i m a? - Tr i m a t i sao? 19 T i có ngày êm? - Chúng ta có ngày êm t i sao? Câu nghi v n v i “Th nào” (How): 20 Toyota Camry có giá bao nhiêu? - Giá c a Toyota Camry bao nhiêu? 21 Có hành tinh h m t tr i? - Chúng ta có ngày êm t i sao? 22 Có màu c u v ng? - C u v ng có màu? xxxii Mô hình rút trích c m t c tr ng ng ngh a ti ng Vi t PH L C E CÂU QUAN H M t câu quan h , theo Cao Xuân H o (Ti ng Vi t-s th o ng pháp ch c n ng) nh t thi t ph i có hai v Và ch( quan h , ti ng Vi t dùng nh ng v# t quan h nh h n, kém, b ng, (c ng) nh , gi ng, khác , nh ng danh t ch( quan h nh trên, d ng nh t (v i), xa, g n , sát i, trong, ngoài, tr c, sau, gi a Nh ng danh t nh cha, m , con, cháu danh t ch( quan h phù thu c khác nh ch , th tr xã h i khác, c!ng ng, thu c h , th y, trò, h c trò danh t ch( quan h c dùng nh ng câu quan h Phân lo i câu quan h , theo Cao Xuân H o nh ng m i quan h c bi u hi n c th nh ng câu quan h có th I Quan h gi a m t th c th v i m t th c th , có hai th quan h có th có c gi a hai th c th là: a Quan h so sánh: “A h n B”, “A B”, “A khác B”, “A b ng B”, “A c ng nh B” b Quan h ng nh t: “A B”, “A không ph i B”, “A c Quan h t ng nh t v i B” ng liên,g m nh ng m i quan h nh : - S h u: “A c a B”, “A s h u ch c a B” - Liên h thân thu c, liên h xã h i: “A c a B”, “A th y c a B” - Liên h v# trí: “A B”, “A d i B”, “A bên B”, “A xa B”, “A cách B 16km” II Quan h gi a m t th c th v i m t s tình hay m t chu c nh, có ba th quan h có th : a Quan h nhân qu : “A làm cho B” b Quan h liên i: “A có liên quan n v B”, “A n n nhân c a v B” c Quan h v# trí: “A n i x y B” III Quan h gi a hai s tình, quan h gi a hai s tình có th là: a Quan h th i gian: “A di n ng th i v i B”, “tr xxxiii c B”, “sau B” Mô hình rút trích c m t b Quan h t c tr ng ng ngh a ti ng Vi t ng tác: “A làm cho B”, “A c n tr B”, “A quy nh B”, “A lo i tr B”, “A m c ích c a B”, IV Quan h gi a s tình v i chu c nh, quan h gi a m t s tình v i chu c nh có th là: a Quan h #nh v# không gian: “A di n m t kho ng t B b Quan h #nh v# th i gian: “A di n n m/th k B” xxxiv n C” Mô hình rút trích c m t c tr ng ng ngh a ti ng Vi t PH L C F TH!NG KÊ CÁC C M T" #C TR NG TRONG CÁC D NG CÂU I Th ng kê c m t Lo i tài li u Truy n ng'n Truy n ng'n Truy n ng'n Tên tài li u Xin l i mày, Tai To Bài toán cu i n m Truy n ng'n thi u nhi T"ng c ng $c tr ng câu h%i Câu h/i NP T2 l (%) VP T2 l (%) ADJP T2 l (%) 152 138 90,78 14 9,21 0 23 21 91,3 8,69 0 120 98 91,3 22 18,33 0 295 257 87,12 38 12,88 0 II Th ng kê c m t Lo i tài li u Báo chí ( i s ng) Báo chí (Khoa h$c) Báo chí (Kinh doanh) Báo chí (Ôtô-Xe máy) $c tr ng câu t Tên tài li u Câu t ng thu t NP T2 l (%) VP TP HCM ph t thêm c s th0m m, 8 100 Ng i Anh than th v b n i 72 gi m in m 4 100 Hà N i ch t c ng chuyên c c a CEO qu c t 29 23 Xe Jolie b# cháy h bình x ng 7 ng thu t T2 l T2 l ADJP T2 l (%) PRO 0 0 0 0 0 79,31 6,89 0 13,79 100 0 0 0 xxxv (%) (%) Mô hình rút trích c m t c tr ng ng ngh a ti ng Vi t Báo chí (Pháp lu t) Phá ng dây l a bán ph n cho " m i dâm 14 64,28 7,14 0 28,57 Báo chí Hoa h u Israel không ph i “vác” súng 85,71 0 0 14,28 Báo Tây Ban Nha a tin Cannavaro o t Qu bóng vàng 20 18 90 0 0 10 Hà Anh vào chung k t cu c thi tài n ng t i Miss Earth 10 10 100 0 0 0 tri u ng i lên YouTube xem m t chi c áo len 13 12 92,3 7,69 0 0 t n c Vi t Nam gi ng m t h" tr1 30 27 90 0 0 10 142 124 87,32 2,83 0 14 9,85 (Th gi i) Báo chí (Th thao) Báo chí (V n hóa) Báo chí (Vi tính) Báo chí (Xã h i) T ng c ng xxxvi Mô hình rút trích c m t c tr ng ng ngh a ti ng Vi t PH L C G ÁNH GIÁ CÁC PH &NG PHÁP H'C MÁY B(NG TH)C NGHI M FINDS NAÏVE BAYES BAYES NETS TREES LINEAR SVM earn 92.9 95.9 95.8 97.8 98.0 acq 64.7 87.8 88.3 89.7 93.6 money-fx 46.7 56.6 58.8 66.2 74.5 grain 67.5 78.8 81.4 85.0 94.6 crude 70.1 79.5 79.6 85.0 88.9 trade 65.1 63.9 69.0 72.5 75.9 interest 63.4 64.9 71.3 67.1 77.7 ship 49.2 85.4 84.4 74.2 85.6 wheat 68.9 69.7 82.7 92.5 91.8 corn 48.2 65.3 76.4 91.8 90.3 Avg top 10 64.6 81.5 85.0 88.4 92.0 Avg all 61.7 75.2 80.0 N/A 87.0 B ng G1: K t qu phân lo i v n b n dùng ph ng pháp h$c khác (Dumais Susan, 1998) Ph ng pháp Ký hi u Phiên b n Support Vector Machine svm 1.3-3 Neural Network nnet 7.0-7 Classification&Regression Trees rpart 3.1-8 xxxvii Mô hình rút trích c m t c tr ng ng ngh a ti ng Vi t Linear Model lm 1.6.1 Linear Discriminant Analysis lda 7.0-7 multinom 7.0-7 Generalized Linear Model with binomial link glm 1.6.1 Quadratic Discriminant Analysis gda 7.0-7 Nearest Neighbour knn 7.0-7 Mixture Discriminant Analysis mda 0.2-15 Flexible Discriminant Analysis fda 0.2-15 Multiple Adaptive Regression Splines mars 0.2-15 Adaptive Splines by Adaptive Backfitting bruto 0.2-15 randomForest 3.3-6 Bagging bagging 0.5-8 Double Bagging bagging 0.5-8 Multinominal Log-Linear Model Random Forests Multiple Additive Regression Trees B ng G2: Các ph Mart ng pháp phân lo i (Mayer CS, 2002) svm lda rpart 3.14 3.56 5.51 24.27 5.86 4.09 4.49 HouseVotes84 2.58 2.62 2.62 13.75 0.00 2.62 0.00 BreastCancer qda nn multi f.mars f.bruto nnet heart1 15.87 13.67 18.52 19.58 14.70 15.98 14.50 ionosphere 5.93 13.62 11.77 9.66 12.13 cards 12.48 13.47 13.38 11.44 13.03 13.62 12.67 hepatitis 3.94 5.05 12.50 0.00 0.00 3.61 0.48 tictactoe 0.14 1.69 8.24 33.97 1.80 1.69 2.57 12.99 12.80 xxxviii Mô hình rút trích c m t c tr ng ng ngh a ti ng Vi t chess 0.49 5.73 3.20 39.73 2.43 5.88 1.14 monks3 1.07 3.57 1.07 28.65 1.97 3.57 1.74 promotergene 10.96 28.34 30.89 23.44 12.31 16.73 14.98 titanic 21.16 22.16 21.48 66.90 22.16 22.16 21.09 sonar 15.44 25.20 29.42 25.97 12.69 27.10 22.30 30.08 21.96 P.I.Diabetes 23.53 22.60 25.38 25.94 29.74 22.37 22.67 34.90 23.73 liver 29.11 32.03 32.77 39.45 37.12 31.75 29.56 57.96 34.25 musk 5.98 43.26 14.14 credit 23.65 23.12 25.12 28.45 33.13 23.24 24.10 circle 2.66 49.48 10.65 10.94 5.88 49.49 5.61 4.05 4.17 spirals 0.81 49.99 3.70 50.00 0.17 49.49 9.49 7.90 3.37 twonorm 2.82 3.16 6.95 4.13 5.32 threenorm 15.76 18.20 34.36 20.86 25.29 18.58 24.29 21.69 22.01 ringnorm 3.58 9.06 30.47 19.48 22.48 33.08 11.69 17.39 14.65 25.98 5.32 38.75 25.28 6.53 7.27 6.34 40.87 39.07 9.34 27.59 B ng G3: Sai s th nghi m c a 17 gi i thu t h$c máy – Mean (Mayer CS, 2002) svm m.mars m.bruto glm rForst bagg dbagg mart lvq 3.14 4.79 5.32 2.28 3.21 2.67 3.86 4.89 HouseVotes84 2.58 2.61 0.00 2.36 0.00 0.00 2.49 5.94 BreastCancer heart1 15.87 18.20 14.66 14.15 14.93 13.10 16.55 20.62 ionosphere 5.93 11.91 7.32 8.32 7.09 8.84 14.38 cards 12.48 14.32 12.88 7.82 6.74 6.99 11.23 18.40 hepatitis 3.94 5.87 0.00 2.75 0.00 0.00 8.80 8.04 tictactoe 0.14 1.69 1.80 1.22 1.28 2.44 2.58 25.31 9.32 xxxix Mô hình rút trích c m t c tr ng ng ngh a ti ng Vi t chess 0.49 8.33 2.46 1.38 0.40 0.71 0.99 17.04 monks3 1.07 3.55 1.90 1.72 1.96 1.92 1.07 10.06 promotergene 10.96 19.48 41.42 11.00 11.37 11.74 17.67 33.55 titanic 21.16 22.16 21.46 21.07 21.04 21.14 22.79 sonar 15.44 23.17 25.09 26.27 16.20 20.82 18.81 23.29 17.87 P.I.Diabetes 23.53 25.95 34.90 22.37 23.60 24.09 23.44 24.38 28.33 liver 29.11 31.42 42.04 31.75 27.04 29.86 29.45 29.96 41.71 musk 5.98 43.26 19.53 10.61 12.96 12.12 11.82 13.67 credit 23.65 27.27 23.24 23.45 22.89 22.65 23.51 28.39 circle 2.66 9.87 8.93 49.49 6.73 7.47 6.59 8.49 44.30 spirals 0.81 2.18 1.46 49.99 2.43 2.71 2.21 6.45 46.28 twonorm 2.82 10.53 5.92 5.64 4.09 7.96 2.83 12.99 3.07 threenorm 15.76 24.80 19.30 18.58 18.55 21.22 17.22 25.66 14.17 ringnorm 3.58 16.31 39.07 5.92 15.86 38.07 11.63 16.57 11.93 11.57 B ng G4: Sai s th nghi m c a 17 gi i thu t h$c máy – Mean (Mayer CS, 2002) xl [...]... rút trích CDT$TNN c a mô hình ViKEe 101 B ng 6.1: K t qu rút trích c m danh t &c tr ng ng ngh(a trong mô hình ViKE 108 B ng 6.2: So sánh hi u su t rút trích CDT$TNN gi a các mô hình 109 B ng 6.3: Th i gian áp ng khi th c nghi m trên t p C1 v i 10 câu ng u nhiên 110 9 Mô hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t DANH M C CÁC HÌNH Hình 3.1 Mô hình t,ng quát rút. .. Mô hình t,ng quát rút trích c m t &c tr ng ng ngh(a .39 Hình 3.2 Mô hình cho bài toán phân o n t 42 Hình 3.3 Minh h a tìm ki m t trong t i n 43 Hình 3.4 Mô hình gán nhãn k t h p 49 Hình 4.1 Mô hình rút trích c m danh t &c tr ng ng ngh(a theo h ng xác nh .55 Hình 4.2 S th hi n m i quan h gi a c m danh t A và c m danh t B… 67 Hình 4.3 Mô hình rút trích CDT$TNN d a vào... ngh(a ViKE 103 Hình 6.2 Mô hình ki n trúc ba l p cu h th ng rút trích CDT$TNN trong ti ng Vi t –ViKE…………… 106 Hình 6.3 $ th so sánh hi u su t rút trích CDT$TNN gi a các phiên b n… 108 Hình 6.4 $ th so sánh hi u su t rút trích CDT$TNN gi a các mô hình ….109 Hình 6.5 $ th bi u th th i gian áp ng khi th c nghi m trên t p C1 v i 10 câu ng u nhiên…………………………………………… …… 110 10 Mô hình rút trích c m t c... luy n rút trích #ây là c s cho mô hình xác nh úng các CT#TNN trong các c m t d tuy n Mô hình rút trích dùng m t t p các tính ch t c mt V n t , nh(m xác t ra là ph i xác xây d ng mô hình nh c tr ng c các tính ch t phân lo i các c tr ng c a các c m nh m t cách chính xác các CT#TNN trong các c m t d tuy n Nh v y, m c tiêu c a lu n án là xây d ng m t mô hình lai cho bài toán rút trích CT#TNN trong câu hình. .. ViKEa………………………………………….……………….68 Hình 5.1 Nguyên lý c c ti u r i ro c u trúc 78 Hình 5.2 Các m&t ph.ng phân tách 79 Hình 5.3 M&t ph.ng phân tách (w,b) cho t p hu n luy n hai chi u 80 Hình 5.4 Ví d v m t tr ng h p không phân bi t c .83 Hình 5.5 Quá trình ánh x t không gian nh p vào không gian &c tr ng 86 Hình 5.6 Mô hình rút trích c m danh t &c tr ng ng ngh(a - ViKEe 91 Hình 6.1 Mô hình t,ng quát rút trích. .. &óng góp th' ba: # xu t mô hình ViKEe, là mô hình rút trích c m t tr ng ng ngh a trong câu b n tính ch t n c a ti ng Vi t, dùng ph c ng pháp SVMs v i c tr ng: (1) v trí t trong câu; (2) nhãn t lo i; (3) c u trúc c m t ; (4) các t quan h gi a các c m t - &óng góp th' t : # xu t mô hình ViKE, là s k t h p hai mô hình ViKEa và ViKEe cho bài toán rút trích c m t c tr ng ng ngh a trong câu nc a ti ng Vi... p c n rút trích CT#TNN dùng c tr ng c xu t: v trí t trong câu, nhãn t lo i, c u trúc c m t , và các t quan h gi a các c m t ã c gi i thi u trong (Chau Q Nguyen, Luan T Hong, Tuoi T Phan, 2008) và (Chau Q Nguyen, Luan T Hong, Tuoi T Phan, 2009) Ch ng 6 trình bày mô hình ViKE, là s k t h p hai mô hình ViKEa và 17 Mô hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t ViKEe cho bài toán rút trích c... rút trích các c m danh t c tr ng ng ngh a trong câu Vi t 30 n c a ti ng Mô hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t Ch ng 3 T NG QUAN CÁC MÔ HÌNH RÚT TRÍCH C MT C TR NG 3.1 Gi i thi u Ch ng này tr hi n t i v h c tiên s trình bày t ng quan các thành t u c a các nghiên c u ng ti p c n rút trích và xác sánh gi a hai h nh các c m t c tr ng (CT T) và so ng ti p c n c b n này cho bài toán rút. .. n án nghiên c$u và phân tích các mô hình h!c máy T rút trích CT#TNN dùng ph ó xu t mô hình ng pháp SVMs, nh(m c i thi n t i a hi u qu c a mô hình ViKEa khi ngu n tài nguyên ti ng Vi t s.n có còn h n ch Bài toán 3 - Xây d ng mô hình ViKE (Vietnamese Key phrase Extraction) ViKE là s k t h p hai mô hình ViKEa và ViKEe cho bài toán rút trích c m t c tr ng ng ngh a trong câu n c a ti ng Vi t, v i m c tiêu... T và các c m t c tr ng trong các c m t d tuy n Gi i thu t h c c$n hai t p tài li u có gán nhãn c a CT T b%ng ph ng pháp th công: m t t p dùng t o mô hình phân lo i T p tài li u còn l i dùng 32 ki m hu n luy n nh và ánh giá mô hình Mô hình rút trích c m t c tr ng ng ngh a trong ti ng Vi t Trong t p hu n luy n, các CT T có th là m"u âm (m"u sai) và m"u d ng (m"u úng) L c h c mô hình ch n l c là phân ... 110 Mô hình rút trích c m t c tr ng ng ngh a ti ng Vi t DANH M C CÁC HÌNH Hình 3.1 Mô hình t,ng quát rút trích c m t &c tr ng ng ngh(a .39 Hình 3.2 Mô hình cho toán phân o n t 42 Hình. .. 86 Hình 5.6 Mô hình rút trích c m danh t &c tr ng ng ngh(a - ViKEe 91 Hình 6.1 Mô hình t,ng quát rút trích c m danh t &c tr ng ng ngh(a ViKE 103 Hình 6.2 Mô hình ki n trúc ba l p cu h th ng rút. .. ng mô hình rút trích CT#TNN b(ng ph CT#TNN c gán nhãn t lo i ban ng pháp máy h!c có giám sát Các u làm t p hu n luy n rút trích #ây c s cho mô hình xác nh úng CT#TNN c m t d n Mô hình rút trích