Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt
Trang 1L I CAM OAN
Tôi cam oan r ng n i dung c a lu n án này là k t qu nghiên c u c a
ph n sau c a lu n án Nh ng óng góp trong lu n án là k t qu nghiên c u
Tác gi lu n án
Nguy n Quang Châu
Trang 2L I C M N
c s ào t o giúp t n tình, c quan n i công tác t o m i i u ki n thu n l i và b n bè cùng gia ình th ng xuyên ng viên khích l
Lu n án này không th hoàn thành t t n u không có s t n tình h ng d n và s giúp quý báu c a PGS.TS Phan Th T i, Ng i
Khoa CNTT- $ i h c Bách Khoa TP H Chí Minh ã giúp và t o i u ki n cho tôi r t nhi u trong quá trình h c t p và nghiên c u Khoa; c m n Phòng qu n lý sau $ i h c v s h% tr các th t c hoàn thành lu n án
Tôi chân thành c m n Tr ng $ i h c Công Nghi p TP H Chí Minh, &c bi t khoa CNTT, ã h% tr và t o m i i u ki n thu n l i cho tôi trong quá trình hoàn thành khóa h c NCS
Cu i cùng, tôi c m n t t c b n bè và ng i thân ã góp nhi u ý ki n thi t th c và có nh ng l i ng viên khích l quý báu giúp tôi hoàn thành t t lu n án
Tác gi lu n án
Nguy n Quang Châu
Trang 3TÓM T T
World Wide Web (WWW) phát tri n nhanh chóng cùng v i ngu n tài nguyên thông tin ngày càng phong phú, nhu c u khai thác ngu n thông tin này c a ng i s' d ng ngày càng tr nên c p thi t i v i i s ng c a con
truy h i thông tin (Information Retrieval), tóm l c v n b n (Text Summarization), và rút trích thông tin (Information Extraction),
M t trong các v n c t lõi c a h th ng khai thác này là xác nh và rút trích chính xác các c m t &c tr ng ng ngh(a (CT$TNN) (khái ni m
v)n b n V n này là m i quan tâm c a các nhà ngôn ng h c, c#ng nh các nhà khoa h c trong l(nh v c x' lý ngôn ng t nhiên b ng máy tính
c m t &c tr ng ng ngh(a c a câu trong v)n b n ti ng Vi t, nh m áp ng nhu c u ang b b! ng! trong các h th ng khai thác thông tin $i u này ã òi h!i và thúc +y vi c nghiên c u và phát tri n mô hình rút trích
c m t &c tr ng ng ngh(a trong ti ng Vi t (Vietnamese Key Phrase
Information Extraction Model - ViKE) Lu n án nghiên c u rút trích c m t
&c tr ng ng ngh(a (CT$TNN) c a câu n ti ng Vi t V i kh o sát t n su t xu t hi n c a các c m trong các v)n b n ti ng Vi t, lu n án ã t p trung nghiên c u vi c xác nh và rút trích c m danh t &c tr ng ng ngh(a (CDT$TNN) cho câu n ti ng Vi t
Lu n án trình bày mô hình ViKE ViKE là mô hình k t h p hai h ng ti p c n chính: (1) h ng ngôn ng h c hay h ng ti p c n xác nh c m danh t &c tr ng ng ngh(a, c th là s' d ng ph ng pháp so trùng th lo i trên Ontology c a Wikipedia; (2) h ng ti p c n rút trích c m danh t
&c tr ng ng ngh(a hay h ng ti p c n h c máy, c th là s' d ng ph ng
Trang 4thái t,ng quát c a CDT$TNN: (a) v trí t trong câu; (b) nhãn t lo i; (c) c u trúc c m danh t ; (d) các t quan h gi a các c m danh t
TREC06, TREC02 (http://trec.nist.gov/data/) và www.lexxe.com (Qiao,
ng nh n di n c m danh t &c tr ng ng ngh(a b ng ph ng pháp th công K t qu mô hình ViKE t chính xác, bao ph và trung bình i u hòa l n l t là 89,52% , 87,63% và 88,57% Nh v y v i chính xác, y và trung bình i u hòa c a mô hình ViKE ã c i thi n hi u su t c a hai mô hình thành ph n (mô hình theo h ng ti p c n rút trích
m c tiêu ra c a lu n án
Trang 65.3 Phát bi u bài toán rút trích CDT$TNN trong ti ng Vi t .89
5.4 Mô hình ViKEe 90
5.5 K t qu th c nghi m 100
5.6 K t ch ng 101
Ch ng 6 MÔ HÌNH RÚT TRÍCH C M T C TR NG NG NGH A TRONG TI NG VI T (ViKE) - K T H P HNG TI P C N RÚT TRÍCH VÀ HNG TI P C N XÁC NH 102
CÁC BÀI BÁO C A TÁC GI LIÊN QUAN N LU N ÁN ……119
CÁC CÔNG TRÌNH NCKH LIÊN QUAN N LU N ÁN……… 121
TÀI LI U THAM KH O 122
PH L C……….……….i
Trang 7DANH M C CÁC T VI T T T
Vi t
10 POS Tagging Part-Of- Speech Tagging Gán nhãn t lo i 11 NP Chunking Noun Phrase Chunking G m c m danh t
Segmentation
Vietnamese Word
Trang 818 NLP Natural Language Processing X' lý ngôn ng t nhiên
H i ngh v truy h i thông tin
tiên vào n)m 1992 b i vi n NIST và B Qu c Phòng M-
Trang 10DANH M C CÁC HÌNH
Hình 3.1 Mô hình t,ng quát rút trích c m t &c tr ng ng ngh(a 39
Hình 3.2 Mô hình cho bài toán phân o n t 42
Hình 5.1 Nguyên lý c c ti u r i ro c u trúc .78
Hình 5.2 Các m&t ph.ng phân tách .79
Hình 5.3 M&t ph.ng phân tách (w,b) cho t p hu n luy n hai chi u 80
Hình 5.4 Ví d v m t tr ng h p không phân bi t c .83
Hình 5.5 Quá trình ánh x t không gian nh p vào không gian &c tr ng 86
Hình 5.6 Mô hình rút trích c m danh t &c tr ng ng ngh(a - ViKEe 91
Hình 6.1 Mô hình t,ng quát rút trích c m danh t &c tr ng ng ngh(a ViKE 103
Hình 6.2 Mô hình ki n trúc ba l p cu h th ng rút trích CDT$TNN trong ti ng Vi t –ViKE……… 106
Hình 6.3 $ th so sánh hi u su t rút trích CDT$TNN gi a các phiên b n… 108
Hình 6.4 $ th so sánh hi u su t rút trích CDT$TNN gi a các mô hình…….109
Hình 6.5 $ th bi u th th i gian áp ng khi th c nghi m trên t p C1 v i 10 câu ng u nhiên……… …… 110