1. Trang chủ
  2. » Luận Văn - Báo Cáo

Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt 10

10 473 8
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 10
Dung lượng 167,69 KB

Nội dung

Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng việt

Trang 1

L I CAM OAN

Tôi cam oan r ng n i dung c a lu n án này là k t qu nghiên c u c a

ph n sau c a lu n án Nh ng óng góp trong lu n án là k t qu nghiên c u

Tác gi lu n án

Nguy n Quang Châu

Trang 2

L I C M N

c s ào t o giúp t n tình, c quan n i công tác t o m i i u ki n thu n l i và b n bè cùng gia ình th ng xuyên ng viên khích l

Lu n án này không th hoàn thành t t n u không có s t n tình h ng d n và s giúp quý báu c a PGS.TS Phan Th T i, Ng i

Khoa CNTT- $ i h c Bách Khoa TP H Chí Minh ã giúp và t o i u ki n cho tôi r t nhi u trong quá trình h c t p và nghiên c u Khoa; c m n Phòng qu n lý sau $ i h c v s h% tr các th t c hoàn thành lu n án

Tôi chân thành c m n Tr ng $ i h c Công Nghi p TP H Chí Minh, &c bi t khoa CNTT, ã h% tr và t o m i i u ki n thu n l i cho tôi trong quá trình hoàn thành khóa h c NCS

Cu i cùng, tôi c m n t t c b n bè và ng i thân ã góp nhi u ý ki n thi t th c và có nh ng l i ng viên khích l quý báu giúp tôi hoàn thành t t lu n án

Tác gi lu n án

Nguy n Quang Châu

Trang 3

TÓM T T

World Wide Web (WWW) phát tri n nhanh chóng cùng v i ngu n tài nguyên thông tin ngày càng phong phú, nhu c u khai thác ngu n thông tin này c a ng i s' d ng ngày càng tr nên c p thi t i v i i s ng c a con

truy h i thông tin (Information Retrieval), tóm l c v n b n (Text Summarization), và rút trích thông tin (Information Extraction),

M t trong các v n c t lõi c a h th ng khai thác này là xác nh và rút trích chính xác các c m t &c tr ng ng ngh(a (CT$TNN) (khái ni m

v)n b n V n này là m i quan tâm c a các nhà ngôn ng h c, c#ng nh các nhà khoa h c trong l(nh v c x' lý ngôn ng t nhiên b ng máy tính

c m t &c tr ng ng ngh(a c a câu trong v)n b n ti ng Vi t, nh m áp ng nhu c u ang b b! ng! trong các h th ng khai thác thông tin $i u này ã òi h!i và thúc +y vi c nghiên c u và phát tri n mô hình rút trích

c m t &c tr ng ng ngh(a trong ti ng Vi t (Vietnamese Key Phrase

Information Extraction Model - ViKE) Lu n án nghiên c u rút trích c m t

&c tr ng ng ngh(a (CT$TNN) c a câu n ti ng Vi t V i kh o sát t n su t xu t hi n c a các c m trong các v)n b n ti ng Vi t, lu n án ã t p trung nghiên c u vi c xác nh và rút trích c m danh t &c tr ng ng ngh(a (CDT$TNN) cho câu n ti ng Vi t

Lu n án trình bày mô hình ViKE ViKE là mô hình k t h p hai h ng ti p c n chính: (1) h ng ngôn ng h c hay h ng ti p c n xác nh c m danh t &c tr ng ng ngh(a, c th là s' d ng ph ng pháp so trùng th lo i trên Ontology c a Wikipedia; (2) h ng ti p c n rút trích c m danh t

&c tr ng ng ngh(a hay h ng ti p c n h c máy, c th là s' d ng ph ng

Trang 4

thái t,ng quát c a CDT$TNN: (a) v trí t trong câu; (b) nhãn t lo i; (c) c u trúc c m danh t ; (d) các t quan h gi a các c m danh t

TREC06, TREC02 (http://trec.nist.gov/data/) và www.lexxe.com (Qiao,

ng nh n di n c m danh t &c tr ng ng ngh(a b ng ph ng pháp th công K t qu mô hình ViKE t chính xác, bao ph và trung bình i u hòa l n l t là 89,52% , 87,63% và 88,57% Nh v y v i chính xác, y và trung bình i u hòa c a mô hình ViKE ã c i thi n hi u su t c a hai mô hình thành ph n (mô hình theo h ng ti p c n rút trích

m c tiêu ra c a lu n án

Trang 6

5.3 Phát bi u bài toán rút trích CDT$TNN trong ti ng Vi t .89

5.4 Mô hình ViKEe 90

5.5 K t qu th c nghi m 100

5.6 K t ch ng 101

Ch ng 6 MÔ HÌNH RÚT TRÍCH C M T C TR NG NG NGH A TRONG TI NG VI T (ViKE) - K T H P HNG TI P C N RÚT TRÍCH VÀ HNG TI P C N XÁC NH 102

CÁC BÀI BÁO C A TÁC GI LIÊN QUAN N LU N ÁN ……119

CÁC CÔNG TRÌNH NCKH LIÊN QUAN N LU N ÁN……… 121

TÀI LI U THAM KH O 122

PH L C……….……….i

Trang 7

DANH M C CÁC T VI T T T

Vi t

10 POS Tagging Part-Of- Speech Tagging Gán nhãn t lo i 11 NP Chunking Noun Phrase Chunking G m c m danh t

Segmentation

Vietnamese Word

Trang 8

18 NLP Natural Language Processing X' lý ngôn ng t nhiên

H i ngh v truy h i thông tin

tiên vào n)m 1992 b i vi n NIST và B Qu c Phòng M-

Trang 10

DANH M C CÁC HÌNH

Hình 3.1 Mô hình t,ng quát rút trích c m t &c tr ng ng ngh(a 39

Hình 3.2 Mô hình cho bài toán phân o n t 42

Hình 5.1 Nguyên lý c c ti u r i ro c u trúc .78

Hình 5.2 Các m&t ph.ng phân tách .79

Hình 5.3 M&t ph.ng phân tách (w,b) cho t p hu n luy n hai chi u 80

Hình 5.4 Ví d v m t tr ng h p không phân bi t c .83

Hình 5.5 Quá trình ánh x t không gian nh p vào không gian &c tr ng 86

Hình 5.6 Mô hình rút trích c m danh t &c tr ng ng ngh(a - ViKEe 91

Hình 6.1 Mô hình t,ng quát rút trích c m danh t &c tr ng ng ngh(a ViKE 103

Hình 6.2 Mô hình ki n trúc ba l p cu h th ng rút trích CDT$TNN trong ti ng Vi t –ViKE……… 106

Hình 6.3 $ th so sánh hi u su t rút trích CDT$TNN gi a các phiên b n… 108

Hình 6.4 $ th so sánh hi u su t rút trích CDT$TNN gi a các mô hình…….109

Hình 6.5 $ th bi u th th i gian áp ng khi th c nghi m trên t p C1 v i 10 câu ng u nhiên……… …… 110

Ngày đăng: 07/11/2012, 12:13

TỪ KHÓA LIÊN QUAN