Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 70 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
70
Dung lượng
1,29 MB
Nội dung
B GIÁO D C VÀ ÀO T O I H Că ĨăN NG NGUY N THANH TH NH NGHIÊN C U VÀ XÂY D NG CÔNG C TÁCH T T NG TRONG TI NG JRAI Chuyên ngành: Khoa H c Máy Tính Mã s : 60.48.01 LU NăV NăTH CăS ăK THU T Ng iăh ng d n khoa h c: TS HU NH CÔNG PHÁP ƠăN ng - N mă2012 ii L IăCAMă OAN Tôi xin cam đoan k t qu đ t đ cá nhân đ c th c hi n d is h c lu n v n trung th c, s n ph m c a ng d n c a TS Hu nh Công Pháp Trong toàn b n i dung c a lu n v n, nh ng u đ cá nhân ho c đ c trình bày ho c c a c t ng h p t nhi u ngu n tài li u Tác gi Nguy n Thanh Th nh iii M CăL C L IăCAMă OAN ii M C L C iii DANH M C CÁC KÝ HI U, CH VI T T T vi DANH M C CÁC HÌNH vii M CH U NGă1ă- T NG QUAN V TÁCH T T NG 1.1 GI I THI U 1.2 T NG QUAN V TÁCH T T NG 1.2.1 Bài toán tách t t đ ng .4 1.2.2 B i c nh tách t t đ ng hi n 1.2.2.1 H ng ti p c n d a t v ng 1.2.2.2 H ng ti p c n d a âm ti t 1.2.3 M t s ph ng pháp tách t t đ ng hi n 1.2.3.1 Ph ng pháp Maximum Matching k t h p v i lu t kh nh p nh ng 1.2.3.2 Ph ng pháp tách t ti ng Vi t b ng FnTBL 13 1.2.3.3 Ph ng pháp tách t b ng mô hình WFST m ng Neural .16 1.2.3.4 Ph ng pháp tách tách t ti ng Vi t d a th ng kê t Internet gi i thu t di truy n ậ IGATEC 21 1.3 K T LU N 24 CH NGă2ă- TÁCH T T NG TRONG TI NG JRAI 25 2.1 GI I THI U V DÂN T C JRAI 25 2.1.1 V ng i Jrai 25 2.1.2 S khác gi a nhóm ph 2.2 NGÔN NG ng ng Jrai 27 JRAI .28 2.2.1 L ch s hình thành ch vi t 28 2.2.2 Gi i thi u v b ch cái, h th ng âm, v n ti ng Jrai 30 2.2.2.1 B ch 30 2.2.2.2 H th ng âm .30 iv 2.2.2.3 V trí c a ph âm t 31 2.2.2.4 V n .32 2.2.2.5 Ti n âm ti t 32 2.2.2.6 D u .32 2.2.3 c m c a ti ng Jrai 32 2.3 HI N TR NG TI NG JRAI TRÊN MÁY TÍNH 33 2.4 TÁCH T TRONG TI NG JRAI .36 2.4.1 Áp d ng thu t toán Maximum Matching lu t kh nh p nh ng đ tách t ti ng Jrai 37 2.4.1.1 Lý ch n ph ng pháp dùng thu t toán Maximum Matching lu t kh nh p nh ng 37 2.4.1.2 Áp d ng cho ti ng Jrai .38 2.4.2 V n đ tách t t đ ng ti ng Jrai .39 2.5 K T LU N 41 CH NGă3ă- CĨIă T VÀ TH NGHI M 42 3.1 GI I THI U 42 3.1.1 Ch ng trình ng d ng 42 3.1.2 Các công ngh công c s d ng xây d ng ng d ng 43 3.1.2.1 L p trình ng d ng n n t ng NET Framework 43 3.1.2.2 Ngôn ng l p trình C# .44 3.1.2.3 Th vi n mã ngu n m VietkeyInput.dll, VnkeyInput.dll 45 3.1.2.4 B phông ch Vnk .45 3.1.2.5 Môi tr ng phát tri n ng d ng 45 3.2 THI T K VÀ XÂY D NG CH NG TRÌNH .46 3.2.1 Công c tách t t đ ng ti ng Jrai 46 3.2.1.1 Hàm h tr x lý chu i 46 3.2.1.2 Các hàm x lý công c tách t .47 3.2.2 Ch 3.3 TH ng trình h tr ch nh s a câu sau tách t 57 NGHI M 57 v 3.4 ÁNH GIÁ 59 3.5 K T LU N 60 K T LU N 62 DANH M C TÀI LI U THAM KH O .63 QUY Tă NHăGIAOă TÀI LU NăV NăTH CăS ă(B N SAO) vi DANHăM CăCỄCăKụăHI U, CH ăVI TăT T CÁC KÝ HI U f t ns t k t thúc t CÁC CH VI T T T CLR Common Language Runtime DLL Dynamic Link Library FnTBL IGATEC MAX MI Fast Transformation-Based Learning Internet and Genetics Algorithm based Text Categorization for Documents in Vietnamese Maximum Mutual information MSIL Microsoft Intermediate Language WFST Weighted finitậstate Transducer vii DANHăM CăCÁC HÌNH S hi u hình Tên hình Trang 1.1 V trí c a tách t h d ch t đ ng 1.2 Ph 12 ng pháp Maximum Matching vƠ lu t kh nh p nh ng 1.3 Mô hình WFST m ng Neural 17 2.1 Ph n m m Taynguyenkey 34 2.2 B gõ ti ng dân t c Vi t Vnkey 35 3.1 Microsoft Visual Studio 2010 46 3.2 Giao di n tách t ch nh s a 58 3.3 Ch nh s a l i câu sau tách t đ ng 59 3.4 ánh giá 60 M ă U Lý ch năđ tài Trong th i đ i bùng n thông tin nh hi n nay, công ngh thông tin đóng m t vai trò h t s c quan tr ng trình nơng cao đ i s ng v t ch t tinh th n, gìn gi phát huy n n v n hoá tiên ti n đ m đƠ b n s c dân t c c a vùng đ ng bào dân t c thi u s mi n núi n c ta Vi t Nam có kho ng 54 dân t c anh em H u nh m i dân t c đ u có ngôn ng c a riêng mình, dân t c ng i Jrai c ng không ngo i l Dân t c Jrai m t nh ng dân t c có dân s đông, ngôn ng th c c a h ti ng Jrai H s nhi u g p khó kh n vi c ti p nh n thông tin, tri th c ti ng Vi t s tr ng i v m t ngôn ng Cho nên, vi c t ng b c xây d ng công đo n x lý ngôn ng Jrai ậ Vi t r t c n thi t đ góp ph n giúp cho dân t c ng i Jrai có th d dàng vi c ti p c n ti ng Vi t h n, t o thu n l i cho công tác nghiên c u, d ch thu t, tra c u, qu n lỦ, đƠo t o ti ng dân t c, c ng nh góp ph n vào vi c gi gìn phát huy b n s c v n hóa dơn t c thi u s th i đ i công ngh thông tin Công đo n tách đ n v t v ng t đ ng khơu đ u tiên không th thi u đ i v i h u h t l nh v c x lý t đ ng ngôn ng t nhiên Ti ng Jrai có nhi u t ph c nên ranh gi i gi t không ch kho ng tr ng, d n đ n tách t t đ ng s t b ng đ i ph c t p Gi i quy t toán tách t t đ ng ti ng Jrai s c ti n x lý t o u ki n đ ti p t c nghiên c u xây d ng h th ng x lý ti ng Jrai nh d ch thu t t đ ng, tìm ki m thông tin, … M căđíchănghiênăc u M c đích c a đ tài t p trung nghiên c u h ng ti p c n, ph ng pháp tách t t đ ng hi n m t s đ c tr ng c a ngôn ng Jrai, qua ng d ng ph ng pháp tách t t đ ng đ xây d ng công c tách t t đ ng ti ng Jrai 3.ă iăt ng ph m vi nghiên c u Nghiên c u v ti ng Jrai c ng nh đ c m c a ngôn ng thông qua tài li u ti ng Jrai, t n Jrai, Các ph ng pháp vƠ công c tách t t đ ng mang l i hi u qu cao 4.ăPh ngăphápănghiênăc u Nghiên c u lý thuy t: Các tài li u lý thuy t v tách t , báo cáo k t qu công trình nghiên c u khoa h c v tách t , báo t p chí khoa h c vƠ ngoƠi n c Tìm hi u tài li u v ti ng Jrai Nghiên c u th c nghi m: Xây d ng công c tách t t đ ng ti ng Jrai ánh giá k t qu đ t đ c c a đ tài 5.ăụăngh aăkhoaăh c th c ti n c aăđ tài tài xây d ng công c tách t t đ ng ti ng Jrai lƠ b ngôn ng Jrai máy tính Có th c ti n x lý ng d ng công c tách t t đ ng ti ng Jrai đ xây d ng h th ng x lý ti ng Jrai nh d ch t đ ng, tìm ki m thông tin, … C u trúc c a lu năv n Lu n v n g m có ph n m đ u, k t lu n vƠ ba ch Ch ng ng – T ng quan v tách t t đ ng: Trình bày n i dung t ng quan v toán tách t t đ ng Ch ng – Tách t t đ ng ti ng Jrai: Trình bày m t cách khái quát v dân t c ngôn ng Jrai, đ c m c a lo i hình ngôn ng nƠy, sau l a ch n ph ch ng pháp tách t thích h p đ áp d ng cho ti ng Jrai Ch ng – Cài đ t th nghi m: T nh ng lý thuy t đư nghiên c u ng tr c, ti n hành xây d ng ng d ng tách t t đ ng ti ng Jrai CH Ch NGă1ă- T NGăQUANăV ăTỄCHăT ăT ă NG ng đ u tiên gi i thi u khái quát v toán tách t t đ ng l nh v c x lý ngôn ng t nhiên Chúng trình bày v vai trò c a tách t m t s ph ng pháp tách t t đ ng đư mang l i nh ng thành công nh t đ nh, t có nh ng đánh giá v u m, nh c m c a t ng ph ng pháp 1.1 GI IăTHI U X lý ngôn ng t nhiên m t l nh v c nghiên c u nh m giúp cho h th ng máy tính có th x lỦ đ c ngôn ng ph c t p c a ng i Trong d ch t đ ng m t nh ng ng d ng c a x lý ngôn ng t nhiên vƠ đơy c ng lƠ bƠi toán g p nhi u khó kh n ngôn ng c a ng i đa d ng ph c t p D ch t đ ng m t trình ph c t p, g m nhi u giai đo n khác nh tách t t đ ng, gán nhãn t lo i, phân tích cú pháp, chuy n đ i cú pháp, x lý ng ngh a, … Các giai đo n nƠy đ u nh h ng r t l n đ n k t qu c a trình d ch t đ ng Tách t t đ ng m t công đo n ti n x lý h t s c quan tr ng d ch t đ ng nói riêng c ng nh x lý ngôn ng t nhiên nói chung Nó có nh h ng l n đ n giai đo n sau c ng nh lƠ k t qu c a cu i c a h d ch t đ ng Tách nh ng đ n v t v ng xác không ch nh h d ch t đ ng mà nh h ng đ n k t qu c a toán ng l n đ n toán khác x lý ngôn ng t nhiên nh bƠi toán tìm ki m thông tin, phân lo i v n b n, toán t t v n b n, l p ch m c… V trí c a tách t h d ch t đ ng: 49 { bi n: i, t, w //db t n, hv m ng hình v , start v trí b t đ u c a hình v , end v trí hình v cu i B1: i = start B2: { N u i < = end sang B3 Ng c l i sang B8 } B3: N u i> start+ ho c hv[i] có kí t đ c bi t nh y sang B8 B4: { N u i = = start t = t+ hv[i] Ng c l i t = t+ “ ” + hv[i] } B5: N u có hình v t có t n db đ a vƠo m ng w B6: i++ B7: Quay l i b c B2 B8: N u m ng w ch a có ph n t m ng w[0] = hv[start] B9: Tr v k t qu ws = w } Hàm tword(ArrayList db, ArrayList hv, int start, int end): Hàm có tác d ng l y nh ng b ba t có th có t v trí hình v th start Các t đ c phân cách v i b ng kí t ắ/” Ví d : u vào: M ng hv [ “Sang”, “k dlông”, “hrup”, “hang”, “Jrai”, 50 “H drung”] Là m ng đ u vào, li u db, v trí b t đ u start 0, k t thúc end hv.count-1 = u ra: M ng tword tword[0] = “sang/k dlông/hrup”, tword[1] = “sang k dlông/hrup/hang”, tword[2] = “sang k dlông/hrup hang/Jrai” Thu t toán: u vào: t n, m ng hình v hv, t v trí hình v th start m ng hv u ra: Các b ba t b t đ u t hình v M ng tword(db,hv,start,end) { bi n: i, t, 1, w1, w2, w3, wt, C, //db t n, hv m ng hình v , start v trí b t đ u c a hình v , end hình v cu i B1: S d ng hàm ws, w1= ws(db,hv,start,end), t có th có t v trí hình v th start B2: N u s ph n t w1> sang B3, Ng c l i sang B23 B3: i= B4: i [...]... ng quan v tách t t đ ng Trong ch nƠy, chúng tôi trình bƠy s l ng c v dân t c Jrai, ngu n g c và s phát tri n c a ngôn ng Jrai Phân tích nh ng đ c đi m c a ngôn ng này đư cho th y r ng ranh gi i c a các t trong ch vi t Jrai không ch là kho ng tr ng, cho nên ph i l a ch n ph ng pháp phù h p đ tách t t đ ng trong ti ng Jrai 2.1 GI IăTHI UăV ăDÂNăT C JRAI 2.1.1 V ăng Ng i Jrai i Jrai là m t trong nh ng... nhi u t nh thành trong c n mang tính đ a ph k L k m t vài t nh thành khác i Jrai c trú t p trung t i t nh Gia Lai là 372.302 ng toàn t nh và 90 % t ng s ng i c và b n s c v n hóa c phân thành n m nhóm c ng đ ng i Jrai Chor: Nhóm Jrai Chor hay còn g i làm Jrai phun (Jrai g c ) Nhóm Jrai nƠy c trú Thi n và m t s ng Th xã Ayun Pa, huy n Ia Pa, huy n Phú i Jrai sinh s ng Gia Lai Ðây là nhóm Jrai gi đ phía... ng đư mang l i nhi u thƠnh công đáng k , nh ng ch a đ t đ n đ chính xác 100% Ti ng Vi t và ti ng Jrai v n có m t s đi m t ng đ ng nh t đ nh cho nên vi c v n d ng các nghiên c u thành công trong ti ng Vi t vào áp d ng tách t t đ ng trong ti ng Jrai thì s có đ 1.2.2.1 H H c k t qu nh t đ nh ng ti p c n d a trên t v ng ng ti p c n d a trên t v ng v i m c tiêu lƠ tách đ ch nh trong câu V i h ng ti p c n... s ng th c t dân t c Jrai ch có hai nhóm chính [4]: Jrai Chor vƠ Jrai M thur g p l i thành m t nhóm ( Jrai nhóm 1 hay CM ); Jrai H drung, Jrai T buan, Jrai Arap g p l i thành m t nhóm ( Jrai nhóm 2 hay HTA) Khác nhau v ti n âm ti t: Jrai (ti n t ) ợ ng nhiên, Jrai nhóm 1 th ng gi l i đ y đ các ti n âm ti t nhóm 2 c ng có m t s t ng mang ti n âm ti t, nh ng không nhi u b ng so v i Jrai nhóm 1 Ðây là tiêu... tr ng d n đ n vi c tách t tr nên t c xác đ nh m c nhiên b ng kho ng ng đ i khó kh n Do v y mà khi ta tách t ch d a vào kho ng tr ng không thôi thì ch tách ra đ c các âm ti t, có th nó là m t t có ngh a ho c không mang Ủ ngh a nào 1.2.2 B iăc nh tách t t ăđ ng hi nănay Trong nh ng n m g n đơy thì đư có nhi u công trình nghiên c u đ gi i quy t 5 các khó kh n c a bài toán tách t t đ ng và đư mang l i nhi... đi n hoàn ch nh đ có th tách đ c đ y đ các t ho c ng trong v n b n, trong khi đó h ng ti p c n thành ph n l i s d ng t đi n thành ph n V i t đi n hoàn ch nh thì ch a t t c các t và ng trong ngôn ng , trong khi t đi n thành ph n l i ch ch a thành ph n c a t ho c ng nh hình v ho c nh ng t đ n gi n trong ngôn ng V ih kh p t , h ng ti p c n d a vào t đi n thì vi c so kh p tùy vào cách ch n đ so ng ti... d ch Tách t Hình 1.1: V trí c a tách t trong h d ch t đ ng 1.2 T NGăQUANăV ăTỄCHăT ăT ă NG 1.2.1 Bài toán tách t ăt ăđ ng Tách t t đ ng lƠ b c ti n x lý không th thi u đ i v i h u h t các l nh v c c a x lý t đ ng ngôn ng t nhiên i v i các ngôn ng châu Âu thì vi c tách t này có ph n đ n gi n là ch y u là d a vào kho ng tr ng Nh ng v i các ngôn ng chơu Á trong đó có Vi t Nam nh ti ng Vi t, ti ng Jrai, ... Bahnar-Vi t-Pháp, và t đi n ắDictionnaire bahnar-francais” in t i H ng Kông n m 1889 c ng đư đ nh hình m u t và m t s phiên âm ti ng Bahnar ra ch vi t Ti p sau đó lƠ b ch vi t Jrai T p tài li u đ u tiên b ng ti ng Jrai đ m c Nicolas so n th o t i Habâu - Tiên S n vƠo n m 1915 vi t Jrai đư đ c công b vƠ đ c linh n n m 1922, b ch c s d ng r ng rãi trong c ng đ ng ng i Jrai Tuy 29 nhiên d a vào ti ng nói,... i đ i di n cho cho m t t Các cá th trong qu n th đ t đ c kh i t o ng u nhiên, trong đó m i c gi i h n trong kho ng 4 Gi i thu t di truy n sau đó th c hi n các b cđ t bi n và lai ghép nh m m c đích làm c i thi n đ thích nghi c a cá th trong qu n th đ đ t đ c cách tách t t t nh t có th [5], [9] c ánh giá V i Ph ng pháp tách t ti ng Vi t d a trên th ng kê t Internet và gi i thu t di truy n, chúng ta không... nh lƠ t n s xu t hi n c a t v ng trong t p d li u hu n luy n ban đ u H ng ti p c n nƠy đ c bi t d a vào t p ng li u hu n luy n, cho nên trong m t s tr ng h p h ng ti p c n này t ra r t linh ho t và h u d ng 6 b H ng ti p c n d a trên t đi n Th ng đ c s d ng trong tách t t đ ng H nh ng t ho c c m t đ nh ng h ng ti p c n này là so kh p c tách ra t v n b n v i nh ng t có trong t đi n V i ng ti p c n khác ... ti n c aăđ tài tài xây d ng công c tách t t đ ng ti ng Jrai lƠ b ngôn ng Jrai máy tính Có th c ti n x lý ng d ng công c tách t t đ ng ti ng Jrai đ xây d ng h th ng x lý ti ng Jrai nh d ch t đ ng,... ng Jrai, t n Jrai, Các ph ng pháp vƠ công c tách t t đ ng mang l i hi u qu cao 4.ăPh ngăpháp nghiên c u Nghiên c u lý thuy t: Các tài li u lý thuy t v tách t , báo cáo k t qu công trình nghiên. .. t s đ c tr ng c a ngôn ng Jrai, qua ng d ng ph ng pháp tách t t đ ng đ xây d ng công c tách t t đ ng ti ng Jrai 2 3.ă iăt ng ph m vi nghiên c u Nghiên c u v ti ng Jrai c ng nh đ c m c a ngôn