Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
357,09 KB
Nội dung
-1- B GIÁO D C VÀ ĐÀO T O Đ I H C ĐÀ N NG ĐINH TH M H NH TÌM HI U HI N TƯ NG NH P NH NG TRONG TI NG VI T VÀ KH NĂNG KH C PH C TRONG SO N TH O VĂN B N Chuyên ngành Mã s : KHOA H C MÁY TÍNH : 60.48.01 TĨM T T LU N VĂN TH C SĨ K THU T Đà N ng - Năm 2011 -2- Cơng trình đư c hồn thành t i Đ I H C ĐÀ N NG Ngư i hư ng d n khoa h c: PGS.TS PHAN HUY KHÁNH Ph n bi n 1: PGS.TS Võ Trung Hùng Ph n bi n 2: TS Trương Công Tu n Lu n văn ñư c b o v trư c H i ñ ng ch m Lu n văn t t nghi p th c sĩ k thu t h p t i Đ i h c Đà N ng vào ngày 19 tháng năm 2011 * Có th tìm hi u lu n văn t i: - Trung tâm Thông tin - H c li u, Đ i h c Đà N ng - Trung tâm H c li u, Đ i h c Đà N ng -3- M Đ U Lý ch n ñ tài Trong h th ng ngôn ng th gi i hi n nay, ti ng Vi t ñư c xem m t nh ng ngơn ng có s phong phú đa d ng Chính s phong phú ph c t p c a ti ng Vi t d n đ n nh ng khó khăn cho c ngư i s d ng theo cách thơng thư ng x lý máy tính Do nh ng nh hư ng c a l ch s hình thành phát tri n, ti ng Vi t có tính lai t p v m t ngơn ng г t cao, ñ c bi t nh hư ng t ti ng Hán ti ng Pháp S ña nghĩa ti ng Vi t m t ñ c ñi m n i b t Ngồi ra, thói quen s d ng c a m i ngư i ho c m i vùng mi n, ti ng Vi t l i có nh ng s bi n ñ i nh t ñ nh, th m chí s thi u nh t quán cách nói, cách vi t Ti ng Vi t ngày cịn b nh hư ng b i thói quen s d ng ngôn ng Internet ho c thi t b truy n thơng hi n đ i ñi n tho i di ñ ng, ñi u làm xu t hi n thêm nhi u t m i ñư c ngư i dùng Internet ho c ñi n tho i di ñ ng ch p nh n, ñ c bi t gi i tr câu “Bu i sinh nh t hôm vui wá!” S nh p nh ng nói, vi t ho c di n ñ t ý nghĩ ñã d n ñ n nh ng s hi u l m nhi u m c đ khác Và nh ng ñ c ñi m nói ñã làm cho ti ng Vi t v n ñã ph c t p l i ph c t p hơn, ñ c bi t m t s y u t ñã làm m t tính sáng giá tr t t đ p v n có c a ti ng Vi t Gìn gi s sáng c a ti ng Vi t m t yêu c u nhi m v quan tr ng, c n thi t c a c gi i phê bình, nghiên c u văn hóa, ngơn ng l n nh ng ngư i s d ng thông thư ng Xu t phát t nh ng phân tích quan sát trên, nhi m v nghiên c u c a đ tài “Tìm hi u hi n tư ng nh p nh ng -4ti ng Vi t kh kh c ph c so n th o văn b n” tìm hi u v nh ng v n đ b n x lý ngôn ng , x lý ti ng Vi t, ñ c bi t v n ñ “nh p nh ng” ti ng Vi t, t đ xu t m t gi i pháp đ kh c ph c q trình so n th o văn b n cho m t s trư ng h p c th c a hi n tư ng nh p nh ng M c tiêu c a ñ tài Đ tài t p trung nghiên c u v x lý ngôn ng t nhiên, x lý ti ng Vi t Tác gi b nhi u th i gian nghiên c u v hi n tư ng nh p nh ng thư ng x y ti ng Vi t Đ tài nghiên c u kh x lý nh p nh ng xây d ng ng d ng h tr x lý nh p nh ng ti ng Vi t m t ph m vi h p Ph m vi gi i h n c a ñ tài V n ñ nh p nh ng ti ng Vi t có r t nhi u trư ng h p, nhiên ph m vi c a ñ tài tác gi gi i h n l i m t s n i dung sau ñây: V m t lý thuy t: Tìm hi u lý thuy t v XLNN XLTV, l ch s hình thành phát tri n c a ti ng Vi t; Tìm hi u lý thuy t v v n ñ liên quan ñ n hi n tư ng nh p nh ng ti ng Vi t; Tìm hi u nh ng v n đ b n v so n th o văn b n, ph n m m so n th o văn b n; Đ xu t gi i pháp ñ gi i quy t HTNN vi t sai l i t ti ng Vi t (gi i h n nh ng l i t c p đ âm ti t) HTNN xác ñ nh sai ph m vi, ranh gi i c a t ti ng Vi t V m t chương trình: Xây d ng ng d ng h tr x lý nh p nh ng gây l i t v m t âm ti t, đ ng th i chương trình h tr vi c tách văn b n thành t ñ c l p ñ ngư i s d ng d dàng hi u n i dung văn b n K t qu c a vi c tách t s ñư c s d ng ph c v cho vi c phát tri n ng d ng, gi i quy t v n đ phân tích nh p nh ng v phân lo i t cú pháp câu -54 Phương pháp nghiên c u Thu th p, tìm hi u, phân tích tài li u thơng tin có liên quan đ n đ tài; Phân tích thi t k h th ng chương trình; Tri n khai xây d ng chương trình; Ki m th , nh n xét ñánh giá k t qu Ý nghĩa khoa h c th c ti n c a ñ tài Ý nghĩa khoa h c: Hi u ñư c nh ng v n ñ b n x lý ti ng Vi t, x lý nh p nh ng ti ng Vi t; Đ xu t ñư c gi i pháp ñ h tr x lý m t s hi n tư ng nh p nh ng so n th o văn b n ti ng Vi t Ý nghĩa th c ti n: Hi u ng d ng ñư c nh ng ki n th c n n t ng x lý ti ng Vi t ñ x lý nh p nh ng ti ng Vi t; ng d ng chương trình đ h tr x lý nh p nh ng Có th so n th o văn b n ti ng Vi t; Có ý nghĩa vi c b o t n phát huy giá tr c a ti ng Vi t B c c lu n văn M ñ u Chương 1: Cơ s lý thuy t v x lý ngôn ng t nhiên Chương 2: So n th o văn b n hi n tư ng nh p nh ng so n th o văn b n Chương 3: Đ xu t gi i pháp kh c ph c nh p nh ng K t lu n -6CHƯƠNG 1: CƠ S LÝ THUY T V X 1.1 X LÝ NGÔN NG LÝ NGÔN NG T T NHIÊN NHIÊN 1.1.1 Khái ni m 1.1.2 Các bư c x lý 1.1.3 Các toán ng d ng 1.2 TÌM HI U V TI NG VI T VÀ V N Đ X LÝ TI NG VI T 1.2.1 S hình thành c a ti ng Vi t 1.2.2 Đ c ñi m c a ti ng Vi t 1.2.2.1 Đ c ñi m ng âm 1.2.2.2 Đ c ñi m t v ng 1.2.2.3 Đ c ñi m ng pháp 1.2.3 T ti ng Vi t 1.2.3.1 Khái ni m T ñơn v nh nh t có nghĩa, có k t c u v ng âm b n v ng, hồn ch nh, có ch c g i tên, ñư c v n d ng ñ c l p, tái hi n t l i nói đ t o câu[7] 1.2.3.2 Đơn v c u t o Đơn v s ñ c u t o t ti ng Vi t ti ng, mà ng âm h c v n g i âm ti t 1.2.3.3 Phương th c c u t o 1.2.4 Bi n th c a t 1.3 HI N TƯ NG NH P NH NG TRONG X LÝ VĂN B N TI NG VI T 1.3.1 Khái ni m Nh p nh ng hi n tư ng mà nói, vi t ho c di n t nh ng t ng , ý nghĩ mơ h , khơng rõ nghĩa ho c có nhi u nghĩa làm cho -7ngư i ñ c ho c ngư i nghe không phân bi t rõ ràng, gây s hi u l m Khái ni m nh p nh ng có th hi u theo m t cách khác sau: m i lĩnh v c, v n ñ thư ng ñư c ñ c p, trình bày ho c ñư c hi u theo m t chu n nh t ñ nh, chu n có th đư c quy c b ng văn b n ho c quy c ng m đ nh Khi t t c nh ng cách hi u, cách ñ c p ho c trình bày v n đ n m ngồi ph m vi chu n đư c xem nh p nh ng 1.3.2 M t s hi n tư ng nh p nh ng 1.3.2.1 Hi n tư ng nh p nh ng vi t sai t ti ng Vi t Vi c vi t sai l i t ti ng Vi t m c đáng báo đ ng, hi n tư ng khơng nh ng di n ph bi n gi i tr , ñ c bi t gi i tr s d ng internet mà xu t hi n nhi u phương ti n thơng tin đ i chúng văn b n c a Nhà nư c Chính nh ng sai sót v t có th gây nh ng nh p nh ng vi c ti p nh p thông tin Trong c ng ñ ng s d ng m ng Internet hình thành m t l p t m i chưa có t n ti ng Vi t, ñi u d n ñ n nh ng thói quen s d ng t ng khơng t t ngư i s d ng, ñ c bi t gi i tr Có nh ng trư ng h p sai t có th d n đ n nh ng h qu x u hình thành thói quen nói sai, vi t sai hi u sai v n ñ 1.3.2.2 Hi n tư ng nh p nh ng v ph m vi, ranh gi i gi a t Trong m t s ngôn ng ti ng Anh, vi c xác ñ nh ranh gi i, ph m vi gi a t d dàng, m i t riêng l ñã mang tr n v n m t nghĩa ranh gi i c a chúng đư c xác đ nh thơng qua -8kho ng tr ng Ti ng Vi t khác, ngơn ng đơn l p nên t v ng ch y u t ghép th kho ng tr ng không ph i luôn ranh gi i xác Trong ti ng Vi t, vi c xác đ nh xác ph m vi, ranh gi i gi a t có th h tr r t nhi u cho trình kh nh p nh ng, ñ c bi t ñ i v i ngơn ng vi t Đây m c đích mà báo cáo mu n ñ c p ñ n 1.3.2.3 Hi n tư ng nh p nh ng tính đa nghĩa c a t B t c ngơn ng có t ña nghĩa, nguyên nhân r t nhi u khái ni m có s c thái ý nghĩa khơng hồn tồn trùng kh p l i có nhi u nét tương đ ng Hi n tư ng gây c n tr cho vi c d ch t đ ng, chương trình khơng bi t d ch t đa nghĩa theo nghĩa nhóm nghĩa c a 1.3.2.4 Hi n tư ng nh p nh ng ng nghĩa s d ng t ñ ng âm Hai t ñ ng âm v i nghĩa hai t có âm gi ng mang nghĩa khác nhau, cịn đ ng t hai t v m t ký t gi ng nghĩa khác Do ñ c ñi m c a ti ng Vi t t ñ ng âm thư ng t ñ ng t , ngôn ng khác hai hi n tư ng không trùng kh p Cũng ph i phân bi t t ñ ng t v i t ña nghĩa, t đa nghĩa, nghĩa đ u có chung m t ngu n g c v y ln có nét tương đ ng trong t đ ng t chúng khơng có liên h v ngu n g c v i nhau, nghĩa c a chúng khác rõ r t Ví d T “ki m” hai câu sau ñây hai t ñ ng t : Anh ta s d ng ki m r t ñiêu luy n Ki m ăn bây gi khó l m -91.3.2.5 Hi n tư ng nh p nh ng cách phân bi t t lo i T lo i m t y u t quan tr ng vi c xác ñ nh nghĩa xác c a t s p x p t thành câu hoàn ch nh d ch t ñ ng T lo i giúp kh nh p nh ng, b n thân m t s trư ng h p nh p nh ng V i ngôn ng không bi n ti ng Vi t, v n đ xác ñ nh t lo i yêu c u thu t toán ph c t p hơn, b t bu c ph i phân tích cú pháp M t khác, n i b ngành ngôn ng v n chưa có s th ng nh t v phân lo i t lo i cho ti ng Vi t 1.3.2.6 Hi n tư ng nh p nh ng s d ng ti ng Vi t không d u Ngày nay, vi c gõ ti ng Vi t không d u tr nên ph bi n hơn, ñ c bi t ng d ng Internet ho c ñi n tho i di ñ ng email, chat… Gõ ti ng Vi t không d u giúp ngư i s d ng thao tác nhanh hơn, m t s trư ng h p l i gây nh ng s hi u nh m tai h i ñ i v i ngư i ñ c 1.3.2.7 Hi n tư ng nh p nh ng v s v n d ng Cùng m t câu s d ng hoàn c nh khác c a ngơn ng nói ho c ngơn ng vi t, n u không bi t cách s d ng m t cách phù h p s gây s “nh p nh ng”, s hi u l m cho ngư i ñ c ho c ngư i nghe Hi n tư ng ñ c bi t ph bi n ti ng Vi t, ti ng Vi t v n ña nghĩa, ña s c thái có tính bi u c m r t cao Đi u địi h i ngư i s d ng ngôn ng m t s khéo léo tinh t nh t đ nh, có s hi u bi t m t m c ñ c n thi t ñ có th t n d ng h t nh ng giá tr bi u đ t c a ngơn ng - 10 1.3.2.8 Hi n tư ng nh p nh ng phân tích cú pháp ti ng Vi t Trong phân tích cú pháp ti ng Vi t, hi n tư ng nh p nh ng x y nhi u m c, t m c t , t lo i ñ n m c cú pháp câu Đi u d n ñ n m t câu có th đư c phân tích theo nhi u cách khác nhau, ch có m t vài cách phân tích s 1.4 K T LU N CHƯƠNG Chương trình bày khái ni m bư c đ x lý ngơn ng t nhiên, tốn liên quan đ n x lý ngôn ng t nhiên nh n d ng ti ng nói, t ng h p ti ng nói, d ch t đ ng, tìm ki m văn b n, tóm t t văn b n… Ngồi cịn trình bày v s hình thành, phát tri n m t s ñ c ñi m n i b t c a ti ng Vi t Chương dành m t s lư ng l n trang ñ trình bày khái ni m nh ng hi n tư ng nh p nh ng ph bi n nh t x lý văn b n ti ng Vi t - 12 tư duy, suy nghĩ có th trao đ i v i ngư i khác đ có cách trình bày v n đ xác Th hai, phát hi n HTNN trình STVB N u ch s d ng ph n m m h tr STVB ti ng Vi t (mà khơng s d ng kèm m t chương trình h tr tìm kh nh p nh ng cho văn b n ti ng Vi t khác) ch có m t cách đ phát hi n nh p nh ng ngư i s d ng ph i t làm th công Tuy nhiên cách làm s khơng đem l i nhi u hi u qu đ xác khơng cao Do nh t thi t ph i có m t chương trình h tr phát hi n kh nh p nh ng ñi kèm Th ba, phát hi n HTNN sau vi c STVB hoàn t t Nghĩa ngư i s d ng s m t p văn b n ñã so n th o, sau g i ch c phát hi n nh p nh ng ñ x lý Theo tìm hi u c a tác gi , hi n v n chưa có m t h th ng hay chương trình có th x lý ñư c t t c HTNN STVB ti ng Vi t Các k t qu có ch m i nh ng gi i pháp cho m t s trư ng h p c th 2.4 CÁC GI I PHÁP X LÝ NH P NH NG ĐÃ CÓ TRƯ C ĐÂY Trong báo “Phân tích cú pháp ti ng Vi t s d ng văn ph m phi ng c nh t v ng hóa k t h p xác xu t” [25], nhóm tác gi ñã nghiên c u bi n pháp x lý hi n tư ng nh p nh ng hi n tư ng cú pháp ph thu c t phân tích cú pháp ti ng Vi t Bài báo ñ xu t vi c xây d ng m t cơng c phân tích cú pháp d a văn ph m phi ng c nh v i lu t có ch a thơng tin v xác su t t v ng Trong tài li u [24], nhóm tác gi trình bày chi ti t th nghi m v gán nhãn t lo i cho văn b n ti ng Vi t b ng cách áp d ng b gán nhãn QTAG Công vi c gán nhãn t lo i cho m t văn - 13 b n xác ñ nh t lo i c a m i t ph m vi văn b n Khi h th ng văn b n đư c gán nhãn, hay nói cách khác đư c thích t lo i s đư c ng d ng r ng rãi h th ng tìm ki m thơng tin, ng d ng t ng h p ti ng nói, h th ng nh n d ng ti ng nói h th ng d ch máy Đ ti n hành vi c gán nhãn t lo i, nhóm tác gi ti n hành ba bư c: Phân tách xâu ký t thành t , gán nhãn tiên nghi m, quy t ñ nh k t qu gán nhãn, t c lo i b nh p nh ng Văn b n ñã ñư c phân ño n t (WORD SEGMENTED TEXT) T p lu t nh n di n POS Mơ hình gán nhãn cho t (POS Tagging Model) Kho ng li u ti ng Vi t Văn b n ñã ñư c gán t lo i (POS TAGGED TEXTS) Hình 2.1 Mơ hình t ng qt tốn gán nhãn t lo i 2.5 K T LU N CHƯƠNG Chương trình bày nh ng v n đ b n v so n th o văn b n, khái ni m v ký t , t , câu, dịng, đo n Trong chương cịn trình bày khái ni m v hi n tư ng nh p nh ng ti ng Vi t Ngồi cịn trình bày m t s hi n tư ng nh p nh ng ph bi n ti ng Vi t, qua có th th y r ng hi n tư ng nh p nh ng ph bi n r t khó đ x lý m t cách tri t ñ Ph n cu i chương, tác gi trình bày nh ng k t qu nghiên c u v v n ñ x lý nh p nh ng ngơn ng t nói riêng nhiên nói chung ti ng Vi t - 14 CHƯƠNG 3: Đ XU T GI I PHÁP KH C PH C NH P NH NG 3.1 GI I THI U VÀ PHÂN TÍCH BÀI TỐN Trong s hi n tư ng nh p nh ng mà tác gi ñã ñ c p ñ n chương 2, ph n này, tác gi ch ch n m t s hi n tư ng nh p nh ng c th ñ ñ xu t gi i pháp kh c ph c Đó nh p nh ng vi t sai l i t ti ng Vi t c p ñ âm ti t (vi t nh ng âm ti t khơng có ti ng Vi t) nh p nh ng khơng xác đ nh đư c ph m vi, ranh gi i gi a t văn b n N u xem nh ng quy t c v t ti ng Vi t mi n chu n, nh ng n m mi n chu n y ñư c ch p nh n khơng gây nh p nh ng nh ng trư ng h p vi t sai t ti ng Vi t n m mi n chu n (t c vi t sai t ) ñ u ñư c xem nh p nh ng Trong ph m vi báo cáo này, tác gi x lý m t ph n l i t ti ng Vi t có th m c ph i d n ñ n hi n tư ng nh p nh ng, x lý l i t m c âm ti t ti ng Vi t Ví d có th phát hi n l i t c a t ñưa m t lo t g i ý ñ ngư i s d ng ch nh s a l i Xét m t ví d v hi n tư ng nh p nh ng khơng xác đ nh đư c ph m vi, ranh gi i gi a t Ví d 32 Ngư i dân thu c đ a bàn th có m c thu nh p bình qn đ u ngư i cao vùng nơng thơn Trong ví d 32, m t s đ i tư ng, ví d tr em có th s xác đ nh khơng ñúng ph m vi gi a t s d n ñ n hi u sai (nh p nh ng) n i dung câu C m t thu c ñ a bàn s có hai cách phân tách, - 15 th nh t thu c/ ñ a bàn (nghĩa n m đ a bàn đó), th hai thu c ñ a/ bàn (nghĩa ngư i dân thu c ñ a bàn b c v u đó, cách phân tách sai ng c nh trên) Trong ti ng Vi t t n t i nhi u nh ng c m t tương t Do đó, xác ñ nh ñúng ph m vi t s ñ c ñúng hi u ñúng, nghĩa tránh ñư c nh p nh ng Gi i quy t ñư c tốn v xác đ nh ph m vi, ranh gi i t s s quan tr ng ñ th c hi n gán nhãn t lo i cho t , phân tích cú pháp câu ti ng Vi t Gi i quy t toán: Bài toán bây gi ñư c chia làm hai bư c x lý: - X lý l i t ti ng Vi t m c âm ti t - Phân tách văn b n thành t ñ c l p Kho d li u âm ti t ti ng Vi t Văn b n c n x lý Đ U VÀO T ñi n ti ng Vi t X lý l i t TV m c âm ti t QUÁ TRÌNH X Tách văn b n thành t riêng bi t LÝ Văn b n ñã ñư c x lý nh p nh ng (*) Đ U RA Giao di n ngư i s d ng Ngư i s d ng Hình 3.1 Mơ hình ki n trúc t ng quan c a trình x lý Gi i h n ph m vi gi i quy t c a toán: Khái ni m văn b n ñư c ñ c p ñ n báo cáo văn b n ch ch a ch , khơng ch a hình v - 16 Chương trình chưa x lý ñ nh d ng c a văn b n ñ u vào Th i ñi m x lý văn b n: Chương trình đư c tích h p ng d ng Microsoft Word chương trình s l y n i dung văn b n ñư c so n th o s n ñ x lý Ngư i s d ng có th tùy ch n ti n hành ki m l i t m c âm ti t ñ i văn b n đ u vào, sau ti n hành phân tách t Chương trình khơng đư c g i th c thi m t cách t ñ ng mà c n có thao tác c a ngư i s d ng Lo i nh p nh ng ñư c x lý: toán gi i quy t s nh ng gây sai sót v l i t ti ng Vi t nh p m c âm ti t h tr x lý nh p nh ng có th có khơng xác đ nh đư c ph m vi, ranh gi i gi a t ti ng Vi t Kho d li u ti ng Vi t: Chương trình dùng kho d li u h tr cho trình x lý: Kho d li u âm ti t ti ng Vi t: lưu 10.000 âm ti t ti ng Vi t, h tr cho ch c tìm s a l i, đ ng th i có th đư c c p nh p thêm t m i thông qua bư c x lý l i t Các âm ti t ñư c lưu b ng mã Unicode T ñi n ti ng Vi t h tr ch c tách t g m g n 24.000 t ti ng Vi t Ngồi ra, đ h tr t t cho vi c tách t , tác gi b sung vào kho d li u t ti ng Vi t m t s danh t riêng ph bi n 3.2 THI T K CƠ S D LI U VÀ CÁC THU T TỐN CHÍNH 3.2.1 Thi t k s d li u Cơ s d li u cho tốn tương đ i đơn gi n, d li u ñư c chia thành ph n riêng bi t, m t ph n ph c v cho ch c ki m l i t ti ng Vi t m c âm ti t, m t ph n ph c v cho ch c tách t văn b n - 17 3.2.1.1 D li u cho ch c ki m l i t ti ng Vi t m c âm ti t D li u cho ch c x lý nh p nh ng sai l i t ti ng Vi t m c âm ti t g m b ng AmTiet (Âm ti t) ch a t t c âm ti t có ti ng Vi t AM_TIET STT Am_Tiet Hình 3.4 D li u lưu âm ti t ti ng Vi t B ng 3.1 B ng t ñi n d li u Tên trư ng Ki u d li u Kích thư c STT Autonumber Integer Th t c a m c t Am_Tiet Text 10 Âm ti t ti ng Vi t Gi i thích 3.2.1.2 D li u cho ch c tách t văn b n Đ ph c v cho gi i thu t này, ta c n xây d ng s d li u ch a t t c t có ti ng Vi t Tác gi xây d ng kho d li u s t p tin d li u c a ph n m m VietDict c a tác gi H Ng c Đ c, t i mi n phí t i đ a ch http://vietdict.viet.net T p tin đư c lưu v i *.txt, ch a g n 24.000 t gi i thích t (Vi t – Vi t), c u trúc trình bày g n gi ng quy n t ñi n ti ng Vi t Tác gi ñã vi t m t th t c ñơn gi n ñ ti n hành tìm tách l y t t c t ti ng Vi t t p tin ñ lưu vào s d li u Đây chưa ph i t t c t có ti ng Vi t, ch d li u ñ demo chương trình D li u c a ch c tách t b ng d li u ch a t có ti ng Vi t (căn c vào t ñi n ti ng Vi t), g m trư ng d li u - 18 s th t , m c t Word kích thư c c a t Length Ví d t ban mai có Length =2, t s ch sành sanh có Length =3 Trư ng Length dùng ph c v cho m t s gi i thu t c a chương trình TuTV stt Word Lenght Hình 3.5 D li u ch a t ti ng Vi t M i b ng đ u có trư ng d li u: B ng 3.2 T ñi n d li u Tên trư ng Ki u d li u Kích thư c stt Autonumber Integer Th t m c t Word Text 30 T ti ng Vi t Length Number Byte Kích thư c t Gi i thích B ng d li u ch có m c đích lưu tr d li u D li u ñư c lưu b ng mã Unicode, ki u gõ Telex ñ th ng nh t v i d li u c a ph n ki m l i t ti ng Vi t trình bày ph n c a báo cáo 3.2.2 Các gi i thu t 3.2.2.1 Gi i thu t tìm h tr s a l i t ti ng Vi t m c âm ti t 3.2.2.2 Thu t toán xác ñ nh t văn b n 3.2.2.3 Thu t tốn tách đo n văn b n thành t riêng bi t Đây ch c c a chương trình Trư c trình bày gi i thu t tách t c a mình, tác gi xin trình bày sơ qua m t s gi i thu t mà tác gi tìm hi u đư c liên quan ñ n v n ñ - 19 Theo tài li u [23], nhóm tác gi ñã ti n hành xây d ng otomat ñoán nh n t v ng, ph c v cho vi c tách t v ng văn b n ti ng Vi t Tư tư ng c a thu t toán tách t v ng quy vi c phân tách câu v vi c tìm đư ng m t đ th có hư ng, khơng tr ng s Gi s câu ban ñ u m t dãy g m n+1 âm ti t s0, s1, , sn Ta xây d ng m t đ th có n+2 ñ nh v0, v1, , vn, vn+1, s p th t m t ñư ng th ng t trái sang ph i; đó, t đ nh vi ñ n ñ nh vj có cung (i < j) n u âm ti t si, si+1, , sj-1 theo th t l p thành m t t Khi m i cách phân tách câu khác tương ng v i m t ñư ng ñi ñ th t ñ nh ñ u v0 ñ n ñ nh cu i vn+1 Trong th c t , cách phân tích câu đ n nh t thư ng ng v i đư ng qua cung nh t ñ th Trong trư ng h p câu có s nh p nh ng đ th s có nhi u m t đư ng ñi ng n nh t t ñ nh ñ u ñ n ñ nh cu i, ta li t kê tồn b đư ng ng n nh t đ th , t đưa t t c phương án tách câu có th đ ngư i dùng quy t ñ nh s ch n phương án nào, tuỳ thu c vào ng nghĩa ho c văn c nh Ví d , xét m t câu có c m "thu c đ a bàn", ta có đ th hình 3.7 sau: thu c đ a thu c đa bàn đ a bàn Hình 3.7 Otomat đốn nh n c m t “thu c đ a bàn” C m có s nh p nh ng gi a thu c ñ a ñ a bàn ta s có hai k t qu phân tách "thu c ñ a / bàn" "thu c / đ a bàn" Ta có th ch r t nhi u nh ng c m nh p nh ng ti ng Vi t, ch ng - 20 h n "t h p âm ti t", "b ng ch ng c ", Trư ng h p câu có âm ti t khơng n m t n rõ ràng ơtơmát âm ti t khơng đốn nh n đư c âm ti t K t qu ñ th ta xây d ng t câu khơng liên thơng D a vào tính ch t này, ta th y r ng n u đ th khơng liên thơng d dàng phát hi n r ng ñơn v âm ti t khơng đốn nh n đư c khơng n m t n âm ti t, t c b vi t sai t ho c m t ñơn v âm ti t (t v ng) m i Đ tri n khai đư c thu t tốn nói c n có m t s d li u l n hồn ch nh, đ c bi t c n xây d ng ñư c ñ th n i gi a t ti ng Vi t V i s lư ng g n 74.000 t ti ng Vi t, m t cơng vi c ñòi h i s ñ u tư th i gian trí tu c a nhi u ngư i Do ñó, th i gian h n ch c a vi c th c hi n lu n văn t t nghi p, tác gi ch n m t gi i pháp khác ñ ñ m b o xây d ng đư c m t chương trình demo h tr x lý m t s hi n tư ng nh p nh ng c th Trên s ý tư ng c a thu t tốn đư c đ c p tài li u Error! Reference source not found., tác gi xây d ng cho m t gi i thu t khác, gi i thu t d a tính ch t “cách phân tách t i ưu nh t tách ñư c nh ng t có nhi u âm ti t nh t” Trư c tiên chương trình s ti n hành ki m tra l i t m c âm ti t ñ ñ m b o r ng văn b n đư c vi t t ti ng Vi t m c th p nh t m c âm ti t, sau thay ti n hành ñ c vào t ng âm ti t ki m tra tính liên thơng (như thu t tốn đ c p trên) s đ c vào m t âm ti t (g i âm ti t X) âm ti t ñ u tiên c a ph n văn b n s ñư c x lý, sau ki m tra s t n t i c a c m t dài nh t ch a âm ti t v a ñ c (g i t Y) có t n t i ti ng Vi t hay không, n u t n t i xem cách tách t t i ưu nh t không chia nh c m t Y, n u không t n t i thu t toán s - 21 ti n hành ki m tra tương t v i t ng n (b ng cách chia nh c m t Y) Xét c m t “thu c ñ a bàn”, X = “thu c”, MaxLen (c a t b t ñ u b ng âm ti t “thu c”) = 2, ta l y ñư c t “thu c ñ a”, theo trình t trình bày đây, âm ti t ti p theo ñư c xét s “bàn”, th ta ñã b qua t “ñ a bàn”, k t qu khơng t i ưu Do đó, thu t toán ph i lưu v t hi n t i quay v xét trư ng h p có th x y v i t “ñ a” Chương trình s đưa t t c kh có th sau đánh giá xem k t qu t i ưu nh t s t ch a nhi u âm ti t có đ ưu tiên cao Trong m t s trư ng h p mà chương trình khơng th t ñưa quy t ñ nh phân tách ñư c, t “thu c ñ a” “ñ a bàn” đây, chương trình s đưa g i ý đ ngư i s d ng l a ch n tùy theo ng c nh c a văn b n Theo thu t tốn trình bày đây, s khơng x y trư ng h p xu t hi n âm ti t khơng có t n ti ng Vi t, văn b n đ u vào c a thu t toán bu c ph i ki m tra l i t ti ng Vi t m c âm ti t r i 3.3 CÀI Đ T 3.3.1 Môi trư ng làm vi c 3.3.2 Khái quát v n t t v VB6 3.3.2.1 Đi u n ng d ng Microsoft Office 3.3.2.2 T o m t COM Add-In v i Visual Basic 3.3.2.3 Ki m tra COM Add-In 3.4 GI I THI U GIAO DI N CHƯƠNG TRÌNH VÀ HƯ NG D N S D NG 3.4.1 Giao di n c a chương trình 3.4.2 Ch c ki m l i t ti ng Vi t m c âm ti t - 22 Ngư i s d ng ch n ch c KI M TRA ñ b t ñ u ki m l i t ti ng Vi t m c âm ti t Trong ph n T sai, nh ng t khơng có d li u âm ti t ti ng Vi t s ñư c bơi xanh, đ ng th i m c T g i ý s ñưa danh sách t g i ý ñ thay th , ñây nh ng t ñư c l y t s d li u c a chương trình Ngư i s d ng s l a ch n nút l nh ñ th c hi n s a l i ho c b qua t b l i Hình 3.9 Giao di n c a chương trình 3.4.3 Ch c tách t Đ s d ng ch c tách t cho văn b n, ñ u tiên ngư i s d ng ph i l y ph n văn b n mu n tách ñưa vào ph n N i dung ki m tra, sau b m nút Tách t N u ño n văn b n c n tách khơng có trư ng h p có nhi u cách phân tách (như trư ng h p c m t “thu c ñ a bàn” nêu trên) chương trình s t đ ng tách ñưa ph n văn b n ñã ñư c tách thành t riêng bi t ph n Văn b n ñã ñư c tách t (xem hình 3.10) - 23 Ngư c l i, n u văn b n xu t hi n nh ng c m t có th phân tách theo nhi u cách khác nhau, chương trình s d ng l i c mt đưa t t c cách phân tách có th ph n L a ch n cách tách t (xem hình 3.11), lúc ñó ngư i s d ng s l a ch n cách tách phù h p v i ng c nh văn b n b m nút Ch n phương án đ ch p nh n, chương trình s lưu l a ch n ti p t c x lý ph n văn b n l i Hình 3.10 Giao di n ch c tách t (giao di n ti ng Anh) - 24 - Hình 3.11 Ngư i s d ng l a ch n phương án tách văn b n 3.5 K T LU N CHƯƠNG Chương c a báo cáo t p trung trình bày nh ng đ xu t ñ kh c ph c HTNN STVB Trong ph n tác gi ñã nh c l i nh ng k t qu mà m t s công trình nghiên c u đ t đư c lĩnh v c x lý nh p nh ng ti ng Vi t, ñ ng th i ñưa m t mơ hình t ng quan đ x lý toán Ph m vi x lý h tr kh c ph c hi n tư ng nh p nh ng gây nh ng l i t ti ng Vi t c p ñ âm ti t, ñ ng th i h tr x lý nh p nh ng khơng xác đ nh đư c ranh gi i gi a t - 25 - K T LU N Đánh giá k t qu chương trình Sau m t th i gian nghiên c u th c hi n ñ tài, tác gi ñã ñ t ñư c m t s k t qu v m t lý thuy t ng d ng, c th sau: Cơ s lý thuy t Nghiên c u ñư c nh ng v n ñ b n liên quan đ n x lý ngơn ng t nhiên nói chung x lý ti ng Vi t nói riêng Nghiên c u v nh ng hi n tư ng nh p nh ng thư ng xu t hi n ti ng Vi t, tìm hi u nh ng n i dung v so n th o văn b n hi n tư ng nh p nh ng so n th o văn b n Tìm hi u v cơng trình, báo nghiên c u v x lý nh p nh ng ngơn ng t nhiên nói chung ti ng Vi t nói riêng Xây d ng ng d ng Xây d ng ñư c m t chương trình h tr x lý nh p nh ng v i m t s ch c sau: S a l i t ti ng Vi t cho văn b n m c ñ âm ti t; Ch c chính: tách đo n văn b n cho trư c thành t riêng bi t, ch c ñã gi i quy t ñư c nh ng nh p nh ng v ranh gi i t văn b n, ñ ng th i k t qu có th dùng ti p cho ng d ng phát tri n v sau V s d li u: Tác gi ñã xây d ng ñư c m t kho d li u g m kho ng 10.000 âm ti t ti ng Vi t D li u ph c v cho ch c ki m l i t ti ng Vi t m c âm ti t Ngồi đ ph c v cho ch c tách t văn b n ti ng Vi t, tác gi ñã xây d ng ñư c m t kho d li u g m kho ng 24.000 t có ti ng Vi t b sung m t s danh t riêng ph bi n - 26 Nh n xét Ưu m: Chương trình đư c tích h p s n ng d ng Microsoft Word nên ngư i s d ng d g i th c thi Giao di n chương trình đơn gi n, thân thi n nên d s d ng, h th ng menu nút l nh ñư c thi t k rõ ràng, logic giúp ngư i dùng d thích nghi K t qu th hi n rõ ràng, g i ý h tr c th M t s h n ch : Chương trình ch m i h tr x lý hi n tư ng nh p nh ng v ph m vi, ranh gi i t m t ph n c a hi n tư ng nh p nh ng gây sai t ti ng Vi t ch chưa gi i quy t ñư c t t c hi n tư ng nh p nh ng c a ti ng Vi t K t qu th c thi cịn mang tính ch t h tr ch chưa gi i quy t tri t ñ hi n tư ng nh p nh ng Kho d li u t ti ng Vi t chưa ñ y ñ dù tác gi ñã b sung danh t riêng ph bi n khơng có t ñi n ti ng Vi t chưa th ñ y ñ t t c nên m t ch ng m c đó, k t qu chương trình v n chưa xác 100% Chương trình chưa h tr x lý tr c ti p ñang so n th o văn b n chưa x lý ñ nh d ng văn b n Hư ng phát tri n c a đ tài Hồn thi n kho d li u t ti ng Vi t đ k t qu phân tích c a chương trình có đ xác cao Phát tri n ng d ng có kh l y x lý đư c ñ nh d ng c a văn b n X lý thêm trư ng h p l i t ti ng Vi t c p đ cao V i t ñã phân tách ñư c, tác gi s ti n hành gán nhãn t lo i, h tr phân tích cú pháp câu ti ng Vi t Tr giúp ngư i s d ng trình so n th o văn b n ... ng nh p nh ng ph bi n nh t x lý văn b n ti ng Vi t - 11 CHƯƠNG 2: SO N TH O VĂN B N VÀ HI N TƯ NG NH P NH NG TRONG SO N TH O VĂN B N 2.1 M TS V N Đ V SO N TH O VĂN B N 2.1.1 Đ t v n ñ 2.1.2 Khái... 2.1.4 M t s quy t c gõ văn b n b n 2.1.5 Ph n m m so n th o văn b n 2.2 HI N TƯ NG NH P NH NG TRONG SO N TH O VĂN B N Nh ng m c ñ nh p nh ng STVB: Trong trình so n th o văn b n, hi n tư ng nh... TS Trương Công Tu n Lu n văn ñư c b o v trư c H i ñ ng ch m Lu n văn t t nghi p th c sĩ k thu t h p t i Đ i h c Đà N ng vào ngày 19 tháng năm 2011 * Có th tìm hi u lu n văn t i: - Trung tâm Thông