Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 22 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
22
Dung lượng
2,11 MB
Nội dung
Giáo viên hướng dẫn : PGS.Lê Thanh Hương Nhóm 27 : TrầnQuangHưng - 20071489 Nguyễn Nam Thanh - 20072552 Đỗ Quang Trường - 20063382 Võ Hải Nam - 20073735 I. Đ t v n đặ ấ ề II. Cách ti p c n gi i quy t v n đế ậ ả ế ấ ề III. Cài đ tặ IV. Th nghi m và đánh giá h th ngử ệ ệ ố Tách t là bư c x lý quan tr ng đ i v i các ừ ớ ử ọ ố ớ h th ng XLNNTN,đ c bi t là đ i v i các ệ ố ặ ệ ố ớ ngôn ng đơn l p, ví d : âm ti t Trung Qu c, ữ ậ ụ ế ố âm ti t Nh t, âm ti t Thái, và ti ng Vi t.ế ậ ế ế ệ M c đích: xác đ nh ranh gi i c a các t trong ụ ị ớ ủ ừ câu. Bài toán tách t có 3 hư ng ti p c n chính :ừ ớ ế ậ · Ti p c n d a vào t đi n c đ nh.ế ậ ự ừ ể ố ị · Ti p c n d a vào th ng kê.ế ậ ự ố · Ti p c n d a trên c hai phương pháp trên.ế ậ ự ả Các phương pháp đư c s d ng trong bài toán tách t :ợ ử ụ ừ · So kh p t dài nh t (Longest Matching)ớ ừ ấ · So kh p c c đ i (Maximum Matching)ớ ự ạ · Mô hình Markov n (Hidden Markov Models- HMM)ẩ · H c d a trên s c i bi n (Transformation-based Learning – TBL)ọ ự ự ả ế · Chuy n đ i tr ng thái tr ng s h u h n (Weighted Finite State ể ổ ạ ọ ố ữ ạ Transducer – WFST) · Đ h n lo n c c đ i (Maximum Entropy – ME)ộ ỗ ạ ự ạ · Máy h c s d ng vectơ h tr (Support Vector Machines)ọ ử ụ ỗ ợ Ngoài ra còn có th k t h p nh ng phương pháp trên.ể ế ợ ữ Hư ng ti p c n t đi nớ ế ậ ừ ể Phương pháp so kh p c c đ i(maximum ớ ự ạ matching) Duy t m t c m t ho c câu t trái sang ph i ệ ộ ụ ừ ặ ừ ả và ch n t có nhi u âm ti t nh t có m t ọ ừ ề ế ấ ặ trong t đi n, r i c th ti p t c cho t k ừ ể ồ ứ ể ế ụ ừ ế ti p cho đ n h t câu.ế ế ế Gi s có m t chu i ký t C1, C2, , Cn. Ta ả ử ộ ỗ ự b t đ u t đ u chu i. Đ u tiên ki m tra xem ắ ầ ừ ầ ỗ ầ ể C1, có ph i là t hay không, sau đó ki m tra ả ừ ể xem C1C2 có ph i là t hay không. Ti p t c ả ừ ế ụ tìm cho đ n khi tìm đư c t dài nh t. T có ế ợ ừ ấ ừ v h p lý nh t s là t dài nh t. Ch n t đó, ẻ ợ ấ ẽ ừ ấ ọ ừ sau đó tìm ti p như trên cho nh ng t còn l i ế ữ ừ ạ cho đ n khi xác đ nh đư c toàn b chu i t .ế ị ợ ộ ỗ ừ D ng ph c t p: Quy t c c a d ng này là phân đo n có v ạ ứ ạ ắ ủ ạ ạ ẻ h p lý nh t là đo n ba t v i chi u dài t i đa. Thu t toán ợ ấ ạ ừ ớ ề ố ậ b t đ u như d ng đơn gi n. N u phát hi n ra nh ng cách ắ ầ ạ ả ế ệ ữ tách t gây nh p nh ng (ví d , C1 là t và C1C2 cũng là t ), ừ ậ ằ ụ ừ ừ ta xem các ch k ti p đ tìm t t c các đo n ba t có th ữ ế ế ể ấ ả ạ ừ ể có b t đ u v i C1 ho c C1C2. Ví d ta đư c nh ng đo n ắ ầ ớ ặ ụ ợ ữ ạ sau: C1C2 C3 C4 C1C2 C3 C4 C5 C1C2 C3 C4 C5 C6 Chu i dài nh t s là chu i th ba. V y t đ u tiên c a chu i ỗ ấ ẽ ỗ ứ ậ ừ ầ ủ ỗ th ba (C1C2) s đư c ch n.ứ ẽ ợ ọ V i cách này, ta d dàng tách đư c chính xác các ớ ễ ợ ng /câu như “ h p tác xã ||mua bán”, “thành l p || ữ ợ ậ nư c || Vi t Nam || dân ch || c ng hòa”ớ ệ ủ ộ Cách tách t đơn gi n, nhanh, ch c n d a vào t ừ ả ỉ ầ ự ừ đi nể Trong ti ng Hoa, cách này đ t đư c đ chính xác ế ạ ợ ộ 98,41% Đ chính xác c a phương pháp ph thu c ộ ủ ụ ộ hoàn toàn vào tính đ và tính chính xác c a ủ ủ t đi nừ ể Phương pháp này s tách t sai trong các ẽ ừ trư ng h p “ h c sinh || h c sinh|| h c”, “m t ờ ợ ọ ọ ọ ộ || ông || quan tài || gi i”, “trư c || bàn là || ỏ ớ m t || ly || nư c”…ộ ớ [...]... … Tách câu thành các từ Tìm kiếm các từ trong từ điển với độ dài tối đa là 5 Lưu từ, vị trí bắt đầu, vị trí kết thúc, danh sách từ loại Liệt kê tất cả các câu có thể từ danh sách các từ đã tìm trong từ điển Lựa chọn câu có số từ vựng ngắn nhất Thử nghiệm Đánh giá Đề xuất Kết quả với một số câu : -Nếu nhà máy nghỉ thì ta đi về Danh sách các từ : [0,1:nếu(C)] [1,2:nhà(N)]... Xây dựng từ điển Tìm từ trong từ điển : xác định tất cả các từ có trong câu Liệt kê tất cả các câu có thể Phân giải nhập nhằng : sử dụng phương pháp so khớp cực đại đưa ra câu có số từ nhỏ nhất Dữ liệu : dữ liệu từ điển theo chuẩn XML Ngôn ngữ : C# a... nhằng khi các từ có câu có cùng số từ vựng Độ chính xác của hệ thống phụ thuộc nhiều vào phong phú của từ điển Không xử lý được các tổ hợp từ cố định, ví dụ : “ông chẳng bà chuộc”… Về vấn đề xử lý nhập nhằng, có thể áp dụng thêm một số phương pháp như xử lý cú pháp, xác suất thống kê để xử lý các trường hợp nhập nhằng Đối với các vấn đề các tổ hợp từ cố định, có thể đưa ra tất cả các từ ghép có... [6,7:đi(R,I,V)] [7,8:về(C,V)] Các cách tách từ : nếu|nhà|máy|nghỉ|thì|ta|đi|về n ếu|nhà máy|ngh ỉ|thì|ta|đi|v ề => L ựa ch ọn Ông già đi nhanh quá Danh sách các từ : [0,1:ông(N,L)] [0,2:ông già(N)] [1,2:già(N,A)] [2,3:đi(R,I,V)] [3,4:nhanh(A)] [4,5:quá(V,R)] Các cách tách từ : ông|già|đi|nhanh|quá ông già|đi|nhanh|quá => L ựa ch ọn Kết quả thu được của chương trình là khá chính xác, song vẫn chưa... tự nhiên ( cô Lê Thanh Hương ) http://www.loria.fr/~lehong/softwares.php ( Trang web của Lê Hồng Phương) http://vlsp.vietlp.org:8080/demo/?page=res ources : một số tài nguyên cho xử lý văn bản tiếng Việt Và một số tài liệu khác từ internet . ể Phương pháp này s tách t sai trong các ẽ ừ trư ng h p “ h c sinh || h c sinh|| h c”, “m t ờ ợ ọ ọ ọ ộ || ông || quan tài || gi i”, “trư c || bàn là || ỏ ớ m t || ly || nư c”…ộ ớ Xây d ng t đi n.ự. ọ V i cách này, ta d dàng tách đư c chính xác các ớ ễ ợ ng /câu như “ h p tác xã ||mua bán”, “thành l p || ữ ợ ậ nư c || Vi t Nam || dân ch || c ng hòa”ớ ệ ủ ộ Cách tách t đơn gi n, nhanh, ch. già(N)] [1,2:già(N,A)] [2,3:đi(R,I,V)] [3,4:nhanh(A)] [4,5:quá(V,R)] Các cách tách t :ừ ông|già|đi|nhanh|quá ông già|đi|nhanh|quá => L a ch nự ọ K t qu thu đư c c a chương trình là khá ế ả ợ ủ chính xác, song v n chưa