GÁN NHÃN TỪ LOẠI CHO TIẾNG VIỆT DỰA TRÊN VĂN PHONG VÀ TÍNH TOÁN XÁC SUẤT

11 305 0
GÁN NHÃN TỪ LOẠI CHO TIẾNG VIỆT DỰA TRÊN VĂN PHONG VÀ TÍNH TOÁN XÁC SUẤT

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 9, SỐ -2006 GÁN NHÃN TỪ LOẠI CHO TIẾNG VIỆT DỰA TRÊN VĂN PHONG VÀ TÍNH TOÁN XÁC SUẤT Nguyễn Quang Châu (1), Phan Thị Tươi (2), Cao Hoàng Trụ(2) (1) Trường Đại học Công Nghiệp Tp.HCM (2) Trường Đại học Bách Khoa, ĐHQG- HCM (Bài nhận ngày 09 tháng 12 năm 2006) TÓM TẮT: Xác định từ loại xác cho từ văn tiếng Việt vấn đề quan trọng lĩnh vực xử lý ngôn ngữ tự nhiên.Việc xác định hỗ trợ cho việc phân tích cú pháp văn bản, góp phần giải tính đa nghĩa từ, trợ giúp hệ thống rút trích thông tin hướng đến ngữ nghĩa, v.v… Bài báo trình bày hướng tiếp cận cho toán gán nhãn từ loại văn tiếng Việt sở vận dụng mô hình thống kê dựa vào kho ngữ liệu, từ điển, cú pháp ngữ cảnh Đồng thời trình phát triển hệ thống ứng dụng, chưa có kho ngữ liệu dành cho mục đích nghiên cứu xử lý ngôn ngữ tự nhiên tiếng Việt, xây dựng có tính kế thừa [1][4] kho ngữ lịêu gồm gần 75.000 từ tiếng Việt, từ điển gồm 80.000 mục từ, để phục vụ cho vấn đề nghiên cứu Từ khóa : Tiếng Việt, từ loại, gán nhãn từ loại, văn phong, từ điển, kho ngữ liệu, thống kê, mô hình Markov, thuật toán Viterbi, rút trích thông tin I GIỚI THIỆU Một vấn đề tảng ngôn ngữ tự nhiên việc phân loại từ thành lớp từ loại dựa theo thực tiễn hoạt động ngôn ngữ Mỗi từ loại tương ứng với hình thái giữ vai trò ngữ pháp định Các công cụ thích từ loại hay công cụ gán từ loại cho từ thay đổi tuỳ theo quan niệm đơn vị từ vựng thông tin ngôn ngữ cần khai thác ứng dụng cụ thể Mỗi từ ngôn ngữ nói chung gắn với nhiều từ loại, việc giải thích nghĩa từ phụ thuộc vào việc xác định từ loại hay không Công việc gán nhãn từ loại cho văn xác định từ loại từ phạm vi văn Khi hệ thống văn gán nhãn, hay nói cách khác thích từ loại ứng dụng rộng rãi hệ thống tìm kiếm thông tin, ứng dụng tổng hợp tiếng nói, hệ thống nhận dạng tiếng nói hệ thống dịch máy Đối với văn Việt ngữ, việc gán nhãn từ loại có nhiều khó khăn, đặc biệt thân việc phân loại từ tiếng Việt vấn đề nhiều tranh cãi, chưa có chuẩn mực thống Nghiên cứu nhằm phục vụ đồng thời hai mục đích: Một mặt thực nỗ lực xây dựng công cụ gán nhãn từ loại cho từ tiếng Việt, phục vụ cho hệ thống rút trích thông tin Mặt khác, xây dựng kho ngữ liệu tiếng Việt cho 48 loại từ loại, đặt tảng cho việc phát triển ứng dụng xử lý ngôn ngữ tiếng Việt máy tính phục vụ cho ứng dụng khác Để nghiên cứu áp dụng cho vấn đề tự động gán nhãn từ loại cho từ tiếng Việt, thực công việc cụ thể sau: Trang 11 Science & Technology Development, Vol 9, No.2 - 2006 1.Xác định thích 48 từ loại [1] với 10 miền giới hạn: • Lớp thực thể nhân vật • Lớp thực thể tổ chức • Lớp thực thể công ty • Lớp thực thể thành phố • Lớp thực thể tỉnh • Lớp thực thể núi non • Lớp thực thể sông ngòi • Lớp thực thể đường • Lớp thực thể địa điểm đặc biệt (các địa điểm du lịch, thắng cảnh, di tích lịch sử, ) • Lớp thực thể tên khác thực thể Xây dựng kho ngữ liệu huấn luyện (training corpus) cho tiếng việt loại bỏ nhập nhằng từ loại, gán nhãn cho từ với thích 48 từ loại [16] 3.Xây dựng tập luật (rule set) để nhận diện 48 nhãn từ loại văn tiếng Việt trường hợp nhập nhằng nhãn từ loại Xây dựng công cụ gán nhãn từ loại tự động dùng phương pháp xác suất, dựa thông tin, quy tắc kết hợp từ loại học từ kho ngữ liệu gán nhãn mẫu văn phong văn Mô hình tổng quát cho toán gán nhãn từ loại sau (Hình 1): Văn phân đoạn từ (WORD SEGMENTED TEXTS) Tập luật nhận diện POS Mô hình gán nhãn từ loại cho từ (POS Tagging Model) Kho ngữ liệu tiếng Việt Văn gán từ loại (POS TAGGED TEXTS) Hình 1.Mô hình tổng quát PHƯƠNG PHÁP LUẬN Phương pháp gán nhãn từ loại cho từ Tiếng Việt Trong phần báo giới thiệu tổng quan kỹ thuật gán nhãn từ loại cho văn tiếng Việt Quá trình gán nhãn từ loại chia làm bước [14] Phân tách xâu ký tự thành chuỗi từ Giai đoạn đơn giản hay phức tạp tuỳ theo ngôn ngữ quan niệm đơn vị từ vựng Chẳng hạn tiếng Anh hay tiếng Pháp, việc phân tách từ phần lớn dựa vào ký hiệu trắng Tuy nhiên có từ ghép hay cụm từ gây tranh cãi cách xử lý Trong với tiếng Việt dấu trắng dấu hiệu để xác định ranh giới đơn vị từ vựng tần số xuất từ ghép cao Trang 12 TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 9, SỐ -2006 - Khởi tạo gán nhãn, tức tìm cho từ tập tất nhãn từ loại mà có Tập nhãn thu từ sở liệu từ điển kho văn gán nhãn tay Đối với từ chưa xuất sở ngữ liệu dùng nhãn ngầm định gắn cho tập tất nhãn Trong ngôn ngữ biến đổi hình thái người ta dựa vào hình thái từ để đoán nhận lớp từ loại tương ứng từ xét - Quyết định kết gán nhãn, giai đoạn loại bỏ nhập nhằng, tức lựa chọn cho từ nhãn phù hợp với ngữ cảnh tập nhãn khởi tạo Có nhiều phương pháp để thực việc này, người ta phân biệt chủ yếu phương pháp dựa vào quy tắc ngữ pháp mà đại diện bật phương pháp Brill [8] phương pháp xác suất [14] Ngoài có hệ thống sử dụng mạng nơ-ron [15], hệ thống lai sử dụng kết hợp tính toán xác suất ràng buộc ngữ pháp, gán nhãn nhiều tầng [9] Về mặt ngữ liệu, phương pháp phân tích từ loại thông dụng dùng loại tài nguyên ngôn ngữ sau: - Từ điển văn phạm loại bỏ nhập nhằng [11] - Kho văn gán nhãn [13], kèm theo quy tắc ngữ pháp xây dựng tay [8] - Kho văn chưa gán nhãn, có kèm theo thông tin ngôn ngữ tập từ loại thông tin mô tả quan hệ từ loại hậu tố [14] Kho văn chưa gán nhãn, với tập từ loại xây dựng tự động nhờ tính toán thống kê [1] Trong trường hợp khó dự đoán trước tập từ loại Các công cụ gán nhãn từ loại dùng từ điển văn phạm gần giống với công cụ phân tích cú pháp Các hệ thống học sử dụng kho văn để học cách đoán nhận từ loại cho từ [10] Từ năm 1980 hệ thống triển khai rộng rãi việc xây dựng kho văn mẫu tốn nhiều so với việc xây dựng từ điển chất lượng cao quy tắc ngữ pháp đầy đủ Một số hệ thống sử dụng đồng thời từ điển để liệt kê từ loại cho từ, kho văn mẫu để loại bỏ nhập nhằng Công cụ gán nhãn kết hợp tính toán xác suất đặc thù ràng buộc ngữ pháp văn phong Các công cụ gán nhãn thường đánh giá độ xác kết quả: [số từ gán nhãn đúng] / [tổng số từ văn bản] Các công cụ gán nhãn tốt có độ xác đạt tới 98% [14] CÔNG CỤ GÁN NHÃN Nghiên cứu áp dụng cho vấn đề tự động gán nhãn từ loại tiếng Việt, thực bước sau: • Bước thứ nhất: Xác định nhãn từ loại (bao gồm 48 từ loại danh từ loại thể, đại từ nhân xưng, phụ từ thời gian, vv.) cho từ thích hợp dựa luật cú pháp ngữ cảnh • Bước thứ hai: Khởi tạo gán nhãn, tức tìm cho từ lại tập tất nhãn từ loại mà có Tập nhãn thu từ sở liệu từ điển kho ngữ liệu gán nhãn tay Đối với từ chưa xuất sở ngữ liệu dùng nhãn ngầm định gắn cho tập tất nhãn Trong ngôn ngữ biến đổi hình thái người ta dựa vào hình thái từ để đoán nhận lớp từ loại tương ứng từ xét • Bước thứ ba: Quyết định kết gán nhãn, giai đoạn loại bỏ nhập nhằng, tức lựa chọn cho từ nhãn phù hợp với ngữ cảnh tập nhãn khởi tạo Về mặt ngữ liệu, dùng kết hợp hai loại tài nguyên ngôn ngữ sau: - Từ điển gồm 80.000 mục từ văn phạm loại bỏ nhập nhằng - Kho ngữ liệu gán nhãn gồm gần 75 000 mục từ, kèm theo quy tắc ngữ pháp xây dựng tay Trang 13 Science & Technology Development, Vol 9, No.2 - 2006 3.1 Phương pháp gán nhãn xác suất Về ý tưởng phương pháp gán nhãn từ loại xác suất xác định phân bố xác suất không gian kết hợp dãy từ Sw dãy nhãn từ loại St Sau có phân bố xác suất này, toán loại bỏ nhập nhằng từ loại cho dãy từ đưa toán lựa chọn dãy từ loại cho xác suất điều kiện P(St | Sw) kết hợp dãy từ loại với dãy từ cho đạt giá trị lớn Theo công thức xác suất Bayes ta có: P(St | Sw) = P(Sw | St).P(St)/P(Sw) Ở dãy từ Sw biết, nên thực tế cần cực đại hoá xác suất P(Sw | St).P(St) Với dãy St = t1t2 tN với dãy Sw = w1w2 wN : P(w1w2 wN | t1t2 tN) = P(w1 | t1t2 tN) P(w2 | w1,t1t2 tN) P(wN | w1 wN-1, t1t2 tN) P(t1t2 tN) = P(t1)P(t2 | t1) P(t3 | t1t2) P(tN | t1 tN-1) Người ta đưa giả thiết đơn giản hoá cho phép thu gọn mô hình xác suất số hữu hạn tham biến Đối với P(wi | w1 wi-1, t1t2 tN), giả thiết khả xuất từ cho nhãn từ loại hoàn toàn xác định biết nhãn đó, nghĩa P(wi | w1 wi-1, t1t2 tN) = P(wi | ti) Như vậy, xác suất P(w1w2 wN|t1t2 tN) phụ thuộc vào xác suất có dạng P(wi|ti): P(w1w2 wN | t1t2 tN) = P(w1 | t1)P(w2 | t2) P(wN | tN) Đối với xác suất P(ti | t1 ti-1), giả thiết khả xuất từ loại hoàn toàn xác định biết nhãn từ loại lân cận có kých thước k cố định, nghĩa là: P(ti | t1 ti-1)= P(ti | ti-k ti-1) Nói chung, công cụ gán nhãn thường sử dụng giả thiết k (bigram) (trigram) Như mô hình xác suất tương đương với mô hình Markov ẩn [12][5], trạng thái ẩn nhãn từ loại (hay dãy gồm k nhãn k > 1), trạng thái (quan sát được) từ từ điển Với kho văn gán nhãn mẫu, tham số mô hình dễ dàng xác định nhờ thuật toán Viterbi [3][12] mô tả sau THUẬT TOÁN Viterbi Cho chuỗi từ W1, , WT, từ loại C1, , CN , xác suất Pr (Wi | Ci) xác suất Bigram Pr (Ci | Cj), tìm chuỗi từ loại C1,…,CT phù hợp cho chuỗi từ W1,…, WT Bước khởi tạo: for i = to K /*K số lượng từ loại; : từ loại rỗng */SeqScore(i,1) = Pr(C1 | )* Pr(W1 | Ci) BACKPTR(i,1) = 0; Bước lặp: for t = to T /* T số lượng từ câu cho trước */ for i = to K SeqScore (i,t) = Max (SeqScore (j,t -1)* Pr (Ci | Cj))* Pr (Wt | Ci), với j = 1, K BACKPTR(i,t) = Chỉ số j cho giá trị Max Bước xác định chuỗi từ loại: C(T) = i Max SeqScore(i,t) for i = T-1 to C(i) = BACKPTR(C(i+1),i+1) Trang 14 TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 9, SỐ -2006 3.2 Phương pháp gán nhãn dựa văn phong Văn phong cách viết văn người, thể loại văn Phương pháp gán nhãn từ loại dựa văn phong thực chất vào cách thể văn ngữ cảnh cụ thể để xác định từ loại cho từ, điều bao hàm việc xác định phải đảm bảo luật văn phạm từ câu Ví dụ: Trong buổi họp, anh1 Nguyễn Văn Thành phát biểu … cách tích cực.Tuy nhiên, anh2 không tập trung vào vấn đề họp Như vậy, từ anh đoạn văn đóng hai vai trò ngữ pháp, anh1 Danh từ loại thể (Nt) anh2 Đại từ xưng hô (Pp) Và Nguyễn Văn Thành đóng vai trò ngữ pháp Danh từ riêng (Np) Trên sở dựa vào cách thể văn ngữ cảnh cụ thể ví dụ ngữ pháp tiếng Việt [6] [7] [16], xây dựng hệ thống luật mà dựa vào xác định từ loại cho từ văn trường hợp không bị nhập nhằng Mô hình phương pháp gán nhãn từ loại dựa văn phong mô sau (Hình 2): Các luật xác định Date, DT riêng, DT loại thể, Đại từ xưng hô, vv Đầu vào Mô hình gán từ loại dựa luật Đầu Hình Mô hình phương pháp gán nhãn từ loại dựa văn phong Về ý tưởng phương pháp gán nhãn từ loại dựa văn phong diễn đạt thông qua thủ tục sau: - Áp dụng luật xác định danh từ riêng [1] - Trên sở danh từ riêng xác định, tiếp tục áp dụng luật để xác định 48 nhãn từ loại lại Như ví dụ: Trong buổi họp, anh1 Nguyễn Văn Thành phát biểu … cách tích cực.Tuy nhiên, anh2 không tập trung vào vấn đề họp Thủ tục nhận diện diễn đạt sau: Các luật xác định danh từ riêng Æ Nguyễn Văn Thành Các luật xác định danh từ loại thể Æ anh1 Các luật xác định đại từ nhân xưng Æ anh2 Các luật xác định từ loại khác Æ … Về phương pháp xây dựng hệ thống luật, dựa vào JAPE (Java Annotation Patterns Engine)[2] để thực 270 luật để xác định 48 nhãn từ loại[1] Do giới hạn trình bày, báo minh họa hai luật đơn giản trường hợp đoán nhận từ có nhãn date sau: Trang 15 Science & Technology Development, Vol 9, No.2 - 2006 Rule: date1 (({Token.kind=="number"})((({SpaceToken})*{Token.string=="-"} ({SpaceToken})*|({SpaceToken})*{Token.string=="/"}({SpaceToken})*) {Token.kind=="number"})+)+ > date Rule: date2 (({Token.string=="ngày"}|{Token.string=="Ngày"})({SpaceToken})+{Token.kind=="numbe r"}({SpaceToken})+({Token.string=="tháng"}|{Token.string=="Tháng"})({SpaceToken})+{ Token.kind=="number"}({SpaceToken})+({Token.string=="năm"}|{Token.string=="Năm"}) ({SpaceToken})+{Token.kind=="number"} ({SpaceToken})+ )+ > date Trong đó: Token.kind – Loại Token, SpaceToken – Ký tự trắng, * có nghĩa không nhiều, + có nghĩa nhiều, | có nghĩa Hoặc Với luật date1 đoán nhận dạng date 1/2/2006, 1-2-2006, vv… Và luật date2 đoán nhận dạng date Ngày Tháng Năm 2006, Ngày 03 tháng 03 năm 2006, vv… 3.3 Mô hình kết hợp phương pháp gán nhãn xác suất phương pháp gán nhãn dựa văn phong Bộ gán nhãn hệ thống lai kết hợp gán nhãn dựa văn phong gán nhãn trigram Trong có gán nhãn trigram sử dụng kết hợp hai nguồn thông tin: Một từ điển khoảng 80.000 từ chứa từ kèm theo danh sách nhãn chúng với tần suất xuất tương ứng; ma trận gồm ba nhãn từ loại xuất liền văn với tần số xuất chúng Loại liệu thu dựa vào kho ngữ liệu mẫu khoảng 78.920 từ gán nhãn Các loại dấu câu ký hiệu khác văn xử lí đơn vị từ vựng, với nhãn dấu câu tương ứng Còn gán nhãn dựa văn phong, xây dựng hệ thống 270 luật để xác định cho 48 từ loại (danh từ riêng, đại từ xưng hô, danh từ loại thể, vv ) luật để xác định kiểu ngày tháng năm (date) Mô hình toán gán nhãn từ loại trình bày sau (Hình 3): Trang 16 TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 9, SỐ -2006 Danh sách từ (annotations) Gán nhãn từ loại dựa vào luật ràng buộc cú pháp ngữ cảnh (văn phong) Gán nhãn từ loại dựa vào mô hình thống kê Các vnTokens Tập luật nhận diện 48 nhãn từ loại, dạng ngày tháng năm, dạng số Kho ngữ liệu tiếng Việt Danh sách annotations kết Hình Mô hình toán gán nhãn từ loại Bộ gán nhãn làm việc với liệu vào danh sách annotations, annotation tương ứng với từ văn Bộ gán nhãn gán dãy gồm bốn nhãn từ loại với thông tin xác suất tương ứng cho từ danh sách, gán kết cuối - nhãn có khả xuất cao Và thu annotations kết có cấu trúc sau: // id annotation annotation.id = số id annotation.type = "vnWord"; // loại annotation annotation.fm={ // tính chất annotation // chuỗi ký tự từ string = giá trị 1; kind = giá trị 2; // loại từ // chiều dài từ length = giá trị 3; // dạng ký tự từ có giá trị: orth= giá trị 4; - lowercase: ký tự chữ thường -upperInitial: ký tự chữ hoa -allCaps: ký tự chữ hoa -mixedCaps: ký tự chữ hoa chữ hoa xen pos= giá trị 5; // nhãn từ loại từ }; annotation.start=startNode; // vị trí bắt đầu annotation văn annotation.end = endNode; // vị trí cuối annotation văn Về mặt thuật toán, gán nhãn thực thủ tục sau: • • Đọc tất từ văn bản; Gán nhãn từ loại cho từ mà không gây nhập nhằng; + Áp dụng luật xác định danh từ riêng; + Trên sở danh từ riêng xác định, tiếp tục áp dụng luật để xác định 48 nhãn từ loại lại; • Ghi vào đệm • while(bộ đệm không trống) + Đọc từ từ đệm; Trang 17 Science & Technology Development, Vol 9, No.2 - 2006 + for từ từ o if từ có từ điển o then gán cho từ tất nhãn (tag) có từ điển; o else gán cho từ tất nhãn (tag) có thể; o j = 0; o while(j < số nhãn) - Tính Pw = P(tag|token) xác suất từ token có nhãn tag; - Tính Pc = P(tag|t1,t2), xác suất nhãn tag xuất sau nhãn t1, t2, nhãn tương ứng hai từ đứng trước từ token; - Tính Pw,c = Pw * Pc, kết hợp hai xác suất trên.; - j = j +1; o end while; + end for; • end while; Sau ví dụ kết sau qua gán nhãn câu: "Năm ngoái /, / Ông / Nguyễn Thành Tài / / thăm / khu / di tích / lịch sử / Củ Chi." thể dạng XML sau: Năm ngoái Ông < w pos="Np"> Nguyễn Thành Tài , thăm khu di tích lịch sử Củ Chi Trong đó: Jt – Phụ từ thời gian , Nt – Danh từ loại thể, Np – Danh từ riêng, Vm – Động từ chuyển động, Vtim – Động từ ngoại động cảm nghĩ, Na – Danh từ trừu tượng ĐÁNH GIÁ Chương trình viết ngôn ngữ lập trình Java môi trường GATE [2], Mã chương trình đích khoảng 160KB Mã nguồn mở dễ dàng sửa đổi tích hợp ứng dụng khác Thời gian huấn luyện hay gán nhãn với ngữ liệu khoảng 34000 lượt từ tốn khoảng 43 giây Kết thử nghiệm tốt với tập mẫu xây dựng đạt tới độ xác ~80% dùng phương pháp gán nhãn xác suất (P1) đạt ~90% dùng phương pháp gán nhãn dựa văn phong kết hợp với phương pháp xác suất (P2) Bảng minh hoạ kết gán nhãn: Tỉ lệ tương ứng thử nghiệm độ xác Trang 18 TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 9, SỐ -2006 Bảng Kết gán nhãn từ loại Văn / Văn phong Số đơn vị từ P1 P2 Chuyện tình1 / Tiểu thuyết VN 16787 80,53% 90,75% Chuyện tình2 / Tiểu thuyết VN 14698 80,78% 90,39% Hoàng tử bé / Truyện nước 18663 80,90% 90,48% Lược sử thời gian / Sách khoa học 11626 78,44% 88,20% Công nghệ / Báo chí 10662 77,81% 87,90% Độ xác trung bình 79,69% 89,54% KẾT LUẬN Trên báo trình bày phương pháp tiếp cận để giải toán gán nhãn từ loại tự động kết hợp tính toán xác suất đặc thù ràng buộc ngữ pháp văn phong cho văn tiếng Việt Tuy kết ban đầu có độ xác chưa thật cao, chúng đáp ứng tốt yêu cầu đặt ban đầu đề tài đặt tảng cho nghiên cứu Với kết gán nhãn thu được, tiếp tục bổ sung kho liệu gồm văn gán nhãn mẫu, phát triển phương pháp gán nhãn từ loại dựa văn phong cho từ loại, để làm tăng chất lượng công cụ gán nhãn Và kho liệu đặc biệt hữu ích cho việc nghiên cứu văn phạm tiếng Việt Việc nghiên cứu văn phạm sở văn gán nhãn giúp cho điều chỉnh công cụ gán nhãn từ loại, cho từ loại đưa đáp ứng tốt yêu cầu thể đặc trưng ngữ pháp đơn vị từ vựng Bên cạnh đó, công cụ tự động gán nhãn từ loại hỗ trợ tích cực cho nhà ngôn ngữ phát hiện tượng ngôn ngữ cần nghiên cứu VIETNAMESE PART-OF-SPEED TAGGING BASED ON STYLE OF TEXTS AND PROBABILITY MODEL Chau Quang Nguyen (1), Tuoi Thi Phan (2), Tru Hoang Cao(2) (1) Ho Chi Minh University of Industry (2) University of Technology, VNU-HCM ABSTRACT : Accurate part-of-speech (POS) tagging for words in Vietnamese texts is very important problem It will support for texts parsing, resolve polysemy, assist with semantic information extraction systems, etc Therefore, this paper presents an approach to POS tagging for Vietnamese texts This method used probability model and based on a lexicon with information about possible POS tags for each word, a manually labelled corpus, syntax and context of texts Concurrently, we also built a corpus with 75,000 entries and a lexicon Trang 19 Science & Technology Development, Vol 9, No.2 - 2006 with 80,000 entries for the purpose of Vietnamese language processing research and application development Keywords: Vietnamese, Part-of-Speech (POS), POS Tagging, style of texts, lexicon, corpus, probability, Markov model, Viterbi algorithm, Information Extraction TÀI LIỆU THAM KHẢO [1] Chau Quang Nguyen, Tuoi Thi Phan, Tru Hoang Cao, Vietnamese Proper Noun Recognition, Proceedings of The Fourth International IEEE Conference on Computer Sciences- RIVF’06, pp.144-151, 2006 [2] Hamish, Cunningham, Diana Maynard, Kalina Bontcheva, Valentin Tablan, Cristian ,Ursu, Marin Dimitrov, Mike Dowman, Niraj Aswani , Developing Language Processing Components with GATE, The University of Sheffield 2001-2006 ,http://gate.ac.uk/sale/tao/ [3] Nguyễn Chí Hiếu, Phan Thị Tươi, Nguyễn Xuân Dũng, Nguyễn Quang Châu, Sử Dụng Kỹ Thuật Pruning Vào Bài Toán Xác Định Từ Loại, Tạp chí Phát triển Khoa học & Công nghệ, Tập 8, Số 11, 14-23, 2005 [4] Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phong, Sử Dụng Bộ Gán Nhãn Từ Loại Xác Suất QTAG Cho Văn Bản Tiếng Việt, Proceedings of ICT.rda'03 Hanoi, Feb 2003 [5] Sang-Zhu Lee, Jung-ichi Tsujii, Hae-Chang Rim, Lexicalized Hidden Markov Models for Part-of-Speech Tagging, University of Tokyo, Japan, Korea University, Korea, 2000 [6] Cao Xuân Hạo, Tiếng Việt - vấn đề ngữ âm, ngữ pháp, ngữ nghĩa, NXB Giáo dục, 2000 [7] Nguyễn Tài Cẩn, Ngữ pháp tiếng Việt, NXB Đại học quốc gia Hà nội, 1999 [8] Brill E., Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging, Computational Linguistics, 21(4), pp.543-565, December 1999 [9] Tufis D., Tiered Tagging and combined classifier, In Jelineck F and North E (Eds), Text, Speech and Dialogue, Lecture Notes in Artificial Intelligence 1692, Springer, 1999 [10] Abney S.,Part-of-Speech Tagging and Partial Parsing, in Young S and Bloothooft (Eds), Corpus-Based Methods in Language and Speech processing, Kluwer Academic Publishers, Dodreht (The Netherlands), 1997 [11] Oflazer K., Error-tolenrant finite-state recognition with applications to morphological analysis and spelling correction, Computational Linguistics, 22(1), pp 73-89, 1996 [12] James Allen, Natural Language Understanding, Benjamin/Cummings Publishing Company, 1995 [13] Dermatas E., Kokkinakis G., Automatic Stochastic Tagging of Natural Language Texts, Computational Linguistics 21.2, pp 137 - 163, 1995 [14] Levinger M., Ornan U., Itai A., Learning morpho-lexical probabilities from an untagged corpus with an application to Hebrew, Comutational Linguistics, 21(3), pp 383-404, 1995 Trang 20 TẠP CHÍ PHÁT TRIỂN KH&CN, TẬP 9, SỐ -2006 [15] Schmid H., Part-of-Speech Tagging with Neural networks, International Conference on Computational Linguistics, Japan, pp 172-176, Kyoto, 1994 [16] Uỷ ban khoa học xã hội Việt Nam, Ngữ pháp tiếng Việt, NXB Khoa học Xã hội, Hà nội, 1993 Trang 21

Ngày đăng: 21/11/2016, 02:48