SỬ DỤNG BỘ GÁN NHÃN TỪ LOẠI XÁC SUẤT QTAG CHO VĂN BẢN TIẾNG VIỆT

SỬ DỤNG BỘ GÁN NHÃN TỪ LOẠI XÁC SUẤT QTAG CHO VĂN BẢN TIẾNG VIỆT A case study of the probabilistic tagger QTAG for Tagging Vietnamese Texts Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương Tóm tắt Trong báo trình bày chi tiết thử nghiệm gán nhãn từ loại cho văn tiếng Việt cách áp dụng gán nhãn QTAG, gán nhãn xác suất độc lập với ngôn ngữ Chúng sử dụng hai nhãn từ loại với độ mịn khác Việc gán nhãn tự động dựa từ vựng có thông tin từ loại cho từ tập văn gán nhãn tay Chúng trình bày khâu tiền xử lí cho việc gán nhãn: phân tách đơn vị từ văn Từ khoá: từ loại, từ vựng, kho văn bản, phân tách từ, gán nhãn xác suất, QTAG Abstract In this paper we describe in detail our experiments on tagging Vietnamese texts using QTAG, a language independent probabilistic tagger with two part-of-speech (POS) sets at two different levels of finesse, based on a lexicon with information about possible POS tags for each word and a manually labeled corpus We also describe the pre-processing for POS tagging, saying text tokenization Keywords: POS, lexicon, corpus, tokenization, probabilistic tagging, QTAG GIỚI THIỆU Một vấn đề tảng phân tích ngôn ngữ việc phân loại từ thành lớp từ loại dựa theo thực tiễn hoạt động ngôn ngữ Mỗi từ loại tương ứng với hình thái vai trò ngữ pháp định Các thích từ loại thay đổi tuỳ theo quan niệm đơn vị từ vựng thông tin ngôn ngữ cần khai thác ứng dụng cụ thể [19] Mỗi từ ngôn ngữ nói chung gắn với nhiều từ loại, việc giải thích nghĩa từ phụ thuộc vào việc xác định từ loại hay không Công việc gán nhãn từ loại cho văn xác định từ loại từ phạm vi văn Khi hệ thống văn gán nhãn, hay nói cách khác thích từ loại ứng dụng rộng rãi hệ thống tìm kiếm thông tin, ứng dụng tổng hợp tiếng nói, hệ thống nhận dạng tiếng nói hệ thống dịch máy Đối với văn Việt ngữ, việc gán nhãn từ loại có nhiều khó khăn, đặc biệt thân việc phân loại từ tiếng Việt vấn đề nhiều tranh cãi, chưa có chuẩn mực thống [3], [5], [8], [13], [18] Nghiên cứu nhóm @ietLex phục vụ đồng thời hai mục đích: mặt thực nỗ lực nhằm xây dựng công cụ cho việc xử lí văn tiếng Việt máy tính phục vụ cho ứng dụng công nghệ, mặt khác công cụ hỗ trợ tích cực cho nhà ngôn ngữ nghiên cứu tiếng Việt Trong báo cáo trình bày phương pháp tiếp cận kết thu nhóm nghiên cứu bước thử nghiệm với công cụ gán nhãn tự động tuý xác suất BÀI TOÁN GÁN NHÃN TỪ LOẠI Trong phần giới thiệu tổng quan kĩ thuật gán nhãn từ loại bước giải toán gán nhãn từ loại cho văn tiếng Việt Quá trình gán nhãn từ loại chia làm bước [15] - Phân tách xâu kí tự thành chuỗi từ Giai đoạn đơn giản hay phức tạp tuỳ theo ngôn ngữ quan niệm đơn vị từ vựng Chẳng hạn tiếng Anh hay tiếng Pháp, việc phân tách từ phần lớn dựa vào kí hiệu trắng Tuy nhiên có từ ghép hay cụm từ công cụ gây tranh cãi cách xử lí Trong với tiếng Việt dấu trắng dấu hiệu để xác định ranh giới đơn vị từ vựng tần số xuất từ ghép cao - Gán nhãn tiên nghiệm, tức tìm cho từ tập tất nhãn từ loại mà có Tập nhãn thu từ sở liệu từ điển kho văn gán nhãn tay Đối với từ chưa xuất sở ngữ liệu dùng nhãn ngầm định gắn cho tập tất nhãn Trong ngôn ngữ biến đổi hình thái người ta dựa vào hình thái từ để đoán nhận lớp từ loại tương ứng từ xét - Quyết định kết gán nhãn, giai đoạn loại bỏ nhập nhằng, tức lựa chọn cho từ nhãn phù hợp với ngữ cảnh tập nhãn tiên nghiệm Có nhiều phương pháp để thực việc này, người ta phân biệt chủ yếu phương pháp dựa vào quy tắc ngữ pháp mà đại diện bật phương pháp Brill ([2]) phương pháp xác suất ([4]) Ngoài có hệ thống sử dụng mạng nơ-ron ([16]), hệ thống lai sử dụng kết hợp tính toán xác suất ràng buộc ngữ pháp [6], gán nhãn nhiều tầng [17] Về mặt ngữ liệu, phương pháp phân tích từ loại thông dụng dùng loại tài nguyên ngôn ngữ sau: - Từ điển văn phạm loại bỏ nhập nhằng [14] - Kho văn gán nhãn [4], kèm theo quy tắc ngữ pháp xây dựng tay [2] @ietLex - Kho văn chưa gán nhãn, có kèm theo thông tin ngôn ngữ tập từ loại thông tin mô tả quan hệ từ loại hậu tố [10] - Kho văn chưa gán nhãn, với tập từ loại xây dựng tự động nhờ tính toán thống kê [11] Trong trường hợp khó dự đoán trước tập từ loại Các gán nhãn từ loại dùng từ điển văn phạm gần giống với phân tích cú pháp Các hệ thống học sử dụng kho văn để học cách đoán nhận từ loại cho từ [1] Từ năm 1980 hệ thống triển khai rộng rãi việc xây dựng kho văn mẫu tốn nhiều so với việc xây dựng từ điển chất lượng cao quy tắc ngữ pháp đầy đủ Một số hệ thống sử dụng đồng thời từ điển để liệt kê từ loại cho từ, kho văn mẫu để loại bỏ nhập nhằng Bộ gán nhãn nằm số hệ thống Các gán nhãn thường đánh giá độ xác kết quả: [số từ gán nhãn đúng] / [tổng số từ văn bản] Các gán nhãn tốt có độ xác đạt tới 98% [15] Nghiên cứu áp dụng cho vấn đề tự động gán nhãn từ loại tiếng Việt, nhóm thực bước cụ thể sau: Xây dựng từ điển từ vựng, lựa chọn tiêu chí xác định từ loại trình phân tích từ vựng Hầu hết mục từ từ điển có thông tin từ loại kèm Xây dựng công cụ phân tách đơn vị từ vựng văn Xây dựng kho văn loại bỏ nhập nhằng từ loại tay, sau tự động gán tất nhãn cho từ Xây dựng gán nhãn từ loại tự động, dựa thông tin từ loại từ điển từ vựng quy tắc kết hợp từ loại học từ kho văn gán nhãn mẫu Trong phần báo cáo, trình bày bước 1, XÂY DỰNG TỪ ĐIỂN TỪ VỰNG, XÁC ĐỊNH BỘ CHÚ THÍCH TỪ LOẠI TIẾNG VIỆT Trong khuôn khổ đề tài cấp Nhà nước KC01 "Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lí ngôn ngữ tiếng Việt", nhóm nghiên cứu triển khai công việc xây dựng kho ngữ liệu tiếng Việt bao gồm từ điển từ vựng kho văn có kèm theo mô tả từ loại đơn vị từ vựng với chất lượng cao, tuân theo chuẩn quốc tế biểu diễn liệu1, cho phép cập nhật mở rộng dễ dàng cf ISO TC37/SC4 http://www.tc37sc4.org @ietLex Từ điển từ vựng Trong tiếng Việt, bên cạnh đơn vị rõ ràng từ, ngữ cố định thành ngữ (sơn thuỷ tận, tay xách nách mang ), quán ngữ (lên lớp, lên mặt, vẻ), tồn đơn vị có người cho từ, có người cho ngữ cố định (như xe lăn đường, máy quay đĩa, làm ruộng, lạnh ngắt, suy cho cùng, ) Ranh giới từ tiếng Việt vấn đề phức tạp, nhiều trường hợp có ý kiến khác [8] Chúng lựa chọn quan niệm đơn vị từ vựng theo Từ điển tiếng Việt [7] (do Viện Ngôn Ngữ Học biên soạn) để xây dựng sở ngữ liệu Trong toàn từ điển này, quan điểm việc thu thập từ vựng, chuẩn hoá tả, thích từ loại rõ ràng thống Ngoài ra, có đưa thêm đơn vị từ vựng dùng, gặp kho văn không thu thập từ điển vào Từ điển từ vựng Mặt khác, đưa thêm đơn vị từ vựng xuất (mà từ điển chưa thu thập) vào Từ điển từ vựng với đơn vị tên người, tên địa danh, tên tổ chức thường gặp để tiện cho chương trình xử lí Chính tả [7] “theo Quy định tả tiếng Việt thuật ngữ tiếng Việt sách giáo khoa, ban hành theo Quyết định số 240/QĐ ngày 5-3-1984 Bộ trưởng Bộ Giáo dục” (chẳng hạn vấn đề viết nguyên âm "-i", viết "-uy", cách ghi dấu thanh, cách viết thuật ngữ khoa học, sử dụng chữ f, j, w, z cho từ mượn tiếng nước ngoài, v.v.) Trên thực tế, văn tiếng Việt thống cách ghi dấu âm tiết có âm đệm, mà trước áp dụng cho chương trình tách từ gán nhãn từ loại, văn xử lí lại cho quán với từ điển Xây dựng thích từ loại Từ loại phản ánh vị trí khác từ hệ thống ngữ pháp Để phản ánh xác tất quan hệ ngữ pháp cần có từ loại lớn Nhưng nhiều thích từ loại công việc gán nhãn khó khăn Bởi cần phải có thoả hiệp để đạt thích từ loại không lớn có chất lượng Chúng chọn làm việc với hai từ loại Trước hết sử dụng thích từ loại (danh từ, động từ, tính từ, đại từ, phụ từ, kết từ, trợ từ, cảm từ) cộng đồng ngôn ngữ học thoả hiệp tương đối, trình bày Ngữ pháp tiếng Việt [18] thích cụ thể cho mục từ [7] Bộ từ loại thứ hai xây dựng cách phân nhỏ từ loại thành tiểu từ loại Ban đầu dùng cách chia thành tiểu loại [18] Những thích từ loại chọn sau phản ánh đầy đủ Từ điển từ vựng, làm sở liệu cho chương trình tự động xác định ý nghĩa danh từ, động từ , @ietLex động từ nội động hay động từ ngoại động từ phân xuất trực tiếp văn Cùng với từ điển kho văn gán nhãn tay sau chạy chương trình tách từ xác định tất nhãn tìm từ điển cho từ Trong trình xác định nhãn cho từ văn cụ thể, nhận thấy cần thiết phải bổ sung thêm số nhãn từ loại để tránh trường hợp từ mang lúc nhiều nhãn từ loại (chẳng hạn động từ ngoại động cảm nghĩ hay động từ nội động cảm nghĩ) Như trình xây dựng tập mẫu đồng thời trình điều chỉnh việc phân chia từ loại hợp lí Hiện làm việc với nhãn từ loại mức mịn gồm 47 từ loại bổ sung nhãn cho từ chưa xác định từ loại PHÂN TÁCH TỪ TRONG VĂN BẢN TIẾNG VIỆT Đặt toán Cho câu tiếng Việt bất kỳ, tách câu thành đơn vị từ vựng (từ), âm tiết từ điển (phát đơn vị từ vựng mới) Để giải toán đặt ra, sử dụng tập liệu gồm bảng âm tiết tiếng Việt (khoảng 6700 âm tiết) từ điển từ vựng tiếng Việt (khoảng 30.000 từ) Các từ điển lưu dạng tệp văn có định dạng mã TCVN Unicode dựng sẵn (UTF-8) Chương trình xây dựng Java, mã nguồn mở (liên hệ nhóm tác giả) Các bước giải Xây dựng ôtômát âm tiết đoán nhận tất âm tiết tiếng Việt Xây dựng ôtômát từ vựng đoán nhận tất từ vựng tiếng Việt Dựa ôtômát nêu trên, xây dựng đồ thị tương ứng với câu cần phân tích sử dụng thuật toán tìm kiếm đồ thị để liệt kê cách phân tích Bảng chữ ôtômát âm tiết bảng chữ tiếng Việt, cung chuyển ghi ký tự Ví dụ, với ba âm tiết phương, pháp, trình ta có ôtômát đoán nhận âm tiết Hình Hình Xây dựng ôtômát âm tiết @ietLex Thuật toán xây dựng ôtômát âm tiết Input: Từ điển âm tiết Output: Ôtômát âm tiết Thuật toán: Lập trạng thái khởi đầu q0 ; Vòng lặp đọc hết tệp liệu, lấy âm tiết Gọi ký tự âm tiết c0 , c1 , , cn − p := q0 ; i := 0; a b Vòng lặp ( i ≤ n − ) i Lấy ký tự ci ; ii Tìm cung chuyển từ trạng thái p cung ghi ký tự ci Nếu có cung ( p, q) thế: i := i + 1; p := q; iii Nếu cung ( p, q) thoát khỏi vòng lặp b c Với j từ i đến n − i Tạo trạng thái q , ghi nhận q trạng thái không kết; ii Thêm cung chuyển ( p, q) ghi ký tự c j ; iii p := q; d Ghi nhận q trạng thái kết; Ôtômát từ vựng xây dựng tương tự, với điểm khác sau: thay ghi cung chuyển âm tiết, ta ghi số hiệu trạng thái (kết) ôtômát âm tiết đoán nhận âm tiết từ nhằm giảm kích thước ôtômát từ vựng Ví dụ, với hai từ phương pháp phương trình, giả sử đưa âm tiết phương, pháp, trình qua ôtômát âm tiết, ta đến trạng thái kết ghi số n1, n2, n3 cung chuyển tương ứng ta ghi số n1, n2, n3 (Hình 2) Hình Xây dựng ôtômát từ vựng @ietLex Thuật toán xây dựng ôtômát từ vựng Input: Từ điển từ vựng, ôtômát âm tiết Output: Ôtômát từ vựng Thuật toán: Lập trạng thái khởi đầu q0 ; Vòng lặp đọc hết tệp liệu, lấy mục từ word Gọi âm tiết word s0 , s1 , , sn − ; Sử dụng ôtômát âm tiết để đoán nhận âm tiết trên, số hiệu trạng thái (kết) tương ứng m0 , m1 , , mn − a p := q0 ; i := 0; b Vòng lặp ( i ≤ n − ) i Lấy số mi ; ii Tìm cung chuyển từ trạng thái p cung ghi số mi Nếu có cung ( p, q) i := i + 1; p := q; iii.Nếu cung ( p, q) thoát khỏi vòng lặp b c Với j từ i đến n − i Tạo trạng thái q , ghi nhận q trạng thái không kết; ii Thêm cung chuyển ( p, q) ghi số m j ; iii p := q; d Ghi nhận q trạng thái kết Sau xây dựng xong hai ôtômát, ta ghi chúng vào hai tệp định kiểu để dùng bước phân tách từ vựng Nếu ký tự (char) ghi vào tệp với kích thước byte (mã Unicode), số nguyên (int) có kích thước byte tệp lưu ôtômát âm tiết có kích thước 146KB, tệp ôtômát từ vựng có kích thước 1MB Tư tưởng thuật toán phân tách từ vựng quy việc phân tách câu việc tìm đường đồ thị có hướng, trọng số Giả sử câu ban đầu dãy gồm n+1 âm tiết s0, s1, , sn Ta xây dựng đồ thị có n+2 đỉnh v0, v1, , vn, vn+1, thứ tự đường thẳng từ trái sang phải; đó, từ đỉnh vi đến đỉnh vj có cung (i < j) âm tiết si, si+1, , sj-1 theo thứ tự lập thành từ Khi cách phân tách câu khác tương ứng với đường đồ thị từ đỉnh đầu v0 đến đỉnh cuối vn+1 Trong thực tế, cách phân tích câu đắn thường ứng với đường qua cung đồ thị @ietLex Trong trường hợp câu có nhập nhằng đồ thị có nhiều đường ngắn từ đỉnh đầu đến đỉnh cuối, ta liệt kê toàn đường ngắn đồ thị, từ đưa tất phương án tách câu để người dùng định chọn phương án nào, tuỳ thuộc vào ngữ nghĩa văn cảnh Ví dụ, xét câu có cụm "thuộc địa bàn", ta có đồ thị sau (Hình 3) Hình Một tình nhập nhằng Cụm có nhập nhằng thuộc địa địa bàn ta có hai kết phân tách "thuộc địa / bàn" "thuộc / địa bàn" Ta nhiều cụm nhập nhằng tiếng Việt, chẳng hạn "tổ hợp âm tiết", "bằng chứng cớ", Trường hợp câu có âm tiết không nằm từ điển rõ ràng ôtômát âm tiết không đoán nhận âm tiết Kết đồ thị ta xây dựng từ câu không liên thông Dựa vào tính chất này, ta thấy đồ thị không liên thông dễ dàng phát đơn vị âm tiết không đoán nhận không nằm từ điển âm tiết, tức bị viết sai tả đơn vị âm tiết (từ vựng) Đánh giá kết Với cách tiếp cận trên, toán phân tách từ vựng câu tiếng Việt giải quyết, đặc biệt vấn đề tách tổ hợp từ tương đương với đơn vị từ vựng, thường cụm từ cố định, ngữ cố định thành ngữ tiếng Việt Với câu nhập vào có nhập nhằng từ vựng, tức có nhiều cách phân tách chương trình liệt kê toàn phương án tách từ giành quyền lựa chọn kết cho người sử dụng Trong tất phương án phân tách tồn phương án Dưới số câu nhập vào kết tách từ tương ứng Nó | | | | tuyên ngôn | đặc sắc | | chủ nghĩa nhân đạo | , | tiếng | chuông | cảnh tỉnh | trước | hiểm họa | lớn lao | | hành tinh | trước | | điên rồ | | | kẻ | cuồng tín Trong | | thành phần | tư chủ nghĩa | có | | bước | phát triển | mạnh | | thời kì | trước | | lực | | giai cấp | địa chủ | | không | suy giảm Như vậy, số vấn đề khó khăn cần phải tiếp tục nghiên cứu giải quyết: Thứ vấn đề giải nhập nhằng phân tách Cần phải chọn phương án nhiều phương án Các hướng tiếp cận khả thi cho vấn đề là: @ietLex - Dùng quy tắc ngữ pháp chuyên gia ngôn ngữ xây dựng Tiến hành phân tích cú pháp câu với phương án tách từ vựng có thể, từ loại phương án sai cú pháp - Dùng phương pháp xác suất - thống kê Phải thống kê kho văn tương đối lớn tiếng Việt để tìm xác suất đôi hay ba từ loại từ vựng cạnh Từ lựa chọn phương án phân tách có xác suất sai Chương trình phân tích cú pháp tiếng Việt có có khả nhận biết số câu nhập nhằng từ vựng Ví dụ, với câu “bản chụp mờ” có hai cách phân tích “bản | chụp” “bản | chụp”, trình phân tích nhận thấy hai cách tách từ cú pháp đưa hai phân tích tương ứng Với câu “anh thuộc địa bàn” cụm “thuộc địa bàn” có hai cách phân tách từ vựng “thuộc | địa bàn” “thuộc địa | bàn” trình phân tích đoán nhận đưa cách phân tích tương ứng với cách tách từ Do đó, cách tách từ lại sai Thứ hai vấn đề giải tên riêng, tên viết tắt tên có nguồn gốc nước có mặt câu Hiện chương trình phân tách chưa nhận cụm từ dạng “Nguyễn Văn A”, “Đại học Khoa học Tự nhiên”, “ĐT 8.20.20.20”, “1.000$”, “0,05%” THỬ NGHIỆM BỘ GÁN NHÃN QTAG CHO TIẾNG VIỆT QTAG gán nhãn vậy, nhóm nghiên cứu Corpus Research thuộc trường đại học tổng hợp Birmingham phát triển, cung cấp miễn phí cho mục đích nghiên cứu2 Chúng sửa đổi phần mềm để thích nghi với việc thao tác văn tiếng Việt, cho phép sử dụng từ điển từ vựng có thông tin từ loại bên cạnh việc sử dụng kho văn gán nhãn Với đồng ý tác giả O Mason, công bố phiên QTAG cho tiếng Việt với kho ngữ liệu (vnQTAG) địa chỉ: http://www.loria.fr/equipes/led/outils.php Phương pháp gán nhãn xác suất Ý tưởng phương pháp gán nhãn từ loại xác suất xác định phân bố xác suất không gian kết hợp dãy từ Sw dãy nhãn từ loại St Sau có phân bố xác suất này, toán loại bỏ nhập nhằng từ loại cho dãy từ đưa toán lựa chọn dãy từ loại cho xác suất điều kiện P(St | Sw) kết hợp dãy từ loại với dãy từ cho đạt giá trị lớn Theo công thức xác suất Bayes ta có: P(St | Sw) = P(Sw | St).P(St)/P(Sw) Ở dãy từ Sw biết, nên thực tế cần cực đại hoá xác suất P(Sw | St).P(St) Với dãy St = t1t2 tN với dãy Sw = w1w2 wN : P(w1w2 wN | t1t2 tN) = P(w1 | t1t2 tN) P(w2 | w1,t1t2 tN) P(wN | w1 wN-1, t1t2 tN) http://www.clg.bham.ac.uk/staff/oliver/software/tagger/ @ietLex P(t1t2 tN) = P(t1)P(t2 | t1) P(t3 | t1t2) P(tN | t1 tN-1) Người ta đưa giả thiết đơn giản hoá cho phép thu gọn mô hình xác suất số hữu hạn tham biến Đối với P(wi | w1 wi-1, t1t2 tN), giả thiết khả xuất từ cho nhãn từ loại hoàn toàn xác định biết nhãn đó, nghĩa P(wi | w1 wi-1, t1t2 tN) = P(wi | ti) Như xác suất P(w1w2 wN|t1t2 tN) phụ thuộc vào xác suất có dạng P(wi| ti): P(w1w2 wN | t1t2 tN) = P(w1 | t1)P(w2 | t2) P(wN | tN) Đối với xác suất P(ti | t1 ti-1), giả thiết khả xuất từ loại hoàn toàn xác định biết nhãn từ loại lân cận có kích thước k cố định, nghĩa là: P(ti | t1 ti-1)= P(ti | ti-k ti-1) Nói chung, gán nhãn thường sử dụng giả thiết k (bigram) (trigram) Như mô hình xác suất tương đương với mô hình Markov ẩn, trạng thái ẩn nhãn từ loại (hay dãy gồm k nhãn k > 1), trạng thái (quan sát được) từ từ điển Với kho văn gán nhãn mẫu, tham số mô hình dễ dàng xác định nhờ thuật toán Viterbi Bộ gán nhãn QTAG 1.1.1 Dữ liệu mẫu Bộ gán nhãn QTAG gán nhãn trigram QTAG sử dụng kết hợp hai nguồn thông tin: từ điển từ chứa từ kèm theo danh sách nhãn chúng với tần suất xuất tương ứng; ma trận gồm ba nhãn từ loại xuất liền văn với tần số xuất chúng Cả hai loại liệu thu dễ dàng dựa vào kho văn mẫu gán nhãn Các loại dấu câu kí hiệu khác văn xử lí đơn vị từ vựng, với nhãn dấu câu tương ứng 1.1.2 Thuật toán gán nhãn từ loại Về mặt thuật toán, QTAG làm việc cửa sổ chứa từ, sau bổ sung thêm từ giả đầu cuối văn Các từ đọc thêm vào cửa sổ cửa sổ di chuyển từ trái sang phải, lần vị trí Nhãn gán cho từ lọt cửa sổ nhãn kết cuối Thủ tục gán nhãn sau: Đọc từ (token) Tìm từ từ điển Nếu không tìm thấy, gán cho từ tất nhãn (tag) @ietLex 10 Với nhãn tính Pw = P(tag|token) xác suất từ token có nhãn tag tính Pc = P(tag|t1,t2), xác suất nhãn tag xuất sau nhãn t1, t2, nhãn tương ứng hai từ đứng trước từ token tính Pw,c = Pw * Pc, kết hợp hai xác suất Lặp lại phép tính cho hai nhãn khác cửa sổ Sau lần tính lại (3 lần cho từ), xác suất kết kết hợp xác suất toàn thể nhãn gán cho từ Vì giá trị thường nhỏ, nên chúng tính biểu thức logarit số 10 Giá trị xác suất tính cho nhãn tương ứng với từ thể độ tin cậy phép gán nhãn cho từ xét 1.1.3 Thực gán nhãn Sau xây dựng từ điển từ vựng ma trận xác suất chuyển từ loại từ liệu mẫu, QTAG làm việc với liệu vào văn tách từ, từ nằm dòng Chương trình in dãy nhãn từ loại với thông tin xác suất tương ứng cho từ văn bản, in kết cuối - nhãn có khả xuất cao Sử dụng QTAG cho tiếng Việt 1.1.4 Dữ liệu mẫu Nhóm nghiên cứu ngôn ngữ Trung tâm Từ điển học xây dựng sở liệu mẫu bao gồm: - Từ điển từ vựng gồm 37454 mục từ, mục từ có kèm theo dãy tất từ loại mà có, đơn vị chưa xác định từ loại gắn nhãn X - Các văn thuộc số thể loại khác (văn học Việt Nam/nước ngoài, khoa học, báo chí) gán nhãn tay, bao gồm 63732 lượt từ với 48 nhãn từ loại với số nhãn tương ứng với dấu câu số kí hiệu khác 1.1.5 Thử nghiệm Như trình bày, gán nhãn QTAG ban đầu làm việc với kho văn gán nhãn mẫu để "huấn luyện" cho mô hình xác suất Trong trình gán nhãn, gặp đơn vị (có thể từ, số, kí hiệu toán học ) chưa thấy xuất tập mẫu, QTAG giả thiết đơn vị có nhãn từ loại nằm tập tất nhãn xuất tập huấn luyện Cơ sở liệu có từ điển từ vựng độc lập nên thực số thay đổi sau: @ietLex 11 Đưa vào kho từ vựng gán nhãn tất mục từ có từ điển từ vựng mục từ có tập huấn luyện Khi gặp đơn vị tập văn cần gán nhãn, kiểm tra đơn vị số hay tên riêng gán nhãn số hay tên riêng Ngoài ra, môđun đoán nhận từ loại cho từ dựa vào hậu tố từ không áp dụng cho tiếng Việt - lược bỏ Phương pháp thử nghiệm lấy phần kho văn gán nhãn làm tập huấn luyện cho mô hình xác suất Sau áp dụng mô hình để tự động gán nhãn cho phần văn lại so sánh kết thu với liệu mẫu Các thử nghiệm thực thích từ loại trình bày mục Với mức thực thử nghiệm, tương ứng với tập mẫu khác kích thước văn phong 1.1.6 Đánh giá kết Chương trình cài đặt ngôn ngữ lập trình Java, chạy môi trường, dùng mã tiếng Việt Unicode (dựng sẵn) TCVN Mã chương trình đích khoảng 16KB Mã nguồn dễ dàng sửa đổi dùng lại Thời gian huấn luyện hay gán nhãn với ngữ liệu khoảng 32000 lượt từ tổn khoảng 30 giây Kết gán nhãn câu chọn định dạng XML ví dụ sau: hồi lên sáu pos=",">, có lần pos="Pp">tôi đã nhìn pos="Vt">thấy một bức pos="Nc">tranh tuyệt đẹp

Định dạng
Số trang	14
Dung lượng	211,91 KB