Mục tiêu chính của nghiên cứu là cho ra đời mô hình chiếu nhãn đồng tham chiếu từ tiếng Anh sang tiếng Việt, góp phần giảm bớt việc gán nhãn thủ công, giảm thiểu thời gian một cách ngắn nhất có thể.
Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020 DOI: 10.15625/vap.2020.00232 XÂY DỰNG BỘ NGỮ LIỆU ĐỒNG THAM CHIẾU CHO TIẾNG VIỆT Lê Công Cảnh1, Tiêu Vĩnh Phong1, Lƣơng An Vinh2, Huỳnh Quang Đức3 Trường Đại học Khoa học Tự nhiên, ĐHQG-TP.HCM Trường Đại học Cơng nghệ Sài Gịn Khoa Cơng nghệ thơng tin, Robot Trí tuệ nhân tạo, Trường Đại học Bình Dương TĨM TẮT: n nh n ng tha chiếu ột v n ề uan t ng t ng ngành l ngôn ng t nhiên N c ứng dụng ộng i t ng việc y d ng hệ thống t ả l i t ộng t ch u t thông tin uy nhiên t ng tiếng iệt t a n g hải nhiều th ch thức d t nh hức t c a ngôn ng tiếng iệt hông c ầy ng liệu t ng h vi b ch ng t nh bày u t nh y d ng ng liệu hu n luyện ng tha chiếu tiếng iệt d a t ên ng liệu hu n luyện tiếng Anh P eC thông ua h ơng h chiếu nh n t ên ng ng Kết uả cuối c ng ch ng y d ng ng liệu tiếng iệt g 9800 c u t ch từ 502 n hội th i ống ngày c g n nh n ng tha chiếu Bộ ng liệu c th dùng làm ng liệu ầu ch c c nghiên cứu liên quan nh n ng tha chiếu t ng tiếng iệt Từ khóa: G n nh n ng tha chiếu t ng tiếng iệt, l ngôn ng t nhiên, chiếu nhãn song ng tiếng Anh I GIỚI THIỆU Gán nhãn đồng tham chiếu toán nhiều thách thức nhận quan tâm hầu hết nhà nghiên cứu lĩnh vực xử lý ngôn ngữ tự nhiên Ứng dụng toán quan hệ đồng tham chiếu tiếng Việt lĩnh vực xử lý ngơn ngữ tự nhiên có nhiều ứng dụng khác như: Trích xuất thơng tin (Information extraction), hỏi đáp tự động (Question answering), tóm tắt văn (Summarization), … Ví dụ đồng tham chiếu tiếng Việt: Ví dụ 1: Hoàng inh viên c a T ng Đ i h c Kh a h c nhiên Ng ài gi h c cậu thê t i c a hàng tiện l i gần nhà Xét ví dụ này, đại từ cậu danh từ riêng Hồng có quan hệ đồng tham chiếu với thực thể người có tên Hồng Ví dụ 2: Trong nhóm, Khiêm ột ng i c tài anh c e nh cánh tay phải c a hịnh Xét ví dụ này, chủ từ Khiêm có quan hệ tham chiếu với đại từ anh y cụm danh từ c nh tay hải Việc tìm kiếm phát cụm đồng tham chiếu thực cách thủ công, nhiên cách tốn nhiều thời gian công sức, đặc biệt việc phát cho văn tiếng Việt phức tạp Do đó, việc áp dụng máy học cách thức phù hợp giúp giải toán gán nhãn đồng tham chiếu tiếng Việt Mặc dù có số nghiên cứu, đề xuất giải pháp cho toán gán nhãn đồng tham chiếu tiếng Việt Tuy nhiên để có ngữ liệu huấn luyện tiếng Việt đủ lớn gán nhãn đồng tham chiếu cụ thể điều khơng dễ dàng Mục tiêu nghiên cứu cho đời mơ hình chiếu nhãn đồng tham chiếu từ tiếng Anh sang tiếng Việt, góp phần giảm bớt việc gán nhãn thủ cơng, giảm thiểu thời gian cách ngắn Phần cịn lại báo trình bày sau Phần II giới thiệu nghiên cứu liên quan toán gán nhãn đồng tham chiếu tiếng Việt Chúng giới thiệu phương pháp đề xuất Phần III, trình bày kết đánh giá Phần IV Và cuối cùng, Phần V, chúng tơi trình bày phần kết luận hướng phát triển tương lai II CÁC NGHIÊN CỨU LIÊN QUAN Ở Việt Nam, vấn đề gán nhãn đồng tham chiếu nhận ý nhà nghiên cứu lĩnh vực xử lý ngôn ngữ tự nhiên năm gần Tại số trường Đại học Việt Nam, giảng viên sinh viên có hướng nghiên cứu cụ thể, đề xuất số phương pháp tiếp cận khác để giải thực trạng toán đồng tham chiếu tiếng Việt Hầu hết nghiên cứu sử dụng phương pháp máy học: - Lê Đức Trọng thuộc Trường Đại học Công Nghệ (2011) giải toán đồng tham chiếu văn tiếng Việt phương pháp máy vector hỗ trợ SVM [1] Tác giả đề xuất hai mơ hình PModel BModel với độ xác 77,83 % 71,12 % đánh giá cho 10 văn tiếng Việt khác - Hung D Nguyen Tru H Cao thuộc Trường Đại học Bách khoa Thành phố Hồ Chí Minh (2018) giải toán đồng tham chiếu hồ sơ bệnh án điện tử Việt Nam theo phương pháp máy học vector hỗ trợ SVM kết hợp Best-first clustering [2] XÂY DỰNG BỘ NGỮ LIỆU ĐỒNG THAM CHIẾU CHO TIẾNG VIỆT 704 Mỗi cơng trình nghiên cứu nêu có ưu khuyết điểm khác cho kết quả, độ tin cậy hiệu suất khác Tuy nhiên, việc ứng dụng máy học giải tốn gán nhãn đồng tham chiếu địi hỏi nhiều nguồn tri thức chiến lược suy luận khéo léo xử lý ngôn ngữ tự nhiên Hiểu khó khăn đó, vấn đề tạo ngữ liệu tiếng Việt gán nhãn đồng tham chiếu vơ khó khăn phức tạp Việc xây dựng mơ hình chiếu nhãn đồng tham chiếu từ tiếng Anh sang tiếng Việt nghiên cứu quan trọng cần thiết việc hình thành ngữ liệu đồng tham chiếu tiếng Việt III PHƢƠNG PHÁP ĐỀ XUẤT A Chiếu nhãn tham chiếu dựa thuật toán DPA Dựa thuật toán chiếu trực tiếp DPA (Direct Projection Algorithm) tác giả Hwa đồng tác giả [3], [4], ý tưởng báo xây dựng mơ hình chiếu nhãn từ tiếng Anh sang tiếng Việt dựa ngữ liệu song ngữ Anh - Việt Để tăng độ tin cậy cho ngữ liệu, nhóm tiến hành tạo ngữ liệu đồng tham chiếu chuẩn cho tiếng Việt dựa ngữ liệu gán nhãn tham chiếu PreCo [5] nhằm mục đích tạo ngữ liệu đồng tham chiếu tiếng Việt có độ xác cao Hình Mơ hình tạo ngữ liệu đồng tham chiếu chuẩn tiếng Việt phương pháp chiếu Hình mơ tả quy trình tạo ngữ liệu đồng tham chiếu chuẩn bao gồm bước thực với 502 đoạn văn chọn lọc từ ngữ liệu PreCo tiếng Anh Cụ thể bước thực mơ hình sau: Tiền xử lý văn a) Bước 1: Dịch ngơn ngữ Q trình dịch ngữ liệu PreCo từ tiếng Anh sang Tiếng Việt thực sau: Hình Quy trình dịch văn tự động Từ ngữ liệu Tiếng Anh, nhóm tiến hành ghép từ đoạn văn thành câu văn hồn chỉnh, cơng đoạn dấu câu ( , ! …) ý ghép vị trí để đảm bảo cho dịch xác Sau đoạn văn dịch sang tiếng Việt nhờ công cụ Google Dịch hiệu chỉnh, chuẩn hóa thủ cơng nhằm mục đích tang độ xác cho ngữ liệu đồng tham chiếu sau giảm thiểu rủi ro, sai sót cho bước b) Bước 2: Tách từ Sử dụng công cụ tách từ CLC_VN_WS phát triển Trung tâm Ngơn ngữ học Tính tốn thuộc Trường Đại học Khoa học Tự nhiên - Đại học Quốc gia TP HCM Lê Công Cảnh, Tiêu Vĩnh Phong, Lương An Vinh, Huỳnh Quang Đức 705 Ví dụ hai câu tiếng Việt sau đây: - Chưa tách từ: Lần tơi nước ngồi tơi đến London Máy bay tàu hỏa đắt tiền, định xe khách - Đã tách từ: Lần đầu_tiên tơi nước_ngồi tơi đến London Máy_bay tàu hỏa đắt tiền, chúng_tơi quyết_định xe_khách Gióng hàng mức độ từ Sau có ngữ liệu song ngữ Anh – Việt, sử dụng công cụ GIZA++ để gióng hàng cho ngữ liệu Sau thực hiệu chỉnh mối nối gióng hàng chưa xác Các câu tiếng Anh tiếng Việt gióng hàng mức từ tương ứng với công cụ GIZA++ tổ chức tập tin Hình Hình Tổ chức tệp gióng hàng song ngữ Anh - Việt Chiếu nhãn đồng tham chiếu Đây bước quan trọng tồn q trình tạo ngữ liệu đồng tham chiếu Như trình bày trước đó, chúng tơi thực phép chiếu nhãn dựa vào thuật toán DPA FOR coref_en IN danh_sach_cum_dong_tham_chieu_en: FOR NP_en IN coref_en: # L y vị t bắt ầu c a từ/cụ từ tiếng Anh ang ét head_en = Lấy_head_EN(NP_en) # L y vị t ết th c c a từ/cụ từ tiếng Anh ang xét tail_en = Lấy_tail_EN(NP_en) arr_vi_tri_vn = [] FOR vi_tri_word IN range (head_en, tail_en): # X c ịnh vị t từ tiếng iệt c gi ng hàng với từ tiếng Anh vi_tri_vn = Xác_định_gióng_hàng(vi_tri_word) # vị t tiếng iệt c gi ng hàng danh PUSH vi_tri_vn TO arr_vi_tri_vn # L y vị t bắt ầu c a từ/cụ từ tiếng iệt ang ét head_vi = Lấy_head_VN(arr_vi_tri_vn) ch vị t cụ ng tha chiếu tiếng iệt XÂY DỰNG BỘ NGỮ LIỆU ĐỒNG THAM CHIẾU CHO TIẾNG VIỆT 706 # L y vị t ết th c c a từ/cụ từ tiếng iệt ang ét tail_vi = Lấy_tail_VN(arr_vi_tri_vn) # n vị t c u HEAD AIL ch từ/cụ từ tiếng iệt NP_vn = Tạo_cụm_từ_tiếng_Việt(vi_tri_cau, head_coref_vi, tail_coref_vi) # cụ ng tha chiếu tiếng iệt t ơng ứng Chiếu_nhãn_đồng_tham_chiếu(NP_en, NP_vn) Cụ thể bước thực từ đoạn mã giả sau: Bước 1: Xác định vị trí bắt đầu kết thúc từ/cụm từ tiếng Anh xét Bước 2: Xác định vị trí từ tiếng Việt gióng hàng với từ tiếng Anh dựa vị trí đầu cuối xét thêm vị trí vào danh sách vị trí cụm đồng tham chiếu tiếng Việt Bước 3: Dựa vào danh sách vị trí cụm đồng tham chiếu, ta lấy vị trí bắt đầu kết thúc tương ứng tiếng Việt Bước 4: Tạo chiếu thông tin nhãn đồng tham chiếu bên tiếng Anh qua tiếng Việt, cụ thể số câu đoạn văn, vị trí đầu, vị trí cuối từ/cụm từ đồng tham chiếu tiếng Việt Cuối cùng, kết nhóm lưu trữ dạng JSON Hình Hình Ví dụ tập tin lưu trữ đoạn tiếng Việt gán nhãn đồng tham chiếu B Phương pháp cải tiến Điều chỉnh th công Bộ ngữ liệu tiếng Việt sau chiếu nhãn tham chiếu thuật tốn DPA loại bỏ thủ cơng nhãn tham chiếu sai bổ sung nhãn tham chiếu bị thiếu khác mặt ngôn ngữ a) Trường hợp 1: Loại bỏ nhãn tham chiếu - Câu tiếng Anh: Recently, the British newspaper The Daily Telegraph ran a humorous piece on unconvincing tech moments from some top movies - Câu tiếng Việt: Mới_đây, tờ_báo The Daily Telegraph của_Anh đã_đăng_tải đoạn hài_hước những_khoảnh_khắc cơng_nghệ khơng_thuyết_phục từ một_số bộ_phim hàng_đầu Xét ví dụ cụm tham chiếu British newspaper (“ b c a Anh”) dịch theo ngữ cảnh đoạn văn thành “t b he Daily eleg a h c a Anh”, thấy cụm từ khơng giữ ngun vị trí mong muốn Trong trường hợp nhãn đồng tham chiếu xem xét loại bỏ, không chiếu sang tiếng Việt sai vị trí trật tự từ b) Trường hợp 2: Bổ sung nhãn tham chiếu - Câu tiếng Anh: Still, the old people in any of the three classes generally reported less difficulty in performing daily activities than the control group - Câu tiếng Việt: Tuy_nhiên, người_già nhóm ba nhóm thường báo_cáo khó_khăn việc thực hoạt_động hàng_ngày so với nhóm kiểm sốt Ví dụ đại diện cho trường hợp xuất từ dịch từ tiếng Anh sang tiếng Việt Cụ thể cụm từ any of the three classes (“b t ỳ nh nà t ng ba nh ”) xuất cụm từ nhóm dịch sang tiếng Việt, rõ ràng theo định nghĩa cụm từ nhóm tham chiếu với cụm từ ba nhóm câu Vì thế, trường hợp nhãn đồng tham chiếu bổ sung ngữ liệu tiếng Việt Lê Công Cảnh, Tiêu Vĩnh Phong, Lương An Vinh, Huỳnh Quang Đức 707 Cải tiến thuật t n DPA Thực tế trình xử lý cặp văn Anh – Việt cho thấy nhãn cần loại bỏ hai nguyên nhân thay đổi vị trí từ câu biến đổi loại từ dịch từ tiếng Anh sang tiếng Việt Đối với nguyên nhân, đề xuất cách xử lý sau: a) Trường hợp thay đổi vị trí Phương pháp giải cho trường hợp mà đề xuất bổ sung bước kiểm tra tính liên tục vị trí từ cụm từ chiếu trước xác định gióng hàng cho tiếng Việt b) Trường hợp biến đổi từ loại Đối với trường hợp này, phổ biến nhãn tham chiếu cụm danh động từ (V_ing/Gerund) tiếng Anh chiếu sang tiếng Việt cụm động từ Để giải trường hợp này, bổ sung bước sau: Bước 1: Tìm hình thái gốc từ cụm đồng tham chiếu Bước 2: Tra từ điển để kiểm tra loại từ có phải động từ hay không Bước 3: Nếu động từ động từ có dạng V_ing bỏ qua nhãn không chiếu sang ngữ liệu tiếng Việt Ngược lại, thực chiếu nhãn tham chiếu từ tiếng Anh sang tiếng Việt Cụ thể thuật toán cải tiến chiếu nhãn đồng tham chiếu từ tiếng Anh sang tiếng Việt có mã sau: FOR coref_en IN danh_sach_cum_dong_tham_chieu_en: FOR NP_en IN coref_en: head_en = Lấy_head_EN(NP_en) # L y vị t bắt ầu c a từ/cụ từ tiếng Anh ang ét tail_en = Lấy_tail_EN(NP_en) # L y vị t # X c ịnh danh ch vị t c t ết th c c a từ/cụ từ tiếng Anh ang ét thành cụ ộng danh từ hay hông? vp_check = Kiểm_tra_có_là_cụm_danh_động_từ(head_en, tail_en) IF vp_check = FALSE: # Chiếu nh n ang tiếng iệt cụ từ hông cụ danh ộng từ arr_vi_tri_vn = [] FOR vi_tri_word IN range(head_en, tail_en): # X c ịnh vị t từ tiếng iệt c gi ng hàng với từ tiếng Anh vi_tri_vn = Xác_định_gióng_hàng(vi_tri_word) # vị t tiếng iệt c gi ng hàng danh ch vị t cụ ng tha chiếu tiếng iệt PUSH vi_tri_vn TO arr_vi_tri_vn # Xác định danh sách vị trí có phù hợp tạo cặp từ hồn chỉnh câu tiếng Việt hay khơng pos_check = Kiểm_tra_vị_trí_hợp_lệ(arr_vi_tri_vn) IF pos_check = TRUE: : # Chiếu nh n ang tiếng iệt cụ từ hông bị thay ổi vị t # L y vị t bắt ầu c a từ/cụ từ tiếng iệt ang ét head_vi = Lấy_head_VN(arr_vi_tri_vn) # L y vị t ết th c c a từ/cụ từ tiếng iệt ang ét tail_vi = Lấy_tail_VN(arr_vi_tri_vn) # n vị t c u HEAD AIL ch từ/cụ từ tiếng iệt NP_vn = Tạo_cụm_từ_tiếng_Việt(vi_tri_cau, head_coref_vi, tail_coref_vi) # cụ ng tha chiếu tiếng iệt t ơng ứng Chiếu_nhãn_đồng_tham_chiếu(NP_en, NP_vn) IV ĐÁNH GIÁ KẾT QUẢ A Dữ liệu đánh giá Ngữ liệu đánh giá gồm 502 đoạn văn tương ứng với khoảng 9700 câu tiếng Việt nhân thành ba ngữ liệu: - Bộ thứ gán nhãn đồng tham chiếu tự động thuật toán DPA chưa cải tiến XÂY DỰNG BỘ NGỮ LIỆU ĐỒNG THAM CHIẾU CHO TIẾNG VIỆT 708 - Bộ thứ hai gán nhãn đồng tham chiếu tự động thuật toán DPA cải tiến - Bộ thứ ba gán nhãn đồng tham chiếu thủ công hiệu chỉnh chuyên gia ngôn ngữ học B Đánh giá kết Áp dụng độ đo xác F-score để đánh giá chất lượng mơ hình chiếu nhãn đồng tham chiếu từ tiếng Anh sang tiếng Việt Hệ thống đánh giá chất lượng thơng qua ba độ đo: độ xác (precision), độ hồi tưởng (recall) độ đo F (F-measure) Bảng Kết độ xác phương pháp Phƣơng pháp Precision Recall F-Score Độ xác Thuật tốn chiếu trực tiếp DPA chưa cải tiến 94,59 % 99,96 % 97,2 % 94,56 % Thuật toán chiếu trực tiếp DPA cải tiến 96,2 % 99,94 % 98,04 % 96,17 % Từ số bảng thống kê số liệu ta thấy kết việc chiếu nhãn tham chiếu từ tiếng Anh sang tiếng Việt thuật toán DPA đem lại độ xác tương đối cao 94,56 % Sau áp dụng thuật toán cải tiến loại bỏ cụm từ sai vị trí, bỏ cụm danh động từ chiếu, độ xác tăng lên 96,17 % Từ số liệu trên, ta kết luận thuật toán DPA cải tiến giải vấn đề mà DPA không thực Tuy nhiên, trường hợp loại bỏ cụm danh động từ thuật tốn DPA cải tiến cịn bỏ sót vài trường hợp chưa xử lý, ví dụ danh động từ “opening” có hình thái gốc “open” tra từ từ điển, máy tính lại khơng nhận diện “open” động từ “open” tồn nhiều loại từ khác (danh từ, tính từ, trạng từ,…) Điều dẫn đến số nhãn tham chiếu ánh xạ sang tiếng Việt không Và chưa giải trường hợp xuất nhãn tham chiếu ngữ nghĩa dịch từ tiếng Anh sang tiếng Việt phương pháp tự động phần làm giảm độ xác thuật toán cải tiến V KẾT LUẬN Bài toán gán nhãn đồng tham chiếu toán quan trọng ngành xử lý ngơn ngữ tự nhiên Nó ứng dụng rộng rãi việc xây dựng hệ thống trả lời tự động, trích xuất thơng tin, Tuy nhiên, tiếng Việt, toán gặp phải nhiều thách thức tính phức tạp ngơn ngữ tiếng Việt khơng có đâ y đủ ngữ liệu để đánh giá Trong phạm vi báo này, chúng tơi trình bày q trình xây dựng ngữ liệu huấn luyện đồng tham chiếu tiếng Việt dựa ngữ liệu huấn luyện tiếng Anh PreCo thông qua phương pháp chiếu nhãn trực tiếp, đồng thời áp dụng phương pháp cải tiến loại bỏ cụm nhãn sai vị trí hay nhãn cụm danh động từ Kết đánh giá cuối cho thấy việc áp dụng phương pháp cải tiến giúp nâng cao độ xác phương pháp từ 94,56 % lên 96,17 % Việc nghiên cứu phương pháp chiếu nhãn đồng tham chiếu song ngữ có nhiều tiềm để phát triển, kết hợp với mơ hình máy học để nâng cao toán phát cụm đồng tham chiếu văn tiếng Việt VI LỜI CẢM ƠN Nghiên cứu hỗ trợ nguồn kinh phí nghiên cứu Chương trình Đào tạo theo Đề án, Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh TÀI LIỆU THAM KHẢO [1] Duc-Trong Le, Mai-Vu Tran, Tri-Thanh Nguyen, and Quang-Thuy Ha Co-reference Resolution in Vietnamese Documents Based on Support Vector Machines, 2011 [2] Hung D Nguyen, Tru H Cao, Coreference Resolution in Vietnamese Electronic Medical Records, 2018 [3] Rebecca Hwa, Philip Resnik, Amy Weinberg, Okan Kolak “Evaluating translational correspondence using Annotation Projection” In: Proceeding ACL '02 Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, pp 392-399, 2002 [4] Rebecca Hwa, Philip Resnik, Amy Weinberg, Okan Kolak “Bootstrapping Parsers via Syntactic Projection across Parallel Texts” Natural language engineering 11.3: pp 311-325, 2005 [5] Chen, H., Fan, Z., Lu, H., Yuille, A L., & Rong, S “PreCo: A large-scale dataset in preschool vocabulary for coreference resolution” arXiv preprint arXiv:1810.09807, 2018 [6] Tuoi, P T., & Tho, Q T “Coreference resolution Ontology-based in sentiment analysis” Science and Technology Development Journal, 20(K9), pp 23-30, 2017 [7] V'ronique Hoste: Manual for the Annotation of Coreferences in Dutch Newspaper Texts, 2005 [8] Shekhar, S., & Kumar, U Review on the techniques of anaphora resolution Lê Công Cảnh, Tiêu Vĩnh Phong, Lương An Vinh, Huỳnh Quang Đức 709 [9] Bouma, G., Daelemans, W., Hendrickx, I., Hoste, V., & Mineur, A., “The COREA-project, manual for the annotation of coreference in Dutch texts” University Groningen, 2007 [10] Sukthanker, R., Poria, S., Cambria, E., & Thirunavukarasu, R., “Anaphora and coreference resolution: A review” Information Fusion, 59, pp 139-162, 2020 [11] McCarthy, J F., & Lehnert, W G., “A trainable approach to coreference resolution for information extraction” Doctoral dissertation, University of Massachusetts at Amherst, 1996 [13] Đinh Điền “Xây dựng khai thác ngữ liệu song ngữ Anh-Việt” Luận án tiến sĩ ngôn ngữ học, ĐH Khoa học Xã hội Nhân văn, Đại học Quốc gia TP Hồ Chí Minh, 3/2005 [14] Mahmud, T., Hasan, K A., Ahmed, M., & Chak, T H C., “A rule based approach for NLP based query processing” In 2015 2nd International Conference on Electrical Information and Communication Technologies (EICT) (pp 78-82) IEEE, December 2015 [15] Dale, R., Wong, K F., Su, J., & Kwong, O Y (Eds.) “Natural Language Processing–IJCNLP”, 2005: Second International Joint Conference, Jeju Island, Korea, October 11-13, 2005, Proceedings (Vol 3651) Springer, 2005 ... Anh sang tiếng Việt dựa ngữ liệu song ngữ Anh - Việt Để tăng độ tin cậy cho ngữ liệu, nhóm tiến hành tạo ngữ liệu đồng tham chiếu chuẩn cho tiếng Việt dựa ngữ liệu gán nhãn tham chiếu PreCo [5]... mục đích tạo ngữ liệu đồng tham chiếu tiếng Việt có độ xác cao Hình Mơ hình tạo ngữ liệu đồng tham chiếu chuẩn tiếng Việt phương pháp chiếu Hình mơ tả quy trình tạo ngữ liệu đồng tham chiếu chuẩn... nhãn đồng tham chiếu tự động thuật toán DPA chưa cải tiến XÂY DỰNG BỘ NGỮ LIỆU ĐỒNG THAM CHIẾU CHO TIẾNG VIỆT 708 - Bộ thứ hai gán nhãn đồng tham chiếu tự động thuật toán DPA cải tiến - Bộ thứ