Bài viết này giải quyết vấn đề chuẩn hóa chữ viết tắt trong văn bản tiếng Việt khi có nhiều lựa chọn để khai triển. Để khử nhập nhằng trong khai triển chữ viết tắt, tiếp cận học máy được sử dụng, trong đó thông tin ngữ cảnh của chữ viết tắt được biểu diễn bởi một trong hai mô hình: Bag-of-words hoặc Doc2vec.
ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 05(114).2017-Quyển 31 BIỂU DIỄN NGỮ CẢNH TRONG KHAI TRIỂN CHỮ VIẾT TẮT DÙNG TIẾP CẬN HỌC MÁY REPRESENTING CONTEXT IN ABBREVIATION EXPANSION USING MACHINE LEARNING APPROACH Ninh Khánh Duy, Nguyễn Văn Quý Trường Đại học Bách khoa, Đại học Đà Nẵng; nkduy@dut.udn.vn, quynguyen3490@gmail.com Tóm tắt - Chuẩn hóa văn tốn cần thiết ứng dụng liên quan đến xử lý ngơn ngữ tự nhiên văn đầu vào thường chứa nhiều từ không chuẩn chữ viết tắt, chữ số, từ ngữ nước Bài báo giải vấn đề chuẩn hóa chữ viết tắt văn tiếng Việt có nhiều lựa chọn để khai triển Để khử nhập nhằng khai triển chữ viết tắt, tiếp cận học máy sử dụng, thơng tin ngữ cảnh chữ viết tắt biểu diễn hai mơ hình: Bag-of-words Doc2vec Các thử nghiệm với phân lớp Naïve Bayes liệu chữ viết tắt xây dựng cho thấy tỉ lệ khai triển trung bình hai mơ hình Bag-of-words Doc2vec 86,0% 79,7% Kết thực nghiệm cho thấy thơng tin ngữ cảnh đóng vai trị quan trọng việc lựa chọn khai triển cho chữ viết tắt Abstract - Text normalization is an essential problem in applications involving natural language processing since the input text often contains non-standard words such as abbreviations, numbers, and foreign words This paper deals with the problem of normalizing abbreviations in Vietnamese text when there are several possible expansions of an abbreviation To disambiguate the abbreviation expansions, the machine learning approach is used, in which contextual information of abbreviations is represented by either of the two models: Bag-of-words or Doc2vec Experiments with Naïve Bayes classifier on a dataset of abbreviations collected by us show that the average ratios of expanding correctly for Bag-of-words and Doc2vec are 86.0% and 79.7%, respectively Experimental results also show that contextual information plays an important role in the correct expansion of an abbreviation Từ khóa - chuẩn hóa văn bản; khai triển chữ viết tắt; biểu diễn ngữ cảnh; mơ hình Bag-of-words; mơ hình Doc2vec; học máy Key words - text normalization; abbreviation expansion; context representation; Bag-of-words model; Doc2vec model; machine learning Đặt vấn đề Chuẩn hóa văn vấn đề cần thiết ứng dụng liên quan đến xử lý ngơn ngữ tự nhiên văn cần xử lý thường chứa từ không chuẩn (nonstandard words) chữ số, ngày tháng, chữ viết tắt, đơn vị tiền tệ, từ ngữ nước [1] Trong nhiều ứng dụng, cần phải chuẩn hóa từ khơng chuẩn cách thay chúng từ phù hợp với ngữ cảnh Tuy nhiên, việc không dễ dàng từ khơng chuẩn thường có xu hướng nhập nhằng ngữ nghĩa cách phát âm cao so với từ thơng thường Do đó, cần phát triển thuật tốn thơng minh để giải tốn chuẩn hóa văn Gần có vài nghiên cứu chuẩn hóa văn tiếng Việt, chủ yếu phục vụ cho hệ thống chuyển văn thành tiếng nói [2] [3] Các nghiên cứu đưa giải pháp chuẩn hóa cho tất lớp từ không chuẩn tiếng Việt Tuy nhiên, việc phải xử lý nhiều lớp từ không chuẩn phạm vi nghiên cứu làm cho phương pháp kết chuẩn hóa cho lớp từ cụ thể khơng trình bày rõ ràng thuyết phục Điều đặc biệt với chữ viết tắt (CVT), lớp từ không chuẩn dùng phổ biến văn tiếng Việt Trong nghiên cứu [2] [3], tác giả trình bày phương pháp khai triển CVT mà không nêu rõ độ xác ưu-nhược điểm thuật tốn khai triển Thêm vào đó, vấn đề khử nhập nhằng khai triển CVT chưa quan tâm mức Từ vấn đề trên, chúng tơi thấy cần có nghiên cứu chuyên sâu chuẩn hóa CVT văn Dựa thuật tốn khai triển CVT mơ tả [2], chúng tơi đề xuất thuật tốn khai triển CVT Hình Ý tưởng thuật tốn ưu tiên tìm kiếm khai triển lân cận CVT văn bản, khơng tìm thấy tìm kiếm từ điển CVT Nếu có nhiều khai triển từ điển xử lý nhập nhằng để tìm khai triển tối ưu Do tốn tìm kiếm khảo sát nhiều nghiên cứu trước, tập trung giải vấn đề khử nhập nhằng có nhiều khai triển cho CVT báo Một ví dụ điển hình chọn lựa hai khai triển, “bài hát yêu thích” hay “bảo hiểm y tế”, để chuẩn hóa cho CVT “BHYT” Hình Sơ đồ khối thuật toán khai triển CVT Cách tiếp cận điển hình tốn khử nhập nhằng khai triển CVT sử dụng quy tắc thiết kế dựa kinh nghiệm rút từ tập liệu thu thập CVT Phương pháp có ưu điểm đơn giản, Ninh Khánh Duy, Nguyễn Văn Quý 32 quy tắc rút từ tập liệu khó có khả tổng quát hóa cao tập liệu khác [1] Do đó, chúng tơi chọn cách tiếp cận dựa học máy để giải toán gán CVT vào khai triển Đây dạng tốn phân lớp Bằng việc áp dụng kỹ thuật học máy, mơ hình phân lớp ước lượng dựa tập liệu huấn luyện đủ lớn có khả tổng quát hóa cao tập liệu kiểm chứng Để khử nhập nhằng khai triển CVT văn bản, thông tin ngữ cảnh CVT sử dụng để định phân lớp Trong nghiên cứu này, chọn ngữ cảnh tồn câu văn chứa CVT cần khai triển Vì ngữ cảnh CVT thông tin đầu vào phân lớp, việc biểu diễn ngữ cảnh đóng vai trị quan trọng, ảnh hưởng trực tiếp đến độ xác phân lớp Chúng thử nghiệm hai mơ hình biểu diễn ngữ cảnh sử dụng phổ biến: Bag-of-words [4] Doc2vec [5] [6], đưa đánh giá Bài báo có bố cục sau: Phần mô tả việc thu thập liệu CVT; Phần trình bày hai phương pháp biểu diễn ngữ cảnh CVT; Kết thực nghiệm dùng tiếp cận học máy báo cáo Phần 4; Phần đưa bàn luận; Kết luận trình bày Phần Thu thập liệu CVT 2.1 Định nghĩa CVT Định nghĩa CVT không thống nhất, tùy thuộc tác giả nghiên cứu [7] Trong khuôn khổ nghiên cứu lớn chuẩn hóa văn cho ứng dụng chuyển văn thành tiếng nói [8], báo định nghĩa từ văn CVT có độ dài từ hai ký tự trở lên cấu thành từ thành phần sau: ⁻ Ký tự chữ hoa từ “A” đến “Z”,“Đ”, “Ư”; ⁻ Ký tự ký hiệu bao gồm: “.”,“&”,“-” Các ví dụ CVT điển hình là: “GS.TS” (Giáo sư Tiến sỹ), “BCHTƯ” (Ban chấp hành Trung Ương) Bài báo định nghĩa hai trường hợp ngoại lệ sau không xem CVT công cụ chuẩn hóa văn chúng tơi phân từ vào lớp “Chữ số La Mã” lớp “Đơn vị tiền tệ” có cách khai triển riêng: ⁻ Chữ số La Mã (ví dụ: “IV”, “XII”) ⁻ Đơn vị tiền tệ (ví dụ: “USD”, “EUR”) 2.2 Thống kê liệu Để đảm bảo tính đa dạng nguồn liệu, thu thập khoảng 100.000 báo từ 10 trang báo điện tử tiếng Việt phổ biến dựa bảng xếp hạng trang web alexa.com Để đảm bảo đa dạng nội dung, trang báo chia thành 20 chủ đề lớn, số lượng báo thu thập cho chủ đề xấp xỉ Hình thống kê số lượng báo thu thập theo chủ đề Kết thu thập 1.011 CVT với 159.050 ngữ cảnh khác từ liệu trang báo điện tử Tuy nhiên, để phục vụ cho mục tiêu nghiên cứu báo này, lọc CVT thỏa mãn điều kiện huấn luyện kiểm chứng mô hình phân lớp nêu Phần 4.2 Hình Số lượng báo thu thập theo chủ đề Các phương pháp biểu diễn ngữ cảnh CVT Để xử lý nhập nhằng CVT có nhiều khai triển khác nhau, ngữ cảnh CVT văn đóng vai trị định việc lựa chọn khai triển Trong phần này, trình bày hai mơ hình biểu diễn ngữ cảnh: Bag-of-words Doc2vec 3.1 Mơ hình Bag-of-words Mơ hình Bag-of-words (Hình 3) phương pháp biểu diễn văn đơn giản thường sử dụng xử lý ngôn ngữ tự nhiên tìm kiếm thơng tin Trong mơ hình này, văn biểu diễn tập hợp (gọi “túi”) từ xuất văn bản, không quan tâm đến ngữ pháp thứ tự xuất từ mà lưu lại tần suất xuất từ văn Mô hình Bag-ofwords thường sử dụng phương pháp phân loại văn mà tần suất xuất từ sử dụng đặc trưng để huấn luyện phân lớp [4] Tập từ xuất thường xun Mơ hình Bag-of-word Văn Hình Mơ hình Bag-of-words Khi sử dụng mơ hình để biểu diễn văn bản, từ biểu diễn số nhị phân tùy thuộc vào từ có thuộc tập hợp từ xuất thường xuyên hay không Kết văn đầu vào biểu diễn vectơ gồm số nhị phân thuật tốn mơ tả Hình Văn Từ thuộc tập hợp từ xuất thường xuyên Sai Đặc trưng từ “0” Đúng Đặc trưng từ “1” Mảng 0,11 Vec-tơcác cácký sốtự Hình Thuật tốn xác định đặc trưng nhị phân văn ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 05(114).2017-Quyển 3.2 Mơ hình Doc2vec Vào năm 2013, nhà nghiên cứu Google đề xuất mô hình Word2vec [5] học cách biểu diễn phân tán từ không gian vec-tơ giữ lại ngữ nghĩa từ Sau đó, mơ hình Doc2vec [6] mở rộng từ Word2vec để tính tốn biểu diễn phân tán cho câu, đoạn văn, hay văn Doc2vec cho hiệu tốt phương pháp biểu diễn văn truyền thống thử nghiệm phân loại văn phân tích ngữ nghĩa [6] Mơ hình thu hút ý cộng đồng nghiên cứu xử lý ngôn ngữ tự nhiên năm gần Word2vec sử dụng biểu diễn phân tán cho từ Giả sử dùng vec-tơ từ với vài trăm chiều để biểu diễn Mỗi từ biểu diễn tập trọng số tương ứng với thành phần vec-tơ Như vậy, biểu diễn từ phân bố tất thành phần vec-tơ, thành phần vec-tơ góp phần vào định nghĩa nhiều từ Hình minh họa ý tưởng Word2vec, thành phần vec-tơ từ giả thiết gán nhãn dễ hiểu (các chữ màu xanh da trời), thuật toán gốc khơng có diện nhãn Có thể thấy vec-tơ kết biểu diễn từ (chữ màu xanh cây) theo cách trừu tượng ý nghĩa từ ánh xạ thành vec-tơ Các vec-tơ từ cột ma trận W, vec-tơ đoạn cột ma trận D Thay đổi so với việc học vec-tơ từ vec-tơ đoạn ghép nối (hay lấy trung bình) với vec-tơ từ, vec-tơ huấn luyện để tiên đoán từ ngữ cảnh (trong Hình ngữ cảnh gồm từ “the”, “cat”, “sat” dùng để tiên đoán từ thứ tư “on”) Các ngữ cảnh có độ dài cố định lấy từ cửa sổ trượt đoạn văn Mỗi vec-tơ đoạn dùng chung cho cửa sổ sinh từ đoạn văn bản, không sử dụng cho đoạn khác Ngược lại, vec-tơ từ dùng chung cho tất đoạn Classifier on Average/Concatenate Paragraph Matrix D W W W Paragraph id the cat sat Hình Mơ hình học vec-tơ đoạn Doc2vec [6] Trong Doc2vec, đoạn văn gắn định danh (paragraph id) ánh xạ thành vec-tơ đoạn thông qua ma trận D Nếu áp dụng mức câu vec-tơ đoạn xem vec-tơ đặc trưng câu Cũng với hai câu ví dụ Phần 3.1, chúng tơi tìm hai vec-tơ đặc trưng tương ứng có thành phần (tọa độ) biểu diễn dạng đồ thị Hình 7, câu i) đường màu xanh da trời câu ii) đường màu xanh Có thể nhận xét rằng, trái với Bag-of-words, vec-tơ đặc trưng biểu diễn câu dùng Doc2vec thường dày đặc (nghĩa có nhiều thành phần khác 0) Tuy nhiên, việc dùng Doc2vec làm cho số chiều vec-tơ đặc trưng lớn so với Bag-ofwords Trong báo này, cố định số chiều vec-tơ đặc trưng câu dùng Doc2vec 100 Giá trị Xét ví dụ với hai câu sau: i) “Liveshow tháng 1/2016 đồng thời liveshow cuối chương trình BHYT khép lại sau năm kiên trì tạo dựng thói quen thưởng thức âm nhạc cho cơng chúng.”, ii) “Mặt khác, có nhiều trường hợp phải đăng ký khai sinh, nhập hộ đề nghị cấp thẻ BHYT diễn ngày cán bộ, công chức phải thực nhiều nhiệm vụ khác nhau.” Hai câu ngữ cảnh CVT “BHYT” hai khai triển “bài hát yêu thích” “bảo hiểm y tế” Với giả định từ xuất thường xuyên liệu gồm {liveshow, thẻ, khai, sinh, bệnh, nhân, âm, nhạc, ca, khúc, hộ, khẩu} đặc trưng nhị phân hai câu là: i) [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0], ii) [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] Có thể thấy mơ hình Bag-of-words làm thơng tin ngữ nghĩa suy diễn từ thứ tự xuất từ câu, vec-tơ đặc trưng biểu diễn câu thường thưa thớt (nghĩa có nhiều thành phần 0) 33 Số thứ tự thành phần vectơ Hình Đồ thị biểu diễn vec-tơ đặc trưng câu dùng Doc2vec Hình Biểu diễn từ vec-tơ Word2vec [5] Doc2vec thừa kế ý tưởng Word2vec xây dựng thêm ma trận đoạn (paragraph matrix) (Hình 6) Các từ ánh xạ thành vec-tơ Thêm vào đó, đoạn (hay văn bản, làm việc mức văn bản) Khử nhập nhằng khai triển CVT dùng tiếp cận học máy Để khử nhập nhằng khai triển CVT, chọn tiếp cận học máy để đưa lựa chọn khai triển tối ưu tập hợp khai triển CVT Ở tốn khử nhập nhằng xem tốn phân lớp Ưu điểm việc sử dụng tiếp cận học máy là: mơ hình phân lớp huấn luyện tập liệu đủ lớn Ninh Khánh Duy, Nguyễn Văn Quý 34 có khả phân lớp xác liệu (gọi liệu kiểm chứng) không nằm tập liệu huấn luyện, hay cịn gọi có tính tổng quát hóa cao Nhược điểm liệu huấn luyện phải đủ lớn có độ bao phủ tốt để tạo nên phân lớp đáng tin cậy Mặc dù có nhiều mơ hình phân lớp, chúng tơi chọn phân lớp Nạve Bayes cho nghiên cứu tính phổ dụng dễ cài đặt Các phần trình bày tiếp cận học máy với phân lớp Naïve Bayes để khử nhập nhằng khai triển CVT kết thực nghiệm với hai phương pháp biểu diễn ngữ cảnh mô tả Phần 4.1 Tiếp cận học máy Tiếp cận học máy (cụ thể học có giám sát) gồm giai đoạn: huấn luyện phân lớp Giai đoạn huấn luyện trình bày Hình Đối với CVT, khai triển có phân lớp tương ứng cần ước lượng Để huấn luyện phân lớp khai triển, ngữ cảnh CVT (tức câu chứa CVT) ứng với khai triển dùng làm liệu huấn luyện Khai triển ci CVT (nhãn) + Các ngữ cảnh CVT tương ứng với khai triển ci Huấn luyện phân lớp Bộ phân lớp của khai triển ci khai triển ci (dữ liệu huấn luyện) Hình Huấn luyện phân lớp cho khai triển CVT Hình mơ tả giai đoạn phân lớp Dữ liệu đầu vào ngữ cảnh CVT (gọi liệu kiểm chứng, khơng nằm tập liệu huấn luyện) Chúng ta cần tìm khai triển tối ưu cho CVT ngữ cảnh Khai triển tối ưu định nghĩa khai triển có điểm đánh giá (score) cao tập khai triển CVT Điểm đánh giá khai triển xác định nhờ phân lớp khai triển Bộ phân lớp khai triển c1 01 ngữ cảnh CVT (dữ liệu kiểm thử) Score 1i Khai triển cj có Score lớn (j = N) Bộ phân lớp khai triển cN Score N Hình Phân lớp ngữ cảnh CVT vào khai triển tối ưu 4.2 Bộ phân lớp Naïve Bayes Bộ phân lớp Naïve Bayes xây dựng dựa xác suất nhờ áp dụng định lý Bayes [4] Bài toán khử nhập nhằng dùng phân lớp Naïve Bayes phát biểu sau: cho liệu đầu vào d gồm CVT ngữ cảnh nó, khai triển tối ưu CVT định nghĩa khai triển 𝑐̂ sở hữu xác suất có điều kiện khai triển liệu đầu vào đạt giá trị cực đại, nghĩa 𝑐̂ = argmax 𝑃(𝑐|𝑑), (1) 𝑐∈𝐶 c khai triển tập hợp C khai triển CVT Như vậy, điểm đánh giá khai triển c 𝑃(𝑐|𝑑), tính nhờ phân lớp Naïve Bayes Trong nghiên cứu này, thử nghiệm huấn luyện phân lớp với phân lớp Naïve Bayes sử dụng cài đặt scikitlearn toolkit [9] 4.3 Chuẩn bị liệu Trước bắt đầu thử nghiệm, chúng tơi loại bỏ CVT có liệu khơng thoả mãn điều kiện để huấn luyện kiểm chứng mơ hình phân lớp sau: • Số lượng liệu huấn luyện nhỏ mẫu Điều liệu huấn luyện khơng thể huấn luyện mơ hình phân lớp cách tin cậy thuật toán học máy • Dữ liệu huấn luyện thiên lệch khai triển CVT, cụ thể khai triển có số lượng mẫu huấn luyện nhiều gấp 20 lần khai triển khác Điều để đảm bảo kết kiểm chứng phản ánh xác lực khử nhập nhằng phân lớp Sau trình lọc liệu, chúng tơi thu CVT thoả mãn hai điều kiện là: “BHYT”, “NS”, “PTTH”, “THA”, “KH” Số lượng hẳn 1.011 CVT thu thập phần 2.2 Điều do, hầu hết CVT, lượng liệu ngữ cảnh thu ít, phân bố không đồng khai triển Bảng thống kê số mẫu liệu dùng để huấn luyện phân lớp CVT cho khai triển Chú ý số lượng mẫu liệu dùng để kiểm chứng phần 4.4 với số lượng mẫu liệu dùng để huấn luyện phân lớp 4.4 Kết thực nghiệm Chúng tiến hành thử nghiệm huấn luyện kiểm chứng phân lớp Naïve Bayes với hai phương pháp biểu diễn ngữ cảnh: Bag-of-words Doc2vec Bảng thể kết độ xác khai triển CVT Có thể thấy Bag-of-words cho tỉ lệ khai triển xác cao Doc2vec trường hợp Độ xác trung bình Bag-of-wordslà 86,0% Doc2vec 79,7% Bàn luận Trong học máy dựa mơ hình xác suất phân lớp Nạve Bayes thơng thường, số lượng mẫu huấn luyện nhiều hiệu mơ hình phân lớp cao Từ Bảng thấy rằng, với toán khử nhập nhằng khai triển CVT tiếp cận học máy thống kê, mức độ gần gũi (hay khác nhau) lĩnh vực kinh tế-xã hội mà khai triển thuộc về, đóng vai trị quan trọng không lượng liệu huấn luyện Nếu lĩnh vực khơng liên quan đến nhiều, ví dụ “bài hát yêu thích” (âm nhạc) “bảo hiểm y tế” (y tế) CVT “BHYT” hay “thi hành án” (pháp luật) “tăng huyết áp” (sức khỏe) CVT “THA”, việc khử nhập nhằng phương pháp cho tỉ lệ khai triển xác cao (đều 90%), cho dù nhiều hay liệu huấn luyện, ngữ cảnh CVT thể vai trị quan trọng việc phân lớp Ngược lại, lĩnh vực gần liên quan đến nhiều ngữ cảnh CVT khơng cịn thể vai trị lớn việc phân lớp nữa, dẫn đến tỉ lệ khai triển xác thấp nhiều (đều 70%), cho dù nhiều hay liệu huấn luyện (ví dụ “nghệ sĩ” “nhạc sĩ” CVT “NS” hay “khoa học” “kế hoạch” CVT ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CƠNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 05(114).2017-Quyển “KH”) Bảng Thống kê lượng liệu huấn luyện phân lớp (theo thứ tự giảm dần cột “Tổng số mẫu huấn luyện”) STT CVT BHYT NS PTTH THA KH Số mẫu huấn Tổng số mẫu luyện huấn luyện Khai triển hát yêu thích 52 bảo hiểm y tế 243 nghệ sĩ 44 nhạc sĩ 55 phát truyền hình 26 phổ thơng trung học 23 thi hành án 17 tăng huyết áp 12 khoa học kế hoạch 10 295 99 49 29 17 Bảng Độ xác khai triển CVT dùng mơ hình biểu diễn ngữ cảnh: Bag-of-words Doc2vec (số mẫu liệu dùng để kiểm chứng với số mẫu liệu dùng để huấn luyện) STT CVT BHYT NS PTTH Bag-ofĐộ xác Doc2vec words trung bình Khai triển hát u thích bảo hiểm y tế nghệ sĩ nhạc sĩ phát truyền hình 98,0% 98,0% 98,0% 77,5% 74,5% 76,0% 83,7% 69,4% 76,5% 93,3% 90,0% 91,7% 77,8% 66,7% 72,2% 86,0% 79,7% 82,9% phổ thông trung học THA KH thi hành án tăng huyết áp khoa học kế hoạch Trung bình Việc Bag-of-words cho tỉ lệ khai triển xác cao Doc2vec thử nghiệm khai triển CVT kết trái với dự đoán ban đầu tác giả xem xét ưu điểm Doc2vec so với Bag-ofwords trình bày Phần Do hạn chế thời gian tiến hành thực nghiệm kích thước liệu dùng thử nghiệm, nên chưa thể đưa giải thích thỏa đáng cho kết Điều xem xét nghiên cứu 35 Kết luận Chúng tơi trình bày hai phương pháp biểu diễn ngữ cảnh dùng để khử nhập nhằng khai triển CVT, phương pháp truyền thống Bag-of-words phương pháp đề xuất gần Doc2vec Tiếp cận học máy thống kê dùng phân lớp Nạve Bayes mơ tả thử nghiệm để kiểm chứng hiệu hai phương pháp biểu diễn ngữ cảnh Kết thực nghiệm cho thấy Bag-of-words cho tỉ lệ khai triển xác cao Doc2vec trung bình khoảng 6% Độ xác trung bình thử nghiệm khai triển CVT sử dụng phân lớp Naïve Bayes 82,9% Trong tương lai, thử nghiệm liệu CVT lớn hơn, thử nghiệm mơ hình phân lớp khác để có đánh giá tồn diện hiệu Doc2vec toán biểu diễn ngữ cảnh CVT TÀI LIỆU THAM KHẢO [1] Richard Sproat, Alan Black, Stanley Chen, Shankar Kumar, MariOstendorf, and Christopher Richards, “Normalization of NonStandard Words”, Computer Speech and Language, 15(3), 2001, pp 287-333 [2] Thu-Trang Thi Nguyen, Thanh Thi Pham, Do-Dat Tran, A Method for Vietnamese Text Normalization to Improve the Quality of Speech Synthesis, Proceedings of International Symposium on Information and Communication Technology (SoICT), Vietnam, 2010 [3] Dinh Anh Tuan, Phi Tung Lam, Phan Dang Hung, A Study of Text Normalization in Vietnamese for Text-to-Speech System, Proceedings of Oriental COCOSDA Conference, China, 2012 [4] Daniel Jurafsky, James H Martin, Speech and Language Processing, 2nd edition, Prentice Hall, 2008 [5] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean, Distributed Representations of Words and Phrases and their Compositionality, Proceedings of Conference on Neural Information Processing Systems (NIPS), USA, 2013 [6] Quoc Le, Tomas Mikolov, Distributed Representations of Sentences and Documents, Proceedings of the 31st International Conference on Machine Learning, Beijing, China, 2014 [7] Nguyen Nho Tuy, Phan Huy Khanh, Developing Database of Vietnamese Abbreviations and Some Applications, Proceedings of Second International Conference on Nature of Computation and Communication, RachGia, Vietnam, 2016 [8] Paul Taylor, Text-to-Speech Synthesis, Cambridge University Press, 2009 [9] Fabian Pedregosa et al., “Scikit-learn: Machine Learning in Python”, Journal of Machine Learning Research, 12(Oct), 2011, pp 28252830 (BBT nhận bài: 02/02/2017, hoàn tất thủ tục phản biện: 02/03/2017) ... bày tiếp cận học máy với phân lớp Naïve Bayes để khử nhập nhằng khai triển CVT kết thực nghiệm với hai phương pháp biểu diễn ngữ cảnh mô tả Phần 4.1 Tiếp cận học máy Tiếp cận học máy (cụ thể học. .. mức văn bản) Khử nhập nhằng khai triển CVT dùng tiếp cận học máy Để khử nhập nhằng khai triển CVT, chọn tiếp cận học máy để đưa lựa chọn khai triển tối ưu tập hợp khai triển CVT Ở tốn khử nhập nhằng... biểu diễn ngữ cảnh CVT Để xử lý nhập nhằng CVT có nhiều khai triển khác nhau, ngữ cảnh CVT văn đóng vai trị định việc lựa chọn khai triển Trong phần này, trình bày hai mơ hình biểu diễn ngữ cảnh: