Nghiên cứu tập trung trình bày giải pháp thiết kế bộ phân lớp ký hiệu, thành phần đóng vai trò quyết định độ chính xác của việc chuẩn hóa. Khác với các nghiên cứu trước sử dụng tiếp cận hướng dữ liệu, nghiên cứu này đề xuất giải pháp phân lớp ký hiệu sử dụng bộ quy tắc dựa trên kinh nghiệm ngôn ngữ do chúng tôi tự thiết kế.
132 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Chuẩn hóa văn tiếng Việt dựa quy tắc Ninh Khánh Chi1, Ninh Khánh Duy2 Trường Cao đẳng Công nghệ thông tin Hữu nghị Việt - Hàn Trường Đại học Bách Khoa, Đại học Đà Nẵng chink@viethanit.edu.vn, nkduy@dut.udn.vn Abstract Chuẩn hóa văn bước quan trọng hệ thống xử lý ngôn ngữ tự nhiên tiếng nói, đặc biệt ứng dụng chuyển văn thành tiếng nói Văn tiếng Việt nói chung thường chứa từ chưa chuẩn hố chữ số, chữ viết tắt từ ngữ nước ngồi Để chuẩn hóa văn bản, cần phải chuyển tất từ chưa chuẩn hoá thành dạng chuẩn ngôn ngữ tự nhiên Nghiên cứu tập trung trình bày giải pháp thiết kế phân lớp ký hiệu, thành phần đóng vai trị định độ xác việc chuẩn hóa Khác với nghiên cứu trước sử dụng tiếp cận hướng liệu, nghiên cứu đề xuất giải pháp phân lớp ký hiệu sử dụng quy tắc dựa kinh nghiệm ngôn ngữ tự thiết kế Kết thực nghiệm cho thấy giải pháp đề xuất đơn giản phân lớp từ chưa chuẩn hóa văn tiếng Việt với độ xác 90% cho 19 tổng số 24 lớp ký hiệu Keywords: Chuẩn Hóa Văn Bản, Phân Lớp Ký Hiệu, Bộ Quy Tắc Bài toán chuẩn hóa văn Trong hệ thống ngơn ngữ giới nay, tiếng Việt xem ngơn ngữ có phong phú đa dạng Chính phong phú phức tạp tiếng Việt dẫn đến khó khăn cho người dùng cho máy xử lý văn tiếng Việt, đặc biệt lĩnh vực chuyển văn thành tiếng nói (text-to-speech) [1] Văn tiếng Việt nói chung thường chứa từ chưa chuẩn hố chữ số, chữ viết tắt từ ngữ nước ngồi [2] Vì văn cần chuẩn hóa trước chuyển thành tiếng nói Một văn đơn bao gồm nhiều loại ký tự khác nhau, ngơn ngữ tự nhiên số Để chuẩn hóa văn bản, ta cần phải chuyển tất ký tự thành ngơn ngữ tự nhiên để hệ thống đọc thành lời Xét ví dụ văn chưa chuẩn hố “Vào 12h đêm 11/12, anh Tùng (SN 1989) để xe Dream II trước số 11/12A Tây Hồ, Q.10, TPHCM” Đoạn văn cần chuẩn hoá thành “Vào mười hai đêm ngày mười tháng mười hai, anh Tùng sinh năm nghìn chín trăm tám mươi chín để xe đơ-rim hai trước số mười mười hai a Tây Hồ, quận mười, thành phố Hồ Chí Minh” Chúng tơi đề xuất mơ-đun chuẩn hố văn Hình Văn chưa chuẩn hóa đưa vào tách thẻ để cắt thành câu, câu sau cắt thành thẻ (token) Ví dụ, cụm từ “12h đêm 11/12” cắt thành thẻ {12, h, đêm, 11, /, 12} Sau đó, thẻ đưa vào phân lớp thẻ để gán nhãn lớp ký hiệu tương ứng (gọi phân lớp ký hiệu) Cuối cùng, tùy vào lớp ký hiệu mà thẻ giải mã ký hiệu chuyển thành lời (verbalization) dạng chuẩn hóa Trong nghiên cứu [3][4], phát triển thuật toán chuyển thành lời riêng cho chữ viết tắt từ ngữ có nguồn gốc nước ngồi, vốn khơng quan tâm nghiên cứu tác giả khác chuẩn hóa văn tiếng Việt [5][6] Để tìm dạng chuẩn hóa thẻ thuộc lớp “Chữ viết tắt”, xây dựng từ điển gồm 1.000 chữ viết Ninh Khánh Chi, Ninh Khánh Duy 133 tắt kèm theo (các) khai triển tương ứng chữ Nếu gặp chữ viết tắt có nhiều khai triển từ điển, thuật toán khử nhập nhằng sử dụng để tìm khai triển phù hợp [3] Đối với từ ngữ có nguồn gốc nước ngồi (chủ yếu tiếng Anh) có thẻ tương ứng thuộc lớp “Ngơn ngữ tự nhiên”, đề xuất giải pháp Việt hoá cách phát âm từ [4] Các giải pháp đảm bảo toàn văn đầu vào chuẩn hố Hình Sơ đồ khối mơ-đun chuẩn hố văn Trong nghiên cứu này, chúng tơi tập trung trình bày giải pháp thiết kế phân lớp ký hiệu (hay phân lớp thẻ), thành phần đóng vai trị định độ xác việc chuẩn hóa văn Các nghiên cứu chuẩn hóa văn tiếng Việt cho ứng dụng chuyển văn thành tiếng nói [5][6] sử dụng tiếp cận hướng liệu (dùng liệu lớn) để phân lớp ký hiệu Chúng đề xuất phân lớp ký hiệu sử dụng quy tắc tự thiết kế dựa kinh nghiệm ngơn ngữ Cách tiếp cận có ưu điểm đơn giản, khơng cần liệu để huấn luyện phân lớp xử lý hiệu trường hợp văn tiếng Việt khơng chuẩn thường gặp Nội dung cịn lại nghiên cứu gồm Phần mơ tả thuật tốn phân lớp ký hiệu đánh giá độ xác thuật tốn phân lớp liệu văn thu thập từ trang báo mạng tiếng Việt có nhiều người đọc Phần cuối nghiên cứu đưa kết luận hướng phát triển Phân lớp ký hiệu dùng quy tắc 2.1 Đặt vấn đề Văn không đơn giản mã hóa ngơn ngữ tự nhiên Thay vào đó, văn tín hiệu vật lý phổ biến sử dụng để mã hóa nhiều hệ thống ký hiệu khác nhau, ngơn ngữ tự nhiên trường hợp phổ biến Như vậy, để chuẩn hóa văn bản, máy tính cần phân lớp thẻ (token) văn vào lớp ký hiệu người sử dụng, gọi phân lớp ký hiệu Việc phân lớp ký hiệu việc gán thẻ vào lớp ký hiệu 134 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” tương ứng cách xác Ngơn ngữ tiếng Việt phong phú đa dạng lại gây nhập nhằng, thiếu quán cách nói cách viết Máy tính (và chí người thiếu ngữ cảnh văn bản) nhầm lẫn nội dung ngày/tháng/năm với địa hay phân số (ví dụ, 1/2 10/81), định danh địa nhà (ví dụ, 20A), dải số với ngày/tháng (ví dụ, 2-5), dải năm với số điện thoại (ví dụ, 1900-1970),… Do phân lớp ký hiệu bước khó khăn có vai trị định chuẩn hóa văn Để phân lớp ký hiệu cho thẻ thơng tin thẻ khác xuất câu với thẻ (gọi ngữ cảnh) đóng vai trị thiết yếu Ngữ cảnh đặc trưng thẻ lân cận từ khóa mang thơng tin hỗ trợ việc phân lớp ký hiệu 2.2 Các đặc trưng thẻ Việc phân lớp ký hiệu cho thẻ dựa đặc trưng thẻ thẻ lân cận câu chúng có quan hệ ngữ nghĩa và/hoặc cú pháp Theo nghĩa rộng, thẻ xem có hai đặc trưng: chữ chữ số Tuy nhiên, để phân lớp ký hiệu cần xét đặc trưng cụ thể tính đến ràng buộc mặt giá trị quy cách sử dụng Ví dụ thẻ chữ số “13” có đặc trưng “Ngày” “Giờ” khơng thể có đặc trưng “Tháng” năm có 12 tháng Tương tự, thẻ chữ “TS” có đặc trưng “Viết tắt tiếng Việt” (dạng chuẩn hóa “Tiến sỹ”) khơng thể có đặc trưng “Số La Mã” ký tự “T” “S” không dùng để ghi chép chữ số La Mã Bảng liệt kê vài đặc trưng thường sử dụng để phân lớp ký hiệu Một thẻ gán nhiều đặc trưng Các đặc trưng chia làm nhóm: liệt kê không liệt kê Đối với đặc trưng liệt kê được, liệt kê tất thẻ có đặc trưng văn tiếng Việt, ví dụ đặc trưng “Viết tắt địa chỉ” gồm tất thẻ chữ viết tắt xuất địa Việt Nam (“TP” cho “Thành phố” ví dụ) Đối với đặc trưng không liệt kê số lượng thẻ có q lớn (ví dụ đặc trưng “Số ngun”), chúng tơi sử dụng biểu thức quy (regular expression) để tổng quát hóa thẻ Tổng cộng thiết kế 22 đặc trưng (17 thuộc nhóm khơng liệt kê thuộc nhóm liệt kê được) Kết thẻ câu gắn với vec-tơ đặc trưng có 22 chiều, thành phần vec-tơ tùy thuộc vào thẻ xét có đặc trưng hay không Bảng Một số đặc trưng tiêu biểu thẻ Tên đặc trưng Ngôn ngữ tự nhiên Viết tắt tiếng Việt Ngày Tháng Năm đầy đủ Giờ Phút Số nguyên Số điện thoại Số La Mã Viết tắt địa Chuỗi ký tự in hoa Mã đặc trưng F_nlang F_vabbr F_day F_month F_fyear F_hour F_min F_int F_tel F_roman F_aabbr F_ulets Biểu thức quy ([A-Za-z][~*\^