Nghiên cứu đưa ra một số thuật toán để chuyển từ vựng tiếng Anh thành âm tiết phát âm được bằng tiếng Việt. Từ đó, phát triển thành công cụ tự động phiên âm một từ vựng tiếng Anh bất kỳ thành một từ tiếng Việt. Công cụ này là giải pháp tối ưu hóa các ứng dụng chuyển văn bản tiếng Việt có chứa từ vựng tiếng Anh thành tiếng nói tiếng Việt.
TRƯỜNG ĐẠI HỌC NAM CẦN THƠ Tạp chí Khoa học Kinh tế phát triển số 04 TỐI ƯU HÓA ỨNG DỤNG CHUYỂN VĂN BẢN TIẾNG VIỆT CÓ CHỨA TỪ VỰNG TIẾNG ANH THÀNH TIẾNG NÓI Trần Văn Nhuộm7, Trần Thị Thùy8 Tóm tắt: Ngày nay, số văn tiếng Việt thường chứa nhiều từ không chuẩn chữ viết tắt, chữ số từ ngữ nước (facebook, showbiz, internet, smartphone, ) Thông qua nghiên cứu tương đồng cách phát âm ngữ âm tiếng Anh tiếng Việt Chúng nghiên cứu đưa số thuật toán để chuyển từ vựng tiếng Anh thành âm tiết phát âm tiếng Việt Từ đó, phát triển thành cơng cụ tự động phiên âm từ vựng tiếng Anh thành từ tiếng Việt Công cụ giải pháp tối ưu hóa ứng dụng chuyển văn tiếng Việt có chứa từ vựng tiếng Anh thành tiếng nói tiếng Việt Từ khóa: Tối ưu hóa; ứng dụng; văn tiếng Việt; từ điển CMU; IPA, t2p Abstract: Currently, some Vietnamese texts consist of many non-standard words, such as abbreviations, numbers and foreign lexical items (e.g., facebook, showbiz, internet, smartphone, etc) By reviewing the research literature on similarities between Vietnamese and English pronunciation and phonetics, we have come up with several algorithm to convert English words into syllables can be pronounced in Vietnamese By which, a tool is developed to automatically transcribe any English word into Vietnamese equivalent Such a tool helps to optimizing an application for converting Vietnamese texts containing English vocabulary into speech Keyword: Optimizing; application; Vietnamese texts; CMU Dictionary; IPA; t2p Đặt vấn đề Chuẩn hóa văn q trình định xem làm đọc từ khơng chuẩn chẳng hạn Nato, Facebook, Quá trình định chất lượng hệ thống tổng hợp tiếng nói Tuy nhiên, nhiều hệ thống tổng hợp tiếng nói trọng vào việc làm để tạo âm nhân tạo Như kết tất yếu, họ giả sử văn đầu vào ln ln dạng phát âm Tuy nhiên, văn thực tế lại khơng phải lúc bao gồm tồn từ dạng chuẩn phát âm xác Ví dụ, chúng số liệu, chữ viết tắt (như GD viết tắt cho “Giáo dục”), cấu trúc biểu diễn thời gian (như 12h30), tên nước tên địa danh (như New York), chữ số La Mã, Ở Việt Nam, có nhiều hệ thống tổng hợp tiếng nói đạt nhiều kết SAOMAI, HOASUNG, VOICE OF SOUTHERN, VieTalk, hầu hết hệ thống Thạc sĩ Trường Đại học Nam Cần Thơ Tiến sĩ Trường Đại học Nam Cần Thơ 47 TRƯỜNG ĐẠI HỌC NAM CẦN THƠ Tạp chí Khoa học Kinh tế phát triển số 04 chưa dành đủ quan tâm cho chuẩn hóa văn Những hệ thống đọc từ không chuẩn, đọc đọc cách đơn sơ mà hồn tồn sai Vì vậy, nghiên cứu nhằm đưa giải pháp góp phần vào việc chuẩn hóa văn xây dựng cơng cụ phiên âm từ vựng tiếng Anh thành từ tiếng Việt Cơng cụ tích hợp vào ứng dụng chuyển văn thành tiếng nói tiếng Việt có chứa từ vựng tiếng Anh Một số định nghĩa thuật ngữ 2.1 Arpabet Arpabet hệ thống mã chép âm vị phát triển quan Advanced Research Projects Agency (ARPA) phần Dự án Thơng hiểu tiếng nói (Speech Understanding Project) [3] 2.2 International Phonetic Alphabet International Phonetic Alphabet (IPA) sản phẩm International Phonetic Association (Hiệp hội Ngữ âm quốc tế) Mục đích IPA ghi lại xếp âm ngôn ngữ giới dựa vào quy tắc ngữ âm khớp nối (articulatory phonetics principles) [2] 2.3 Temp Temp hệ thống mã sử dụng để ghi âm vị tiếng Việt máy tính 2.4 t2p 2.4.1 Định nghĩa: t2p chương trình cài đặt ngơn ngữ Perl dùng để xây dựng quy tắc biến tự vị thành âm vị dựa từ điển phát âm Nói cách khác, xây dựng quy tắc biến chữ thành âm để phát âm từ cho trước dựa ví dụ từ phát âm trước Ví dụ áp dụng t2p cho từ “FACEBOOK” kết sau chạy chương trình là: “F EY S B UH KD” 2.4.2 Nguyên lý hoạt động t2p sử dụng từ điển CMU xây dựng Cây định (Decision Tree) để tạo mơ hình cho từ Cây định phân cấp có cấu trúc dùng để phân lớp đối tượng dựa vào dãy luật (series of rules) Về chất giống câu lệnh “if then else” Điều thể rõ qua Hình 48 TRƯỜNG ĐẠI HỌC NAM CẦN THƠ Tạp chí Khoa học Kinh tế phát triển số 04 Hình 1: Kết định xây dựng t2p [7] Tổng quan ngữ âm 3.1 Ngữ âm gì? Ngữ âm hiểu tồn âm ngơn ngữ tất quy luật, quy tắc kết hợp âm thanh, giọng điệu từ, câu ngôn ngữ [1] + Âm ngôn ngữ âm máy cấu âm người tạo Nó có nghĩa đảm nhận chức giao tiếp cộng đồng + Kiến trúc ngữ âm tổng hợp tất quy luật, quy tắc kết hợp âm thanh, giọng điệu từ, câu ngôn ngữ 3.2 Đơn vị kết cấu ngữ âm + Âm tiết chuỗi lời nói người dùng để giao tiếp chia tách thành khúc đoạn từ lớn đến nhỏ, khúc đoạn nhỏ cuối không phân chia, ta gọi âm tiết Tuy nhiên, mặt thính giác, dựa vào kinh nghiệm sử dụng ngôn ngữ hoạt động giao tiếp, nghe âm tiết ta có cảm giác tách thành yếu tố nhỏ + Âm tố âm vị Âm tố đơn vị phát âm tự nhiên nhỏ lời nói Âm tố phân làm hai loại âm tố nguyên âm âm tố phụ âm Gọi tắt nguyên âm phụ âm Âm vị đơn vị nhỏ ngơn ngữ dùng để cấu tạo hình vị phân biệt nghĩa hình vị Âm tố thể âm vị lời nói + Thanh điệu, trọng âm ngữ điệu 49 TRƯỜNG ĐẠI HỌC NAM CẦN THƠ Tạp chí Khoa học Kinh tế phát triển số 04 Thanh điệu khái niệm dùng để cao độ âm tiết Cao độ có rung bật dây Tùy thuộc vào rung động nhanh hay chậm, mạnh hay yếu, biến chuyển sao, mà ta có điệu khác Thanh điệu âm vị siêu đoạn tính Nó biểu toàn âm tiết, hay toàn phần tính âm tiết (bao gồm âm đầu, âm đệm, âm âm cuối) Trọng âm tượng phát âm nhấn mạnh vào yếu tố ngữ âm chuỗi lời nói làm cho bật lên Sự nhấn mạnh thường thể cách tăng độ mạnh phát âm, tăng độ dài phát âm, lên xuống giọng Ngữ điệu thay đổi âm điệu tồn câu nói hay hoạt động giao tiếp, dòng ngữ lưu người phát ngơn truyền khơng phải đều mà ngược lại âm điệu câu nói người nói phát lúc mạnh, lúc yếu, lúc nhanh, lúc chậm, lúc lên, lúc xuống, có lúc liên tục, có lúc ngắt quãng, thay đổi gọi ngữ điệu 3.3 Cấu trúc âm tiết tiếng Việt, tiếng Anh Hình 2: Cấu trúc âm tiết tiếng Việt Hình 3: Cấu trúc âm tiết tiếng Anh 50 TRƯỜNG ĐẠI HỌC NAM CẦN THƠ Tạp chí Khoa học Kinh tế phát triển số 04 Bảng ánh xạ âm vị tiếng Anh, âm vị tiếng Việt Dựa sở tương đồng phát âm, ngữ âm tiếng Anh tiếng Việt xây dựng bảng âm vị tương ứng sau: Hình 4: So sánh âm vị tiếng Việt tiếng Anh [6] Hình 5: Âm vị tiếng Anh ánh xạ sang Temp 51 TRƯỜNG ĐẠI HỌC NAM CẦN THƠ Tạp chí Khoa học Kinh tế phát triển số 04 Hình 6: Temp ánh xạ sang âm vị tiếng Việt Thuật toán tổng quát Bước 1: Từ vựng chưa chuẩn hóa Ví dụ “FACEBOOK” Bước 2: Sử dụng công cụ t2p chuyển từ vựng tiếng Anh thành chuỗi âm vị, ví dụ chuyển từ vựng “FACEBOOK” thành chuỗi âm vị “F EY S B UH KD” Bước 3: Trên sở lý thuyết phân tích, vị trí ngun âm đóng vai trò âm tiết nên cần xác định vị trí nguyên âm đầu tiên, thêm phụ âm đầu, cuối bổ sung nguyên âm cần để hoàn thiện âm tiết tương đối hồn chỉnh Vì vậy, từ chuỗi âm vị ví dụ cho kết chuỗi âm vị “1FEY1SAX1BUHKD1” Bước 4: Từ chuỗi âm vị tiếng Anh ban đầu sau qua bước xử lý để chuỗi âm vị ánh xạ thành chuỗi ký hiệu phát âm tiếng Việt, cụ thể ví dụ chuỗi “1FEY1SAX1BUHKD1” ánh xạ chuỗi ký hiệu xử lý ngoại lệ để đạt kết chuỗi “1foUsji1soU1bu1t1” Bước 5: Ánh xạ chuỗi ký hiệu phát âm tiếng Việt thành chuỗi âm tiết tiếng Việt Ví dụ: “1foUsji1soU1bu1t1” “phây xơ bút” 52 TRƯỜNG ĐẠI HỌC NAM CẦN THƠ Tạp chí Khoa học Kinh tế phát triển số 04 Đầu vào: Từ vựng tiếng Anh Ví dụ: FACEBOOK Chuyển từ vựng tiếng Anh thơng qua cơng cụ t2p Ví dụ: F EY S B UH KD - Đánh dấu nguyên âm.Ví dụ: _EY UH_ - Thêm phụ âm vào trước nguyên âm (nếu có) Ví dụ: 1FEY_1BUH_ - Thêm phụ âm vào cuối ngun âm (nếu có) Ví dụ: 1FEY_1BUHKD1 - Bổ sung ngun âm (nếu có) Ví dụ: 1FEY1SAX1BUHKD1 Xử lý ngoại lệ ánh xạ sang chuỗi ký hiệu phát âm tiếng Việt Ví dụ: 1foUsji1soU1bu1t1 Chuỗi âm tiết tiếng Việt Ví dụ: phây xơ bút Kết chương trình Từ từ vựng văn tiếng Việt chưa chuẩn hóa, ví dụ từ “facebook” chương trình tự động phiên dịch thành chuỗi âm tiết tiếng Việt “phây xơ bút” Kết minh họa chương trình sau: Hình 7: Kết chương trình phiên âm 53 TRƯỜNG ĐẠI HỌC NAM CẦN THƠ Tạp chí Khoa học Kinh tế phát triển số 04 Kết luận: Khi bắt đầu nghiên cứu để tìm thuật tốn tổng qt giải tốn tối ưu hóa ứng dụng chuyển văn tiếng Việt có chứa thành tiếng nói phát nhiều vấn đề vơ khó khăn chúng có tương đồng ngữ âm bên cạnh có khơng khác biệt Vì vậy, kết từ thuật tốn tìm mang tính tương đối nhằm góp chút cơng sức cho lĩnh vực nghiên cứu ngơn ngữ tự nhiên nói chung chuẩn hóa văn nói riêng TÀI LIỆU THAM KHẢO Tiếng Việt [1] Võ Xuân Hào (2009) Giáo trình Ngữ âm tiếng Việt đại Trường Đại học Quy Nhơn, trang - 58 Tiếng Anh [2] John Kominek, “TTS From Zero Building Synthetic Voices for New Languages”, CMU-LTI-09-006 trang 16-18 [3] The CMU Pronouncing Dictionary http://www.speech.cs.cmu.edu/cgi-bin/cmudict [4] Luis Pedro Hurtarte Caceres, “Translation of Poetry´s Structures to Architecture”, trang 26-28, luận văn thạc sĩ [5] Hoang Gia Ngo, Nancy F Chen, Sunil Sivadas, Bin Ma, Haizhou Li, “A Minimal-Resource Transliteration Framework for Vietnamese”, Proc Interspeech, 2014 [6] Hoang Thi Quynh Hoa, “A Phonological Contrastive Study of Vietnamese and English”, A thesis in English, submitted to the Graduate Faculty of Texas Technological College [7] Kevin Lenzo, “t2p: Text-to-phoneme converter Builder”, retrieved from Carnegie Mellon University: http://www.cs.cmu.edu/afs/cs.cmu.edu/user/lenzo/html/areas/t2p,” 1998, December 28 [8] Thang Tat Vu, Mai Chi Luong, Satoshi Nakamura, “An HMM-based Vietnamese Speech Synthesis System”, Proc Oriental COCOSDA, 2009 [9] The CMU Pronouncing Dictionary, http://svn.code.sf.net/p/cmusphinx/code/trunk/ cmudict/sphinxdict 54 ... dựng công cụ phiên âm từ vựng tiếng Anh thành từ tiếng Việt Cơng cụ tích hợp vào ứng dụng chuyển văn thành tiếng nói tiếng Việt có chứa từ vựng tiếng Anh Một số định nghĩa thuật ngữ 2.1 Arpabet... tổng qt giải tốn tối ưu hóa ứng dụng chuyển văn tiếng Việt có chứa thành tiếng nói phát nhiều vấn đề vơ khó khăn chúng có tương đồng ngữ âm bên cạnh có khơng khác biệt Vì vậy, kết từ thuật tốn tìm... vị tiếng Việt Thuật toán tổng quát Bước 1: Từ vựng chưa chuẩn hóa Ví dụ “FACEBOOK” Bước 2: Sử dụng công cụ t2p chuyển từ vựng tiếng Anh thành chuỗi âm vị, ví dụ chuyển từ vựng “FACEBOOK” thành