1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu tổng hợp tiếng nói và ứng dụng đọc báo bằng tiếng việt trên điện thoại di động android

81 851 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 81
Dung lượng 2,35 MB

Nội dung

Nghiên cứu tổng hợp tiếng nói và ứng dụng đọc báo bằng tiếng Việt trên điện thoại di động AndroidNghiên cứu tổng hợp tiếng nói và ứng dụng đọc báo bằng tiếng Việt trên điện thoại di động AndroidNghiên cứu tổng hợp tiếng nói và ứng dụng đọc báo bằng tiếng Việt trên điện thoại di động AndroidNghiên cứu tổng hợp tiếng nói và ứng dụng đọc báo bằng tiếng Việt trên điện thoại di động AndroidNghiên cứu tổng hợp tiếng nói và ứng dụng đọc báo bằng tiếng Việt trên điện thoại di động Android

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG - TRẦN MINH TUẤN NGHIÊN CỨU TỔNG HỢP TIẾNG NÓI VÀ ỨNG DỤNG ĐỌC BÁO BẰNG TIẾNG VIỆT TRÊN ĐIỆN THOẠI ANDROID LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - 2016 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG - TRẦN MINH TUẤN NGHIÊN CỨU TỔNG HỢP TIẾNG NÓI VÀ ỨNG DỤNG ĐỌC BÁO BẰNG TIẾNG VIỆT TRÊN ĐIỆN THOẠI ANDROID CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN MÃ SỐ: 60.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS LÊ HỮU LẬP HÀ NỘI - 2016 i LỜI CAM ĐOAN Tôi cam đoan công trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chưa công bố công trình TÁC GIẢ Trần Minh Tuấn ii LỜI CÁM ƠN Lời em xin gửi lời cảm ơn đến toàn thể thầy, cô giáo Học viện Công nghệ Bưu Viễn thông tận tình giảng dạy em suốt thời gian học tập nhà trường Em xin gửi lời cảm ơn sâu sắc đến PGS.TS Lê Hữu Lập, người trực tiếp hướng dẫn, tạo điều kiện thuận lợi tận tình bảo cho em suốt thời gian làm luận văn tốt nghiệp Bên cạnh đó, để hoàn thành đồ án này, em nhận nhiều giúp đỡ, lời động viên quý báu bạn bè, gia đình đồng nghiệp Em xin chân thành cảm ơn Tuy nhiên, thời gian hạn hẹp, nỗ lực mình, luận văn khó tránh khỏi thiếu sót Em mong nhận thông cảm góp ý quý thầy cô bạn HỌC VIÊN Trần Minh Tuân iii MỤC LỤC LỜI CAM ĐOAN i LỜI CÁM ƠN ii DANH MỤC TỪ VIẾT TẮT v DANH MỤC CÁC BẢNG BIỂU vi DANH MỤC CÁC HÌNH VẼ vii MỞ ĐẦU .1 Chương 1.TỔNG QUAN VỀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN VÀ TỔNG HỢP TIẾNG NÓI 1.1 Giới thiệu xử lý ngôn ngữ tự nhiên 1.1.1 Ngôn ngữ 1.1.2 Xử lý ngôn ngữ tự nhiên 1.2 Chuẩn hóa văn 1.2.1 Tổng quan chuẩn hóa văn 1.2.2 Các nghiên cứu liên quan giới 1.2.3 Các nghiên cứu liên quan cho tiếng Việt 1.2.4 Chuẩn hóa văn tiếng việt 1.3 Phân tích cú pháp 1.3.1 Tổng quan phân tích cú pháp 1.3.2 Các nghiên cứu phân tích cú pháp 1.4 Phân tích ngữ cảnh 1.4.1 Nhập nhằng nghĩa mức từ vựng 1.4.2 Mức độ nhập nhằng cấu trúc 1.4.3 Mức độ nhập nhằng liên câu 10 1.5 Giới thiệu hệ thống tổng hợp tiếng nói 10 1.5.1 Tổng quan 10 1.5.2 Ý nghĩa tổng hợp tiếng nói 11 1.5.3 Mô hình tổng hợp tiếng nói từ văn 11 1.6 Kết luận chương 12 Chương 2.MỘT SỐ PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT 13 2.1 Tổng hợp mô hệ thống phát âm .13 2.1.1 Hệ thống tiếng nói người 13 2.2 Tổng hợp tần số formant 16 iv 2.2.1 Các mô hình tổng hợp formant 17 2.2.2 Tổng hợp tiếng nói sở tổng hợp formant 18 2.3 Tổng hợp dựa ghép nối 19 2.3.1 Các vấn đề tổng hợp tiếng nói phương pháp ghép nối 20 2.3.2 Các phương pháp tổng hợp ghép nối 25 2.3.3 Tổng hợp chuyên biệt 28 2.4 Tổng hợp dùng tham số thống kê 28 2.4.1 Tổng quan tổng hợp dùng tham số thống kê 28 2.4.2 Mô hình Markov ẩn 29 2.5 Tổng hợp phương pháp lai ghép 30 2.5.1 Hệ thống tổng hợp lai ghép hướng ghép nối 32 2.5.2 Hệ thống tổng hợp lai ghép hướng HMM 33 2.6 Đánh giá lựa chọn phương pháp xây dựng ứng dụng 39 2.7 Kết luận chương 43 Chương 3.XÂY DỰNG ỨNG DỤNG…………………………………………… 44 3.1 Giới thiệu Android SDK 44 3.1.1 Android 44 3.1.2 Android SDK 45 3.2 Mô tả ứng dụng 45 3.2.1 Tổng quan ứng dụng 45 3.2.2 Tổng quan giao diện hoạt động ứng dụng 47 3.3 Tổng hợp tiếng nói từ văn hệ điều hành Android .56 3.3.1 Tính TextToSpeech hệ điều hành Android 56 3.3.2 Mô hình tổng hợp tiếng nói hệ điều hành Android 57 3.3.3 Lựa chọn tìm kiếm đơn vị âm 58 3.4 Vấn đề lưu trữ xử lý thiết bị di động .63 3.5 Kết đánh giá ứng dụng 64 3.6 Kết luận chương 65 KẾT LUẬN .66 TÀI LIỆU THAM KHẢO 68 v DANH MỤC TỪ VIẾT TẮT STT Từ viết tắt Ý nghĩa HMM Hidden Markov Model LPC Linear Predictive Coding MFCC Mel-scale Frequency Cepstral Coefficient NSW Non-Standard Word PSOLA Pitch Synchronous Overlap and Add TTS Text to speech vi DANH MỤC CÁC BẢNG BIỂU Bảng 2.1: Các loại đơn vị âm sử dụng 22 Bảng 2.2: Đánh giá chất lượng tiếng nói 40 Bảng 2.3: Đánh giá hiệu tính toán 41 Bảng 2.4: Đánh giá kích thước liệu .42 Bảng 3.1: Kịch bản: Tải liệu 47 Bảng 3.2: Kịch bản: Tải báo 48 Bảng 3.3: Kịch bản: Đọc báo 49 Bảng 3.4: Kịch bản: Cài đặt giao diện 49 Bảng 3.5: Kịch bản: Cài đặt trang báo 50 Bảng 3.6: Các mức đánh giá MOS 65 vii DANH MỤC CÁC HÌNH VẼ Hình 1.1 Ví dụ phân tích cú pháp .8 Hình 1.2: Hệ thống tổng hợp tiếng nói .11 Hình 1.3: Mô hình tổng hợp mức cao .12 Hình 2.1: Mô hình phát âm người .13 Hình 2.2: Mô hình tổng hợp tần số formant 16 Hình 2.3: Mô hình tổng hợp formant nối tiếp 17 Hình 2.4: Mô hình tổng hợp formant song song 17 Hình 2.5: Mô hình VnSpeech tổng hợp tiếng Việt dựa vào formant 19 Hình 2.6: Mô hình hệ thống TTS dựa mô hình Markov ẩn .29 Hình 2.7: Hệ thống lai ghép hướng HMM 35 Hình 2.8: Hàm trọng số vùng khác tín hiệu .39 Hình 3.1: Các phiên Android .44 Hình 3.2: Mô hình tổng quan ứng dụng .46 Hình 3.3: Sơ đồ Usecase-Actor tổng quan 47 Hình 3.4: Sơ đồ hoạt động tải liệu RSS 51 Hình 3.5: Sơ đồ hoạt động tải báo 52 Hình 3.6: Sơ đồ hoạt động đọc báo 53 Hình 3.7: Sơ đồ hoạt động cài đặt giao diện .53 Hình 3.8: Sơ đồ hoạt động cài đặt giao trang 54 Hình 3.9: Giao diện bảng tin .55 Hình 3.10: Giao diện chủ đề .55 Hình 3.11: Giao diện cài đặt .55 Hình 3.12: Giao diện cài đặt ban đêm .55 Hình 3.13: Giao diện trang báo 55 Hình 3.14: Giao diện đọc tin .56 Hình 3.15: Mô hình tổng hợp tiếng nói hệ điều hành Android 57 Hình 3.16: Mô hình lựa chọn đơn vị âm không đồng .58 56 Hình 3.13: Giao diện trang báo 3.3 Hình 3.14: Giao diện đọc tin Tổng hợp tiếng nói từ văn hệ điều hành Android 3.3.1 Tính TextToSpeech hệ điều hành Android Tính chuyển văn thành giọng nói (Text-to-speech hay TTS) Google trang bị sẵn cho hệ điều hành Android từ phiên 1.6 Donut Tính hữu ích nhiều trường hợp, đặc biệt phần mềm từ điển Hiện nay, tính Text to speech android hỗ trợ 13 thứ tiếng không bao gồm tiếng Việt Dẫn đến ứng dụng tổng hợp tiếng nói tiếng Việt phần mềm hệ điều hành Android, tự xây dựng sở liệu phát âm giải thuật riêng Và Android cho phép điều cách cho phép người dùng lựa chọn nhiều tổng hợp tiếng nói khác phần cài đặt Tất tổng hợp tiếng nói có sở liệu giải thuật khác nhau, sử dụng chung công cụ để xử lý liệu đầu vào class TextToSpeech Để sử dụng class này, cần khởi tạo hàm initListner (): 57 Vì Android nhận dạng ngôn ngữ ngôn ngữ quốc gia nên hàm lắng nghe trên, cần cài đặt ngôn ngữ sử dụng: Sau cài đặt xong hàm trên, cần gọi câu lệnh bên dưới, hệ thống tự động tìm tổng hợp lựa chọn phần Cài đặt thực tổng hợp thành tiếng nói 3.3.2 Mô hình tổng hợp tiếng nói hệ điều hành Android Bộ tổng hợp tiếng nói hệ điều hành Android viết ngôn ngữ Java chạy hệ điều hành Android Dưới mô hình tổng thể hệ thống Hình 15: Mô hình tổng hợp tiếng nói hệ điều hành Android 58 o Đầu vào: văn cần tổng hợp với câu phân tích cú pháp, tổ chức thành phân cấp cụm từ o Đầu ra: file âm tổng hợp từ văn đầu vào o Chức phần mức cao: tìm kiếm lựa chọn đơn vị âm tốt để tổng hợp o Chức phần mức thấp: ghép nối đơn vị âm 3.3.3 Lựa chọn tìm kiếm đơn vị âm Như trình bày mục 2.3.1.1, loại đơn vị âm lựa chọn cụm từ, âm tiết, bán âm tiết Với mục đích giảm thiểu số điểm ghép nối, loại đơn vị âm ưu tiên chọn lựa theo thứ tự Hình 3.20 mô hình tổng quan trình lựa chọn đơn vị âm Quá trình lựa chọn đơn vị chia thành hai bước tiền lựa chọn lựa chọn cuối Nhiệm vụ bước tiền lựa chọn chọn đơn vị âm dài có thể, bước lựa chọn cuối chọn dãy đơn vị âm tốt Tổng hợp mức cao Lựa chọn đơn vị không đồng CSDL văn Tiền lựa chọn CSDL bán âm tiết Lựa chọn cuối CSDLâm Ghép nối đơn vị Hình 3.16: Mô hình lựa chọn đơn vị âm không đồng 59 Bắt đầu Phân tách câu thành phân cấp cụm từ Tìm cụm từ CSDL Tìm thấy văn Không thấy Tìm âm tiết CSDL văn Tìm thấy Không Tìm bán âmthấy tiết CSDL bán âm tiết Sai Hết câu? Đúng Chọn lựa đơn vị âm có hàm chi phí nhỏ Kết thúc Hình 3.17: Quá trình tìm kiếm đơn vị 60 3.3.3.1 Tiền lựa chọn CSDL dùng bước tiền lựa chọn CSDL văn CSDL bán âm tiết Các bước chi tiết trình tìm kiếm đơn vị âm mô tả Hình 3.21 Quá trình tìm kiếm đơn vị Bắt đầu trình lựa chọn đơn vị, văn cần tổng hợp chia thành câu để tìm kiếm Mỗi câu phân tách thành cụm từ âm tiết tìm kiếm chúng CSDL văn Nếu tìm thấy, vị trí tìm thấy thông tin ngữ cảnh ngữ âm đơn vị âm tìm thấy trả để dùng cho việc tính toán hàm chi phí Nếu âm tiết không tìm thấy, âm tiết phân tích thành hai bán âm tiết đầu cuối Các bán âm tiết tìm kiếm CSDL bán âm tiết Tại mức không xảy kiện không tìm thấy bán âm tiết [10] Nếu không tìm thấy âm tiết không tổng hợp Vấn đề đặt phân tích câu thành cụm từ âm tiết cho tối đa hóa xác suất tìm thấy cụm từ phân tích Bởi không chọn cụm từ thích hợp để tìm kiếm, tỉ lệ đơn vị âm phần lớn âm tiết bán âm tiết, việc ảnh hưởng trực tiếp tới hiệu thuật toán lựa chọn đơn vị không đồng Ví dụ câu đơn giản “Xin cám ơn thầy cô” với cách phân tách cụm từ sau:  Xin cám | ơn thầy | cô  Xin | cám ơn | thầy cô Nhìn vào hai cách phân tách trên, rõ ràng ta nhận thấy với cách phân tách thứ hai, cụm từ tìm kiếm có khả xuất CSDL cao Một giải pháp đề xuất để giải vấn đề sử dụng phân tích cú pháp Câu cần tổng hợp chia thành cụm từ theo mức khác nhờ trình phân tích cú pháp Ví dụ hình minh họa cho câu “Hôm qua làm” Quá trình tìm kiếm gốc, sau xuống nhánh Việc tìm kiếm dừng lại mức cao tìm thấy cụm từ tới mức 61 âm tiết Cách thức phân chia để tìm kiếm làm tăng xác suất tìm thấy cụm từ có độ dài lớn âm tiết việc chọn ngẫu nhiên cụm từ theo độ dài xác định để tìm kiếm Đây ý tưởng chủ đạo thuật toán lựa chọn đơn vị không đồng Trong trường hợp không tìm thấy ứng viên mức lá, âm tiết lại tổng hợp mức bán âm tiết Theo [10], việc tổng hợp mức bán âm tiết tổng hợp hầu hết âm tiết tiếng Việt Hôm qua làm Hôm qua Hôm làm qua làm làm Hình 3.18: Ví dụ bước tiền lựa chọn 3.3.3.2 Lựa chọn cuối Mục đích giai đoạn chọn chuỗi đơn vị âm cho không liên tục nhỏ Tiêu chí lựa chọn dựa hàm chi phí bao gồm chi phí đích chi phí ghép nối Chi phí ghép nối tính theo công thức đây: 𝑞 Cc (ui-1 , ui) = ∑𝑗=1 wcj Ccj (ui-1 , ui) Trong đó: Ccj(ui-1,ui): chi phí ghép nối phụ Chi phí ghép nối phụ tương ứng với khoảng cách ngữ cảnh khoảng cách điểm ghép nối hai đơn vị âm:  Sự khác segment bên phải ui-1và ui : d(segmentm+1, ui) 62  Sự khác segment bên trái ui ui-1: d(ui-1, segmentk-1) Nếu hai giá trị tham số ui-1và ui giống khác 0, không khoảng cách Hình 3.19: Sự khác ngữ cảnh Khoảng cách điểm kết nối thu cách tính khoảng cách ngữ Hình khácnối cảnh cách F0, khoảng âm vùng tín hiệu3.22: đượcSo sửsánh dụngsựghép nhưvềlàngữ khoảng cách phổ Khoảng cách phổ sử dụng để tính toán không liên tục phổ Đó khoảng cách Euclid 12 hệ số MFCC (Mel-Frequency Cepstral Coefficients) cửa sổ 10ms (cửa sổ cuối segment ui-1và cửa sổ segment ui) Hình 3.20: Sự khác phổ Vậy khoảng cách tổng chuỗi n đơn vị âm tổng chi phí đích chi phí ghép nối: Hình 3.23: So sánh khác phổ cảnh Trong đó, S mô tả khoảng lặng, Cc(S,u1) Cc(un,S) xác định điều kiện ban đầu kết thúc việc ghép nối đơn vị âm đầu cuối có khoảng lặng 63 Quy trình chọn lựa tập hợp đơn vị âm phải thỏa mãn tổng chi phí tính toán phải nhỏ Trong tính toán hàm chi phí, chi phí tổng dãy đơn vị âm tổng có trọng số chi phí đích chi phí ghép nối Các chi phí tổng có trọng số chi phí Việc xác định trọng số quan trọng chất lượng chung tiếng nói tổng hợp Tuy nhiên, việc tìm cách khách quan để so sánh chất lượng tiếng nói tổng hợp cách sử dụng trọng số khác khó Vì vậy, cần cách khác để xác định trọng số Thông thường, trọng số xác định vào thực nghiệm dựa kiến thức đánh giá cảm thụ [10] [12] Việc lựa chọn dãy đơn vị âm tối ưu thực cách áp dụng thuật toán Viterbi [6] [12] 3.4 Vấn đề lưu trữ xử lý thiết bị di động Ngày nay, nhớ điện thoại thông minh (smartphone) chạy hệ điều hành Android mở rộng lên nhiều Nhưng bên cạnh đó, ứng dụng nặng, chiếm dụng tài nguyên nhiều Dẫn đến nhớ thiết bị điện thoại dần trở không đủ Và việc lưu trữ số lượng files có dung lượng nặng nhớ điện thoại điều không khả Hầu hết dòng máy chạy hệ điều hành Android có hỗ trợ khe cắm thẻ nhớ hỗ trợ đến hàng chục Megabyte Đây coi không gian lý tưởng để lưu trữ liệu có dung lượng cao Không gian mở rộng cách linh hoạt cách thay thẻ nhớ có dung lượng nhớ cao Tuy nhiên, tốc độ truy cập liệu không gian nhớ không cao Mặc dù ngày tốc độ xử lý thẻ nhớ cải tiển nhiều Nhưng độ trễ cao so với vùng không gian nhớ máy 64 3.5 Kết đánh giá ứng dụng Ứng dụng xây dựng cài đặt thành công điện thoại chạy hệ điều hành Android Ứng dụng hỗ trợ người dùng đọc báo từ trang báo mạng: o vnexpress.net o 24h.com.vn o dantri.com o vietnamnet.vn o ngoisao.com o tuoitre.vn Giao diện ứng dụng đơn giản, dễ sử dụng không bị dừng trình sử dụng ứng dụng Bộ tổng hợp tiếng nói mà ứng dụng sử dụng để đọc báo mạng phát triển trung tâm nghiên cứu phát triển Samsung Việt Nam trung tâm MICA (Đại học bách khoa Hà Nội) Để đánh giá chất lượng nghe rõ tính tự nhiên tiếng nói tổng hợp, đánh giá khách quan dựa so sánh biến dạng cepstral tần số thang Mel (Mel-Frequency Cepstral Coefficients Distortion, MFCD), sai lệch bậc hai trung bình bình phương (Root-Mean-Square Error, RMSE) log 𝐹0 so sánh trực quan ảnh phổ, đường bao cao độ tiếng nói tổng hợp thu âm gốc, cần có kiểm tra chủ quan dựa tiêu chí điểm đánh giá ý kiến trung bình (Mean Opinion Score, MOS) người nghe đánh giá khác Dưới biểu đồ đánh giá Trung tâm nghiên cứu phát triển Samsung với hai tổng hợp tiếng nói tiếng nói tự nhiên: o Bộ tổng hợp tiếng nói phát triển trung tâm nghiên cứu phát triển Samsung Việt Nam trung tâm MICA: VnTTS o Bộ tổng hợp tiếng nói theo phương pháp tần số formant: VnSpeech o Tiếng nói tự nhiên 65 Đánh giá MOS thực thông qua nghe cho điểm theo thang điểm : Bảng 3.6: Các mức đánh giá MOS Hình 3.21: Sơ đồ đánh giá chất lượng tiếng nói 3.6 Kết luận chương (Nguồn: Tổng hợp từ báo cáo đánh giá R&D Samsung) Trong chương 3, học viên nghiên cứu trình bày tổng quan môi trường phát triển ứng dụng hệ điều hành Android, mô tả ứng dụng, xây dựng kịch Bên cạnh đó, học viên trình bày bước tổng hợp tiếng nói, vấn đề lưu trữ xử lý Từ đó, học viên trình bày nhận xét đánh giá sau xây dựng thành công ứng dụng 66 KẾT LUẬN Kết đạt Trong trình thực luận văn, học viên nghiên cứu số kiến thức xử lý ngôn ngữ tự nhiên cần thiết cho trình tổng hợp tiếng nói như: chuẩn hóa văn bản, nghiên cứu nước chuẩn hóa văn bản, phân tích cú pháp, nghiên phân tích cú pháp nước nước ngoài, phân tích ngữ cảnh, nghiên cứu vấn đề nhập nhằng từ vựng, cấu trúc nhập nhằng liên câu Dựa sở đó, học viên tiếp tục nghiên cứu trình bày phương pháp tổng hợp tiếng nói sử dụng phát triển như: Phương pháp tổng hợp mô hệ thống phát âm, phương pháp tổng hợp tần số formant, phương pháp tổng hợp dựa ghép nối, phương pháp tổng hợp dùng tham số thống kê phương pháp tổng hợp phương pháp lai ghép Sau nghiên cứu phương pháp tổng hợp trên, học viên tiến hành đánh giá nhận xét phương pháp, cụ thể ưu điểm nhược điểm phương pháp Từ đó, học viên lựa chọn phương pháp khả thi phương pháp tổng hợp dựa ghép nối để xây dựng ứng dụng đọc báo tiếng Việt hệ điều hành Android Về mặt ứng dụng, học viên xây dựng thành công phần mềm đọc báo tiếng Việt điện thoại di động chạy hệ điều hành Android Phần mềm bao gồm ba phần Phần thứ phần trích rút văn từ trang báo mạng Phần học viên sử dụng thư viện mã nguồn mở boilerpipe để trích rút thông tin từ báo mạng Trong đó, học viên có sửa lại lọc, định dạng đầu phương pháp trích rút thông tin thư viện mã nguồn mở để phù hợp với việc lấy thông tin từ báo Việt Phần thứ hai phần ứng dụng tương tác với người dùng Trong phần này, học viên thực xây dựng ứng dụng điện thoại di động Android để xử lý thao tác người dùng việc đọc báo mạng Phần cuối tổng hợp tiếng nói Học viên sử dụng lại tổng hợp tiếng nói phát triển trung tâm MICA Trong trình phát triển tổng hợp tiếng nói này, học viên có tham gia vào số công đoạn tách từ, xây dựng phân từ Ngoài ra, trình xây dựng 67 ứng dụng, học viên có trình bày số kiến thức Android liên quan như: Android SDK tính TextToSpeech Bên cạnh đó, học viên trình bày bước phân tích thiết kế hệ thống như: xây dựng sơ đồ Usecase – Actor tổng quan, xây dựng kịch sơ đồ hoạt động Sau xây dựng thành công ứng dụng, học viên tiến hành nhận xét đánh giá ứng dụng trình bày cụ thể luận văn Những điểm hạn chế o Chưa tổng hợp tổng hợp tiếng nói riêng cho ứng dụng o Chưa có hội thử nghiệm nhiều người dùng lấy ý kiến đánh giá cho ứng dụng o Tiếng nói phát đôi lúc chưa phù hợp với việc đọc báo Hướng phát triển  Nghiên cứu phương pháp chuẩn hóa văn tiếng Việt để làm giảm độ nhập nhằng ngữ nghĩa xử lý văn đầu vào  Nghiên cứu phương pháp tóm tắt văn để tóm tắt báo mạng, từ đọc tóm tắt báo  Bổ xung phần lọc liệu tải từ trang báo để loại bỏ thông tin dư thừa, ích cho người nghe  Nghiên cứu, cải tiến webview Android để bôi đen câu chữ đọc báo 68 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] [2] [3] [4] [5] [6] [7] [8] Nguyễn Trọng Hiếu, Lê Quang Thắng, Lê Anh Tú, Đỗ Văn Thảo, Nguyễn Hữu Thuận (2006), “ Hệ thống tổng hợp tiếng nói tiếng Việt ” Lê Thanh Hương (2000), “Phân tích cú pháp tiếng Việt” – luận văn thạc sỹ, ĐHBK Hà Nội Bùi Tiến Lên (2001), “Xây dựng hệ tổng hợp tiếng Việt dựa luật” - Luận văn thạc sĩ ngành công nghệ thông tin, Đại học KHTN, Đại học Quốc gia Tp Hồ Chí Minh Nguyễn Hữu Minh (2009), “Xác định khoảng ngừng âm tiết, cường độ trường độ âm tiết cho phát âm tiếng Việt” - Luận văn thạc sĩ ngành tin học, Đại học KHTN, Đại học Quốc gia Tp Hồ Chí Minh Lê Hồng Minh (2003), “Một số kết nghiên cứu phát triển hệ phần mềm chuyển văn thành tiếng nói cho tiếng Việt tổng hợp formant”, Kỷ yếu Hội thảo Khoa học Quốc gia lần thứ Nghiên cứu Phát triển Ứng dụng Công nghệ Thông tin Truyền thông (ICT.rda’03), Hà Nội, tr 292-301 Vũ Hải Quân, Cao Xuân Nam (2009), “Tổng hợp tiếng nói tiếng Việt, theo phương pháp ghép nối cụm từ”,Tập V-1, Số Pham Thanh Son (2014), “Một số vấn đề tổng hợp tiếng nói tiếng Việt”, Khoa CNTT, Đại học thông tin liên lạc Nha Trang Nguyễn Văn Thành (2014),“ Tìm hiểu xử lý ngôn ngữ tự nhiên máy dịch, viết chương trình mô từ điển Việt-Anh“ Đại học bách khoa Hà Nội Tài liệu tiếng Anh [9] [10] Firoj Alam, S M Murtoza Habib, Mumit Khan (2009),“Text Normalization system for Bangla”, BRAC University, Bangladesh Tran Do Dat (2007), “Synthèse de la parole a partir du texte en langue Vietnamienne”, Ph.D Thesis, Thèse en cotutelle international MICA, Hanoi 69 [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] Do Van Thao, Tran Do Dat, Nguyen Thi Thu Trang (2013), nonuniform unit selection in Vietnamese speech Synthesis, proceeding of the 2nd In 8th ISCA Speech Synthesis Workshop, Barcelona, Spain Minghui Dong, Kim-Teng Lua, Haizhou Li (2006), “A Unit Selectionbased Speech Synthesis Approach for Mandarin Chinese”, Institute for Infocomm Research Hewlett (2009), “Hindi Text Normalization”, Packard Labs Indian Xuedong Huang, Alejandro Acero, Hsiao-Wuen Hon (2001), “Spoken language processing”, Prentice Hall Hunt, A, BlackA Alan,W (1996), Unit selection in a concatenative speech synthesis system using a large speech database, Proc in ICASSP, Vol.1, tr 373-376 Kim, Sang-Jin (2007), “HMM-Based Korean Speech Synthesizer with Two-Band Mixed Excitation Model for Embedded Applications”, Doctoral Dissertation, Information and Communications University, Korea J.A Louw (2009), “A Short Guide to Pitch-marking in the Festival Speech Sythensis System and Recommendations for Improvements ”, Local Language Speech Technology Initiative Craig Olinsky and Alan W Black (2000), “Non – Standard Word and Homograph Resolution for Asian Language Text Analysis”,Language Technologies Institute Carnegie Mellon University Qian, Yao (2013), “A fast table lookup based, statistical model driven non-uniform unit selection TTS”, Proc In ICASSP2013, Vancouver, Canada Richard Sproat, Alan W Black, Stanley Chen, Shankar Kumar, Mari Ostendorf and Chistopher (1999), “Normalization of Non-Standard Words” TokudaK, ZenH, Black, AlanW (2002), “An HMM-based speech synthesis system applied to English” Proc in IEEE Speech Synthesis Workshop, Santa Monica, USA Vu Tat Thang, Luong Chi Mai Satoshi, Nakamura (2009), “An HMM-based Vietnamese Speech Synthesis System” Proc in Oriental COCOSDA, Urumqi, China, tr 116-121 Nguyen Thi Thu Trang, Pham Thi Thanh, Tran Do Dat (2010), “A method for Vietnamese Text Normalization to improve the quality of speech synthesis”.Đại học Bách Khoa Hà Nội 70 [24] [25] [26] Yunqing Xia, Kam-Fai Wong, Wenjie Li (2006), “A Phonetic-Based Approach to Chinese Chat Text Normalization”,Association for Computational Linguistics Youcef, T Mohamed, B (2011), Speech synthesis techniques A survey 7th International Workshop on Systems, Signal Processing and their Applications, Tipaza Algeria, tr.67-70 Yamagishi, J (2006), “An Introduction to HMM-Based Speech Synthesis, Technical Report”, Tokyo Institute of Technology, Japan Website [27] [28] Hải Thụy (2006).“Lộn xộn từ ABC” [online] Đường dẫn: http://tuoitre.vn/tin/giao-duc/20061111/lon-xon-tu-abc/171894.html, truy cập ngày 19/4/2016 Hải Thụy (2007).“Câu chuyện tiếng Việt, chuẩn hóa tiếng Việt” [online] Đường dẫn: http://tuoitre.vn/tin/giao-duc/20070107/cauchuyen-tieng-viet-co-the-chuan-hoa-tieng-viet/181459.html, truy cập ngày 20/4/2016 [...]... nghe và tự nhiên vẫn là điều mà các công trình nghiên cứu đang hướng tới [11] Vì vậy, Học viên xin chọn đề tài “ Nghiên cứu tổng hợp tiếng nói và ứng dụng đọc báo bằng tiếng Việt trên điện thoại Android ” nhằm nghiên cứu tổng quan về xử lý ngôn ngữ tự nhiên và một số phương pháp tổng hợp tiếng nói tiếng Việt từ văn bản đã được ứng dụng và thu được kết quả khả quan, đồng thời xây dựng ứng dụng đọc báo bằng. .. người trên máy tính từ văn bản Đây là một đề tài có tính ứng dụng thực tiễn cao nên được nghiên cứu nhiều trên thế giới và Việt Nam từ rất sớm [7] Hiện nay, tại Việt Nam đã phát triển nhiều bộ tổng hợp và ứng dụng của nó dành riêng cho tiếng Việt như phần mềm tổng hợp tiếng nói tiếng Việt “VnSpeech” Đây là phần mềm tổng hợp tiếng nói theo phương pháp tổng hợp tần số formant Hệ tổng hợp formant có thể đọc. .. 1.5 Giới thiệu về hệ thống tổng hợp tiếng nói 1.5.1 Tổng quan Tổng hợp tiếng nói là việc tạo ra tiếng nói của con người một cách nhân tạo, một hệ thống thực hiện mục đích này được gọi là một hệ thống tổng hợp tiếng nói Tổng hợp tiếng nói có thể thực hiện bằng phần mềm trên máy tính, các thiết bị di động hay các hệ nhúng Trong vài thập niên gần đây, các bộ tổng hợp tiếng nói có chất lượng ngày càng... những ứng dụng của tổng hợp tiếng nói đó là tạo ra hệ thống có đầu vào là một đoạn văn bản và đầu ra là một sóng âm thanh hay còn gọi là hệ thống chuyển văn bản thành tiếng nói có tên tiếng Anh là Text To Speech và viết tắt là TTS 11 1.5.2 Ý nghĩa của tổng hợp tiếng nói Tổng hợp tiếng nói nói chung và của TTS nói riêng có rất nhiều ý nghĩa thực tiễn Đặc biệt trên thế giới có nhiều ứng dụng TTS tiếng. .. Mô hình VnSpeech tổng hợp tiếng Việt dựa vào formant (Nguồn: Tổng hợp từ bài báo Một số vấn đề tổng hợp tiếng nói tiếng Việt ) 2.3 Tổng hợp dựa trên ghép nối Tổng hợp ghép nối (hay còn gọi là lựa chọn đơn vị âm) là một trong số các phương pháp tổng hợp mới phát triển sau này, kết hợp hay còn gọi là ghép nối các mẫu tiếng nói tự nhiên thu âm sẵn lại với nhau để tạo ra câu nói tổng hợp [24] Đơn vị âm... Nam, phương pháp tổng hợp formant cũng đã có vài công trình nghiên cứu và đã có các kết quả đưa vào ứng dụng thực tế Chẳng hạn, phần mềm đọc văn bản tiếng Việt , năm 2004 [5]; Phần mềm tổng hợp tiếng nói tiếng Việt VnSpeech (Hình 2.5), năm 2009 [4], tổng hợp tiếng nói theo hướng tiếp cận này Hệ thống tổng hợp formant có thể đọc được hầu hết các âm tiết tiếng Việt ở mức nghe rõ, tuy vậy, nó có nhược điểm... mức cao  Tổng hợp mức thấp Văn bản (Text) Tổng hợp Tổng hợp mức cao mức thấp Tiếng nói Hình 1.2: Hệ thống tổng hợp tiếng nói 1.5.3.1 Tổng hợp mức cao Tổng hợp mức cao là ở giai đoạn đầu của quá trình tổng hợp tiếng nói Ở giai đoạn này sẽ có hai bước chính đó là: o Chuẩn hóa văn bản o Phân tích cách đọc 12 Phân tích cách đọc Văn bản (Text) Phân tích văn bản Phân tích cú pháp Đơn vị tiếng nói Phân tích... quá trình tổng hợp tiếng nói như: Chuẩn hóa văn bản, phân tích cú pháp, phân tích ngữ cảnh Bên cạnh đó, học viên cũng giới thiệu tổng quan, ý nghĩa và mô hình tổng hợp tiếng nói từ văn bản 13 Chương 2 MỘT SỐ PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT 2.1 Tổng hợp mô phỏng hệ thống phát âm Tổng hợp mô phỏng hệ thống phát âm là phương pháp mà con người cố gắng mô phỏng quá trình tạo ra tiếng nói sao cho... điều chỉnh bằng tay cho bộ tổng hợp formant của Klat, kết quả là tạo ra được tiếng nói tổng hợp khá là giống với tiếng nói tự nhiên Điều này nói lên là có thể tổng hợp tiếng nói với chất lượng rất cao, khi tạo ra các tham số điều khiển thích hợp Tổng hợp formant cũng chính là nghiên cứu, phân tích ngữ âm của một ngôn ngữ, các tham số đặc trưng chỉ thực sự đúng đắn khi có thể sử dụng để tổng hợp lại được... của tiếng nói tạo ra, chất lượng tiếng nói không tự nhiên (nói nghe như tiếng robot, khác hoàn toàn giọng nói con người) và phụ thuộc nhiều vào chất lượng của quá trình phân tích tiếng nói của từng ngôn ngữ Ngoài ra, 19 tổng hợp formant yêu cầu chuẩn bị trước các tham số chính xác trước khi tiến hành tổng hợp tiếng nói, khiến cho quá trình tổng hợp thiếu linh hoạt Tại Việt Nam, phương pháp tổng hợp

Ngày đăng: 02/12/2016, 04:24

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w