Nghiên cứu tổng hợp tiếng nói và ứng dụng đọc báo bằng tiếng Việt trên điện thoại di động AndroidNghiên cứu tổng hợp tiếng nói và ứng dụng đọc báo bằng tiếng Việt trên điện thoại di động AndroidNghiên cứu tổng hợp tiếng nói và ứng dụng đọc báo bằng tiếng Việt trên điện thoại di động AndroidNghiên cứu tổng hợp tiếng nói và ứng dụng đọc báo bằng tiếng Việt trên điện thoại di động AndroidNghiên cứu tổng hợp tiếng nói và ứng dụng đọc báo bằng tiếng Việt trên điện thoại di động AndroidNghiên cứu tổng hợp tiếng nói và ứng dụng đọc báo bằng tiếng Việt trên điện thoại di động Android
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG - TRẦN MINH TUẤN NGHIÊN CỨU TỔNG HỢP TIẾNG NÓI VÀ ỨNG DỤNG ĐỌC BÁO BẰNG TIẾNG VIỆT TRÊN ĐIỆN THOẠI ANDROID CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN MÃ SỐ: 60.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS LÊ HỮU LẬP HÀ NỘI - 2016 Luận văn hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: PGS.TS Lê Hữu Lập Phản biện 1: ……………………………………………… Phản biện 2: ……………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thông Vào lúc: ngày tháng năm … Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thông MỞ ĐẦU Ngày nay, với phát triển vũ bão công nghệ thông tin, Internet dịch vụ trực tuyến ngày có nhiều thông tin tạo Ta truy cập thông tin qua sách, báo, Internet phương tiện truyền thông Cùng với phát triển mạnh thiết bị di động Android Ta thu thập thông tin nơi đâu thông qua thiết bị di động Hơn nữa, nhu cầu đọc, tìm hiểu lưu trữ thông tin người ngày tăng lên Tuy nhiên, với số lượng lớn thông tin ta đủ thời gian sức lực để tiếp thu phương pháp đọc thông thường Giải pháp tổng hợp thông tin dạng văn thành tiếng nói để cung cấp thêm phương thức tiếp thu thông tin Tổng hợp tiếng nói trình tạo tiếng nói nhân tạo người máy tính từ văn Đây đề tài có tính ứng dụng thực tiễn cao nên nghiên cứu nhiều giới Việt Nam từ sớm [2] Tuy nhiên, chất lượng tiếng nói tổng hợp cho dễ nghe tự nhiên điều mà công trình nghiên cứu hướng tới [6] Vì vậy, Học viên xin chọn đề tài “ Nghiên cứu tổng hợp tiếng nói ứng dụng đọc báo tiếng Việt điện thoại Android ” nhằm nghiên cứu tổng quan xử lý ngôn ngữ tự nhiên số phương pháp tổng hợp tiếng nói tiếng Việt từ văn ứng dụng thu kết khả quan, đồng thời xây dựng ứng dụng đọc báo tiếng Việt điện thoại Android Nội dung luận văn trình bày ba phần sau: Phần mở đầu Phần nội dung: bao gồm ba chương: Chương 1: Tổng quan xử lý ngôn ngữ tự nhiên Chương 2: Một số phương pháp tổng hợp tiếng nói tiếng Việt Chương 3: Xây dựng ứng dụng Phần kết luận Chương TỔNG QUAN VỀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN 1.1 Giới thiệu xử lý ngôn ngữ tự nhiên 1.1.1 Ngôn ngữ Ngôn ngữ coi làm hệ thống giao thiệp hay suy luận Hệ thống dùng cách biểu diễn phép ẩn dụ loại ngữ pháp theo logic, thứ bao hàm tiêu chuẩn hay thật thuộc lịch sử siêu việt Hầu hết ngôn ngữ sử dụng điệu bộ, âm thanh, ký hiệu hay chữ viết để truyền tải khái niệm, ý nghĩa ý nghĩ nhiều khía cạnh giống nên khó phân biệt [3] 1.1.2 Xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên (Natural language processing- NPL) nhánh trí tuệ nhân tạo tập trung vào ứng dụng ngôn ngữ người Trong trí tuệ nhân tạo xử lý ngôn ngữ tự nhiên phần khó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ - công cụ hoàn hảo tư giao tiếp Xử lý ngôn ngữ tự nhiên lĩnh vực nghiên cứu nhằm giúp cho hệ thống máy tính hiểu xử lý ngôn ngữ người Tổng hợp tiếng nói ứng dụng xử lý ngôn ngữ tự nhiên Mặc dù tổng hợp tiếng nói nghiên cứu phát triển nhiều năm qua, song tồn nhiều vấn đề cần nghiên cứu 1.2 Chuẩn hóa văn 1.2.1 Tổng quan chuẩn hóa văn Trong lĩnh vực ngôn ngữ công nghệ liên quan tới tiếng nói nói chung theo cách hay cách khác phải giải toán xử lý văn thực tế Một số lĩnh vực phụ thuộc trực tiếp vào việc giải toán này, máy dịch ngôn ngữ, hệ thống phát chủ đề văn bản, hệ thống tổng hợp tiếng nói từ văn Một số lĩnh vực lại phụ thuộc gián tiếp nhận dạng tiếng nói sử dụng mô hình ngôn ngữ, mô hình ngôn ngữ sử dụng văn làm tập huấn luyện Trong trường hợp phải đối mặt với vấn đề văn thực tế, tính hỗn độn văn Chuẩn hóa văn thực chất tìm từ diễn giải tương ứng để áp dụng luật phiên âm cho từ chưa chuẩn hóa, từ tương ứng cách đọc cho từ chưa chuẩn hóa 1.2.2 Các nghiên cứu liên quan giới Trên giới có nhiều kết nghiên cứu chuẩn hóa văn ngôn ngữ khác nhau, tiếng Anh [11], Hindi [8], Bangla [4], Trung [10] [14] …và đạt nhiều thành tựu, giải số toán đặc thù cho loại ngôn ngữ mà nghiên cứu tập trung 1.2.3 Các nghiên cứu liên quan cho tiếng Việt Ở Việt Nam nay, đề tài xây dựng tổng hợp tiếng nói cho tiếng Việt quan tâm nghiên cứu, nhiều nghiên cứu gặt hái thành lĩnh vực tổng hợp tiếng nói SAOMAI, HOASUNG, Tiếng Nói PHƯƠNG NAM Nhưng nghiên cứu chưa trọng nhiều vào chuẩn hóa văn mà chủ yếu tập trung vào việc xử lý tín hiệu Một số khác xoay quanh toán chỉnh sửa lại tả Vì dù chất lượng tiếng nói tổng hợp tốt, tổng hợp tiếng nói có khả làm việc tốt với văn đầu vào có định dạng đơn giản tương đối chuẩn 1.2.4 Chuẩn hóa văn tiếng việt Văn tiếng Việt thường hàm chứa dạng chữ số (số đếm, số điện thoại, thời gian ), tổ hợp chữ có số (kí hiệu, mã ), loại dấu, từ viết tắt (TS, Ths ), kí hiệu, từ mượn (FAO, WHO, NATO ) [11] từ chưa chuẩn hóa hay NonStandard Word (NSW) Việc chuẩn hóa văn để diễn giải NSW để tổng hợp tiếng nói hiểu Văn tiếng Việt vấn đề chung toán chuẩn hóa văn có yếu tố đặc thù riêng Đó là nhập nhằng phổ biến xẩy văn cách viết, cách đọc người nhiều đa dạng, chí không theo quy chuẩn [17] [18] 1.3 Phân tích cú pháp 1.3.1 Tổng quan phân tích cú pháp Trong tổng hợp tiếng nói, phân tích cú pháp đóng vai trò quan trọng công đoạn xử lí văn hệ thống Phân tích cú pháp chuẩn xác đưa cho hệ thống nhìn toàn cảnh cấu trúc văn bản, cụm từ văn từ phức tạp đến đơn giản nhất, đồng thời vị trí âm tiết cụm từ đưa Phân tích cú pháp nhằm phân tích câu thành thành phần văn phạm có liên quan với thể thành cú pháp Khi nhập câu, ta phải phân thành thành phần như: chủ ngữ, vị ngữ; gán vai trò chủ từ/đối từ động từ chính, bổ nghĩa, Để phân tích cú pháp, cần có luật văn phạm giải thuật phân tích cú pháp 1.3.2 Các nghiên cứu phân tích cú pháp Trên giới, toán phân tích cú pháp nghiên cứu triển khai từ lâu Đặc biệt với tiếng Anh, có nhiều thành công tiến xa Các mô hình PCFG (Probabilistic context-free grammar), HPCFG (Head-lexicalised probabilistic context-free grammar)… cho kết phân tích cú pháp khả quan Tại Việt Nam, kết nghiên cứu phân tích cú pháp tiếng Việt có không phổ biến rộng rãi Kết nghiên cứu khả quan cách lâu (1990 1998) Tập luật xây dựng đưa chưa phải đầy đủ tạo điều kiện tốt cho bước phân tích ngữ nghĩa tiếp sau [1] 1.4 Phân tích ngữ cảnh Mục đích việc phân tích ngữ cảnh kiểm tra ý nghĩa câu có mâu thuẫn với ý nghĩa đoạn hay không Dựa mối liên hệ logic nghĩa cụm từ câu mối liên hệ câu đoạn, hệ thống xác định (một phần) ý nghĩa câu ngữ cảnh đoạn 1.4.1 Nhập nhằng nghĩa mức từ vựng Xét ví dụ “Tôi với cam cây”, ta có từ “với” “liên từ” “động từ” Để chọn nghĩa thích cho từ “với” trường hợp phải vận dụng ý niệm ngôn ngữ học tri nhận để biết “với” động từ hành động tác động đến danh từ vật”, “với” liên từ liên kết hai đối tượng có kiểu” Kết hợp ý niệm ấy, ta có “tôi” đại từ “quả cam” danh từ vật không thuộc dạng đối tượng, máy tính chọn từ “với” có nghĩa “Động từ” cho trường hợp 1.4.2 Mức độ nhập nhằng cấu trúc Ví dụ xét câu “Một sói bầy cừu non”, ta có phân tích: “[Một sói] [một bầy cừu non]” “[Một sói bầy cừu] non ”, máy tính chọn cách phân tích thứ hai (do tính cân vốn có cấu trúc song song liên từ “và”) Tuy nhiên, xét “Một đứa trẻ người đàn ông già”, ta có phân tích: “[đứa trẻ] [người đàn ông già]” “[đứa trẻ người đàn ông] già” máy tính chọn cách phân tích thứ nhất, máy thấy cấu trúc thứ hai vô lý (do có đối lập ngữ nghĩa thuộc tính “trẻ” “đứa trẻ” thuộc tính “già” “người đàn ông”) 1.4.3 Mức độ nhập nhằng liên câu Ví dụ xét câu “Con cá Sấu săn mồi đói”, máy tính nay, số trường hợp, xác định đại từ “nó” thay cho từ nào: “cá Sấu” hay “mồi” Để giải nhập nhằng này, máy tính phải xem lại mệnh đề trước vận dụng tri thức giới thực để biết “chỉ có cá Sấu có khả đói” nên chọn “nó thay cho cá Sấu” 1.5 Giới thiệu hệ thống tổng hợp tiếng nói 1.5.1 Tổng quan Tổng hợp tiếng nói việc tạo tiếng nói người cách nhân tạo, hệ thống thực mục đích gọi hệ thống tổng hợp tiếng nói Tổng hợp tiếng nói thực phần mềm máy tính, thiết bị di động hay hệ nhúng Chất lượng hệ thống tổng hợp tiếng nói đánh giá dựa độ giống, độ tự nhiên với tiếng nói người khả để người nghe hiểu nghĩa văn 1.5.2 Ý nghĩa tổng hợp tiếng nói Tổng hợp tiếng nói nói chung TTS nói riêng có nhiều ý nghĩa thực tiễn Đặc biệt giới có nhiều ứng dụng TTS tiếng Anh thành công: Giúp đỡ người bị yếu thị lực, giảm thị lực tàn tật Đây ý nghĩa to lớn TTS Ứng dụng thiết bị truyền thông, nơi công cộng nhà ga, bệnh viện, sân bay, có quan có hệ thống lấy số xếp hàng 1.5.3 Mô hình tổng hợp tiếng nói từ văn Thông thường trình tổng hợp tiếng TTS nói chia làm hai mức xử lý: Tổng hợp mức cao Tổng hợp mức thấp Văn (Text) Tổng hợp Tổng hợp mức cao mức thấp Tiếng nói Hình 1.1: Hệ thống tổng hợp tiếng nói 1.5.3.1 Tổng hợp mức cao Tổng hợp mức cao giai đoạn đầu trình tổng hợp tiếng nói Ở giai đoạn có hai bước là: o Chuẩn hóa văn o Phân tích cách đọc Phân tích cách đọc Văn (Text) Phân tích văn Phân tích cú pháp Đơn vị tiếng nói Phân tích ngữ cảnh Hình 1.2: Mô hình tổng hợp mức cao 1.5.3.2 Tổng hợp mức thấp Tổng hợp mức thấp trình kết hợp đoạn tín hiệu phân tích xử lý qua trình tổng hợp mức cao để tạo sóng âm phát tiếng nói Trên giới có nhiều phương pháp đưa để tổng hợp tiếng nói giai đoạn phương pháp Formant, phương pháp ghép nối diphone,… Các phương pháp chia năm nhóm chính: Phương pháp tổng hợp dựa mô hệ thống phát âm Phương pháp tổng hợp dựa hệ luật: phương pháp Formant Phương pháp tổng hợp ghép nối: ghép nối phone, nửa phone, diphone Phương pháp tổng hợp dựa mô hình: mô hình Markov ẩn (HMM) Phương pháp tổng hợp dựa lai ghép Chương MỘT SỐ PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT 2.1 Tổng hợp mô hệ thống phát âm Tổng hợp mô hệ thống phát âm phương pháp mà người cố gắng mô trình tạo tiếng nói cho giống với chế phát âm người tốt 2.1.1 Hệ thống tiếng nói người 2.1.1.1 Bộ máy phát âm Bộ máy phát âm bao gồm thành phần riêng rẽ phổi, khí quản, quản, đường dẫn miệng, mũi 2.1.1.2 Cơ chế phát âm Tiếng nói tạo tín hiệu nguồn từ môn phát ra, đẩy không khí có phổi lên tạo thành dòng khí, va chạm vào hai dây tuyến âm Hai dây dao động tạo cộng hưởng, dao động âm lan truyền theo tuyến âm (tính từ tuyến âm đến khoang miệng) sau qua khoang mũi môi, tạo tiếng nói 2.1.1.3 Hệ thống tổng hợp mô phát âm Hệ thống tổng hợp mô phát âm ASY, thường dùng phòng thí nghiệm nghiên cứu, phát triển phòng thí nghiệm Haskins vào năm 1970 Philip Rubin, Tom Baer, Paul Mermelstein ASY dựa mô hình quan phát âm tạo phòng thí nghiệm Bell vào năm 1960 1970 Paul Mermelstein, Cecil Coker, đồng nghiệp khác Do hạn chế vấn đề mô tham số tiếng nói lực tính toán, mà tổng hợp mô hệ thống phát âm không đạt nhiều thành công mong đợi phương pháp tổng hợp tiếng nói khác Tuy nhiên, có nhiều ứng dụng hữu ích nghiên cứu trình tạo tiếng nói, phương pháp đầu tư nghiên cứu phát triển trở lại [15] 10 Hình 2.3: Mô hình tổng hợp formant song song 2.2.2 Tổng hợp tiếng nói sở tổng hợp formant Một hạn chế thường đề cập đến bàn mô hình tổng hợp formant dựa mô hình nguồn âm, lọc tiếng nói tạo nghe “robot” Lý mô hình mô tả tốt cho âm hữu tần số formant đặc trưng vật lý tuyến âm Ưu điểm mô hình tổng hợp formant liệu chương trình nhỏ, đặc biệt điều khiển mềm dẻo thông số đặc trưng tiếng nói điều quan trọng việc xây dựng hệ thổng tổng hợp tiếng nói có chất lượng cao.Mô hình tổng hợp formant mà tiêu biểu mô hình tổng hợp Klatt, có sản phẩm thương mại tiếng DECtalk (tiền thân MITALK) thành công với mô hình Hiện nay, với công cụ thích hợp hoàn toàn xác định tần số formant cho âm vị tiếng Việt [15][16] Tuy nhiên, phương pháp tồn số nhược điểm khó xây dựng, cần nghiên cứu sâu sắc ngữ âm ngôn ngữ, phức tạp việc xác định tham số điều khiển tổng hợp, hạn chế tính tự nhiên, độ giống tiếng người tiếng nói tạo ra, chất lượng tiếng nói không tự nhiên (nói nghe tiếng robot, khác hoàn toàn giọng nói người) phụ thuộc nhiều vào chất lượng trình phân tích tiếng nói ngôn ngữ 2.3 Tổng hợp dựa ghép nối Tổng hợp ghép nối (hay gọi lựa chọn đơn vị âm) số phương pháp tổng hợp phát triển sau này, kết hợp hay gọi ghép nối mẫu tiếng nói tự nhiên thu âm sẵn lại với để tạo câu nói tổng hợp [14] Đơn vị âm (unit) phổ biến âm vị, âm tiết, bán âm tiết, âm đôi, âm ba, từ, cụm từ Do đặc tính tự nhiên tiếng nói 11 lưu giữ đơn vị âm, nên tổng hợp ghép nối phương pháp có khả tổng hợp tiếng nói với mức độ dễ hiểu, tự nhiên có chất lượng cao 2.3.1 Các vấn đề tổng hợp tiếng nói phương pháp ghép nối o o o o Lựa chọn loại đơn vị âm Xây dựng kho đơn vị âm Tìm kiếm đơn vị âm tối ưu Ghép nối đơn vị âm 2.3.1.1 Lựa chọn đơn vị âm - Âm vị loại đơn vị nhỏ hệ thống đơn vị ngôn ngữ - Âm vị kép đoạn tín hiệu cấu thành từ nửa cuối đơn vị âm nửa đầu đơn vị âm - Bán âm tiết phân đoạn tín hiệu nửa đầu nửa cuối âm tiết - Âm đầu phần phụ âm bắt đầu âm tiết, phần tùy chọn không mang thông tin điệu - Vần kết hợp ba thành phần: âm đệm, âm âm cuối - Âm tiết đơn vị phát âm nhỏ lời nói, mang kiện ngôn điệu điệu, trọng âm - Cụm từ một đơn vị âm 2.3.1.2 Xây dựng kho đơn vị âm Để xây dựng kho đơn vị âm, việc cần làm ghi âm đoạn tiếng nói từ người thu âm gán nhãn đoạn tiếng nói với văn tương ứng Sau thu âm liệu văn bản, việc phân đoạn tín hiệu thành đoạn tương ứng với đơn vị âm Quá trình phân đoạn thực tự động thủ công Bước gán nhãn cho đoạn âm Các thông số liên quan trường độ, tần số bản, điểm đánh dấu đường biên tín hiệu gán cho đơn vị âm 2.3.1.1 Tìm kiếm đơn vị âm tối ưu Văn đầu vào phân tích thành chuỗi đơn vị âm đích Các đơn vị âm đích dùng để tìm kiếm sở liệu Mục đích việc tìm kiếm chọn chuỗi đơn vị tối ưu khớp với ngữ điệu mong muốn Hai phương pháp dùng để lựa chọn đơn vị âm tối ưu là: 12 o Chọn lựa dựa mô hình định o Chọn lựa dựa việc tối ưu hóa hàm chi phí 2.3.2 Các phương pháp tổng hợp ghép nối 2.3.2.1 Phương pháp tổng hợp chọn đơn vị Tổng hợp chọn đơn vị sử dụng sở liệu lớn giọng nói ghi âm Trong lúc ghi âm, câu phát biểu tách thành đợn vị âm khác như: tiếng đơn lẻ, phone, từ, nhóm từ câu văn Thông thường, việc tách cần máy nhận dạng tiếng nói đặt chế độ so khớp với văn viết tương ứng với đoạn ghi âm dùng đến hiển thị sóng âm phổ âm thanh.Một bảng tra đơn vị lập dựa phần tách thông số âm học tần số bản, thời lượng, vị trí âm tiết tiếng gần Khi chạy, câu phát biểu tạo cách xác định chuỗi đơn vị phù hợp từ sở liệu Quá trình gọi chọn đơn vị, thường cần dùng đến định để thực Kỹ thuật chọn đơn vị tạo tiếng nói có chất lượng độ tự nhiên cao không áp dụng kỹ thuật xử lý tín hiệu số lên đoạn giọng nói ghi âm, số hệ thống áp dụng xử lý tín hiệu đoạn nối tiếng để làm liền mạch kết sau ghép nối Kỹ thuật thường sử dụng để xử lý tín hiệu điểm nối là PSOLA (Pitch Synchronous Overlap and Add) 2.3.2.2 Phương pháp PSOLA Phương pháp PSOLA bao gồm bước bản: o Phân tích tín hiệu thành sóng o Tính toán điểm đánh dấu cao độ: bước thực biến đổi trường độ cao độ tín hiệu Việc biến đổi cao độ thực cách thay đổi khoảng cách sóng thu bước phân tích Việc biến đổi trường độ tín hiệu thực việc lặp lại bỏ bớt sóng Lặp lại làm tăng trường độ, bỏ bớt làm giảm trường độ o Tổng hợp lại đoạn tín hiệu biến đổi 13 2.3.2.3 Các phiên PSOLA o TD-PSOLA (Time Domain - PSOLA) o FD-PSOLA (Frequency Domain - PSOLA) o LP-PSOLA (Linear Prediction – PSOLA) 2.3.2.4 Vấn đề không liên tục ghép nối Khi sử dụng kỹ thuật PSOLA cho việc ghép nối đơn vị âm, tồn ba khả không liên tục xảy ra: không liên tục pha, tần số phổ [5] Sự không liên tục pha: xảy có khác vị trí điểm đánh dấu cao độ đoạn tín hiệu trái phải Sự không liên tục tần số bản: xảy đoạn tín cần ghép nối có tần số khác Sự không liên tục phổ: xảy tượng đồng cấu âm, gây ảnh hưởng khác lên đoạn tín hiệu tiếng nói phía trái phía phải mà xuất phát từ ngữ cảnh khác 2.3.3 Tổng hợp chuyên biệt Tổng hợp chuyên biệt ghép nối từ, đoạn văn ghi âm để tạo lời phát biểu Nó dùng ứng dụng có văn chuyên biệt cho chuyên ngành, sử dụng lượng từ vựng hạn chế, thông báo chuyến bay hay dự báo thời tiết 2.4 Tổng hợp dùng tham số thống kê 2.4.1 Tổng quan tổng hợp dùng tham số thống kê Tổng hợp tiếng nói sử dụng HMM (Hidden Markov Model) [9], [12], [13], [16] phương pháp nghiên cứu rộng rãi nay.Ở đây, HMM mô hình thống kê, sử dụng để mô hình hoá tham số tiếng nói đơn vị ngữ âm, ngữ cảnh cụ thể, trích rút đồng thời từ sở liệu tiếng nói Nhờ tập HMM này, hệ thống sau phát sinh tham số tiếng nói, tuỳ thuộc vào nội dung văn đầu vào, để tạo tiếng nói dạng sóng nhờ tham số phát xạ 2.4.2 Mô hình Markov ẩn Mô hình Markov ẩn mở rộng khái niệm từ mô hình Markov cách trạng thái gắn với hàm phát xạ quan sát (observation distribution) Ngoài trình ngẫu 14 nhiên chuyển trạng thái, trạng thái có trình ngẫu nhiên sinh quan sát Như Mô hình Markov ẩn có trình ngẫu nhiên kép, có trình ngẫu nhiên không quan sát Tập quan sát O sinh dãy trạng thái S_1, S_2, , S_n mô hình, mà dãy trạng thái không thấy được, lý mô hình gọi mô hình Markov ẩn [7] Nhìn chung mô hình HMM coi sinh trạng thái hữu hạn, áp dụng nhận dạng tiếng nói dãy trạng thái mô hình biểu diễn âm vị hay vị trí tương đối tĩnh quan cấu âm, chuỗi quan sát chuỗi vector đặc trưng trích chọn 2.5 Tổng hợp phương pháp lai ghép Hệ thống tổng hợp ghép nối dựa chọn lựa ghép nối đơn vị âm thu âm trước Đây phương pháp tổng hợp phổ biến chất lượng tiếng nói tổng hợp cao Tuy nhiên, nhược điểm chất lượng bị giảm sút liệu không đủ lớn, chí ghép nối nội dung cần tổng hợp sở liệu Hệ thống TTS tham số thống kê dựa tham số sinh từ tập HMM huấn luyện Hệ thống có khả tạo tiếng nói mượt mà khắc phục hạn chế phương pháp ghép nối Kết hợp hai phương pháp ta hệ thống tổng hợp tiếng nói hệ thống tổng hợp tiếng nói phương pháp lai ghép Hệ thống tổng tiếng nói phương pháp lai ghép chia thành hai loại chính: Hệ thống tổng hợp lai ghép hướng ghép nối (Concatenation-Oriented) Hệ thống tổng hợp lai ghép hướng HMM (HMM-Oriented) 2.5.1 Hệ thống tổng hợp lai ghép hướng ghép nối Hệ thống tổng hợp lai ghép hướng kết nối hệ thống tổng hợp tiếng nói sử dụng HMM để hỗ trợ trình ghép Về bản, hệ thống thực ghép nối đơn vị tiếng nói tự nhiên từ đơn vị đích chọn trước thông qua phân cụm dựa định Các vấn đề cần giải tổng hợp lai ghép hướng kết nối: o Dự đoán mục tiêu 15 o Làm mịn đơn vị o Hoà trộn đơn vị 2.5.2 Hệ thống tổng hợp lai ghép hướng HMM Hệ thống tổng hợp lai ghép hướng HMM sử dụng thuật toán tăng cường hàm trọng số để hoà trộn tham số HMM với đơn vị âm tự nhiên Quá trình tổng hợp không trộn lẫn đơn vị âm thanh, điều làm suy giảm chất lượng tính chất phổ chúng khác Ý tưởng hệ thống hoà trộn đoạn (segment) thay ghép nối chúng lại Đoạn bao gồm đơn vị tiếng nói tự nhiên (unit) chuỗi HMM 2.5.2.1 Mô hình hoạt động hệ thống lai ghép hướng HMM Giống hệ thống TTS dựa HMM truyền thống, hệ thống lai ghép hướng HMM bao gồm hai giai đoạn: huấn luyện tổng hợp Cơ sở liệu tiếng nói chứa file âm tiếng nói (mỗi file câu thu âm) tập nhãn tương ứng (chứa thông tin phần tử tiếng nói file âm thanh) Về mặt chức năng, hệ thống gồm hai mô đun chính: o Thành phần dựa HMM: có nhiệm vụ tạo chuỗi tham số cách sử dụng thuật toán sinh tham số o Mô đun ghép nối: có nhiệm vụ chọn lựa đơn vị âm tự nhiên từ sở liệu giọng nói đích 2.6 Đánh giá lựa chọn phương pháp xây dựng ứng dụng Về chất lượng tiếng nói tổng hợp: Bảng 2.1: Đánh giá chất lượng tiếng nói Phương pháp 1, Tổng hợp mô hệ thống phát âm Chất lượng Cao 2, Tổng hợp phương pháp lai ghép 3, Tổng hợp dựa ghép nối 4, Tổng hợp dùng tham số thống kê 5, Tổng hợp tần số formant Thấp 16 Về hiệu tính toán Bảng 2.2: Đánh giá hiệu tính toán Phương pháp Chi phí tính toán 1, Tổng hợp mô hệ thống phát âm Cao 2, Tổng hợp phương pháp lai ghép 3, Tổng hợp dùng tham số thống kê 4, Tổng hợp dựa ghép nối 5, Tổng hợp tần số formant Thấp Về kích thước liệu Bảng 2.3: Đánh giá kích thước liệu Phương pháp 1, Tổng hợp dựa ghép nối Chi phí tính toán Cao 2, Tổng hợp phương pháp lai ghép 3, Tổng hợp dùng tham số thống kê 4, Tổng hợp tần số formant 5, Tổng hợp mô hệ thống phát âm Thấp Với mục đích nghiên cứu tổng hợp tiếng nói tiếng Việt dựa ưu, nhược điểm phương pháp tổng hợp tiếng nói Luân văn sử dụng phương pháp tổng hợp ghép nối cho tiếng Việt để xây dựng ứng dụng cho tiếng nói tổng hợp từ phương pháp 17 Chương XÂY DỰNG ỨNG DỤNG 3.1 Giới thiệu Android SDK 3.1.1 Android Android hệ điều hành có mã nguồn mở dựa tảng Linux thiết kế dành cho thiết bị di động có hình cảm ứng điện thoại thông minh máy tính bảng Ban đầu, Android phát triển Tổng công ty Android, với hỗ trợ tài từ Google, sau Google mua lại vào năm 2005 hệ điều hành Android mắt vào năm 2007 3.1.2 Android SDK SDK thuật ngữ Microsoft, Sun Microsystems số công ty khác sử dụng Đây viết tắt cụm từ Software Development Kit – công cụ phát triển phần mềm Android SDK công cụ phát triển ứng dụng cho thiết bị chạy hệ điều hành Android Bộ SDK cung cấp thư viện API công cụ phát triển cần thiết để xây dựng, kiểm tra ứng dụng gỡ lỗi cho Android Trong đó, Text to Speech API sử dụng việc xây dựng ứng dụng 3.2 Mô tả ứng dụng 3.2.1 Tổng quan ứng dụng Chương trình đọc báo tiếng Việt hệ điều hành Android chương trình tự động trích rút thông tin trang báo mạng dựa tổng hợp tiếng nói có sẵn để chuyển hóa thông tin thành lời nói đến người dùng 18 Hình 3.1: Mô hình tổng quan ứng dụng 3.2.2 Tổng quan giao diện hoạt động ứng dụng 3.2.2.1 Sơ đồ Usecase-Actor tổng quan 3.2.2.2 Xây dựng kịch 3.2.2.3 Sơ đồ hoạt động 3.2.2.4 Giao diện ứng dụng 3.3 Tổng hợp tiếng nói từ văn hệ điều hành Android 3.3.1 Tính TextToSpeech hệ điều hành Android Tính chuyển văn thành giọng nói (Text-to-speech hay TTS) Google trang bị sẵn cho hệ điều hành Android từ phiên 1.6 Donut Tính hữu ích nhiều trường hợp, đặc biệt phần mềm từ điển 3.3.2 Mô hình tổng hợp tiếng nói hệ điều hành Android Bộ tổng hợp tiếng nói hệ điều hành Android viết ngôn ngữ Java chạy hệ điều hành Android Mô hình bao gồm phần: 19 Hình 3.2: Mô hình tổng hợp tiếng nói hệ điều hành Android 3.3.3 Lựa chọn tìm kiếm đơn vị âm Quá trình lựa chọn đơn vị chia thành hai bước tiền lựa chọn lựa chọn cuối Tiền lựa chọn chọn đơn vị âm dài có thể, bước lựa chọn cuối cùng: lựa chọn dãy đơn vị âm tốt 3.3.3.1 Tiền lựa chọn Văn cần tổng hợp chia thành câu để tìm kiếm Mỗi câu phân tách thành cụm từ âm tiết tìm kiếm chúng CSDL văn Nếu tìm thấy, vị trí tìm thấy thông tin ngữ cảnh ngữ âm đơn vị âm tìm thấy trả để dùng cho việc tính toán hàm chi phí Nếu âm tiết không tìm thấy, âm tiết phân tích thành hai bán âm tiết đầu cuối Các bán âm tiết tìm kiếm CSDL bán âm tiết Tại mức không xảy kiện không tìm thấy bán âm tiết [5] Nếu không tìm thấy âm tiết không tổng hợp 3.3.3.2 Lựa chọn cuối Mục đích giai đoạn chọn chuỗi đơn vị âm cho không liên tục nhỏ Tiêu chí lựa chọn dựa hàm chi phí bao gồm chi phí đích chi phí ghép nối Chi phí ghép nối tính theo công thức đây: 𝑞 Cc (ui-1 , ui) = ∑𝑗=1 wcj Ccj (ui-1 , ui) 20 Trong đó: Ccj(ui-1,ui): chi phí ghép nối phụ 3.4 Vấn đề lưu trữ xử lý thiết bị di động Hiện nay, điện thoại chạy hệ điều hành Android, nhớ chia làm loại chính: nhớ nhớ Bộ nhớ vùng nhớ khả dụng thiết bị, có tốc độ truy cập cao dung lượng bị hạn chế mở rộng thêm Bộ nhớ ngoài: không gian nhớ mở rộng tốc độ truy cập không cao Về tốc độ xử lý điện thoại thông minh ngày cải thiện Với công nghệ đa nhân, nhiều luồng xử lý lúc cải thiện đáng kể tốc độ xử lý điện thoại 3.5 Kết đánh giá ứng dụng Úng dụng xây dựng cài đặt thành công điện thoại chạy hệ điều hành Android Ứng dụng hỗ trợ người dùng đọc báo từ trang báo mạng: Giao diện ứng dụng đơn giản, dễ sử dụng không bị dừng trình sử dụng ứng dụng Bộ tổng hợp tiếng nói mà ứng dụng sử dụng để đọc báo mạng phát triển trung tâm nghiên cứu phát triển Samsung Việt Nam trung tâm MICA (Đại học bách khoa Hà Nội) 21 KẾT LUẬN Kết đạt Trong trình thực luận văn, học viên nghiên cứu số kiến thức xử lý ngôn ngữ tự nhiên cần thiết cho trình tổng hợp tiếng nói như: chuẩn hóa văn bản, nghiên cứu nước chuẩn hóa văn bản, phân tích cú pháp, nghiên phân tích cú pháp nước nước ngoài, phân tích ngữ cảnh, nghiên cứu vấn đề nhập nhằng từ vựng, cấu trúc nhập nhằng liên câu Dựa sở đó, học viên tiếp tục nghiên cứu trình bày phương pháp tổng hợp tiếng nói sử dụng phát triển như: Phương pháp tổng hợp mô hệ thống phát âm, phương pháp tổng hợp tần số formant, phương pháp tổng hợp dựa ghép nối, phương pháp tổng hợp dùng tham số thống kê phương pháp tổng hợp phương pháp lai ghép Sau nghiên cứu phương pháp tổng hợp trên, học viên tiến hành đánh giá nhận xét phương pháp, cụ thể ưu điểm nhược điểm phương pháp Từ đó, học viên lựa chọn phương pháp khả thi phương pháp tổng hợp dựa ghép nối để xây dựng ứng dụng đọc báo tiếng Việt hệ điều hành Android Về mặt ứng dụng, học viên xây dựng thành công phần mềm đọc báo tiếng Việt điện thoại di động chạy hệ điều hành Android Trong trình xây dựng ứng dụng, học viên có trình bày số kiến thức Android liên quan như: Android SDK tính TextToSpeech Bên cạnh đó, học viên trình bày bước phân tích thiết kế hệ thống như: xây dựng sơ đồ Usecase – Actor tổng quan, xây dựng kịch sơ đồ hoạt động Sau xây dựng thành công ứng dụng, học viên tiến hành nhận xét đánh giá ứng dụng trình bày cụ thể luận văn Những điểm hạn chế o Chưa tổng hợp tổng hợp tiếng nói riêng cho ứng dụng o Chưa có hội thử nghiệm nhiều người dùng lấy ý kiên đánh giá cho ứng dụng o Tiếng nói phát đôi lúc chưa phù hợp với việc đọc báo Hướng phát triển Nghiên cứu phương pháp chuẩn hóa văn tiếng Việt để làm giảm độ nhập nhằng ngữ nghĩa xử lý văn đầu vào Nghiên cứu phương pháp tóm tắt văn để tóm tắt báo mạng, từ đọc tóm tắt báo 22 Bổ xung phần lọc liệu tải từ trang báo để loại bỏ thông tin dư thừa, ích cho người nghe Nghiên cứu, cải tiến webview Android để bôi đen câu chữ đọc báo Bổ xung phần chuyển văn tiếng Việt không dấu thành có đấu để đọc loại văn 23 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] [2] [3] Lê Thanh Hương (2000), “Phân tích cú pháp tiếng Việt” – luận văn thạc sỹ, ĐHBK Hà Nội Pham Thanh Son (2014), “Một số vấn đề tổng hợp tiếng nói tiếng Việt”, Khoa CNTT, Đại học thông tin liên lạc Nha Trang Nguyễn Văn Thành (2014),“ Tìm hiểu xử lý ngôn ngữ tự nhiên máy dịch, viết chương trình mô từ điển Việt-Anh“ Đại học bách khoa Hà Nội Tài liệu tiếng Anh [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] Firoj Alam, S M Murtoza Habib, Mumit Khan (2009),“Text Normalization system for Bangla”, BRAC University, Bangladesh Tran Do Dat (2007), “Synthèse de la parole a partir du texte en langue Vietnamienne”, Ph.D Thesis, Thèse en cotutelle international MICA, Hanoi Do Van Thao, Tran Do Dat, Nguyen Thi Thu Trang (2013), non-uniform unit selection in Vietnamese speech Synthesis, proceeding of the 2nd In 8th ISCA Speech Synthesis Workshop, Barcelona, Spain Minghui Dong, Kim-Teng Lua, Haizhou Li (2006), “A Unit Selection-based Speech Synthesis Approach for Mandarin Chinese”, Institute for Infocomm Research Hewlett (2009), “Hindi Text Normalization”, Packard Labs Indian Kim, Sang-Jin (2007), “HMM-Based Korean Speech Synthesizer with TwoBand Mixed Excitation Model for Embedded Applications”, Doctoral Dissertation, Information and Communications University, Korea Craig Olinsky and Alan W Black (2000), “Non – Standard Word and Homograph Resolution for Asian Language Text Analysis”,Language Technologies Institute Carnegie Mellon University Richard Sproat, Alan W Black, Stanley Chen, Shankar Kumar, Mari Ostendorf and Chistopher (1999), “Normalization of Non-Standard Words” TokudaK, ZenH, Black, AlanW (2002), “An HMM-based speech synthesis system applied to English” Proc in IEEE Speech Synthesis Workshop, Santa Monica, USA Vu Tat Thang, Luong Chi Mai Satoshi, Nakamura (2009), “An HMM-based Vietnamese Speech Synthesis System” Proc in Oriental COCOSDA, Urumqi, China, tr 116-121 Yunqing Xia, Kam-Fai Wong, Wenjie Li (2006), “A Phonetic-Based Approach to Chinese Chat Text Normalization”,Association for Computational Linguistics 24 [15] [16] Youcef, T Mohamed, B (2011), Speech synthesis techniques A survey 7th International Workshop on Systems, Signal Processing and their Applications, Tipaza Algeria, tr.67-70 Yamagishi, J (2006), “An Introduction to HMM-Based Speech Synthesis, Technical Report”, Tokyo Institute of Technology, Japan Website [17] [18] Hải Thụy (2006).“Lộn xộn từ ABC” [online] Đường dẫn: http://tuoitre.vn/tin/giao-duc/20061111/lon-xon-tu-abc/171894.html, truy cập ngày 19/4/2016 Hải Thụy (2007).“Câu chuyện tiếng Việt, chuẩn hóa tiếng Việt” [online] Đường dẫn: http://tuoitre.vn/tin/giao-duc/20070107/cau-chuyen-tieng-viet-cothe-chuan-hoa-tieng-viet/181459.html, truy cập ngày 20/4/2016 [...]... lý của điện thoại 3.5 Kết quả và đánh giá ứng dụng Úng dụng đã được xây dựng và cài đặt thành công trên điện thoại chạy hệ điều hành Android Ứng dụng hỗ trợ người dùng đọc báo từ 6 trang báo mạng: Giao di n ứng dụng đơn giản, dễ sử dụng và không bị dừng trong quá trình sử dụng ứng dụng Bộ tổng hợp tiếng nói mà ứng dụng sử dụng để đọc các bài báo mạng được phát triển bởi trung tâm nghiên cứu và phát... 1, Tổng hợp dựa trên ghép nối Chi phí tính toán Cao 2, Tổng hợp bằng phương pháp lai ghép 3, Tổng hợp dùng tham số thống kê 4, Tổng hợp tần số formant 5, Tổng hợp mô phỏng hệ thống phát âm Thấp Với mục đích nghiên cứu tổng hợp tiếng nói tiếng Việt và dựa trên những ưu, nhược điểm của các phương pháp tổng hợp tiếng nói Luân văn sẽ sử dụng phương pháp tổng hợp bằng ghép nối cho tiếng Việt để xây dựng ứng. .. dựng, kiểm tra và các ứng dụng gỡ lỗi cho Android Trong đó, Text to Speech là một API sẽ được sử dụng trong việc xây dựng ứng dụng 3.2 Mô tả ứng dụng 3.2.1 Tổng quan về ứng dụng Chương trình đọc báo bằng tiếng Việt trên hệ điều hành Android là chương trình tự động trích rút các thông tin trên các trang báo mạng và dựa trên bộ tổng hợp tiếng nói có sẵn để chuyển hóa thông tin ấy thành lời nói đến người... hành Android từ phiên bản 1.6 Donut Tính năng rất hữu ích trong nhiều trường hợp, đặc biệt đối với các phần mềm từ điển 3.3.2 Mô hình tổng hợp tiếng nói trên hệ điều hành Android Bộ tổng hợp tiếng nói trên hệ điều hành Android được viết trên ngôn ngữ là Java và chạy trên hệ điều hành Android Mô hình bao gồm các phần: 19 Hình 3.2: Mô hình tổng hợp tiếng nói trên hệ điều hành Android 3.3.3 Lựa chọn và. .. cảnh, nghiên cứu vấn đề nhập nhằng về từ vựng, cấu trúc và nhập nhằng liên câu Dựa trên cơ sở đó, học viên tiếp tục nghiên cứu và trình bày các phương pháp tổng hợp tiếng nói đang được sử dụng và phát triển hiện này như: Phương pháp tổng hợp mô phỏng hệ thống phát âm, phương pháp tổng hợp tần số formant, phương pháp tổng hợp dựa trên ghép nối, phương pháp tổng hợp dùng tham số thống kê và phương pháp tổng. .. thành công ứng dụng, học viên tiến hành nhận xét và đánh giá về ứng dụng và trình bày cụ thể trong luận văn 2 Những điểm còn hạn chế o Chưa tổng hợp được một bộ tổng hợp tiếng nói riêng cho ứng dụng o Chưa có cơ hội thử nghiệm trên nhiều người dùng và lấy ý kiên đánh giá cho ứng dụng o Tiếng nói phát ra đôi lúc chưa phù hợp với việc đọc bài báo 3 Hướng phát triển tiếp theo Nghiên cứu các phương pháp... phương pháp tổng hợp bằng phương pháp lai ghép Sau khi nghiên cứu về các phương pháp tổng hợp trên, học viên tiến hành đánh giá và nhận xét về các phương pháp, chỉ ra cụ thể những ưu điểm và nhược điểm của từng phương pháp Từ đó, học viên lựa chọn một phương pháp khả thi là phương pháp tổng hợp dựa trên ghép nối để xây dựng ứng dụng đọc báo bằng tiếng Việt trên hệ điều hành Android Về mặt ứng dụng, học viên... người dùng 18 Hình 3.1: Mô hình tổng quan về ứng dụng 3.2.2 Tổng quan về giao di n và hoạt động của ứng dụng 3.2.2.1 Sơ đồ Usecase-Actor tổng quan 3.2.2.2 Xây dựng kịch bản 3.2.2.3 Sơ đồ hoạt động 3.2.2.4 Giao di n ứng dụng 3.3 Tổng hợp tiếng nói từ văn bản trên hệ điều hành Android 3.3.1 Tính năng TextToSpeech trên hệ điều hành Android Tính năng chuyển văn bản thành giọng nói (Text-to-speech hay TTS)... hai phương pháp trên ta được một hệ thống tổng hợp tiếng nói mới là hệ thống tổng hợp tiếng nói bằng phương pháp lai ghép Hệ thống tổng tiếng nói bằng phương pháp lai ghép được chia thành hai loại chính: Hệ thống tổng hợp lai ghép hướng ghép nối (Concatenation-Oriented) Hệ thống tổng hợp lai ghép hướng HMM (HMM-Oriented) 2.5.1 Hệ thống tổng hợp lai ghép hướng ghép nối Hệ thống tổng hợp lai ghép hướng... Cao 2, Tổng hợp bằng phương pháp lai ghép 3, Tổng hợp dựa trên ghép nối 4, Tổng hợp dùng tham số thống kê 5, Tổng hợp tần số formant Thấp 16 Về hiệu quả tính toán Bảng 2.2: Đánh giá về hiệu quả tính toán Phương pháp Chi phí tính toán 1, Tổng hợp mô phỏng hệ thống phát âm Cao 2, Tổng hợp bằng phương pháp lai ghép 3, Tổng hợp dùng tham số thống kê 4, Tổng hợp dựa trên ghép nối 5, Tổng hợp tần số formant