1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu các mô hình xử lí thanh điệu

54 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 54
Dung lượng 1,2 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI -LÊ TƯỜNG ĐAN TÌM HIỂU CÁC MƠ HÌNH XỬ LÍ THANH ĐIỆU Chun ngành: CƠNG NGHỆ THÔNG TIN LUẬN VĂN THẠC SỸ KĨ THUẬT CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS TRỊNH VĂN LOAN HÀ NỘI - 2014 LỜI CAM ĐOAN Tôi Lê Tường Đan, học viên lớp Cao học 12ACNTT-HY Trường Đại học Bách khoa Hà Nội - cam kết Luận văn tốt nghiệp cơng trình nghiên cứu thân hướng dẫn PGS TS Trịnh Văn Loan - Viện Công nghệ Thông tin Truyền thông - Đại học Bách Khoa Hà Nội Các kết Luận văn tốt nghiệp trung thực, khơng chép tồn văn cơng trình khác Hà Nội, ngày 22 tháng năm 2014 Học viên: Lê Tường Đan Lớp:12ACNTT-HY LỜI CẢM ƠN Tơi xin bày tỏ lịng biết ơn sâu sắc tới Thầy giáo, PGS TS Trịnh Văn Loan Bộ môn Kỹ thuật máy tính - Viện Cơng nghệ Thơng tin Truyền thông - Đại học Bách khoa Hà Nội, người Thầy kính mến hết lịng giúp đỡ, dạy bảo, động viên tạo điều kiện thuật lợi cho tơi suốt q trình học tập hồn thành luận văn tốt nghiệp Tôi xin chân thành cảm ơn tập thể thầy, cô giáo trường Đại học Bách Khoa Hà Nội nói chung Viện Cơng nghệ Thơng tin Truyền Thơng nói riêng tận tình giảng dạy truyền đạt cho kiến thức, kinh nghiệm quý báu suốt năm học vừa qua Tôi xin cảm ơn đồng nghiệp Sở Giáo dục Đào tạo Hưng Yên tạo điều kiện thời gian để tơi học tập hồn thành luận văn Cuối tơi xin chân thành cảm ơn gia đình, bạn bè ln ủng hộ động viên tơi lúc khó khăn Tôi xin chân thành cảm ơn! Học viên Lê Tƣờng Đan MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN MỤC LỤC DANH MỤC KÝ HIỆU, CHỮ VIẾT TẮT DANH MỤC BẢNG DANH MỤC HÌNH MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ XỬ LÝ THANH ĐIỆU 11 1.1 Giới thiệu xử lý điệu 11 1.1.1 Khái niệm điệu 11 1.1.2 Tổng quan tiếng nói người 12 1.1.2.1 Bộ máy phát âm người 12 1.1.2.2 Mô hình việc tạo tiếng nói 15 1.1.3 Tổng quan tiếng Việt 15 1.1.3.1 Giới thiệu 15 1.1.3.2 Cấu trúc âm tiết tiết Việt 18 1.2 Vấn đề xử lý điệu tiếng Việt 18 1.3 Ý nghĩa toán xử lý điệu tiếng Việt 20 1.3.1 Ý nghĩa khoa học 20 1.3.2 Ý nghĩa thực tế 20 1.2 Khó khăn thách thức xử lý điệu tiếng Việt 21 1.5 Kết chƣơng 21 CHƢƠNG CÁC MƠ HÌNH XỬ LÝ THANH ĐIỆU 23 2.1 Mơ hình Markov ẩn 23 2.1.1 Giới thiệu mơ hình Markov ẩn 23 2.1.2 Nhận xét mơ hình Markov ẩn 25 2.2 Mơ hình Fujisaki 26 2.2.1 Giới thiệu mơ hình Fujisaki 26 2.2.2 Nhận xét mô hình Fujisaki 28 2.3 Một số nhận xét 29 2.4 Kết chƣơng 30 CHƢƠNG ÁP DỤNG MƠ HÌNH FUJISAKI CHO BÀI TỐN XỬ LÝ 31 THANH ĐIỆU 31 3.1 Các đặc trƣng điệu tiếng Việt nói 31 3.2 Phát biểu toán 32 3.3 Xử lý điệu tiếng Việt với mơ hình Fujisaki 32 3.4 Các tham số mơ hình Fujisaki 34 3.5 Nhận xét 35 3.6 Kết chƣơng 36 CHƢƠNG THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 37 4.1 Môi trƣờng công cụ 37 4.1.1 Cấu hình phần cứng 37 4.1.2 Công cụ phần mềm 37 4.2 Dữ liệu thực nghiệm 38 4.2.1 Thu âm liệu 38 4.2.2 Xử lý liệu với Praat 41 4.3 Phƣơng pháp phân tích 41 4.4 Phƣơng pháp đánh giá 42 4.4.1 Mô tả thực nghiệm 42 4.4.2 Phương pháp đánh giá 43 4.5 Kết thực nghiệm 44 4.6 Nhận xét 47 4.7 Kết chƣơng 49 TỔNG KẾT 50 TÀI LIỆU THAM KHẢO 52 DANH MỤC KÝ HIỆU, CHỮ VIẾT TẮT Chữ viết đầy đủ Chữ viết tắt MFGI Mixdorff - Fujisaki of German Intonation HMM Hidden Markov Model PSOLA Pitch Synchronous Overlap - Add DANH MỤC BẢNG Bảng 1.1 Mô tả sáu tiếng Việt 15 Bảng 4.1 Cấu hình phần cứng sử dụng luận văn 37 Bảng 4.2 Minh hoạ tên chủ đề số lượng câu tương ứng 39 Bảng 4.3 Minh hoạ số câu thuộc chủ đề 39 Bảng 4.4 Các tham số sử dụng mơ hình 43 Bảng 4.5 Kết trung bình số phần trăm liệu tự nhiên 45 Bảng 4.6 Kết trung bình số phần trăm liệu tổng hợp với tham số mặc định 45 Bảng 4.7 Kết trung bình số phần trăm liệu tổng hợp với tham số điều chỉnh 46 Bảng 4.8 Khoảng cách liệu tự nhiên liệu tổng hợp từ mơ hình với hai tham số 46 DANH MỤC HÌNH Hình 1.1 Tiêu chí khu biệt cho sáu âm vị điệu 11 Hình 1.2 Bộ máy phát âm người 12 Hình 1.3 Mơ hình kỹ thuật tạo tiếng nói 15 Hình 1.4 Cấu trúc âm tiết tiếng Việt 17 Hình 1.5 Cấu trúc âm tiết tiếng Việt 18 Hình 2.1 Ví dụ mơ hình Markov 25 Hình 2.2 Mơ tả tiến hóa mơ hình Markov 25 Hình 2.3 Minh họa mơ hình Fujisaki 26 Hình 3.1 Mơ hình Fujisaki áp dụng cho ngơn ngữ tiếng Việt có thêm lệnh điệu 33 Hình 3.2 Minh hoạ sử dụng mơ hình Fujisaki xử lý điệu tiếng Việt [1] 34 Hình 4.1 Minh hoạ giao diện chức phần mềm FujiParaEditor 38 MỞ ĐẦU Ngôn ngữ chứa yếu tố điệu, yếu tố gúp tiếng nói người mang âm sắc riêng biệt Trong thực tế, đoạn văn nói bỏ qua yếu tố điệu không khác với giọng nói người máy khơng giống ngơng ngữ tự nhiên Các nhà ngơn ngữ học cho có số yếu tố cấu thành nên ngôn điệu, gồm: trọng âm, điệu, ngữ điệu Các đặc trưng quan trọng ngôn điệu gồm: độ cao, độ dài, độ to tương ứng với đại lượng tần số F0, thời gian âm tiết, âm vị D, cường độ I [1] Như vậy, vai trò ngôn điệu xử lý tổng hợp tiếng nói quan trọng tổng hợp tiếng nói tự nhiên Có thể nói ngơn điệu có liên quan chặt chẽ với khái niệm “ngữ điệu”, đó, ngữ điệu nâng cao hạ thấp giọng nói câu Việc nâng cao hạ thấp đặc trưng F0 quy định Tiếng Việt ngơn ngữ có điệu điệu có đường F0 khác Đường F0 điệu biến đổi điệu thay đổi lời nói liên tục phụ thuộc vào âm tiết liền kề vị trí âm tiết câu Việc nghiên cứu mơ hình xử lý để mơ hình hố điệu tiếng Việt có ý nghĩa quan trọng tổng hợp tiếng nói, mục tiêu làm cho tiếng nói phát âm từ máy tính có ngữ điệu giống với tiếng nói tự nhiên Trên giới, việc nghiên cứu q trình tổng hợp tiếng nói quan tâm từ sớm đạt kết ban đầu Fujisaki cộng [9] đưa mơ hình cho việc tổng hợp tiếng Nhật tin thời tiết Mơ hình sau gọi mơ hình Fujisaki Mơ hình MFGI (Mixdorff-Fujisaki of German Intonation) ứng dụng hệ thống Text-to-Speech tiếng Đức [13] Mơ hình Fujisaki với số thay đổi nhỏ áp dụng số ngôn ngữ để phân tích đường F0 số ngơn ngữ tiếng Anh, Thuỵ Điển, Tây Ban Nha, Đức, Hy Lạp, Thái, Trung Quốc [4, 5, 10, 11, 13] Với ngơn ngữ tiếng Việt, có số cơng trình nghiên cứu xử lý điệu [1, 2, 3, 6, 7, 8] đạt số kết bước đầu Có hai mơ hình thường sử dụng việc phân tích ngữ điệu, Fujisaki Markov Luận văn “Tìm hiểu mơ hình xử lý điệu” tập trung vào nghiên cứu khái niệm liên quan đến điệu nói chung điệu tiếng Việt nói riêng Bên cạnh đó, tác giả tìm hiểu mơ hình Fujisaki, tuỳ chỉnh tham số ứng dụng vào việc phân tích tổng hợp tiếng nói tiếng Việt Cấu trúc luận văn chia làm bốn chương, nội dung mô tả sau: Chƣơng Tổng quan xử lý điệu Chương trình bày khái niệm liên quan tới chế phát âm người, vấn đề liên quan tới điệu Quan trọng hơn, chương ý nghĩa toán xử lý điệu tiếng Việt Cuối cùng, tác giả trình bày thách thức q trình giải tốn xử lý điệu ứng dụng toán thực tế Chƣơng Các mơ hình xử lý điệu Chương trình bày hai phương pháp tiếp cận cho tốn xử lý điệu, là: mơ hình Markov ẩn mơ hình Fujisaki Tác giả trình bày chi tiết hai mơ hình, tham số cho hai mơ hình Cuối cùng, tác giả đưa nhận xét hai mơ hình cho tốn xử lý điệu tiếng Việt Chƣơng Áp dụng mơ hình Fujisaki cho toán xử lý điệu tiếng Việt Chương mơ tả việc áp dụng mơ hình Fujisaki vào xử lý điệu cho ngơn ngữ có điệu, đặc biệt tiếng Việt Trong chương này, tác giả trình bày đặc trưng điệu tiếng Việt Bên cạnh đó, tác giả mơ tả chi tiết việc biến đổi từ mơ hình Fujisaki ngun thuỷ sang mơ hình Fujisaki áp dụng cho ngơn ngữ có điệu nặng Để đảm bảo tính tự nhiên lời nói, 02 (hai) người nói chuẩn bị trước, câu nói thu cách lặp lại nhiều lần chọn câu tự nhiên Bảng 4.2 minh hoạ số lượng chủ đề số lượng câu Bảng 4.2 Minh hoạ tên chủ đề số lượng câu tương ứng STT Tên chủ đề Số lƣợng câu Chủ đề (công nghệ thông tin) 10 Chủ đề (giáo dục) 10 Chủ đề (kinh tế) 10 Chủ đề (văn hóa) 10 Chủ đề (thể thao) 10 Các câu thu âm phần mềm Cool Edit Pro phiên 2.12 Các câu thu âm dạng molo, chất lượng âm 16bit, tần số 16.000Hz Một lưu ý thu âm không thiết lập thông số xử lý âm Praat phương pháp PSOLA không thu định dạng âm với yêu cầu FujiParaEditor Một số câu minh hoạ cho chủ đề liệt kê bảng 4.3 Bảng 4.3 Minh hoạ số câu thuộc chủ đề http://cool-edit-pro.soft32.com/ 39 STT Tên chủ đề Câu minh hoạ Lập trình viên người "viết" lên chương trình, phần mềm ứng dụng cho việc điều khiển hệ thống máy móc khí, xử lí liệu Chủ đề Phát triển web, bạn cần tập hợp yêu cầu kinh doanh, phát triển chi tiết kĩ thuật cho phần mền ứng dụng cho web giúp đỡ chuyên gia quản lý web kĩ thuật Trong ngày khai giảng trẻ, cha mẹ dắt tới Chủ đề trường, đưa vào tận cửa lớp Kế hoạch hành động ngành rõ mục tiêu Chủ đề Điều tiết lũ gây hư hại cơng trình hạ du, người lệnh phải chịu trách nhiệm Chủ đầu tư bất động sản làm để hút khách hàng Ngắm Nha Trang từ biển, điều dễ nhận thấy thành phố vươn dài theo bờ vịnh Chủ đề Những khoảnh khắc xúc động tình mẫu tử chạm đến trái tim người xem Thể thao Việt Nam nói chung bóng đá nói riêng lâu xem chuyện dinh dưỡng thể thao cách qua loa Chủ đề Niềm hy vọng vàng điền kinh Việt Nam Á vận hội 2014 phải điều trị chấn thương 40 4.2.2 Xử lý liệu với Praat Sau thu âm, liệu cần xử lý phần mềm Praat cho thông số phù hợp với phần mềm FujiParaEditor Các thao tác xử lý liệu gồm:  Xử lý âm với khoảng thời gian 10ms  Loại bỏ tạp âm khoảng lặng Bên cạnh đó, tác giả cần phải xử lý liệu để có tệp đầu vào phù hợp với phần mềm FujiParaEditor Các thao tác cần xử lý gồm:  Chuyển từ định dạng tệp *.wav sang định dạng *.Pitch: bước sử dụng phần mềm pitch2f0_ascii.exe tích hợp cơng cụ FujiParaEditor  Chuyển từ định dạng tệp *.wav sang định dạng *.lab: bước sử dụng phần mềm textgrid2lab.exe tích hợp cơng cụ FujiParaEditor 4.3 Phƣơng pháp phân tích Để phân tích đường nét F0, tác giả làm theo phương pháp phân tích đề cập [1] Trong trình thực nghiệm, với giọng nam giá trị Fb 96 Hz giá trị Fb 210 Hz cho giọng nữ Trong trình thực nghiệm, tham số đầu vào mơ hình Fujisaki là: α = Hz β = 25 Hz Các bước q trình phân tích gồm [1]: Tính đường nét F0 Lựa chọn lệnh ngữ câu nói Dựa vào điệu âm tiết để lựa chọn lệnh điệu phù hợp Điều chỉnh tham số cho đu ờng nét F0 sinh xấp xỉ tốt đu ờng nét F0 thực 41 Tổng hợp lại ca u nói với đu ờng nét điẹ u sử dụng phu o ng pháp PSOLA Cảm nhạ n tai ca u nói tổng hợp, so sánh với ca u nói gốc điều chỉnh lại Các bước qúa trình phân tích minh hoạ cho phương pháp phân tích tổng hợp (Analysis-by-Synthesis) Trong thực tế, có số phương pháp cho phép xác định tham số mơ hình Fujisaki cách tự động [2]; nhiên, khuôn khổ luận văn tác giả tiến hành theo phương pháp phân tích tổng hợp Điều do: (1) phương pháp phân tích tổng hợp phù hợp với khuôn khổ luận văn (2) việc cài đặt thuật toán xác định tham số tự động phức tạp, hướng phát triển tương lai luận văn Việc xác định tham số mơ hình phương pháp phân tích tổng hợp (Analysis-by-Synthesis) gặp số khó khăn Thứ nhất, phương pháp sử dụng trình lặp liệu thực để xác định tham số; đó, q trình tốn nhiều thời gian Q trình xác định hệ số α, β khó, dựa việc kiểm tra tối ưu dần Bên cạnh đó, phương pháp u cầu người phân tích có kinh nghiệm kiên trì 4.4 Phƣơng pháp đánh giá 4.4.1 Mô tả thực nghiệm Tác giả tiến hành hai thực nghiệm: (1) thực nghiệm mơ hình Fujisaki với tham số mơ hình sử dụng ngơn ngữ tiếng Đức (2) thực nghiệm mơ hình Fujisaki với tham số sử dụng tiếng Việt sau bước phân tích mục 4.3 Các tham số mơ hình sử dụng tiếng Đức tiếng Việt minh hoạ bảng 4.4 42 Bảng 4.4 Các tham số sử dụng mơ hình Tham số mơ hình STT Dữ liệu Ap T0 α At12 T1 T2 β Fb Hz 140.733286 Tiếng Đức 0.6673 -0.44 0.591 0.0195 0.1643 20 Tiếng Việt 0.6670 -0.42 0.595 0.0185 0.1512 25 96 (nam) 210 (nữ) Với chủ đề, tác giả lựa chọn ngẫu nhiên 10 câu để tiến hành đánh giá tham số mơ hình Fujisaki Các câu đánh giá người nghe dựa vào kết cho điểm người dùng với nội dung tệp âm tổng hợp Thang điểm để đánh giá giới hạn từ tới [6], đó: (5) câu tổng hợp có chất lượng giống với câu gốc, (4) câu người dùng đánh giá tốt, (3) câu đánh giá tốt, (2) câu có đánh giá kém, (1) câu đánh giá Trong trình thực nghiệm, người đánh giá nghe 10 câu lựa chọn ngẫu nhiên từ chủ đề với phiên bản: (1) phiên gốc thu âm (2) phiên tổng hợp tiếng nói từ mơ hình Fujisaki Với câu nghe, người dùng tiến hành cho điểm mức độ tự nhiên (thanh điệu) câu, kết ghi lại để phục vụ cho trình đánh giá mục 4.5.2 4.4.2 Phƣơng pháp đánh giá Để tiến hành đánh giá chất lượng trình tổng hợp âm từ mơ hình Fujisaki tác giả sử dụng độ đo khoảng cách tệp âm thực tệp âm tổng hợp từ mơ hình thông qua đánh giá người dùng [5, 6] Độ đo khoảng 43 cách minh hoạ chân thực (tự nhiên) câu tổng hợp so với câu thu tự nhiên Điều có nghĩa độ đo khoảng cách nhỏ câu tổng hợp từ mơ hình gần với câu phát âm tự nhiên Từ kết luận tham số phù hợp với mơ hình Độ đo khoảng cách (được ký hiệu d) tính theo cơng thức sau: d = R_đánh giá tệp thực - R_đánh giá tệp tổng hợp (1) Trong đó:  R_đánh giá tệp thực: trung bình số phần trăm người dùng đánh giá liệu ban đầu  R_đánh giá tệp tổng hợp: trung bình số phần trăm người dùng đánh giá liệu tổng hợp Trong cơng thức (1), trung bình số phần trăm tính sau: trung bình số phần trăm = tổng điểm người dùng/điểm tối đa (2) Trong đó:  tổng điểm người dùng: tổng số điểm người dùng đánh giá câu  điểm tối đa: 50 điểm, tác giả sử dụng 10 cho người đánh giá; với câu đánh giá có điểm tối đa nên tổng điểm 50 4.5 Kết thực nghiệm Dựa công thức (1) (2), tác giả tiến hành thực nghiệm hiệu mơ hình Fujisaki áp dụng cho phân tích điệu tiếng Việt Như trình bày mục 4.5.1, tác giả đánh giá hai tham số dựa vào điểm số người dùng Kết tính trung bình số phần trăm người đánh giá chủ đề liệu minh hoạ bảng 4.5, 4.6, 4.7 với hàng chủ đề cột người đánh giá (ký hiệu N) 44 Bảng 4.5 Kết trung bình số phần trăm liệu tự nhiên N1 N2 N3 N4 N5 Chủ đề 0.86 0.9 0.88 0.9 0.84 Chủ đề 0.84 0.88 0.84 0.92 0.82 Chủ đề 0.86 0.82 0.8 0.88 0.86 Chủ đề 0.94 0.92 0.88 0.94 0.92 Chủ đề 0.86 0.84 0.82 0.88 0.84 Bảng 4.6 Kết trung bình số phần trăm liệu tổng hợp với tham số mặc định N1 N2 N3 N4 N5 Chủ đề 0.74 0.7 0.62 0.74 0.72 Chủ đề 0.72 0.68 0.64 0.68 0.7 Chủ đề 0.7 0.66 0.68 0.72 0.7 Chủ đề 0.68 0.66 0.7 0.7 0.66 Chủ đề 0.72 0.7 0.72 0.68 0.66 45 Bảng 4.7 Kết trung bình số phần trăm liệu tổng hợp với tham số điều chỉnh N1 N2 N3 N4 N5 Chủ đề 0.76 0.7 0.64 0.72 0.7 Chủ đề 0.74 0.7 0.66 0.7 0.72 Chủ đề 0.7 0.66 0.64 0.72 0.7 Chủ đề 0.7 0.68 0.72 0.68 0.64 Chủ đề 0.72 0.68 0.72 0.72 0.68 Dựa kết bảng 4.5, 4.6, 4.7 tác giả tính tốn khoảng cách liệu tổng hợp với tham số mặc định tham số điều chỉnh sơ với liệu tự nhiên Khoảng cách tính theo cơng thức (1) Kết minh hoạ bảng 4.8 Bảng 4.8 Khoảng cách liệu tự nhiên liệu tổng hợp từ mô hình với hai tham số Khoảng cách Bộ tham số Chủ đề d1 46 d2 d3 d4 d5 Tham số mặc định Chủ đề 0.12 0.2 0.26 0.16 0.12 Chủ đề 0.12 0.2 0.2 0.24 0.12 Chủ đề 0.16 0.16 0.12 0.16 0.16 Chủ đề 0.26 0.26 0.18 0.24 0.26 Chủ đề 0.14 0.14 0.1 0.2 0.18 Chủ đề 0.1 0.2 0.24 0.18 0.14 Chủ đề 0.1 0.18 0.18 0.22 0.1 Chủ đề 0.16 0.16 0.16 0.16 0.16 Chủ đề 0.24 0.24 0.16 0.26 0.28 Chủ đề 0.14 0.16 0.1 0.16 0.16 (thực nghiệm 1) Tham số điều chỉnh (thực nghiệm 2) Trong bảng 4.8, ô màu trắng biểu diễn khoảng cách thực nghiệm tốt thực nghiệm 1, ô màu xám nhạt biểu diễn khoảng cách hai thực nghiệm nhau, cuối ô màu xám đậm biểu diễn khoảng cách thực nghiệm tốt thực nghiệm 4.6 Nhận xét Kết bảng cho thấy tham số điều chỉnh miền tiếng Việt phù hợp với đánh giá người dùng 1, 2, phù hợp với đánh 47 giá người dùng Điều thể chỗ với đánh giá người dùng 1, 2, kết cho thấy khoảng cách sau tổng hợp tham số tiếng Việt tốt (ngắn hơn) so với tham số mặc định liệu tiếng Đức Tại đánh giá người dùng có hai trường hợp (chủ đề với người đánh giá chủ đề với người đánh giá 3) tham số mặc định tốt tham số tuỳ chỉnh Trong trường hợp lại, tham số điều chỉnh cho thấy khoảng cách kết tổng hợp so với liệu tự nhiên tốt tham số mặc định Tuy nhiên, người đánh giá (cột 5) cho thấy số trường hợp mà tham số mặc định cho kết tốt tăng lên (cụ thể trường hợp) Điều cho thấy số trường hợp, tham số điều chỉnh cho tiếng Việt chưa bao phủ hết trường hợp Điều q trình phân tích chưa tiến hành cách kỹ lưỡng Đây công việc cần hoàn thiện tương lai luận văn Các kết phân tích thực nghiệm luận văn cho thấy có khác biệt nặng ngã với điệu khác Sự khác biệt rõ ràng Điều dễ hiểu so với lại, nặng ngã có đường F0 bị đứt đột ngột Bên cạnh đó, ngồi đường F0, hai cịn có số đặc trưng khác Do vậy, tổng hợp âm sử dụng F0 chưa đủ Các kết thực nghiệm cho thấy ngã bị gãy Bên cạnh đó, cịn bị gãy F0, phổ, cường độ Chính điều tạo nên khác biệt ngã với khác Thanh nặng bị gãy, đứt, xuống cách đột ngột cuối âm Khi đó, vai trò đường F0 bị giảm xuống Hơn nữa, âm tiết có kết thưc t, p, c, k (chỉ có hai sắc nặng), cho đường nét nặng lên tổng hợp lại ta thu sắc ngược lại Điều không với khác 48 Kết thực nghiệm có giống ngã sắc hai có đường điệu lên, âm vực sắc cao ngã Các kết thực nghiệm ngang, sắc, ngã biểu diễn lệnh dương; huyền hỏi biểu diễn lệnh điệu âm; nặng khơng cần lệnh điệu 4.7 Kết chƣơng Trong chương này, tác giả trình trình tiến hành thực nghiệm cho q trình phân tích điệu tiếng Việt Tác giả tiến hành hai thực nghiệm hai tham số: (1) tham số mặc định cho tiếng Đức mơ hình Fujisaki (2) tham số điều chỉnh cho tiếng Việt Kết cho thấy tham số điều chỉnh phù hợp với liệu tiếng Việt; nhiên, số trường hợp tham số mặc định cho kết tốt tổng hợp tiếng nói Bên cạnh đó, tác giả trình bày số nhận xét tiếng Việt sau q trình phân tích Các nhận xét kết quan trọng để điều chỉnh lại tham số trình phân tích tổng hợp tiếng nói 49 TỔNG KẾT Kết đạt đƣợc Luận văn trình bày kiến thức liên quan tới điệu, toán xử lý điệu tiếng Việt, ý nghĩa, khó khăn thách thức q trình giải tốn xử lý điêu Bên cạnh đó, luận trình bày hai phương pháp tiếp cận để giải tốn xử lý điệu, là: mơ hình Markov ẩn mơ hình Fujisaki Tác giả mơ hình Fujisaki phù hợp với mục đích luận văn Từ đó, tác giả lựa chọn mơ hình cho phần thực nghiệm Kết thực nghiệm cho thấy mơ hình Fujisaki cho kết khả quan với đánh giá người dùng hai tham số: tham số mặc định cho tiếng Đức tham số tuỳ chỉnh cho tiếng Việt Từ cho thấy sử dụng mơ hình Fujisaki cho toán xử lý điệu thực tế Hạn chế Mặc dù đặt kết khả quan ban đầu, song luận văn cần phải khắc phục số nhược điểm sau đây:  Tập liệu sử dụng luận văn cịn (100 câu), chưa kết luận tham số tốt miền liệu lớn  Trong luận văn, tác giả sử dụng phương pháp phân tích tổng hợp (Analysis-by-Synthesis), phương pháp đòi hỏi nhiều thời gian phải chạy lại mơ hình nhiều lần tối ưu tham số qua bước lặp  Số lượng người dùng đánh giá chưa nhiều (5 người dùng), bên cạnh đó, việc thiết kế q trình đánh giá chứa nhiều yếu tố nhập nhằng có ảnh hưởng lớn từ yếu tố chủ quan Do vậy, gây ảnh hưởng tới kết đánh giá cuối 50 Hƣớng phát triển  Tăng tập liệu thử nghiệm, tiến tới chạy thử nghiệm liệu thật  Áp dụng phương pháp sinh tham số cách tự động [4]  Tăng số lượng người dùng đánh giá kết 51 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Bạch Hưng Nguyên Nguyễn Tiến Dũng “Mơ hình Fujisaki áp dụng phân tích điệu tiếng Việt” [2] Hồng Tiểu Bình “Áp dụng phương pháp PSOLA tổng hợp tiếng nói tiếng Việt”, Luận văn thạc sỹ, ĐHCN, ĐHQG Hà Nội, 2006 Tiếng Anh [3] Hansjörg Mixdorff, Nguyen Hung Bach, Hiroya Fujisaki, Chi Mai Luong “Quantitative analysis and synthesis of syllabic tones in Vietnamese”, INTERSPEECH 2003 [4] Hansjörg Mixdorff “A novel approach to the fully automatic extraction of Fujisaki model parameters” ICASSP 2000:1281-1284 [5] A Method for Automatic Extraction of Fujisaki-Model Parameters [6] Syllabic Tone Perception in Vietnamese [7] Duration Modeling in a Vietnamese Text-to-Speech System [8] Quantitative Analysis and Synthesis of Syllabic Tones in Vietnamese [9] H Fujisaki, S Ohno, C Wang, “A command-response model for F0 contour generation in multilingual speech synthesis”, Journal of Phonetics, vol 2, pp 223-232, 1974 [10] C Wang, H Fujiaski, K Hirose, “The four tones recognition of continuous Chinese speech”, International Conference on Spoken Language Processing, pp 221224, 1990 52 [11] C Wang, H Fujisaki, S Ohno, T Kodama, “Analysis and synthesis of the four tones in connected speech of the Standard Chinese based on a command-response model”, Proceeding of the 6th European Conference on Speech Communication and Technology, vol 4, pp 1655-1658, 1999 [12] N Thubthong, A Pusittrakul, T Sookawat, B Kijsirikul, “Tone recognition of continuous Thai using half-tone model”, National Computer Science and Engineering Conference (NCSEC'2000) [13] H Mixdorff, “Intonation patterns of German model based quantitative analysis and synthesis of F0 contour”, PhD Thesis, TFH Berlin University 53 ... CHƢƠNG CÁC MƠ HÌNH XỬ LÝ THANH ĐIỆU 23 2.1 Mơ hình Markov ẩn 23 2.1.1 Giới thiệu mơ hình Markov ẩn 23 2.1.2 Nhận xét mô hình Markov ẩn 25 2.2 Mơ hình. .. thức q trình giải tốn xử lý điệu ứng dụng toán thực tế Chƣơng Các mơ hình xử lý điệu Chương trình bày hai phương pháp tiếp cận cho tốn xử lý điệu, là: mơ hình Markov ẩn mơ hình Fujisaki Tác giả... việc xử lý điệu tiếng Việt Trong chương tiếp theo, luận văn trình bày phương pháp tiếp cận để giải toán xử lý điệu 22 CHƢƠNG CÁC MƠ HÌNH XỬ LÝ THANH ĐIỆU Chương tác giả trình bày hai mơ hình

Ngày đăng: 17/02/2022, 19:32

TỪ KHÓA LIÊN QUAN

w