Nghiên cứu về tổng hợp tiếng nói có cảm xúc MỞ ĐẦU Trong thời đại ngày nay, cùng với sự phát triển mạnh mẽ của khoa học kỹ thuật thì vấn đề trao đổi thông tin đa phương tiện ngày càng t
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-ĐỖ THỊ LOAN
NGHIÊN CỨU VỀ TỔNG HỢP TIẾNG NÓI
CÓ CẢM XÚC
Chuyên ngành : Kỹ thuật Máy tính và Truyền thông
LUẬN VĂN THẠC SĨ KỸ THUẬT
KỸ THUẬT MÁY TÍNH VÀ TRUYỀN THÔNG
NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS TRỊNH VĂN LOAN
HÀ NỘI – 2015
Trang 2Nghiên cứu về tổng hợp tiếng nói có cảm xúc
MỤC LỤC
LỜI CAM ĐOAN 4
LỜI CẢM ƠN 5
DANH MỤC HÌNH ẢNH 6
DANH MỤC BẢNG 7
MỞ ĐẦU 9
CHƯƠNG 1 - GIỚI THIỆU VẤN ĐỀ VÀ XÁC ĐỊNH NHIỆM VỤ 11
1.1 Đặt vấn đề 11
1.2 Tính cấp thiết của đề tài 12
1.3 Mục tiêu của đề tài 12
CHƯƠNG 2 - TỔNG QUAN VỀ TIẾNG NÓI VÀ TỔNG HỢP TIẾNG NÓI 14
2.1 Giới thiệu về tiếng nói và tổng hợp tiếng nói 14
2.2 Ý nghĩa của TTS (Text To Speech) 14
2.2.1 Quá trình phát triển TTS trên thế giới 15
2.2.2 TTS ở Việt Nam 16
2.3 Mô hình tổng hợp tiếng nói từ văn bản 16
2.3.1 Tổng hợp mức cao 17
2.3.1.1 Xử lý văn bản 17
2.3.1.2 Phân tích cách phát âm 18
2.3.1.3 Ngôn điệu 18
2.3.2 Tổng hợp mức thấp 20
2.4 Bộ máy phát âm 20
2.4.1 Bộ máy phát âm 20
2.4.2 Cơ chế phát âm 21
2.5 Đặc tính âm học của tiếng nói 21
2.5.1 Âm hữu thanh 21
2.5.2 Âm vô thanh 22
2.5.3 Âm vị 22
Trang 3Nghiên cứu về tổng hợp tiếng nói có cảm xúc
2.5.3.1 Nguyên âm 22
2.5.3.2 Phụ âm 23
2.5.4 Các đặc tính khác 23
2.5.4.1 Tỷ suất thời gian 23
2.5.4.2 Hàm năng lượng ngắn hạn 23
2.5.4.3 Tần số cơ bản 23
2.5.4.4 Formant 24
2.6 Đặc điểm của thanh điệu tiếng Việt 24
2.7 Một số phương pháp tổng hợp tiếng nói 26
2.7.1 Phương pháp tổng hợp Formant 27
2.7.2.1 Phương pháp tổng hợp bằng ghép nối các tiếng 29
2.7.2.2 Phương pháp tổng hợp bằng ghép nối các Phone 29
2.7.2.3 Phương pháp tổng hợp bằng ghép nối Diphone 29
2.7.3 Phương pháp mô phỏng bộ máy phát âm 32
2.7.4 Phương pháp tổng hợp LPC 33
2.8 Kết luận và so sánh các phương pháp tổng hợp 34
CHƯƠNG 3 - NGHIÊN CỨU CẢM XÚC TRONG TIẾNG NÓI 35
3.1 Cảm xúc trong tiếng nói 35
3.1.1 Định nghĩa 35
3.1.2 Đặc điểm của cảm xúc 35
3.1.2.1 Cảm xúc biểu hiện bề ngoài rất rõ ràng 35
3.1.2.2 Cảm xúc rất đa dạng và phong phú 35
3.1.3 Phân loại cảm xúc 36
3.1.4 Vai trò của cảm xúc 37
3.1.4.1 Cảm xúc giúp con người thích ứng với hoàn cảnh 37
3.1.4.2 Cảm xúc gắn liền với nhu cầu và việc thoả mãn nhu cầu của chủ thể38 3.1.4.3 Cảm xúc có thể kích thích hay kìm hãm hành động 38
3.2 Cảm xúc của tiếng nói trong lĩnh vực xử lý tiếng nói 38
3.2.1 Ngữ điệu tiếng nói trong các ngôn ngữ nói chung 38
Trang 4Nghiên cứu về tổng hợp tiếng nói có cảm xúc
3.2.2 Ngữ điệu của tiếng nói trong tiếng Việt nói riêng 45
3.2.2.1 Một vài đặc điểm của tiếng Việt 45
3.2.2.2 Các thành tố của ngữ điệu Việt 46
3.3 Kết luận chương 48
CHƯƠNG 4 - BƯỚC ĐẦU THỰC NGHIỆM PHÂN TÍCH TIẾNG VIỆT NÓI CÓ CẢM XÚC 49
4.1 Cơ sở dữ liệu tiếng Việt có cảm xúc 49
4.2 Công cụ Praat 52
4.3 Kết quả thực nghiệm 53
4.3.1 Phân tích, thống kê tham số F0 và năng lượng của cảm xúc buồn 59
4.3.1.1 Trung bình F0 và năng lượng cảm xúc buồn với giọng nam 59
4.3.1.2 Trung bình F0 và năng lượng cảm xúc buồn với giọng nữ 63
4.3.2 Phân tích, thống kê tham số F0 và năng lượng của cảm xúc tức giận 67
4.3.2.1 Trung bình F0 và năng lượng của cảm xúc tức giận với giọng nam 67 4.3.2.2 Trung bình F0 và năng lượng của cảm xúc tức giận với giọng nữ 70
4.3.3 Phân tích, thống kê tham số F0 và năng lượng của cảm xúc vui 74
4.3.3.1 Trung bình F0 và năng lượng của cảm xúc vui với giọng nam 74
4.3.3.2 Trung bình F0 và năng lượng của cảm xúc vui với giọng nữ 78
4.4 Kết luận chương 83
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 84
TÀI LIỆU THAM KHẢO 86
PHỤ LỤC 88
Trang 5Nghiên cứu về tổng hợp tiếng nói có cảm xúc
LỜI CAM ĐOAN
Tôi xin cam đoan đề tài nghiên cứu của tôi hoàn toàn do tôi tự làm dưới
sự hướng dẫn của thầy giáo PGS.TS Trịnh Văn Loan Những kết quả tìm hiểu
và nghiên cứu trình bày trong luận văn là hoàn toàn trung thực và chưa từng được công bố trong bất cứ công trình nào
Nếu xảy ra bất cứ điều không đúng như những lời cam đoan trên, tôi xin chịu hoàn toàn trách nhiệm trước Viện và Nhà trường
Hà Nội, ngày tháng năm 2015
Tác giả
Đỗ Thị Loan
Trang 6Nghiên cứu về tổng hợp tiếng nói có cảm xúc
LỜI CẢM ƠN
Lời đầu tiên, em xin chân thành cảm ơn trường đại học Bách Khoa Hà Nội, viện Công nghệ Thông tin – Truyền thông, chuyên ngành Kỹ thuật Máy tính và Truyền thông và toàn thể các thầy cô đã ân cần dạy dỗ, chỉ bảo, định hướng nghiên cứu cho em trong suốt một năm học vừa qua, truyền đạt cho chúng em những kiến thức quý báu
Em xin chân thành cảm ơn Phó giáo sư tiến sỹ Trịnh Văn Loan đã giành
nhiều tâm huyết, kinh nghiệm của thầy để chỉ dẫn, định hướng nghiên cứu cũng như luôn luôn góp ý cho em để hoàn thành đề tài luận văn này
Cuối cùng em cũng xin gửi lời cảm ơn tới gia đình, những người đã luôn động viên và tạo mọi điều kiện tốt cho em học tập và nghiên cứu thật tốt Và gửi lời cảm
ơn tới những người bạn đã giúp đỡ em trong quá trình học tập cũng như hoàn thành
đề tài luận văn
Em xin chân thành cảm ơn !
Trang 7Nghiên cứu về tổng hợp tiếng nói có cảm xúc
DANH MỤC HÌNH ẢNH
Hình 2.2: Sự phụ thuộc của ngôn điệu vào các yếu tố 19
Hình 2.3: Bộ máy phát âm của con người 21
Hình 2.4: Sự thay đổi F0 của các thanh 26
Hình 2.6: Mô hình 3 formant nối tiếp 27
Hình 2.8: Điểm pitch trong phone 30
Hình 2.11: Mô hình tổng hợp tiếng nói bằng phương pháp LPC 33
Hình 3.1: Các biểu lộ cảm xúc 36
Hình 3.2: Các cảm xúc cơ bản trong mô hình cảm xúc nguyên tố 37
Hình 3.3: Cường độ của giọng nam với cảm xúc tức giận 41
Hình 3.4: Cao độ của giọng nữ Pashto với trạng thái trung tính 42
Hình 3.5: Formant của cảm xúc tức giận với giọng nói là nam 43
Hình 4.1: Giao diện làm việc với Pratt 53
Hình 4.2: Tín hiệu tiếng nói, biến thiên F0 và năng lượng của giọng nữ với 4 cảm xúc (trung tính, buồn, tức giận vui) a trung tính, b buồn, c tức giận, d vui 54
Hình 4.3 Tín hiệu tiếng nói, biến thiên F0 và năng lượng của giọng nam với 4 cảm xúc (trung tính, buồn, tức giận vui) a trung tính, b buồn, c tức giận, d vui 55
Hình 4.4: 2 giọng nam nói với cảm xúc trung tính 56
Hình 4.5: 2 giọng nữ nói với cảm xúc trung tính 57
Hình 4.7: Cảm xúc buồn được thể hiện bằng cách chia câu thành các đoạn 57
Hình 4.8: Cảm xúc tức giận với câu được chia làm 2 đoạn, nhấn mạnh cuối câu 58
Hình 4.9: Cảm xúc tức giận với câu chia làm 2 đoạn, nhấn mạnh cả đoạn 2 58
Hình 4.10: Giọng nữ thể hiện cảm xúc vui bằng cách lên giọng ở cuối câu 58
Hình 4.11: Giọng nữ thể hiện cảm xúc vui bằng cách nói đều đều 58
Hình 4.12: Lưu đồ thuật giải tổng hợp tiếng Việt bằng phương pháp ghép nối 82
Trang 8Nghiên cứu về tổng hợp tiếng nói có cảm xúc
DANH MỤC BẢNG
Bảng 4.1: Mã câu và nội dung câu 59
Bảng 4.2: Trung bình của F0 của một số cách biểu lộ cảm xúc buồn giọng nam 60
Bảng 4.3: Trung bình năng lượng của một số cách biểu lộ cảm xúc buồn giọng nam 61
Bảng 4.4: So sánh giá trị trung bình F0 và năng lượng của một số cách biểu lộ cảm xúc buồn với cảm xúc trung tính giọng nam 62
Bảng 4.5: Mã câu và nội dung câu 63
Bảng 4.6: Trung bình F0 với của một số cách biểu lộ cảm xúc buồn giọng nữ 64
Bảng 4.7: Trung bình năng lượng của một số cách biểu lộ cảm xúc buồn giọng nữ 65
Bảng 4.8: So sánh giá trị trung bình F0, năng lượng của một số cách biểu lộ cảm xúc buồn với cảm xúc trung tính giọng nữ 66
Bảng 4.9: Mã câu và nội dung câu 67
Bảng 4.10: Trung bình F0 của một số cách biểu lộ cảm xúc tức giận giọng nam 68
Bảng 4.11: Trung bình năng lượng của một số cách biểu lộ cảm xúc tức giận giọng nam 69
Bảng 4.12: So sánh giá trị trung bình F0, năng lượng của một số cách biểu lộ cảm xúc tức giận với cảm xúc trung tính giọng nam 69
Bảng 4.13: Mã câu và nội dung câu 71
Bảng 4.14: Trung bình F0 của một số cách biểu lộ cảm xúc tức giận giọng nữ 72
Bảng 4.15: Trung bình năng lượng của một số cách biểu lộ cảm xúc tức giận giọng nữ 73
Bảng 4.16: So sánh giá trị trung bình F0, năng lượng của một số cách biểu lộ cảm xúc tức giận với cảm xúc trung tính giọng nữ 74
Bảng 4.17: Mã câu và nội dung câu 75
Bảng 4.18: Trung bình F0 của một số cách biểu lộ cảm xúc vui giọng nam 74
Bảng 4.19: Trung bình năng lượng của một số cách biểu lộ cảm xúc vui giọng nam 76
Bảng 4.20: So sánh giá trị trung bình F0, năng lượng của một số cách biểu lộ cảm xúc vui với cảm xúc trung tính giọng nam 77
Trang 9Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Bảng 4.21: Mã câu và nội dung câu 78 Bảng 4.22: Trung bình F0 của một số cách biểu lộ cảm xúc vui giọng nữ 79 Bảng 4.23: Trung bình năng lượng của một số cách biểu lộ cảm xúc vui giọng nữ.80 Bảng 4.24: So sánh giá trị trung bình F0, năng lượng của một số cách biểu lộ cảm xúc vui và cảm xúc trung tính giọng nữ 80
Trang 10Nghiên cứu về tổng hợp tiếng nói có cảm xúc
MỞ ĐẦU
Trong thời đại ngày nay, cùng với sự phát triển mạnh mẽ của khoa học kỹ thuật thì vấn đề trao đổi thông tin đa phương tiện ngày càng trở nên cần thiết, từ lúc đầu chỉ giao tiếp, tương tác thông qua các văn bản giấy tờ, ngày nay nhu cầu sử dụng tiếng nói trong truyền thông, tương tác người máy càng trở nên cấp thiết hơn
Vì vậy mà một lĩnh vực kỹ thuật mới đã ra đời, đó là xử lý tiếng nói
Mặc dù mới nhưng xử lý tiếng nói đã đạt được những thành tựu đáng kể Các ứng dụng của xử lý tiếng nói đã và đang được áp dụng trong rất nhiều lĩnh vực khác nhau trong xã hội như nhận dạng, tổng hợp tiếng nói, tương tác người máy, truyền thông, dạy học, … Nhờ có xử lý tiếng nói mà con người có thể tạo ra những máy móc thông minh hơn, có khả năng hiểu được tiếng nói con người và có thể giao tiếp với con người thông qua lời nói Đối thoại dùng ngôn ngữ nói không chỉ đơn giản, thuận tiện, tiết kiệm thời gian mà còn góp phần đảm bảo khía cạnh an toàn trong những môi trường có tính rủi ro Bằng tiếng nói, chúng ta có thể trao đổi với nhau không chỉ thông tin, mà còn cả thái độ, cảm xúc của mình Những câu nói dù giống nhau về nội dung, ngôn ngữ nhưng khác nhau về âm thanh, nhịp điệu và thái độ của người nói làm cho người nghe có thể hiểu được ý muốn của người nói thông qua cách diễn đạt Vì vậy, nên phát triển các hệ thống tiếng nói có thể xử lý các cảm xúc kèm theo nội dung cần truyền tải Các mục tiêu cơ bản của xử lý tiếng nói có cảm xúc là nhận dạng cảm xúc thể hiện trong tiếng nói và tổng hợp cảm xúc mong muốn trong tiếng nói để truyền tải ý định, nội dung Từ góc độ kỹ thuật, sự nhận biết các cảm xúc tiếng nói có thể được xem như là sự phân loại hoặc phân biệt các cảm xúc Tổng hợp các cảm xúc có thể được xem như là sự lồng ghép các hiểu biết về cảm xúc trong quá trình tổng hợp tiếng nói Các hiểu biết về cảm xúc được thu thập từ
mô hình cảm xúc đã được thiết kế để trích chọn các đặc trưng về cảm xúc
Với mong muốn tìm hiểu và nghiên cứu về lĩnh vực xử lý và tổng hợp tiếng nói nói chung và tiếng nói tiếng Việt có cảm xúc nói riêng, học viên đã lựa chọn đề
Trang 11Nghiên cứu về tổng hợp tiếng nói có cảm xúc tài “Nghiên cứu về tổng hợp tiếng nói có cảm xúc”, với thực nghiệm ban đầu là
tham gia xây dựng cơ sở dữ liệu tiếng nói tiếng Việt có cảm xúc và phân loại, thống
kê, phân tích một số tham số đặc trưng cho tiếng nói có cảm xúc để phục vụ cho việc xây dựng bộ tổng hợp
Bố cục của luận văn bao gồm 4 chương:
Chương 1: Giới thiệu vấn đề và xác định nhiệm vụ: Trình bày vấn đề, tính cấp
thiết, mục tiêu của luận văn
Chương 2: Tổng quan về tiếng nói và tổng hợp tiếng nói: Trình bày cái nhìn
tổng quan về tiếng nói, vai trò của tiếng nói, mô hình tổng hợp tiếng nói (Text to
Speech –TTS) và các phương pháp tổng hợp tiếng nói thông dụng
Chương 3: Nghiên cứu về cảm xúc trong tiếng nói: Định nghĩa về cảm xúc, đặc
điểm và phân loại cảm xúc Sơ lược về đặc điểm của ngữ điệu tiếng nói của các ngôn ngữ phi thanh điệu (Âu châu) hay ngôn ngữ thanh điệu – tiếng Việt Các thành
tố cấu tạo nên ngữ điệu tiếng nói, từ đó dẫn chứng ra các nghiên cứu của một số tác giả nước ngoài đã được công bố về phân tích và tổng hợp tiếng nói với cơ sở dữ liệu
là một số ngôn ngữ khác nhau trên thế giới
Chương 4: Bước đầu thực nghiệm phân tích tiếng nói có cảm xúc: Trình bày về
việc xây dựng cơ sở dữ liệu tiếng nói tiếng Việt có cảm xúc, phân loại, thống kê, sử dụng công cụ phân tích dữ liệu và kết quả phân tích, thống kê được biểu diễn trên
đồ thị một số tham số quan trọng ảnh hướng đến ngữ điệu của tiếng Việt để thấy
được sự biến thiên một số tham số đặc trưng của tiếng nói có cảm xúc
Luận văn được kết thúc bằng phần kết luận và tài liệu tham khảo
Trang 12Nghiên cứu về tổng hợp tiếng nói có cảm xúc
CHƯƠNG 1 - GIỚI THIỆU VẤN ĐỀ VÀ XÁC ĐỊNH NHIỆM VỤ 1.1 Đặt vấn đề
Cảm xúc là thuật ngữ dùng để chỉ các trải nghiệm chủ động và có ý thức thường được thể hiện bởi các biểu hiện tâm lý, phản ứng sinh học hay trạng thái tinh thần Cảm xúc thường bị tác động và có liên hệ với tâm trạng, tính khí, tính cách cá nhân cũng như chịu ảnh hưởng bởi hóc-môn và các chất kích thích thần kinh, thường đi kèm với những biểu hiện sinh lí như thay đổi sắc mặt, nhịp tim, nhịp thở, hoạt động của các tuyến nội tiết, trạng thái cơ thể [5] Cảm xúc con người thường là nhân tố đằng sau quyết định tới động cơ, động lực của hành động dù tích cực hay tiêu cực
Lĩnh vực xử lý và tổng hợp tiếng nói đã được phát triển tương đối nhiều Hiện nay đã có một số phần mềm tổng hợp tiếng nói tiếng Việt như: VietVoice, vnVoice, VietTTS, VOS hay VnSpeech do người việt hay một số người Việt Nam ở nước ngoài nghiên cứu đã cho những kết quả khả quan, làm tiền đề cho việc giao tiếp người – máy bằng tiếng nói Tuy nhiên, vấn đề nâng cao chất lượng tổng hợp và tích hợp nhiều giọng nói theo lứa tuổi, vùng miền của các sản phẩm đã hướng tới Với nguyện vọng góp một phần vào xây dựng bộ tổng hợp tiếng Việt, tôi muốn hướng tới hệ thống tổng hợp tiếng Việt có biểu lộ các cảm xúc khác nhau Đây là vấn đề còn mới mẻ đối với cơ sở dữ liệu tiếng Việt nói có cảm xúc
Tình hình nghiên cứu trong nước:
Ở trong nước, có thể kể đến những tập thể đã có những kết quả nghiên cứu về tổng hợp tiếng Việt như Viện Công nghệ Thông tin, Khoa Công nghệ Thông tin và Trung tâm nghiên cứu quốc tế Thông tin đa phương tiện, truyền thông và ứng dụng (MICA) - Đại học Bách khoa Hà Nội và kết quả của một số trường Đại học là những đề tài tốt nghiệp, thạc sĩ hay tiến sĩ mang tính chất nghiên cứu và tìm hiểu Nghiên cứu về xử lý ngôn ngữ đã được theo đuổi từ khá lâu bởi một số tập thể như Đại học Bách khoa Hà Nội, Đại học Khoa học Tự nhiên thành phố Hồ Chí Minh, Đại học Bách khoa Đà Nẵng, Trường Đại học Công nghệ, Viện Ứng dụng Công
Trang 13Nghiên cứu về tổng hợp tiếng nói có cảm xúc
nghệ, Viện Công nghệ Thông tin, Công ty Lạc Việt,… và Đề tài cấp Nhà nước
“Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng
Việt” giai đoạn 2001-2004 trong chương trình quốc gia KC-01 Những kết quả
nghiên cứu về tổng hợp tiếng nói tiếng Việt vẫn bộc lộ nhiều hạn chế Điển hình sản phẩm “Tiếng nói phương nam - VOS” của nhóm nghiên cứu tại Đại học khoa học
Tự nhiên thành phố Hồ Chí Minh gửi tham gia Nhân tài Đất Việt 2009 đã đạt được những kết quả bước đầu Tuy nhiên sản phẩm này vẫn có hạn chế về cơ sở dữ liệu, mới chỉ có thể thực hiện trên một giọng và vấn đề ngữ điệu còn nhiều hạn chế
Tình hình nghiên cứu ngoài nước
Ở nước ngoài, có thể kể tới nhóm nghiên cứu tại Canada của tiến sĩ Lê Tang
Hồ với phần mềm tổng hợp tiếng Việt có tên Vietvoice, và một số nghiên cứu của các cán bộ và nghiên cứu sinh Việt Nam tại Viện Khoa học và Công nghệ Tiên tiến Nhật Bản (JAIST)
Về hệ thống phân tích và tổng hợp tiếng nói với cơ sở dữ liệu tiếng nói có cảm xúc của một số ngôn ngữ trên thế giới đã được nghiên cứu và công bố trên một số tạp trí khoa học trên thế giới với thực nghiệm là các cơ sở dữ liệu tiếng Anh, Đức, Nhật, Malayalam,…
1.2 Tính cấp thiết của đề tài
Như chúng ta đã biết, việc nghiên cứu và xây dựng một bộ tổng hợp hoàn chỉnh với cơ sở dữ liệu là tiếng nói tiếng Việt có cảm xúc hiện nay chưa có công trình nào công bố chính thức Vì vậy đây cũng là động lực để học viên lựa chọn đề
tài: “Nghiên cứu về phương pháp tổng hợp tiếng nói có cảm xúc”, với những bước
đầu phân tích thống kê để phục vụ cho việc xây dựng một bộ tổng hợp hoàn chỉnh
1.3 Mục tiêu của đề tài
Từ những vấn đề nêu trên, luận văn của học viên bao gồm những yêu cầu và nhiệm vụ sau:
Nghiên cứu cơ sở lý thuyết gồm:
- Tìm hiểu các kiến thức xử lý tiếng nói nói chung và xử lý tiếng Việt nói riêng
- Phân tích các đặc tính âm học của tiếng Việt, cấu trúc âm tiết tiếng Việt
Trang 14Nghiên cứu về tổng hợp tiếng nói có cảm xúc
- Nghiên cứu ngữ điệu tiếng Việt
- Nghiên cứu và phân tích được các ưu nhược của các mô hình tổng hợp tiếng nói
- Nghiên cứu về các thành tố cấu tạo nên ngữ điệu của tiếng nói của các ngôn ngữ nói chung và của tiếng Việt nói riêng
Thực nghiệm: Nghiên cứu xây dựng các cơ sở dữ liệu và bước đầu thực
nghiệm là phân tích một số tham số quan trọng ảnh hưởng tới ngữ điệu của tiếng Việt với cơ sở dữ liệu tiếng nói tiếng Việt có cảm xúc đã xây dựng
- Xây dựng kịch bản thu thỏa mãn yêu cầu chất lượng tín hiệu cho cơ sở dữ liệu tốt, phù hợp để xây dựng nhiều giọng nói, độ tuổi khác nhau
- Chuẩn hóa, phân loại và thống kê dữ liệu
- Phân tích một số tham số điển hình có ảnh hưởng tới ngữ điệu cảm xúc tiếng Việt, là bước tiền đề để đi xây dựng một bộ tổng hợp tiếng nói tiếng Việt có cảm xúc, biểu diễn kết quả thống kê, phân tích các tham số trên đồ thị
Trang 15Nghiên cứu về tổng hợp tiếng nói có cảm xúc
CHƯƠNG 2 - TỔNG QUAN VỀ TIẾNG NÓI VÀ TỔNG HỢP TIẾNG NÓI 2.1 Giới thiệu về tiếng nói và tổng hợp tiếng nói
Tiếng nói là một phương tiện trao đổi thông tin của con người Tiếng nói được tạo ra từ tư duy của con người: trung khu thần kinh điều khiển hệ thống phát âm làm việc tạo ra âm thanh Tiếng nói được phân biệt với các âm thanh khác bởi các đặc tính âm học có nguồn gốc từ cơ chế tạo tiếng nói Về bản chất, tiếng nói là sự dao động của không khí có mang theo thông tin Các dao động này tạo thành những
áp lực đến tai và được tai phát hiện, phân tích và chuyển kết quả đến trung khu thần kinh Lúc này tại trung khu thần kinh, thông tin được tái tạo lại dưới dạng tư duy logic mà con người có thể hiểu được
Việc tổng hợp tiếng nói có thể được thực hiện bằng nhiều phương pháp Phương pháp phổ biến nhất hiện nay là phương pháp tổng hợp bằng cách ghép nối các đoạn tiếng nói nhỏ hơn được lưu trữ trong cơ sở dữ liệu Việc lưu trữ cơ sở dữ liệu nhiều hay ít làm ảnh hưởng rất lớn đến kết quả thu được tốt hay không
Chất lượng của một hệ thống tổng hợp tiếng nói được đánh giá dựa trên độ
“giống” đối với tiếng nói của người thật và khả năng để người nghe có thể hiểu được hết ý nghĩa của văn bản Một hệ thống chuyển văn bản thành tiếng nói TTS (Text To Speech) là một hệ thống có đầu vào là văn bản và đầu ra là một sóng âm thanh
2.2 Ý nghĩa của TTS (Text To Speech)
Trên thế giới, TTS với cơ sở dữ liệu là tiếng Anh có những ứng dụng hết sức thành công:
Giúp đỡ người tàn tật: Đây là ứng dụng có ý nghĩa lớn nhất của TTS Trước đây, người ta đã từng có các loại băng ghi âm các cuốn truyện hay sách dành cho người tàn tật Tuy nhiên số lượng những loại sách, truyện này không nhiều vì công việc được thực hiện một cách thủ công và tốn rất nhiều thời gian Với sự giúp đỡ của các hệ thống TTS, công việc được làm tự động và cho hiệu quả rất cao
Trang 16Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Các thiết bị truyền thông đa phương tiện: Với sự phát triển và thành công vượt bậc của TTS cho tiếng Anh, các phần mềm để học tiếng Anh hay các từ điển điện tử cũng đã sử dụng các hệ thống TTS Ngoài ra, các trò chơi điện tử này
đã ứng dụng công nghệ này rất rộng rãi
Trong truyền thông: Một trong những nguyên nhân gây ra nhiều tan nạn xe hơi là tài xế vừa lái xe vừa đọc tin nhắn Với sự hỗ trợ của TTS, người lái xe hoàn toàn có thể tập trung vào việc lái xe mà vẫn nghe được tin nhắn mình nhận được Ngoài ra, khi công nghệ GPRS chưa phát triển thì việc check mail khi phải đi công tác tới một khu vực chưa phát triển gặp rất nhiều khó khăn Khi đó người ta đã có những phần mềm sử dụng TTS để check mail qua điện thoại di động
Hiện nay ở Việt Nam sử dụng các hệ thống TTS vẫn còn chưa nhiều Chủ yếu
là việc đọc các thông báo tại các nhà ga, sân bay hay tại cơ quan nhà nước có
hệ thống xếp hàng
2.2.1 Quá trình phát triển TTS trên thế giới
Tiếng nói nhân tạo đã được nghiên cứu trong một thời gian dài và có sự tham gia của nhiều nhà khoa học Những người đầu tiên có ý tưởng về một chiếc máy có khả năng nói được là Gerbert of Aurillac, Albertus Magnus (1198 – 1280) và Roger Bacon (1214 – 1294) [18]
Tuy vậy phải nói tới năm 1779, nhà khoa học người Đan Mạch Christian Kratzenstein mới xây dựng thành công mô hình cơ khí tổng hợp 5 âm /a/, /e/, /i/, /o/, /u/ Thiết bị này vẫn chưa tổng hợp được một câu nói hoàn chỉnh
Thiết bị đầu tiên được xem như một bộ tổng hợp tiếng nói là VODER (Voice Operating Demonstrator) được nhà khoa học người Mỹ Homer Dulley giới thiệu năm 1939 tại New York Hệ thống này có thể tổng hợp các câu đơn giản những cần
sự điều khiển hết sức phức tạp [15]
Trong mấy thập kỉ qua, các hệ thống TTS đã có những bước phát triển vượt bậc Chất lượng của những hệ thống TTS được phát triển ngày càng cao và đã được ứng dụng với các mục đích thương mại Đa số các hệ thống này dành cho tiếng
Trang 17Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Anh Ngoài ra cũng có một số các ngôn ngữ khác nhau như tiếng Trung, tiếng Tây Ban Nha,… nhưng tiếng Anh vẫn được nghiên cứu nhiều nhất vì vậy tiếng Anh có
Phần mềm VietSound là phần mềm được phát triển tại đại học Bách Khoa Thành phố Hồ Chí Minh Phần mềm này sử dụng giải thuật TD-PSOLA dùng để tổng hợp các nguyên âm đơn và phương pháp tổng hợp Formant để tổng hợp các phụ âm, nguyên âm và âm vần đơn giản Phần mềm này cũng chưa đạt đến mức độ
tự nhiên giống với tiếng nói con người
Cả hai phần mềm trên đều có nhược điểm là âm thanh thu được rời rạc, thiếu tự nhiên
2.3 Mô hình tổng hợp tiếng nói từ văn bản
TTS (Text To Speech) được chia là hai mức xử lý:
High Level Synthesis: Tổng hợp mức cao
Low Level Synthesis: Tổng hợp mức thấp
Văn bản (text) Tiếng nói
Hình 2.1: Mô hình tổng hợp tiếng nói
Tổng hợp mức cao
Tổng hợp mức thấp
Trang 18Nghiên cứu về tổng hợp tiếng nói có cảm xúc 2.3.1 Tổng hợp mức cao
Tổng hợp mức cao là giai đoạn đầu của quá trình tổng hợp, giai đoạn chuyển đổi các văn bản text thành các đơn vị tiếng nói (ví dụ như diphone) Văn bản được nhập hoặc sao chép vào, sau đó qua tổng hợp mức thấp sẽ thành tiếng nói
Tổng hợp mức cao gồm 3 bước:
Xử lý trước văn bản với các chữ số, các ký tự đặc biệt, chữ viết tắt và những
từ viết tắt được ghép bằng các chữ đầu của các từ đầy đủ…
Phân tích cách phát âm của từ, kể cả từ đồng âm khác nghĩa và các tên riêng
Phân tích ngữ điệu của tiếng nói
Sau khi tổng hợp mức cao, thông tin được cung cấp cho hệ thống mức thấp để điều khiển Chẳng hạn, với bộ tổng hợp formant thì cần các thông tin như tần số cơ bản, tần số formant, khoảng thời gian, và biên độ của mỗi đoạn âm thanh
2.3.1.1 Xử lý văn bản
Nhiệm vụ đầu tiên của tất cả các hệ thống TTS là chuyển đổi dữ liệu (mẫu) về dạng thích hợp cho một bộ tổng hợp Trong giai đoạn này tất cả các đặc tính như chữ cái, chữ số, chữ viết tắt phải được chuyển đổi theo một khuôn dạng rõ ràng, đầy đủ Để xử lý văn bản, người ta dùng những bảng đối chiếu một - một đơn giản Trong một số trường hợp còn cần thêm thông tin bổ sung (ví dụ những từ gần nghĩa, những ký hiệu ) Điều này có thể dẫn đến một cơ sở dữ liệu khá lớn và tập luật phức tạp, đó sẽ là những vấn đề cần giải quyết khi thực hiện với các hệ thống thời gian thực
Ví dụ:
Văn bản đầu vào có thể chứa các từ viết tắt phải được hiểu như nhau trong tất cả các hoàn cảnh Nhưng sự chuyển đổi từ viết tắt không phải lúc nào cũng dựa trên cách viết tắt mà phải dựa trên cả một cụm viết tắt (Ví dụ: tiếp đầu ngữ M trong ngữ cảnh nào đó được hiểu mega, nhưng viết MTV không thể chuyển thành megaTV)
Tương tự như vậy, việc chuyển đổi chữ số cũng không đơn giản Chữ số được sử dụng trong với nhiều vai trò như là số, là ngày tháng, giá trị đo đạc,
Trang 19Nghiên cứu về tổng hợp tiếng nói có cảm xúc
và trong những biểu thức toán học Những số nằm giữa 1100 và 2002 thông thường được chuyển đổi thành năm 1/1/1111 chữ số trong mẫu trên thường được chuyển đổi thành ngày/tháng/năm Nhưng 2/5 thì thật khó bởi vì nó có thể vừa là ngày/tháng vừa có thể là một phân số
2.3.1.2 Phân tích cách phát âm
Với các ngôn ngữ trên thế giới mà việc phát âm không hoàn toàn tuân theo quy tắc (ví dụ như tiếng Anh) thì phát âm đúng các từ là một vấn đề khó trong tổng hợp tiếng nói Đặc biệt với một ứng dụng điện thoại thì hầu hết các từ đều là tên hoặc là địa chỉ các đường phố và để đọc đúng những tên này là điều không dễ dàng Một phương pháp giải quyết là có thể lưu vào một bảng phát âm đặc biệt, nhưng số lượng sẽ rất lớn Vì vậy phương pháp trên không hiệu quả Lúc này việc tạo ra các luật cơ bản để xây dựng nên một từ điển các từ với các luật chuyển từ sang âm vị (letter-to-phoneme) sẽ hợp lý hơn Cách tiếp cận này cũng phù hợp với phát âm bình thường Khi phân tích, một từ có thể được chia thành các phần độc lập bao gồm tiền tố, gốc từ, phụ tố
2.3.1.3 Ngôn điệu
Xác định đúng được ngữ điệu, trọng âm và khoảng thời gian từ văn bản viết có
lẽ là những vấn đề khó khăn nhất trong những năm tới Các đặc tính này được gọi là ngôn điệu hoặc những đặc tính siêu đoạn và có thể được xem xét như giai điệu, nhịp điệu và sự nhấn mạnh của tiếng nói ở mức cảm giác Ngữ điệu có nghĩa là sự thay đổi của tần số cơ bản trong thời gian nói Ngôn điệu của tiếng nói liên tục phụ thuộc vào nhiều yếu tố như nghĩa của các câu, đặc trưng và cảm xúc của người nói Ngôn điệu phụ thuộc được mô tả ở hình dưới
Trang 20Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Đặc trưng người nói Cảm giác Nghĩa của câu
- Giới tính - Tức giận - Bình thường
- Tần số cơ bản
- Khoảng thời gian
- Độ nhấn mạnh
Hình 2.2: Sự phụ thuộc của ngôn điệu vào các yếu tố
Để tiếng nói tổng hợp thu được chất lượng tốt thì phân tích ngôn điệu là vô cùng quan trọng Ngôn điệu phụ thuộc vào các yếu tốt như: độ cao thấp (Pitch), độ dài ngắn (Duration), cường độ- độ mạnh/yếu (Intension)
- Độ cao thấp (Pitch) hay tần số trên một câu phụ thuộc vào nhiều yếu tố trong
đó có loại câu (câu kể, câu hỏi, câu cảm thán); người nói (giới tính, trạng thái cảm xúc) Điển hình như câu kể thường thấp giọng ở cuối câu còn câu hỏi cao giọng ở cuối câu, người nói là nam thường nói với độ cao thấp hơn
- Độ dài ngắn (Duration) là đặc điểm về thời gian phát âm một từ hay một âm
vị Đôi khi, độ dài ngắn cũng được thể hiện khi người nói muốn nhấn mạnh một từ nào đó trong câu
- Cường độ (Intension) thể hiện độ to nhỏ của tiếng nói Ở mức âm tiết, các nguyên âm thường có cường độ mạnh hơn phụ âm Ở mức cụm, các âm tiết
ở phần cuối của cách phát âm có thể có cường độ yếu hơn
Ngôn điệu
Trang 21Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Một hệ thống TTS cần phân tích được cách đọc ở mức càng gần với thực tế càng tốt Đây là mục tiêu của mọi hệ thống TTS cho các ngôn ngữ khác nhau, tuy vậy chưa có một hệ thống nào có thể thực hiện hoàn hảo điều này
2.3.2 Tổng hợp mức thấp
Tổng hợp mức thấp là quá trình kết hợp các đoạn tín hiệu (ví dụ như diphone) Các đoạn tín hiệu này đã được phân tích, xử lý qua mức cao (xử lý văn bản, ngữ điệu)
Đối với phương pháp tổng hợp bằng cách mô phỏng hệ thống phát âm của con người thì sự chọn lựa dữ liệu và thực thi các luật là rất phức tạp Hầu như không thể
mô phỏng dưới dạng mô hình khối, sự chuyển động của lưỡi một cách hoàn hảo Lúc này, sự có mặt của máy tính đã trợ giúp một phần đáng kể
Với tổng hợp formant thì tập luật để điều khiển tần số cơ bản, biên độ và đặc trưng của tín hiệu nguồn lại rất lớn Vì vậy, làm mất đi tính tự nhiên vốn có Đặc biệt, âm mũi được xem là một vấn đề lớn đối với tổng hợp formant
Còn với tổng hợp ghép nối thì việc thu thập các mẫu tín hiệu và gán nhãn mất rất nhiều thời gian, và có thể làm cho cơ sở dữ liệu rất lớn Tuy nhiên số lượng dữ liệu có thể giảm xuống đáng kể nếu sử dụng những phương pháp nén dữ liệu thích hợp Bên cạnh đó sự không đồng bộ các điểm ghép nối cũng có thể làm tín hiệu tổng hợp bị méo Đối với những đơn vị ghép nối dài như từ hoặc âm vị thì hiệu quả kết hợp là một vấn đề, ngoài ra bộ nhớ và hệ thống cũng là một khó khăn cần giải quyết
Trang 22Nghiên cứu về tổng hợp tiếng nói có cảm xúc
• Khoang mũi là ống không đều bắt đầu từ môi, kết thúc bởi vòm miệng, có
độ dài cố định khoảng 12cm đối với người lớn
• Vòm miệng là các nếp cơ chuyển động
Hình 2.3: Bộ máy phát âm của con người
2.4.2 Cơ chế phát âm
Trong quá trình tạo âm thanh không phải là âm mũi, vòm miệng mở, khoang mũi đóng lại, dòng khí sẽ chỉ đi qua khoang mũi Khi phát âm mũi, vòm miệng hạ thấp và dòng khí sẽ chỉ đi qua khoang mũi
Tuyến âm sẽ được kích thích bởi nguồn năng lượng chính tại thanh môn Tiếng nói được tạo ra do tín hiệu nguồn từ thanh môn phát ra, đẩy không khí có trong phổi lên tạo thành dòng khí, va chạm vào hai dây thanh trong tuyến âm Hai dây thanh dao động sẽ tạo ra cộng hưởng, dao động âm sẽ được lan truyền theo tuyến âm (tính từ tuyến âm đến khoang miệng) và sau khi đi qua khoang mũi và môi, sẽ tạo ra tiếng nói
2.5 Đặc tính âm học của tiếng nói
2.5.1 Âm hữu thanh
Âm hữu thanh được tạo ra từ các dây thanh bị căng đồng thời và chúng rung động ở chế độ dãn khi không khí tăng lên làm thanh môn mở ra và sau đó thanh
Trang 23Nghiên cứu về tổng hợp tiếng nói có cảm xúc
môn xẹp xuống do không khí chạy qua Do sự cộng hưởng của dây thanh, sóng âm tạo ra có dạng tuần hoàn hoặc gần như tuần hoàn Phổ của âm hữu thanh có nhiều thành phần tại giá trị bội số của tần số cộng hưởng, còn gọi là tần số cơ bản (pitch)
2.5.2 Âm vô thanh
Khi tạo ra âm vô thanh dây thanh không cộng hưởng Âm vô thanh có hai loại
cơ bản là âm xát và âm tắc
Âm xát (ví dụ như âm s) được tạo ra khi có sự co thắt tại vài điểm trong tuyến
âm Không khí khi đi qua điểm co thắt sẽ chuyển thành chuyển động hỗn loạn tạo nên kích thích giống như nhiễu ngẫu nhiên Thông thường điểm co thắt xảy ra gần miệng nên sự cộng hưởng của tuyến âm ảnh hưởng rất ít đến đặc tính của âm xát được tạo ra
Âm tắc (ví dụ như âm p) được tạo ra khi tuyến âm đóng tại một số điểm làm cho áp suất không khí tăng lên và sau đó được giải phóng đột ngột Sự giải phóng đột ngột này tạo ra kích thích nhất thời của tuyến âm Sự kích thích này có thể xảy
ra với sự cộng hưởng hoặc không cộng hưởng của dây thanh tương ứng với âm tắc hữu thanh hoặc vô thanh
2.5.3 Âm vị
Tín hiệu tiếng nói là tín hiệu tương tự biểu diễn cho thông tin về mặt ngôn ngữ
và được mô tả bởi các âm vị khác nhau Như vậy, âm vị là đơn vị nhỏ nhất của ngôn ngữ Tuỳ theo từng ngôn ngữ cụ thể mà số lượng các âm vị nhiều hay ít (thông thường số lượng các âm vị vào khoảng 20 – 30) Các âm vị được chia thành hai loại: nguyên âm và phụ âm
2.5.3.1 Nguyên âm
Nguyên âm là âm hữu thanh được tạo ra bằng sự cộng hưởng của dây thanh khi dòng khí được thanh môn đẩy lên Khoang miệng được tạo lập thành nhiều hình dạng nhất định tạo thành các nguyên âm khác nhau Số lượng các nguyên âm phụ thuộc vào từng ngôn ngữ nhất định
Trang 24Nghiên cứu về tổng hợp tiếng nói có cảm xúc
2.5.3.2 Phụ âm
Phụ âm được tạo ra bởi các dòng khí hỗn loạn được phát ra gần những điểm
co thắt của đường dẫn âm thanh do cách phát âm tạo thành Phụ âm có đặc tính hữu thanh hay vô thanh tuỳ thuộc vào việc dây thanh có dao động để tạo nên cộng hưởng không Dòng không khí tại chỗ đóng của vòm miệng tạo ra phụ âm tắc Phụ
âm xát được phát ra từ chỗ co thắt lớn nhất
2.5.4 Các đặc tính khác
2.5.4.1 Tỷ suất thời gian
Trong khi nói chuyện, khoảng thời gian nói và khoảng thời gian nghỉ xen kẽ nhau Tỷ lệ % thời gian nói trên tổng số thời gian nói và nghỉ được gọi là tỷ suất thời gian Giá trị này biến đổi tuỳ thuộc vào tốc độ nói và từ đó ta có thể phân loại thành nói nhanh, nói chậm hay nói bình thường
2.5.4.2 Hàm năng lượng ngắn hạn
Hàm năng lượng thời gian ngắn của tiếng nói được tính bằng cách chia tín hiệu tiếng nói thành nhiều khung, mỗi khung chứa N mẫu Các khung này được đưa qua một cửa sổ có dạng hàm như sau:
*)({
N n
n
W
m n x
Thông thường có ba dạng cửa sổ được sử dụng đó là cửa sổ Hamming, cửa sổ Hanning và cửa sổ chữ nhật Hàm năng lượng thời gian ngắn của âm hữu thanh thường lớn hơn so với âm vô thanh
2.5.4.3 Tần số cơ bản
Dạng sóng của tiếng nói gồm hai phần: Phần gần giống nhiễu (trong đó biên
độ biến đổi ngẫu nhiên) và phần có tính chu kỳ (trong đó tín hiệu lặp lại gần như tuần hoàn) Phần tín hiệu có tính chu kỳ chứa các thành phần tần số có dạng điều
Trang 25Nghiên cứu về tổng hợp tiếng nói có cảm xúc
hòa Tần số thấp nhất chính là tần số cơ bản và cũng chính là tần số dao động của dây thanh Đối với những người nói khác nhau, tần số cơ bản cũng khác nhau Dưới đây là một số giá trị tần số cơ bản tương ứng với giới tính và tuổi:
Giá trị tần số cơ bản Người nói
Tần số formant biến đổi trong một khoảng rộng phụ thuộc vào giới tính của người nói và phụ thuộc vào các dạng âm vị tương ứng với formant đó Đồng thời, formant còn phụ thuộc các âm vị trước và sau đó Về cấu trúc tự nhiên, tần số formant có liên hệ chặt chẽ với hình dạng và kích thước tuyến âm Thông thường phổ của tín hiệu tiếng nói có khoảng 5 formant nhưng chỉ có 3 formant đầu tiên ảnh hưởng quan trọng đến các đặc tính của các âm vị, các formant còn lại cũng có ảnh hưởng song rất ít
Tần số formant đặc trưng cho các nguyên âm biến đổi tuỳ thuộc vào người nói trong điều kiện phát âm nhất định Mặc dù phạm vi của các tần số formant tương ứng với mỗi nguyên âm có thể trùm lên nhau nhưng vị trí giữa các formant là không đổi vì sự xê dịch của các formant là song song
2.6 Đặc điểm của thanh điệu tiếng Việt
Đối với bài toán TTS, tiếng Việt so với các ngôn ngữ khác có rất nhiều thuận lợi Mỗi cách viết chỉ có duy nhất một cách đọc Tuy nhiên, một trong những khó
Trang 26Nghiên cứu về tổng hợp tiếng nói có cảm xúc
khăn lớn nhất của tiếng Việt chính là vấn đề thanh điệu Việc mỗi nguyên âm có 6 thanh (ngang, sắc, huyền, ngã, hỏi, nặng) lại làm cho việc tổng hợp gặp những khó khăn khác Việc đọc không dấu chúng ta hầu hết có thể hiểu được nhưng như vậy vẫn có thể gây ra những hiểu lầm Tuy nhiên, nếu ta đã sinh được sóng âm cho tiếng Việt không dấu, thì ta có thể biến đổi sóng âm đó để thu được sóng âm thể hiện tiếng Việt có dấu
Một âm tiết tiếng Việt khi đọc có 5 loại âm thanh: âm đầu (phụ âm), âm trung bình (bán nguyên âm), âm trung tâm (nguyên âm hoặc nguyên âm đôi), âm cuối (nguyên âm hoặc bán nguyên âm) và thanh điệu (dấu) Khi thay các thanh điệu vào cùng từ, giá trị F0 thay đổi như sau: [3]
Với thanh ngang, giá trị F0 bắt đầu lớn nhất và duy trì cho tới khi kết thúc
Thanh hỏi giá trị F0 giảm dần đến khoảng 2/3 giá trị F0 ban đầu rồi tăng trở lại
Thanh sắc giá trị F0 giữ ổn định trong khoảng 2/3 thời gian của âm tiết rồi sau đó tăng nhanh
Thanh nặng giá trị F0 giảm nhanh và thời gian kéo dài thường chỉ bằng 2/3 thời gian các thanh khác
Dưới đây là đồ thị mô tả sự biến thiên của giá trị F0 các thanh và ví dụ với việc ghi âm chữ “chi” cùng với 6 thanh lần lượt là ngang, huyền, ngã, hỏi, sắc, nặng [14]
Trang 27Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Hình 2.4: Sự thay đổi F0 của các thanh
Hình 2.5: Sự thay đổi của F0 khi các thanh đi với chữ “Chi”
2.7 Một số phương pháp tổng hợp tiếng nói
Một số các phương pháp tổng hợp tiếng nói là:
Phương pháp tổng hợp dựa trên hệ luật: phương pháp Formant
Phương pháp tổng hợp bằng ghép nối:
- Phương pháp tổng hợp bằng ghép nối Phones
- Phương pháp tổng hợp bằng ghép nối nửa Phones
- Phương pháp tổng hợp bằng ghép nối Diphone
Trang 28Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Phương pháp tổng hợp dựa trên mô hình
- Phương pháp tổng hợp dựa trên mô hình Markov ẩn (HMM)
- Phương pháp tổng hợp dựa trên mô hình âm tiếng nói và nhiễu (Harmonic plus Noise – HNM)
Phương pháp tổng hợp dựa trên mô phỏng phát âm
Phương pháp tổng hợp LPC
2.7.1 Phương pháp tổng hợp Formant
Phương pháp này còn có tên gọi khác là phương pháp tổng hợp dựa trên hệ luật (rule-based) Đây là phương pháp không dựa vào những đoạn tiếng nói đã thu sẵn của con người Phương pháp tổng hợp Formant sẽ sử dụng tiếng nói tổng hợp được tạo ra dựa trên cơ sở lý thuyết âm học của quá trình tạo tiếng nói Phổ biến nhất hiện nay chính là mô hình nguồn âm bộ lọc (source-filter model) để tạo ra được tín hiệu tiếng nói
Formant là một sự cộng hưởng âm thanh Ở đây chúng ta có thể hiểu tín hiệu tiếng nói là kết quả của nguồn kích hữu thanh hoặc vô thanh được cộng hưởng hay phản cộng hưởng của tuyến âm, sau đó ảnh hưởng bởi sự tán xạ của tiếng nói qua môi và mũi
Phương pháp tổng hợp Formant đầu tiên được Walter Lawrence đưa vào năm
1953, phương pháp này được sử dụng 3 Formant được nối song song 3 Formant cũng là số lượng formant tối thiểu để có thể tạo ra một tiếng nói nghe được Dưới đây là mô hình 3 formant được ghép nối tiếp [15]
Hình 2.6: Mô hình 3 formant nối tiếp
Đầu vào mô hình này là 12 tham số: Tần số chung (F0), 3 tần số của các formant và 3 biên độ của các formant, cường độ của tần số thấp, cường độ của tần
số cao,… Do có nhiều tham số nên việc điều khiển rất phức tạp Tuy vậy phương
Trang 29Nghiên cứu về tổng hợp tiếng nói có cảm xúc
pháp này mới chỉ đưa ra được một tiếng nói có chất lượng nghe được Tiếng nói vẫn còn rời rạc, không trơn tru, liền mạch hay nói cách khác là không tự nhiên
Năm 1980, Dennis Klatt đã đưa ra một mô hình phức tạp gồm 5 formant và cần tới 39 tham số điều khiển và được cập nhật 5 mili giây một lần Dưới đây là mô hình được Kaltt đưa ra [15]:
Hình 2.7: Mô hình 5 formant của Klatt
Cho đến nay, đây vẫn là mô hình tốt nhất cho phương pháp này Phương pháp formant có những đặc điểm nổi trội so với các phương pháp khác là không cần phải lưu trữ cơ sở dữ liệu, thời gian tổng hợp là rất nhanh Đây là phương pháp hiện nay rất thích hợp cho những ứng dụng trên các thiết bị như PDA, PC Pocket vì đặc điểm của những thiết bị này là phần cứng yếu
Tuy nhiên, phương pháp này về mặt chất lượng của tiếng nói vẫn không tốt Tiếng nói vẫn bị rời rạc, không tự nhiên Hơn nữa, phương pháp này rất khó xây dựng Ta cần phải có một sự hiểu biết sâu sắc về mặt âm học mới có thể thực hiện được phương pháp này
2.7.2 Các phương pháp tổng hợp bằng ghép nối
Trong các phương pháp này, tiếng nói sẽ được tổng hợp từ các đoạn tiếng nói nhỏ hơn đã được lưu trữ sẵn trong cơ sở dữ liệu Đối với tiếng Việt, đó có thể là: phone, diphone, tiếng, …
Trang 30Nghiên cứu về tổng hợp tiếng nói có cảm xúc
2.7.2.1 Phương pháp tổng hợp bằng ghép nối các tiếng
Rõ ràng đây là một phương án không khả thi, đối với tiếng Việt, số lượng tiếng là rất lớn, điều này làm cho cơ sở dữ liệu phải lưu trữ là rất lớn Một nhược điểm nữa của cách làm này là giữa các tiếng sẽ không có độ trơn, do các tiếng được thu riêng biệt tại các thời điểm khác nhau
2.7.2.2 Phương pháp tổng hợp bằng ghép nối các Phone
Phone: Là âm vị hay chính là đơn vị âm nhỏ nhất tạo ra tiếng nói Thông thường đối với mỗi ngôn ngữ thì mỗi chữ cái trong bảng chữ cái là một phone Trong tiếng Việt, ngoài các phone là chữ cái ra còn có các phone là tổ hợp của các chữ cái như: th; gh; kh; gi; nh; ng; ngh… Âm câm (silence) có thể coi là một phone đặc biệt Thông thường mỗi âm vị có một cách đọc riêng, tuy nhiên không phải mỗi cách đọc chỉ tương ứng với một âm vị Trong tiếng Việt, một số âm vị có cách đọc giống nhau tuy cách viết khác nhau (chẳng hạn: ng và ngh, i và y, g và gh… )
Số lượng phone của tiếng Việt có dấu là 95 phone và cơ sở dữ liệu của ta chỉ cần
bao gồm 95 phone này Có thể thấy ngay cơ sở dữ liệu nhỏ là một ưu điểm lớn của phương pháp này
Tuy vậy, chất lượng tiếng nói tổng hợp của phương pháp này lại không cao Hãy xét ví dụ cần tổng hợp câu “Hai bạn đó hát hay” Từ “hai” được ghép từ các phone “h”, “a”, “i” Từ “hay” được ghép từ các phone “h”, “a”, “y” Rõ ràng trong
cơ sở dữ liệu cách đọc các phone, “h”, “a”, “i”, “y” thì phone “i” và phone “y” có cách đọc giống hệt nhau nhưng khi ghép với các phone khác lại cho ta hai cách đọc hoàn toàn khác nhau Cách tổng hợp này đã không đạt được yêu cầu đầu tiên của một hệ thống tổng hợp tiếng nói là “tiếng nói sinh ra phải hiểu được”, nó đã làm thay đổi hoàn toàn ý nghĩa của văn bản
2.7.2.3 Phương pháp tổng hợp bằng ghép nối Diphone
Đây là phương pháp được phát triển từ những năm 70 của thế kỷ trước Cho tới nay, phương pháp này là một trong những phương pháp hiệu quả nhất và đã được ứng dụng rộng rãi cho nhiều ngôn ngữ
Trang 31Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Diphone: Một diphone được bắt đầu từ điểm giữa của phone trước đến điểm giữa của phone sau trong hai phone đứng cạnh nhau của một cặp phone Với một từ
có thể có một, hai hoặc nhiều diphone Ví dụ như từ ba chỉ có một diphone là b – a nhưng từ ban có hai diphone là b – a và a – n Các từ chỉ có một phone được coi là một diphone của phone đó với âm câm, chẳng hạn từ a được coi là một diphone của asilence
Phương pháp tổng hợp diphone được thực hiện theo 4 bước:
Liệt kê tất cả các phone và các đặc tính của các phone này
Liệt kê tất cả các cách ghép nối các cặp phone-phone để tạo thành diphone Do có những cặp phone-phone không xuất hiện nên số lượng diphone khôngbao giờ quá bình phương số lượng phone
Xây dựng cơ sở dữ liệu cách đọc cho các diphone này
Ghép nối các diphone: đây chính là quá trình quan trọng nhất của phương pháp này Ở đây, thuật toán thường dùng nhất là đồng bộ điểm pitch
a Điểm pitch
Điểm pitch (pitch mark) là điểm có tần số là cực đại địa phương trên một sóng
âm Dưới đây là hình ảnh ví dụ về điểm pitch trong phone /u/ [13]
Hình 2.8: Điểm pitch trong phone
Trang 32Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Giữa hai diphone gần ghép nối với nhau, bao giờ ta cũng có một phone giống nhau ví dụ như “a – b” và “b – c” Việc chúng ta cần làm là chỉnh sửa sóng âm của phone “b” ở diphone thứ nhất hoặc diphone thứ hai hoặc cả hai diphone sau cho chúng có thể chồng khít được lên nhau [13]
Hình 2.9: Ghép nối 2 diphone
Việc ghép nối 2 diphone được thực hiện bằng thuật toán PSOLA (Pitch Synchronous Overlap – Add) được gọi là đồng bộ điểm pitch
b Đồng bộ điểm pitch theo miền thời gian TD_PSOLA
Người ta đã phát triển nhiều phiên bản của thuật toán PSOLA như: PSOLA (time domain pitch synchronous overlap – add), MBROLA (multi band overlap add), LP-PSOLA (linear pitch synchronous overlap – add) Tất cả các phiên bản này đều có một ý tưởng chung là sửa đổi trực tiếp sóng âm thanh mà không sử dụng các thông số nào của nó
Thuật toán TD-PSOLA được hãng truyền thông Pháp phát triển vào đầu những năm 1990 và dựa trên ý tưởng: “ Nếu x(n) tuần hoàn trong khoảng [−∞, +∞] thì ta có thể tạo ra một sóng mới s(n) từ x(n) với các điểm pitch được dịch chuyển
từ T0 về T mà ta mong muốn Thuật toán được thể hiện bởi công thức biến đổi:
))(
()
(
)(
)()(
0
0
T T i n S n
S
iT n w n x n S
Trang 33Nghiên cứu về tổng hợp tiếng nói có cảm xúc
sóng cũ và sóng mới Cách làm này người ta đã chứng minh được là biên độ sóng không bị thay đổi trong quá trình biến đổi sóng [15]
Hình 2.10: Thuật toán TD-PSOLA
Trong hình trên, tín hiệu ở phía bên trái được giãn ra để khớp với các điểm pitch mong muốn Các hình bên phải là biên độ tương ứng và ta có thể nhận thấy biên độ này không bị thay đổi
2.7.3 Phương pháp mô phỏng bộ máy phát âm
Tổng hợp mô phỏng phát âm là các kỹ thuật tổng hợp giọng nói dựa trên mô hình máy tính của cơ quan phát âm của người và quá trình phát âm xảy ra tại đó Hệ thống tổng hợp mô phỏng phát âm đầu tiên là ASY được phát triển ở phòng thí nghiệm Haskins vào giữa những năm 1970 bởi Philip Rubin, Tom Baer, và Paul Mermelstein Tổng hợp mô phỏng phát âm đã từng chỉ là hệ thống dành cho nghiên cứu khoa học cho mãi đến những năm gần đây Lý do là rất ít mô hình tạo ra âm thanh chất lượng đủ cao hoặc có thể chạy hiệu quả trên các ứng dụng thương mại Một ngoại lệ là hệ thống dựa trên NEXT; vốn được phát triển và thương mại hóa bởi Trillium Sound Research Inc, Canada Hệ thống tạo ra một máy tổng hợp giọng nói dựa trên mô phỏng phát âm hoàn chỉnh, dựa trên mô hình ống dẫn sóng tương đương với cơ quan phát âm của người Nó được điều khiển bởi Mô hình Phần Riêng biệt của Carré; bản thân mô hình này lại dựa trên công trình của Gunnar Fant và các người khác ở Phòng thí nghiệm Công nghệ Giọng nói Stockholm thuộc Viện Cộng nghệ Hoàng gia Thụy Điển về tổng hợp giọng nói cộng hưởng tần số Công trình
Trang 34Nghiên cứu về tổng hợp tiếng nói có cảm xúc
này cho thấy các cộng hưởng tần số trong ống cộng hưởng có thể được điều khiển bằng cách thay đổi tám tham số tương đồng với các cách phát âm tự nhiên của cơ quan phát âm của người Hệ thống bao gồmmột từ điển phát âm cùng với các quy tắc phát âm tùy thuộc ngữ cảnh để giúp ghép nối âm điệu và tạo ra các tham số phát âm; mô phỏng theo nhịp điệu và ngữ điệu thu được từ các kết quả nghiên cứu ngữ
Khối tạo xung: khối này dùng để tạo các tín hiệu tuần hoàn
Khối tạo tạp âm: khối này dùng để tạo các tín hiệu không tuần hoàn
Khối A: là khối thay đổi biên độ
Bộ lọc bậc p xác định các tham số a1ap theo tiêu chí tối thiểu hoá bình phương toàn phần của lỗi tiên đoán tuyến tính
Phương pháp này được thực hiện tự động 100% do có tiêu chí xác định các hệ số ai Tuy nhiên nhược điểm của phương pháp này là chất lượng tổng hợp âm mũi kém do LPC chỉ dựa trên mô hình toàn điểm cực, không có điểm không (tức là chỉ
có khoang miệng mà không có khoang mũi), do đó chỉ áp dụng với khoang miệng
Trang 35Nghiên cứu về tổng hợp tiếng nói có cảm xúc
2.8 Kết luận và so sánh các phương pháp tổng hợp
Sau khi giới thiệu về các đặc điểm cơ bản của tiếng nói tiếng việt và các phương pháp tổng hợp, ta có thể đưa ra một số nhận xét về chất lượng tiếng nói, chi phí tính toán và kích thước dữ liệu của các phương pháp này
Về chất lượng tiếng nói tổng hợp: Trong các phương pháp trên thì phương pháp
mô phỏng bộ máy phát âm về nguyên tắc sẽ cho chất lượng tiếng nói tốt nhất Để đạt được điều này thì vấn đề quan trọng là làm sao để mô phỏng chính xác bộ máy phát âm của con người Công việc này hoàn toàn không đơn giản, mặc dù đã
có sự trợ giúp của máy tính nhưng do cấu trúc phức tạp của bộ máy phát âm nên chi phí tính toán sẽ rất lớn Trong các phương pháp còn lại thì thực tế cho thấy phương pháp ghép nối thường cho chất lượng tốt hơn
Về hiệu quả tính toán: Rõ ràng là phương pháp mô phỏng bộ máy phát âm đòi hỏi chi phí tính toán lớn nhất vì phải mô phỏng một cách chính xác nhất bộ máy phát âm phức tạp của con người Các phương pháp còn lại có chi phí tính toán thấp hơn do đặc điểm các thuật toán được sử dụng
Về kích thước dữ liệu: Phương pháp ghép nối có kích thước dữ liệu lớn nhất do
số lượng từ vựng là rất lớn Các phương pháp còn lại do không phải lưu trữ các mẫu nên có kích thước dữ liệu nhỏ hơn
Qua những nhận xét trên thì khó khăn lớn nhất của phương pháp mô phỏng bộ máy phát âm là làm sao để mô phỏng chính xác bộ máy phát âm của con người Với phương pháp tổng hợp bằng formant thì vấn đề cần giải quyết là chất lượng tiếng nói tổng hợp Còn với phương pháp tổng hợp ghép nối thì có ưu điểm là chi phí tính toán không cao và chất lượng khá tốt, khó khăn lớn nhất là giảm kích thước dữ liệu Khó khăn này, như đã trình bày, có thể khắc phục bằng cách tổng hợp tiếng nói từ những đơn vị nhỏ hơn từ như âm vị,diphone
Với mục đích nghiên cứu việc tổng hợp tiếng Việt và dựa trên những đặc điểm của các phương pháp tổng hợp, thì việc sử dụng phương pháp tổng hợp bằng ghép nối cho tiếng Việt là tối ưu Trong số những phương pháp dùng để tổng hợp bằng ghép nối thì TD-PSOLA là phương pháp được sử dụng rộng rãi nhất với ưu điểm là chi phí tính toán thấp và giữ nguyên được nhiều thông tin trong tiếng nói do thao tác trực tiếp với tín hiệu trên miền thời gian
Trang 36Nghiên cứu về tổng hợp tiếng nói có cảm xúc
CHƯƠNG 3 - NGHIÊN CỨU CẢM XÚC TRONG TIẾNG NÓI
3.1 Cảm xúc trong tiếng nói
3.1.1 Định nghĩa
Cảm xúc là sự phản ứng về mặt tinh thần của con người đối với những hiện tượng diễn ra xung quanh, có liên quan đến việc thỏa mãn hay không thỏa mãn những nhu cầu cá nhân Cảm xúc có đặc điểm là mang tính chất chủ quan, trước cùng một sự việc, có thể nảy sinh những cảm xúc khác nhau từ những người khác nhau Nhận biết được cảm xúc của một người không những có thể đem lại thông tin
và tình trạng hiện tại, mà cùng với những thống kê tuần suất, thời gian còn có thể giúp phán đoán phần nào về tính cách con người đó
Cảm xúc là thuật ngữ dùng để chỉ các trải nghiệm chủ động và có ý thức thường được thể hiện bởi các biểu hiện tâm lý, phản ứng sinh học hay trạng thái tinh thần Cảm xúc thường bị tác động và có liên hệ với tâm trạng, tính khí, tính cách cá nhân cũng như chịu ảnh hưởng bởi hóc-môn và các chất kích thích thần kinh Cảm xúc con người thường là nhân tố đằng sau quyết định tới động cơ, động lực của hành động, dù tích cực hay tiêu cực
3.1.2 Đặc điểm của cảm xúc
3.1.2.1 Cảm xúc biểu hiện bề ngoài rất rõ ràng
Cảm xúc thể hiện qua cử chỉ, hành vi, điệu bộ và cả những phản ứng về mặt sinh lý Những biểu hiện này có thể thấy thông qua quan sát trực tiếp Chúng ta có thể nhận biết được người khác đang vui, buồn, giận dữ, sợ hãi, ngạc nhiên hay
“mừng mừng tủi tủi”… Tuỳ theo loại cảm xúc mà dấu hiệu bộc lộ sẽ khác nhau
Trang 37Nghiên cứu về tổng hợp tiếng nói có cảm xúc
Hình 3.1: Các biểu lộ cảm xúc
3.1.3 Phân loại cảm xúc
Cảm xúc, tình cảm là vấn đề được nhiều nhà tâm lý học quan tâm nghiên cứu
Vì thế, cũng có nhiều quan điểm khác nhau về số lượng các loại cảm xúc Về cơ bản thì được chia ra làm hai mô hình cảm xúc như sau:
Mô hình cảm xúc nguyên tố: được đề xuất bởi Paul Ekman từ thập kỉ 70 của thế kỉ trước, cho rằng cảm xúc là rời rạc, có thể đo đạc được và độc lập về mặt sinh lý Nghiên cứu thành công nhất của Ekman đó là tìm ra rằng có các loại
Trang 38Nghiên cứu về tổng hợp tiếng nói có cảm xúc
cảm xúc xác định có thể nhận biết một cách độc lập, cho dù văn hóa nào đó không quen thuộc với biểu lộ đó Các nghiên cứu của ông dẫn đến phân loại cảm xúc thành 6 cảm xúc cơ bản: tức giận (anger), ghét bỏ (disgust), lo sợ (fear), vui vẻ (happiness), buồn dầu (sadness), bất ngờ (surprise)
Vui vẻ (happiness) Buồn rầu (sadness) Lo sợ (fear)
Tức giận (anger) Bất ngờ (surprise) Ghét bỏ (disgust)
Hình 3.2: Các cảm xúc cơ bản trong mô hình cảm xúc nguyên tố
Mô hình cảm xúc nhiều chiều: Cho tới gần đây với sự tiến bộ của khoa học kĩ thuật, các phát hiện về gen, thần kinh và tâm lý học đã cho thấy mô hình cảm xúc nguyên tố còn nhiều giới hạn Mô hình cảm xúc theo chiều đã ra đời, cho rằng tất cả các trạng thái cảm xúc đều sinh ra từ hai hệ thống thần kinh sinh lý
cơ bản tách biệt, một liên quan tới trạng thái biểu cảm tích cực hay tiêu cực (Valence) và hệ thống còn lại liên quan tới độ tỉnh táo (Arousal) Mỗi cảm xúc
của con người có thể hiểu là sự kết hợp tuyến tính của 2 chiều này
3.1.4 Vai trò của cảm xúc
3.1.4.1 Cảm xúc giúp con người thích ứng với hoàn cảnh
Khi vui, buồn, giận dữ… đã tạo ra những biến đổi cả về tâm sinh lý làm phá
vỡ trạng thái cân bằng vốn có, tạo cảm giác thoải mái hay khó chịu cho bản thân Cảm xúc giúp cho con người lấy lại trạng thái cân bằng về mặt tâm lý Cảm xúc đã giúp ta thích ứng với hoàn cảnh sống
Trang 39Nghiên cứu về tổng hợp tiếng nói có cảm xúc
3.1.4.2 Cảm xúc gắn liền với nhu cầu và việc thoả mãn nhu cầu của chủ thể
Trạng thái thiếu hụt sẽ dẫn đến những đòi hỏi cần phải thoả mãn để tồn tại và phát triển làm xuất hiện nhu cầu Nhu cầu được thoả mãn sẽ nảy sinh cảm xúc tích cực (dương tính), ngược lại nhu cầu không được thoả mãn sẽ nảy sinh cảm xúc tiêu cực (âm tính)
3.2 Cảm xúc của tiếng nói trong lĩnh vực xử lý tiếng nói
Tổng hợp tiếng nói rất cần thiết trong nhiều lĩnh vực ứng dụng như: hệ thống giao tiếp người máy (máy đáp ứng bằng tiếng nói), các hệ thống hỗ trợ tra cứu thông tin qua điện thoại, các hệ thống ứng dụng cho người khiếm thị, các hệ thống thông báo tự động, phần mềm dạy ngoại ngữ,… Hiện nay, điểm hạn chế chủ yếu trong lĩnh vực tổng hợp tiếng nói là vấn đề xử lý về ngữ điệu (cảm xúc) Ngữ điệu trong tiếng nói tự nhiên có sự biến đổi lên xuống của giọng nói, các khoảng ngừng nghỉ giữa các ý, các từ có ý nghĩa quan trọng trong câu được nhấn mạnh hơn giúp người nghe dễ dàng hiểu được thông điệp Ngữ điệu trong tổng hợp tiếng nói nhân tạo thường gây nhàm chán và khó khăn cho người nghe trong việc lĩnh hội Vì vậy, ngữ điệu là yếu tố đặc biệt quan trọng quyết định chất lượng của tiếng nói tổng hợp
3.2.1 Ngữ điệu tiếng nói trong các ngôn ngữ nói chung
Mỗi ngôn ngữ đều có giọng điệu riêng của riêng mình Không có ngôn ngữ nào lại được nói ra với cùng một cung bậc trạng thái cảm xúc trong mọi lúc Tiếng Việt cũng vậy, khi một câu phát ra, trong đó không chỉ bao gồm các tiếng “tròn vành rõ chữ” với một thanh điệu nhất định, một tốc độ hay một cường độ không
Trang 40Nghiên cứu về tổng hợp tiếng nói có cảm xúc
đổi… đó chính là ngữ điệu Không có ngữ điệu, rõ ràng ngôn ngữ không thực hiện được chức năng giao tiếp của mình, ngữ điệu làm cho người nghe dễ tiếp nhận, dễ hiểu điều người nói muốn nói Việc tiếp thu và thể hiện ngữ điệu ngoại ngữ của hầu hết mọi người, nhất là những người có ngôn ngữ khác loại hình với ngoại ngữ đó là cực kì khó khăn, vì vậy ngữ điệu được coi là đặc thù của một ngôn ngữ
Định nghĩa về ngữ điệu (Intonation)
Không có định nghĩa nào hoàn toàn thỏa đáng cho ngữ điệu Tuy vậy theo nghiên cứu của một số tác giả thì có thể quy vào hai nhóm quan niệm chính như sau [4]:
Thứ nhất, ngữ điệu là hiện tượng được cấu tạo bởi sự tổng hòa của nhiều nhân tố lời nói Ngữ điệu được coi là sự biến đổi về cao độ, cường độ và trường độ của
âm thanh và sự chuyển biến của giọng nói Quan điểm này cũng có thể tìm thấy ở
một số nhà ngữ âm phương Tây, chẳng hạn Kingdon R (1958) xác định “Ngữ
điệu được làm nên bởi các phương tiện như nhóm từ, chỗ ngừng, tốc độ nói, chất giọng và sự thay đổi nhẹ nhàng của cao độ và thanh điệu (thanh điệu không với nghĩa như thanh điệu trong tiếng Việt mà đơn giản là diễn biến của cao độ).”
Thứ hai, ngữ điệu là một hiện tượng gắn liền trước hết với sự biến đổi của cao độ
và có quan hệ với trọng âm Nhóm quan niệm này thường thấy trong các công trình của giới ngữ học phương Tây xuất hiện khá sớm Amstrong L E và Ward
I C (1926) đã khẳng định “Ngữ điệu là sự lên xuống của cao độ giọng khi chúng
ta nói” Sau này, các tên tuổi khác trong ngữ giới học liên quan đến ngữ điệu đều
dựa vào khung lí thuyết mà những người đi trước đã xác lập về cao độ (sự rung động của dây thanh), cường độ (trọng âm) và trường độ (thời gian) để tiếp tục phát hiện thêm những yếu tố cấu thành ngữ điệu, các đơn vị ngữ điệu, các đường nét và mô hình ngữ điệu…
Cao độ đơn giản là độ cao thấp của âm thanh do tần số dao động quyết định Cao độ của tiếng nói con người do sự rung động của dây thanh dưới tác động của luồng không khí từ phổi lên tạo ra Chuỗi lời nói mà con người phát ra như những nốt nhạc khác nhau, tạo thành giai điệu (melody) Sự lên xuống của giọng nói kết