Ngữ điệu tiếng nói trong các ngôn ngữ nói chung- 123docz.net

Mỗi ngôn ngữ đều có giọng điệu riêng của riêng mình. Không có ngôn ngữ nào lại được nói ra với cùng một cung bậc trạng thái cảm xúc trong mọi lúc. Tiếng Việt cũng vậy, khi một câu phát ra, trong đó không chỉ bao gồm các tiếng “tròn vành rõ chữ” với một thanh điệu nhất định, một tốc độ hay một cường độ không

Nghiên cứu về tổng hợp tiếng nói có cảm xúc

đổi… đó chính là ngữđiệu. Không có ngữđiệu, rõ ràng ngôn ngữ không thực hiện được chức năng giao tiếp của mình, ngữ điệu làm cho người nghe dễ tiếp nhận, dễ hiểu điều người nói muốn nói. Việc tiếp thu và thể hiện ngữđiệu ngoại ngữ của hầu hết mọi người, nhất là những người có ngôn ngữ khác loại hình với ngoại ngữđó là cực kì khó khăn, vì vậy ngữđiệu được coi là đặc thù của một ngôn ngữ.

Định nghĩa về ngữ điệu (Intonation)

Không có định nghĩa nào hoàn toàn thỏa đáng cho ngữ điệu. Tuy vậy theo nghiên cứu của một số tác giả thì có thể quy vào hai nhóm quan niệm chính như sau [4]:

 Thứ nhất, ngữđiệu là hiện tượng được cấu tạo bởi sự tổng hòa của nhiều nhân tố lời nói. Ngữ điệu được coi là sự biến đổi về cao độ, cường độ và trường độ của âm thanh và sự chuyển biến của giọng nói. Quan điểm này cũng có thể tìm thấy ở một số nhà ngữ âm phương Tây, chẳng hạn Kingdon R. (1958) xác định “Ngữ điệu được làm nên bởi các phương tiện như nhóm từ, chỗ ngừng, tốc độ nói, chất giọng và sự thay đổi nhẹ nhàng của cao độ và thanh điệu (thanh điệu không với nghĩa như thanh điệu trong tiếng Việt mà đơn giản là diễn biến của cao độ).”

 Thứ hai, ngữđiệu là một hiện tượng gắn liền trước hết với sự biến đổi của cao độ và có quan hệ với trọng âm. Nhóm quan niệm này thường thấy trong các công trình của giới ngữ học phương Tây xuất hiện khá sớm. Amstrong L. E. và Ward I. C. (1926) đã khẳng định “Ngữđiệu là sự lên xuống của cao độ giọng khi chúng ta nói”. Sau này, các tên tuổi khác trong ngữ giới học liên quan đến ngữđiệu đều dựa vào khung lí thuyết mà những người đi trước đã xác lập về cao độ (sự rung động của dây thanh), cường độ (trọng âm) và trường độ (thời gian) để tiếp tục phát hiện thêm những yếu tố cấu thành ngữđiệu, các đơn vị ngữđiệu, các đường nét và mô hình ngữđiệu…

Cao độ đơn giản là độ cao thấp của âm thanh do tần số dao động quyết định. Cao độ của tiếng nói con người do sự rung động của dây thanh dưới tác động của luồng không khí từ phổi lên tạo ra. Chuỗi lời nói mà con người phát ra như những nốt nhạc khác nhau, tạo thành giai điệu (melody). Sự lên xuống của giọng nói kết

Nghiên cứu về tổng hợp tiếng nói có cảm xúc

hợp với các cao độ khác nhau của nó tạo nên âm điệu (ture). Ở một số ngôn ngữ như Việt, Hán, Thái,.. âm điệu thuộc vào từ, có chức năng tách biệt nghĩa của từ, ví dụ như từ bà khác từ ba ở chỗ một có cao độ thấp, một có cao độ cao. Âm điệu trong trường hợp đó được gọi là thanh điệu (tone). Các ngôn ngữ sử dụng âm điệu dạng này được gọi là ngôn ngữ thanh điệu.Trái lại, với các ngôn ngữẤn – Âu, âm điệu thuộc về nhóm từ và câu.

Với việc phân biệt ngôn ngữ thanh điệu với ngôn ngữ ngữ điệu không có nghĩa là ngữđiệu không tồn tại trong các ngôn ngữ thanh điệu. Có điều với những người quen với các đặc trưng của ngôn ngữ Âu châu thì ngữđiệu bị chìm trong sự trầm bổng, dài ngắn, cao thấp … của thanh điệu. Một định nghĩa chung nhất cho ngữđiệu [4].

“Ngữ điệu là một hiện tượng ngôn điệu xảy ra ở bậc câu của ngôn ngữ, được tạo thành từ hoạt động của các đặc trưng vật lý cơ bản như cao độ, cường độ, trường độ,…”

Hiện nay trên thế giới việc phân tích, tổng hợp tiếng nói đã đạt được những tiến bộ đáng kể ở một số ngôn ngữ như: Anh, Pháp, Quan Thoại (Trung Quốc), Nhật, Đức,…Việc tích hợp được cảm xúc trong ngôn ngữ sẽ giúp tăng cường sự tự nhiên trong chất lượng của các bộ tổng hợp tiếng nói. Các cảm xúc khác nhau như: buồn, giận dữ, vui,… được thể hiện rõ nhất trong tiếng nói thông qua các tham số như: thời gian nói, cao độ và cường độ, …Các giá trị tương ứng với các cảm xúc khác nhau. Có rất nhiều ngôn ngữ trên thế giới đã được nghiên cứu và phân tích với các cơ sở dữ liệu tiếng nói cảm xúc khác nhau như: như nhóm tác giả Syed Abbas Ali, Sitwat Zehra, Mohsin Khan and Faisal Wahab đã nghiên cứu với cơ sở dữ liệu là tiếng Pakistan đã được công bố trên tạp trí khoa học quốc tế tháng 1 năm 2013 [16], với cơ sở dữ liệu bao gồm 40 giọng cả nam và nữ có lứa tuổi, trình độ học vấn và văn hóa từ các khu vực khác nhau ở Pakistan như: Urdu, Sindhi, Balochi, Punjabi, Pashto, bốn cảm xúc được đưa vào thực nghiệm là: tức giận, buồn, vui, trung tính. Được so sánh với cơ sở dữ liệu tiếng Đức lấy từ cơ sở dữ liệu Berlin (Berlin Database of Emotional Speech “EMO-DB”) [10] bao gồm 8 giọng nói của

Nghiên cứu về tổng hợp tiếng nói có cảm xúc

cả nam và nữ, cũng được ghi âm với 4 cảm xúc tương ứng: tức giận, buồn, vui, trung tính. Nghiên cứu đã trình bày các phân tích cảm xúc sử dụng các đặc trưng của ngữ điệu như thời gian (tốc độ nói – Nhịp nhả từ), cường độ, Pitch và tần số Formant để quan sát sự phụ thuộc của các tham sốđặc trưng cho cảm xúc vào giới tính và ngôn ngữ khác nhau. Việc phân tích thống kê được thực hiện bằng công cụ PRAAT có một số nhận định sau:

Với tham sốđặc trưng là Intensity (cường độ) [16]:

Hình 3.3: Cường độ của giọng nam với cảm xúc tức giận

 Tức giận: Cường độ trung bình cao, tốc độ nhanh, rất nhiều âm tiết được phát âm, từ cuối không được nhấn mạnh và đường nét thể hiện cường độ giảm dần.  Vui: Cường độ trung bình là cao nhưng không bằng cảm xúc tức giận, tốc độ hơi nhanh, một vài âm tiết được phát âm, từ cuối cùng được nhấn mạnh và đường nét thể hiện cường độ của tất cả các âm tiết ngày càng tăng.

 Buồn: Cường độ trung bình thấp, tốc độ chậm, hạn chế các âm tiết được phát âm, từ cuối cùng không được nhấn mạnh, đường nét thể hiện cường độ của tất cả các âm tiết giảm.

 Trung tính: Giá trị trung bình của cường độ cao hơn nhưng không bằng hạnh phúc, tốc độ tổng thể là chậm và rất ít âm tiết được phát âm, âm tiết cuối cùng được nhấn mạnh và đường nét thể hiện cường độ ngày càng tăng

Nghiên cứu về tổng hợp tiếng nói có cảm xúc

Hình 3.4: Cao độ của giọng nữ Pashto với trạng thái trung tính

 Tức giận: Giá trị trung bình cao độ là cao, có dải tần số từ 200-300 Hz cho nam và 300-400 Hz cho nữ, đường nét thể hiện cho cao độ của tất cả các âm tiết là giảm.

 Vui: Giá trị trung bình của cao độ là cao, có dải tần số từ 100-200 Hz cho nam và 200-300 Hz cho nữ và đường nét thể hiện cho cao độ của tất cả các âm tiết ngày càng tăng.

 Buồn: Giá trị trung bình thấp, có dải tần số từ 100-200 Hz cho nam và 200- 300 Hz cho nữ và đường nét thể hiện cho cao độ của tất cả các âm tiết là giảm.  Trung tính: Giá trình trung bình cao nhưng kém hơn cảm xúc vui, có dải tần số từ 100-200 Hz cho nam và 200-300 Hz cho nữ và đường nét thể hiện cho cao độ của tất cả các âm tiết ngày càng tăng.

Nghiên cứu về tổng hợp tiếng nói có cảm xúc

Hình 3.5: Formant của cảm xúc tức giận với giọng nói là nam

 Tức giận: Tần số formant trung bình là cao với phương sai cao nhưng vẫn thấp hơn cảm xúc buồn và có phương sai nhỏđối với các âm vị.

 Vui: Các tần số formant trung bình là cao nhưng vẫn thấp hơn cảm xúc tức giận.

 Buồn: Các tần số formant trung bình là cao với phương sai thấp và có khoảng thời gian chênh lệch cao đối với các âm vị.

 Trung tinh: Các tần số formant trung bình thấp và với phương sai cao của khoảng thời gian âm vị

Bài viết đã đưa ra sự phân tích so sánh giá trị trung bình của các tham số đặc trưng như cường độ, cao độ và tần số formant trong các ngôn ngữ địa phương của Pakistan với cơ sở dữ liệu tiếng Đức (EMO-DB). Đó là những nghiên cứu ban đầu cho việc quan sát thể hiện cảm xúc trong tín hiệu tiếng nói, để nghiên cứu xem cảm xúc là phụ thuộc vào giới tính và ngôn ngữ khác nhau. Kết quả thực nghiệm cho thấy rằng, phụ nữ có những cảm xúc sâu sắc hơn nam giới. Trong khi phụ nữ đáp ứng tốt hơn các ngôn điệu cảm xúc thì nam giới họ thể hiện tốt hơn về cách diễn đạt ngôn ngữ.

Nghiên cứu về tổng hợp tiếng nói có cảm xúc

Với cơ sở dữ liệu tiếng Malayalam của nhóm tác giả Deepa P. Gopinath, Sheeba P.S and Achuthsankar S. Nair nghiên cứu và được đăng trên hội nghị quốc tế khoa học Điện tử, Công nghệ thông tin và Truyền thông lần thứ 4 [8]. Bài viết đã trình bày các phân tích cảm xúc của ngữ điệu như thời gian (tốc độ nói – Nhịp nhả từ), cao độ và cường độ. Các phân tích cho thấy thời gian phát âm là ít nhất với cảm xúc giận dữ (nói rất nhanh) và nhiều nhất với cảm xúc buồn bã (nói chậm) và cường độ cao nhất cho giận dữ và thấp nhất cho cảm xúc buồn. Bài báo giới thiệu một phương pháp mới gọi là rise time (thời gian tăng tốc) và fall time (thời gian giảm) có thể làm biến thiên durational (thời gian) và intensity (cường độ). Các phân tích chi tiết xem xét biến thiên theo thời gian của các âm vị cho thấy sự biến thiên theo thời gian của các nguyên âm nhiều hơn so với phụ âm. Phát âm bởi nhiều người cho thấy thời gian phát âm từ lâu nhất với buồn rồi đến hạnh phúc, bình thường và nhanh nhất với tức giận.

Một luận văn thạc sĩ khoa học của đại học Edinburgh về tổng hợp tiếng nói cảm xúc năm 2004 của tác giả Gregor O. Hofer [11]. Mục tiêu của luận văn là xây dựng bộ tổng hợp lựa chọn đơn vị giọng nói mà có thể miêu tả cảm xúc với các cường độ khác nhau. Sử dụng phương pháp phân tích phương sai ANOVA (Analysis of Variance) để tính toán sự khác biệt giữa sự phân loại cho mỗi cảm xúc. Họ đã thử nghiệm với 13 người trong đó có 4 nữ và 9 nam giới, 6 người nói tiếng anh bản địa, 7 người còn lại có các nguồn gốc khác nhau. Tất cả trong số họđều là sinh viên đại học trong độ tuổi từ 22 đến 35 tuổi. Cơ sở dữ liệu phục vụ cho việc tổng hợp theo phương pháp này cần phải lớn, các giọng nói ghi âm thông thường dài hơn 1 giờ đồng hồ với cảm xúc vui, tức giận và trung lập. Trong lúc ghi âm mỗi câu phát biểu sẽđược tách ra thành các đơn vị khác nhau như: âm tiết, hình vị, từ, nhóm từ, câu,… Một bảng tra các đơn vị được lập ra dựa trên các phần đã tách và các thông số âm học như tần số cơ bản, thời gian, vị trí của âm tiết. Khi chạy, các câu tổng hợp được tạo ra bằng cách xác định chuỗi đơn vị phù hợp nhất từ cơ sở dữ liệu và thường phải dùng đến cây quyết định để thực hiện. Tổng hợp theo phương pháp này tạo ra giọng nói có độ tự nhiên cao do không áp dụng kỹ thuật xử lý tín

Nghiên cứu về tổng hợp tiếng nói có cảm xúc

hiệu số lên các đoạn giọng nói đã ghi âm, tuy nhiên để đạt độ tự nhiên cao thường cần một cơ sở dữ liệu lớn chứa các đơn vịđể lựa chọn.

Một nghiên cứu khác về tổng hợp tiếng nói có cảm xúc dựa trên nguyên tắc ghép nối, được so sánh với phương pháp tổng hợp formant của nhóm tác giả Iain R. Murray, Mike D. Edgington, Diane Campionand Justin Lynn [12]. Bốn cảm xúc (tức giận, vui, buồn bã và sợ hãi) được đưa vào thực nghiệm. Các phương pháp thực hiện và điều khiển khác nhau giữa tổng hợp formant và tổng hợp dựa trên nguyên tắc ghép nối cho thấy, tác dụng thực tế như là cảm xúc có thể dễ dàng tích hợp và hệ thống tổng hợp formant. Tuy nhiên trong nghiên cứu này cũng chỉ ra rằng cũng có thể tạo ra giọng nói tình cảm với bộ tổng hợp theo nguyên tắc ghép nối, họ đã thử nghiệm thấy rằng cũng tốt như việc thực hiện sử dụng một hệ thống tổng hợp formant. Kết quả tốt nhất thu được từ vấn đề ghép nối tiếng nói được xử lý thủ công, và công việc vẫn đang tiếp tục thực hiện như một phần của quá trình thực hiện tựđộng.

Trong hầu hết hệ thống phân tích và tổng hợp tiếng nói, những cải tiến về chất lượng giọng nói hệ thống tổng hợp nhằm mục đích mô phỏng tiếng nói tự nhiên, đọc một đoạn văn bản tự nhiên trong một phong cách nói tự nhiên. Các hiệu ứng cảm xúc được tích hợp sẽ làm giảm sựđơn điệu của tiếng nói tổng hợp. Để tích hợp cảm xúc vào trong giọng nói tổng hợp thì đa số các nghiên cứu đều đưa ra việc thay đổi các tham số ngữ điệu: Cao độ, cường độ (năng lượng) và thời gian nói. Ngôn điệu là ngữ điệu, nhịp điệu và sự nhấn mạnh của từ vựng trong tiếng nói. Những thay đổi về âm thanh gây ra do cảm xúc phụ thuộc vào ngôn ngữ, vì vậy việc phân tích từng ngôn ngữ riêng biệt là rất cần thiết. Rất nhiều các nghiên cứu đã và đang diễn ra trong lĩnh vực phân tích cảm xúc trong tiếng nói đã được công nhận.

Ngữ điệu tiếng nói trong các ngôn ngữ nói chung

Phương pháp mô phỏng bộ máy phát âm