Kết luận và so sánh các phương pháp tổng hợ p

Một phần của tài liệu Nghiên cứu về tổng hợp tiếng nói có cảm xúc (Trang 35)

Sau khi giới thiệu về các đặc điểm cơ bản của tiếng nói tiếng việt và các phương pháp tổng hợp, ta có thểđưa ra một số nhận xét về chất lượng tiếng nói, chi phí tính toán và kích thước dữ liệu của các phương pháp này.

 Về chất lượng tiếng nói tổng hợp: Trong các phương pháp trên thì phương pháp mô phỏng bộ máy phát âm về nguyên tắc sẽ cho chất lượng tiếng nói tốt nhất. Để đạt được điều này thì vấn đề quan trọng là làm sao để mô phỏng chính xác bộ máy phát âm của con người. Công việc này hoàn toàn không đơn giản, mặc dù đã có sự trợ giúp của máy tính nhưng do cấu trúc phức tạp của bộ máy phát âm nên chi phí tính toán sẽ rất lớn. Trong các phương pháp còn lại thì thực tế cho thấy phương pháp ghép nối thường cho chất lượng tốt hơn.

 Về hiệu quả tính toán: Rõ ràng là phương pháp mô phỏng bộ máy phát âm đòi hỏi chi phí tính toán lớn nhất vì phải mô phỏng một cách chính xác nhất bộ máy phát âm phức tạp của con người. Các phương pháp còn lại có chi phí tính toán thấp hơn do đặc điểm các thuật toán được sử dụng.

 Về kích thước dữ liệu: Phương pháp ghép nối có kích thước dữ liệu lớn nhất do số lượng từ vựng là rất lớn. Các phương pháp còn lại do không phải lưu trữ các mẫu nên có kích thước dữ liệu nhỏ hơn.

Qua những nhận xét trên thì khó khăn lớn nhất của phương pháp mô phỏng bộ máy phát âm là làm sao để mô phỏng chính xác bộ máy phát âm của con người. Với phương pháp tổng hợp bằng formant thì vấn đề cần giải quyết là chất lượng tiếng nói tổng hợp. Còn với phương pháp tổng hợp ghép nối thì có ưu điểm là chi phí tính toán không cao và chất lượng khá tốt, khó khăn lớn nhất là giảm kích thước dữ liệu. Khó khăn này, nhưđã trình bày, có thể khắc phục bằng cách tổng hợp tiếng nói từ những đơn vị nhỏ hơn từ như âm vị,diphone...

Với mục đích nghiên cứu việc tổng hợp tiếng Việt và dựa trên những đặc điểm của các phương pháp tổng hợp, thì việc sử dụng phương pháp tổng hợp bằng ghép nối cho tiếng Việt là tối ưu. Trong số những phương pháp dùng để tổng hợp bằng ghép nối thì TD-PSOLA là phương pháp được sử dụng rộng rãi nhất với ưu điểm là chi phí tính toán thấp và giữ nguyên được nhiều thông tin trong tiếng nói do thao tác trực tiếp với tín hiệu trên miền thời gian.

Nghiên cứu về tổng hợp tiếng nói có cảm xúc

CHƯƠNG 3 - NGHIÊN CỨU CẢM XÚC TRONG TIẾNG NÓI 3.1 Cảm xúc trong tiếng nói

3.1.1 Định nghĩa

Cảm xúc là sự phản ứng về mặt tinh thần của con người đối với những hiện tượng diễn ra xung quanh, có liên quan đến việc thỏa mãn hay không thỏa mãn những nhu cầu cá nhân. Cảm xúc có đặc điểm là mang tính chất chủ quan, trước cùng một sự việc, có thể nảy sinh những cảm xúc khác nhau từ những người khác nhau. Nhận biết được cảm xúc của một người không những có thểđem lại thông tin và tình trạng hiện tại, mà cùng với những thống kê tuần suất, thời gian còn có thể giúp phán đoán phần nào về tính cách con người đó.

Cảm xúc là thuật ngữ dùng để chỉ các trải nghiệm chủ động và có ý thức thường được thể hiện bởi các biểu hiện tâm lý, phản ứng sinh học hay trạng thái tinh thần. Cảm xúc thường bị tác động và có liên hệ với tâm trạng, tính khí, tính cách cá nhân cũng như chịu ảnh hưởng bởi hóc-môn và các chất kích thích thần kinh. Cảm xúc con người thường là nhân tốđằng sau quyết định tới động cơ, động lực của hành động, dù tích cực hay tiêu cực.

3.1.2 Đặc điểm của cảm xúc

3.1.2.1 Cảm xúc biểu hiện bề ngoài rất rõ ràng

Cảm xúc thể hiện qua cử chỉ, hành vi, điệu bộ và cả những phản ứng về mặt sinh lý. Những biểu hiện này có thể thấy thông qua quan sát trực tiếp. Chúng ta có thể nhận biết được người khác đang vui, buồn, giận dữ, sợ hãi, ngạc nhiên hay “mừng mừng tủi tủi”… Tuỳ theo loại cảm xúc mà dấu hiệu bộc lộ sẽ khác nhau.

3.1.2.2 Cảm xúc rất đa dạng và phong phú

Từ những cảm xúc cơ bản nhưng dưới sự tác động của các kích thích khác nhau trong những điều kiện, hoàn cảnh khác nhau mà cảm xúc của con người cũng có lúc đan xen, pha lẫn nhiều cảm xúc khác loại nhưng cùng tồn tại trong một thời điểm. Và chính điều này đã tạo ra hàng loạt các cảm xúc khác [1].

Nghiên cứu về tổng hợp tiếng nói có cảm xúc

Hình 3.1: Các biểu lộ cảm xúc

3.1.3 Phân loại cảm xúc

Cảm xúc, tình cảm là vấn đềđược nhiều nhà tâm lý học quan tâm nghiên cứu. Vì thế, cũng có nhiều quan điểm khác nhau về số lượng các loại cảm xúc. Về cơ bản thì được chia ra làm hai mô hình cảm xúc như sau:

 Mô hình cảm xúc nguyên tố: được đề xuất bởi Paul Ekman từ thập kỉ 70 của thế kỉ trước, cho rằng cảm xúc là rời rạc, có thểđo đạc được và độc lập về mặt sinh lý. Nghiên cứu thành công nhất của Ekman đó là tìm ra rằng có các loại

Nghiên cứu về tổng hợp tiếng nói có cảm xúc

cảm xúc xác định có thể nhận biết một cách độc lập, cho dù văn hóa nào đó không quen thuộc với biểu lộ đó. Các nghiên cứu của ông dẫn đến phân loại cảm xúc thành 6 cảm xúc cơ bản: tức giận (anger), ghét bỏ (disgust), lo sợ (fear), vui vẻ (happiness), buồn dầu (sadness), bất ngờ (surprise).

Vui vẻ (happiness) Buồn rầu (sadness) Lo sợ (fear)

Tức giận (anger) Bất ngờ (surprise) Ghét bỏ (disgust)

Hình 3.2: Các cảm xúc cơ bản trong mô hình cảm xúc nguyên tố

 Mô hình cảm xúc nhiều chiều: Cho tới gần đây với sự tiến bộ của khoa học kĩ thuật, các phát hiện về gen, thần kinh và tâm lý học đã cho thấy mô hình cảm xúc nguyên tố còn nhiều giới hạn. Mô hình cảm xúc theo chiều đã ra đời, cho rằng tất cả các trạng thái cảm xúc đều sinh ra từ hai hệ thống thần kinh sinh lý cơ bản tách biệt, một liên quan tới trạng thái biểu cảm tích cực hay tiêu cực (Valence) và hệ thống còn lại liên quan tới độ tỉnh táo (Arousal). Mỗi cảm xúc của con người có thể hiểu là sự kết hợp tuyến tính của 2 chiều này.

3.1.4 Vai trò của cảm xúc

3.1.4.1 Cảm xúc giúp con người thích ứng với hoàn cảnh

Khi vui, buồn, giận dữ… đã tạo ra những biến đổi cả về tâm sinh lý làm phá vỡ trạng thái cân bằng vốn có, tạo cảm giác thoải mái hay khó chịu cho bản thân. Cảm xúc giúp cho con người lấy lại trạng thái cân bằng về mặt tâm lý. Cảm xúc đã

Nghiên cứu về tổng hợp tiếng nói có cảm xúc

3.1.4.2 Cảm xúc gắn liền với nhu cầu và việc thoả mãn nhu cầu của chủ thể

Trạng thái thiếu hụt sẽ dẫn đến những đòi hỏi cần phải thoả mãn để tồn tại và phát triển làm xuất hiện nhu cầu. Nhu cầu được thoả mãn sẽ nảy sinh cảm xúc tích cực (dương tính), ngược lại nhu cầu không được thoả mãn sẽ nảy sinh cảm xúc tiêu cực (âm tính).

3.1.4.3 Cảm xúc có thể kích thích hay kìm hãm hành động

Cảm xúc có thể củng cố, làm tăng thêm sức mạnh, tính kiên trì, khắc phục mọi khó khăn để đạt được mục đích của chủ thể nhưng cảm xúc cũng có thể kìm hãm, ức chế hành động của chủ thể. Khi vui, chúng ta làm việc hiệu quả hơn, khi giận dữ, căm thù chúng ta có thể làm những việc mà mình không kiểm soát được, khi yêu thương người khác chúng ta có thể làm mọi việc thậm chí sẵn sàng hy sinh cả bản thân mình… Vậy, kích thích hành động, hay ức chế, kìm hãm hoạt động là tuỳ thuộc vào nội dung, tính chất và hoàn ảnh nảy sinh cảm xúc.

3.2. Cảm xúc của tiếng nói trong lĩnh vực xử lý tiếng nói

Tổng hợp tiếng nói rất cần thiết trong nhiều lĩnh vực ứng dụng như: hệ thống giao tiếp người máy (máy đáp ứng bằng tiếng nói), các hệ thống hỗ trợ tra cứu thông tin qua điện thoại, các hệ thống ứng dụng cho người khiếm thị, các hệ thống thông báo tự động, phần mềm dạy ngoại ngữ,… Hiện nay, điểm hạn chế chủ yếu trong lĩnh vực tổng hợp tiếng nói là vấn đề xử lý về ngữ điệu (cảm xúc). Ngữđiệu trong tiếng nói tự nhiên có sự biến đổi lên xuống của giọng nói, các khoảng ngừng nghỉ giữa các ý, các từ có ý nghĩa quan trọng trong câu được nhấn mạnh hơn giúp người nghe dễ dàng hiểu được thông điệp. Ngữ điệu trong tổng hợp tiếng nói nhân tạo thường gây nhàm chán và khó khăn cho người nghe trong việc lĩnh hội. Vì vậy, ngữđiệu là yếu tốđặc biệt quan trọng quyết định chất lượng của tiếng nói tổng hợp.

3.2.1 Ngữ điệu tiếng nói trong các ngôn ngữ nói chung

Mỗi ngôn ngữ đều có giọng điệu riêng của riêng mình. Không có ngôn ngữ nào lại được nói ra với cùng một cung bậc trạng thái cảm xúc trong mọi lúc. Tiếng Việt cũng vậy, khi một câu phát ra, trong đó không chỉ bao gồm các tiếng “tròn vành rõ chữ” với một thanh điệu nhất định, một tốc độ hay một cường độ không

Nghiên cứu về tổng hợp tiếng nói có cảm xúc

đổi… đó chính là ngữđiệu. Không có ngữđiệu, rõ ràng ngôn ngữ không thực hiện được chức năng giao tiếp của mình, ngữ điệu làm cho người nghe dễ tiếp nhận, dễ hiểu điều người nói muốn nói. Việc tiếp thu và thể hiện ngữđiệu ngoại ngữ của hầu hết mọi người, nhất là những người có ngôn ngữ khác loại hình với ngoại ngữđó là cực kì khó khăn, vì vậy ngữđiệu được coi là đặc thù của một ngôn ngữ.

Định nghĩa về ngữ điệu (Intonation)

Không có định nghĩa nào hoàn toàn thỏa đáng cho ngữ điệu. Tuy vậy theo nghiên cứu của một số tác giả thì có thể quy vào hai nhóm quan niệm chính như sau [4]:

 Thứ nhất, ngữđiệu là hiện tượng được cấu tạo bởi sự tổng hòa của nhiều nhân tố lời nói. Ngữ điệu được coi là sự biến đổi về cao độ, cường độ và trường độ của âm thanh và sự chuyển biến của giọng nói. Quan điểm này cũng có thể tìm thấy ở một số nhà ngữ âm phương Tây, chẳng hạn Kingdon R. (1958) xác định “Ngữ điệu được làm nên bởi các phương tiện như nhóm từ, chỗ ngừng, tốc độ nói, chất giọng và sự thay đổi nhẹ nhàng của cao độ và thanh điệu (thanh điệu không với nghĩa như thanh điệu trong tiếng Việt mà đơn giản là diễn biến của cao độ).”

 Thứ hai, ngữđiệu là một hiện tượng gắn liền trước hết với sự biến đổi của cao độ và có quan hệ với trọng âm. Nhóm quan niệm này thường thấy trong các công trình của giới ngữ học phương Tây xuất hiện khá sớm. Amstrong L. E. và Ward I. C. (1926) đã khẳng định “Ngữđiệu là sự lên xuống của cao độ giọng khi chúng ta nói”. Sau này, các tên tuổi khác trong ngữ giới học liên quan đến ngữđiệu đều dựa vào khung lí thuyết mà những người đi trước đã xác lập về cao độ (sự rung động của dây thanh), cường độ (trọng âm) và trường độ (thời gian) để tiếp tục phát hiện thêm những yếu tố cấu thành ngữđiệu, các đơn vị ngữđiệu, các đường nét và mô hình ngữđiệu…

Cao độ đơn giản là độ cao thấp của âm thanh do tần số dao động quyết định. Cao độ của tiếng nói con người do sự rung động của dây thanh dưới tác động của luồng không khí từ phổi lên tạo ra. Chuỗi lời nói mà con người phát ra như những nốt nhạc khác nhau, tạo thành giai điệu (melody). Sự lên xuống của giọng nói kết

Nghiên cứu về tổng hợp tiếng nói có cảm xúc

hợp với các cao độ khác nhau của nó tạo nên âm điệu (ture). Ở một số ngôn ngữ như Việt, Hán, Thái,.. âm điệu thuộc vào từ, có chức năng tách biệt nghĩa của từ, ví dụ như từ khác từ ba ở chỗ một có cao độ thấp, một có cao độ cao. Âm điệu trong trường hợp đó được gọi là thanh điệu (tone). Các ngôn ngữ sử dụng âm điệu dạng này được gọi là ngôn ngữ thanh điệu.Trái lại, với các ngôn ngữẤn – Âu, âm điệu thuộc về nhóm từ và câu.

Với việc phân biệt ngôn ngữ thanh điệu với ngôn ngữ ngữ điệu không có nghĩa là ngữđiệu không tồn tại trong các ngôn ngữ thanh điệu. Có điều với những người quen với các đặc trưng của ngôn ngữ Âu châu thì ngữđiệu bị chìm trong sự trầm bổng, dài ngắn, cao thấp … của thanh điệu. Một định nghĩa chung nhất cho ngữđiệu [4].

“Ngữ điệu là một hiện tượng ngôn điệu xảy ra ở bậc câu của ngôn ngữ, được tạo thành từ hoạt động của các đặc trưng vật lý cơ bản như cao độ, cường độ, trường độ,…”

Hiện nay trên thế giới việc phân tích, tổng hợp tiếng nói đã đạt được những tiến bộ đáng kể ở một số ngôn ngữ như: Anh, Pháp, Quan Thoại (Trung Quốc), Nhật, Đức,…Việc tích hợp được cảm xúc trong ngôn ngữ sẽ giúp tăng cường sự tự nhiên trong chất lượng của các bộ tổng hợp tiếng nói. Các cảm xúc khác nhau như: buồn, giận dữ, vui,… được thể hiện rõ nhất trong tiếng nói thông qua các tham số như: thời gian nói, cao độ và cường độ, …Các giá trị tương ứng với các cảm xúc khác nhau. Có rất nhiều ngôn ngữ trên thế giới đã được nghiên cứu và phân tích với các cơ sở dữ liệu tiếng nói cảm xúc khác nhau như: như nhóm tác giả Syed Abbas Ali, Sitwat Zehra, Mohsin Khan and Faisal Wahab đã nghiên cứu với cơ sở dữ liệu là tiếng Pakistan đã được công bố trên tạp trí khoa học quốc tế tháng 1 năm 2013 [16], với cơ sở dữ liệu bao gồm 40 giọng cả nam và nữ có lứa tuổi, trình độ học vấn và văn hóa từ các khu vực khác nhau ở Pakistan như: Urdu, Sindhi, Balochi, Punjabi, Pashto, bốn cảm xúc được đưa vào thực nghiệm là: tức giận, buồn, vui, trung tính. Được so sánh với cơ sở dữ liệu tiếng Đức lấy từ cơ sở dữ liệu Berlin (Berlin Database of Emotional Speech “EMO-DB”) [10] bao gồm 8 giọng nói của

Nghiên cứu về tổng hợp tiếng nói có cảm xúc

cả nam và nữ, cũng được ghi âm với 4 cảm xúc tương ứng: tức giận, buồn, vui, trung tính. Nghiên cứu đã trình bày các phân tích cảm xúc sử dụng các đặc trưng của ngữ điệu như thời gian (tốc độ nói – Nhịp nhả từ), cường độ, Pitch và tần số Formant để quan sát sự phụ thuộc của các tham sốđặc trưng cho cảm xúc vào giới tính và ngôn ngữ khác nhau. Việc phân tích thống kê được thực hiện bằng công cụ PRAAT có một số nhận định sau:

Với tham sốđặc trưng là Intensity (cường độ) [16]:

Hình 3.3: Cường độ của giọng nam với cảm xúc tức giận

 Tức giận: Cường độ trung bình cao, tốc độ nhanh, rất nhiều âm tiết được phát âm, từ cuối không được nhấn mạnh và đường nét thể hiện cường độ giảm dần.  Vui: Cường độ trung bình là cao nhưng không bằng cảm xúc tức giận, tốc độ hơi nhanh, một vài âm tiết được phát âm, từ cuối cùng được nhấn mạnh và đường nét thể hiện cường độ của tất cả các âm tiết ngày càng tăng.

 Buồn: Cường độ trung bình thấp, tốc độ chậm, hạn chế các âm tiết được phát âm, từ cuối cùng không được nhấn mạnh, đường nét thể hiện cường độ của tất cả các âm tiết giảm.

 Trung tính: Giá trị trung bình của cường độ cao hơn nhưng không bằng hạnh phúc, tốc độ tổng thể là chậm và rất ít âm tiết được phát âm, âm tiết cuối cùng được nhấn mạnh và đường nét thể hiện cường độ ngày càng tăng

Nghiên cứu về tổng hợp tiếng nói có cảm xúc

Hình 3.4: Cao độ của giọng nữ Pashto với trạng thái trung tính

 Tức giận: Giá trị trung bình cao độ là cao, có dải tần số từ 200-300 Hz cho nam và 300-400 Hz cho nữ, đường nét thể hiện cho cao độ của tất cả các âm

Một phần của tài liệu Nghiên cứu về tổng hợp tiếng nói có cảm xúc (Trang 35)

Tải bản đầy đủ (PDF)

(102 trang)