Kết quả đánh giá tính thuyết phục trong việc tạo biểu cảm khuôn

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu mô hình nhân vật ảo biểu cảm trên khuôn mặt ba chiều nói tiếng việt (Trang 71 - 85)

5 Xây dựng khuôn mặt ba chiều nói tiếng Việt cho nhân vật ảo

3.19 Kết quả đánh giá tính thuyết phục trong việc tạo biểu cảm khuôn

nhân vật ảo A.

Hình 3.20: Kết quả đánh giá tính thuyết phục trong việc tạo biểu cảm khuôn mặt củanhân vật ảo B. nhân vật ảo B.

Ta có d¯=1.07143.

Từ đó, độ lệch chuẩn của sự khác nhau được tính từ các cặp đôi là:

sd =sqrt[Σ(di−d)2/(n−1)] = 1.07161. Lỗi chuẩn của phân phối lấy mẫu của d

SE =sd/sqrt(n) = 0.28640. Độ tự do DF =n−1 = 13.

Từ đó tính được t = [(x1−x2)−D]/SE = (d−D)/SE =3.74102. Từ giá trị t ở trên, ta có P = 0.00123.

P = 0.00123 <0.05 nên giả thuyết H0 bị từ chối; trung bình điểm đánh giá tính thuyết phục của nhân vật ảo B (2.857) lớn hơn về mặt thống kê so với

Hình 3.21: Kết quả đánh giá tính thuyết phục trong việc tạo biểu cảm khuôn mặt củanhân vật ảo C. nhân vật ảo C.

trung bình điểm đánh giá tính thuyết phục của nhân vật ảo A (1.786). Từ kết quả này, kết luận Nhân vật ảo B thuyết phục hơn nhân vật ảo A trong việc tạo biểu cảm thể hiện cảm xúc trên khuôn mặt được chấp nhận.

Kết luận 2: Nhân vật ảo C thuyết phục hơn nhân vật ảo B trong việc tạo biểu

cảm thể hiện cảm xúc trên khuôn mặt. Xét cặp giả thuyết, đối thuyết:

H0 :µB −µC 0,

H1 :µB −µC <0

Tương tự như trên, chúng tôi chọn mức ý nghĩa là 0.05 và sử dụng phương pháp kiểm định matched-pairs t-test.

Đặt D=B−C, Di=Bi−Ci, Di nhận các giá trị sau:

Di :1 1 0 2 1 1 1 1 1 1 1 1 1 2

Ta có d¯=1.07143.

Từ đó, độ lệch chuẩn của sự khác nhau được tính từ các cặp đôi là:

sd =sqrt[(Σ(di−d)2/(n−1)] = 0.47463. Lỗi chuẩn của phân phối lấy mẫu của d

SE =sd/sqrt(n) = 0.12685. Độ tự do DF =n−1 = 13.

Từ giá trị t ở trên, ta có P = 0.00000.

P = 0.00000 <0.05 nên giả thuyết H0 bị từ chối; trung bình điểm đánh giá tính thuyết phục của nhân vật ảo C (3.929) lớn hơn về mặt thống kê so với trung bình điểm đánh giá tính thuyết phục của nhân vật ảo B (2.857). Từ kết quả này, kết luận Nhân vật ảo C thuyết phục hơn nhân vật ảo B trong việc tạo biểu cảm thể hiện cảm xúc trên khuôn mặt được chấp nhận.

Như vậy, nhân vật ảo B thuyết phục hơn nhân vật ảo A trong việc tạo biểu cảm thể hiện cảm xúc trên khuôn mặt; và nhân vật ảo C thuyết phục hơn nhân vật ảo B trong việc tạo biểu cảm thể hiện cảm xúc trên khuôn mặt. Từ đây, có thể kết luận nhân vật ảo C (sử dụng mô hình đề xuất thứ hai) thuyết phục nhất (trong A, B, C) trong việc tạo biểu cảm thể hiện cảm xúc trên khuôn mặt.

3.5 Kết chương

Chương 3 của luận án đã đề xuất hai mô hình tạo biểu cảm khuôn mặt thể hiện trạng thái cảm xúc liên tục cho nhân vật ảo. Ý tưởng của mô hình thứ nhất là một biểu cảm khuôn mặt xuất hiện trong vài giây chỉ khi có sự thay đổi đáng kể của trạng thái cảm xúc. Ý tưởng này xuất phát từ kết quả nghiên cứu tâm lý và sinh lý học rằng một biểu cảm khuôn mặt thường chỉ xuất hiện trong vài giây. Ý tưởng của mô hình thứ hai là khi một cảm xúc được kích hoạt, biểu cảm khuôn mặt sẽ xảy ra theo chuỗi với cường độ giảm dần và sau đó được giữ ở cường độ thấp để thể hiện tâm trạng, ngay cả khi cảm xúc còn tồn tại ở cường độ cao. Ý tưởng này xuất phát từ kết quả của quá trình sử dụng các kỹ thuật nhận dạng biểu cảm khuôn mặt để tự động phân tích một cơ sở dữ liệu video tự nhiên. Các thực nghiệm đánh giá đã được thực hiện, và kết quả cho thấy cả hai mô hình đề xuất đều thuyết phục hơn các nghiên cứu trước đó trong việc tạo biểu cảm khuôn mặt thể hiện cảm xúc; và mô hình đề xuất thứ hai có tính thuyết phục cao hơn. Vì vậy, luận án chọn mô hình đề xuất thứ hai khi xây dựng khuôn mặt 3D nói tiếng Việt cho nhân vật ảo.

Kết quả nghiên cứu nêu trên được công bố tại kỷ yếu có phản biện của Hội nghị quốc tế lần thứ 12 và lần thứ 17 về Multi-Agent Systems - PRIMA 2009, PRIMA 2014 (công trình khoa học số 1, công trình khoa học số 6), kỷ yếu có phản biện của Hội nghị quốc tế lần thứ 6 về Knowledge and Systems

Engineering - KSE 2014 (công trình khoa học số 5), và Tạp chí Công nghệ thông tin và truyền thông (công trình khoa học số 2).

Chương 4

Mô hình thể hiện cảm xúc trong giọng nói tiếng Việt

4.1 Giới thiệu

Tiếng nói là một trong những phương thức thuận tiện và quan trọng nhất mà con người sử dụng để giao tiếp với nhau. Rõ ràng chúng ta không chỉ dùng thông tin ngôn ngữ để truyền tải ý định, cảm giác mà chúng ta còn vô tình hay hữu ý đưa cảm xúc của chúng ta vào tiếng nói. Như đã đề cập trong Chương 3, Mehrabian [98] đã chỉ ra rằng trong giao tiếp trực tiếp người - người, chỉ có 7% thông điệp cảm xúc được truyền tải qua từ ngữ, trong khi đó có tới 38% thông điệp được truyền tải qua yếu tố giọng điệu. Mối quan hệ giữa cảm xúc và tiếng nói đã được tổng kết trong Chương 2; các nghiên cứu đã chỉ ra rằng tồn tại mối liên hệ giữa trạng thái cảm xúc và giọng điệu khi phát âm. Cảm xúc đóng vai trò cực kỳ quan trọng trong suốt quá trình giao tiếp của con người. Vì lý do này, các nhà nghiên cứu đã và đang cố gắng đưa cảm xúc vào thế giới ảo nhằm tăng cường tính tự nhiên của chúng. Và nhằm mục đích khiến cho giao diện tương tác của các hệ thống hội thoại giống với con người hơn, việc cố gắng đưa cảm xúc vào tiếng nói tổng hợp là cần thiết. Từ đó có thể thấy, với bài toán thể hiện cảm xúc cho nhân vật ảo thì ngoài khuôn mặt, tiếng nói cũng là một kênh biểu cảm quan trọng cần được quan tâm.

Chương này của luận án đề xuất mô hình tạo biểu cảm giọng điệu để thể hiện cảm xúc trong kênh tiếng nói cho nhân vật ảo nói tiếng Việt. Chúng tôi đưa ra cách thức cho việc tổng hợp bốn trạng thái cảm xúc cơ bản của tiếng nói tiếng Việt, thông qua sử dụng các kỹ thuật biến đổi đặc trưng âm, áp dụng cho các phát âm ở trạng thái không cảm xúc. Trước tiên, chúng tôi mô tả một số phân tích về đặc trưng âm của tiếng nói tiếng việt có cảm xúc. Việc phân

tích được thực hiện nhằm tìm ra mối quan hệ giữa sự biến đổi của ngôn điệu, âm sắc với trạng thái cảm xúc trong tiếng nói tiếng Việt. Cụ thể, một cơ sở dữ liệu tiếng nói tiếng Việt có cảm xúc, đa trạng thái, được xây dựng và phân tích nhằm xác minh mối tương quan và định lượng cho các trạng thái cảm xúc về sự biến đổi của các đặc trưng ngôn điệu và đặc trưng âm sắc so với trạng không cảm xúc. Dựa trên kết quả phân tích, tập các hệ số biến đổi ngôn điệu và âm sắc được đưa ra cho mỗi trạng thái cảm xúc. Sau đó, tần số cơ bản đích cùng với các ràng buộc về thời gian, năng lượng, phổ, được tạo ra bằng cách áp dụng các luật suy ra từ tập hệ số nói trên. Quá trình phân tích cơ sở dữ liệu được thực hiện ở mức phát âm toàn câu và mức âm tiết; và các luật được suy ra có tính đến sự biến đổi đặc trưng âm ở mức âm tiết. Từ đó, tiếng nói ở trạng thái không cảm xúc được biến đổi để tạo ra tiếng nói tổng hợp có cảm xúc. Trong quá trình tổng hợp tiếng nói có cảm xúc này, đặc trưng âm được biến đổi nhiều hơn ở một số âm tiết thay vì biến đổi đồng đều trong tất cả các âm tiết của câu. Đây là điểm khác so với các nghiên đã được đề xuất, khiến cho tiếng nói tổng hợp có cảm xúc tự nhiên hơn, thực hơn.

Nội dung của chương được tổ chức như sau. Phần 4.2 trình bày tóm tắt về các nghiên cứu liên quan. Tiếp theo, Phần 4.3 mô tả giai đoạn trích đặc trưng âm liên quan tới tiếng nói tiếng Việt có cảm xúc và kết quả phân tích. Sau đó, Phần 4.4 mô tả việc xây dựng các luật dùng để tổng hợp tiếng nói tiếng Việt có cảm xúc từ tiếng nói không cảm xúc; phần này cũng chỉ ra tiến trình tổng hợp tiếng nói tiếng Việt có cảm xúc. Kết quả đánh giá sẽ được trình bày trong Phần 4.5.

4.2 Những nghiên cứu liên quan

4.2.1 Các phương pháp tổng hợp tiếng nói có cảm xúc

Tổng hợp tiếng nói là quá trình chuyển thông điệp từ chữ viết thành thông điệp tương đương ở dạng tiếng nói. Tổng hợp tiếng nói có cảm xúc bao hàm tổng hợp tiếng nói và thêm vào tiếng nói tổng hợp các biểu cảm khác nhau liên quan tới các cảm xúc khác nhau. Theo các nghiên cứu [131, 53], các phương pháp tổng hợp tiếng nói có cảm xúc có thể được chia thành ba loại chính: tổng hợp tiếng nói có cảm xúc bằng điểu khiển tường minh; tổng hợp tiếng nói có

cảm xúc bằng phương pháp phát lại, và tổng hợp tiếng nói có cảm xúc bằng điều khiển không tường minh.

Trong loại đầu tiên - tổng hợp tiếng nói có cảm xúc bằng điều khiển tường minh, tiếng nói có cảm xúc được tổng hợp thông qua việc biến đổi tiếng nói không cảm xúc dựa trên một số luật thu được từ cơ sở dữ liệu tiếng nói cảm xúc. Các hệ thống tổng hợp tiếng nói có cảm xúc được phát triển từ phương pháp tổng hợp formant [22, 104, 20] hay phương pháp kết nối diphone [149, 103] là những ví dụ của tổng hợp tiếng nói có cảm xúc bằng điều khiển tường minh. Bên cạnh đó, các phương pháp được đưa ra cho thao tác chuyển tiếng nói từ trạng thái không cảm xúc sang trạng thái có cảm xúc như [139, 125, 64, 141, 21, 61] cũng thuộc vào loại tổng hợp bằng điều khiển tường minh. Kỹ thuật biển đổi tiếng nói này thực hiện một số thao tác trên các tham số đặc trưng âm của dữ liệu tiếng nói để tạo các cảm nhận cảm xúc khác nhau [129]. Kỹ thuật này sử dụng tiếng nói của một câu hoàn chỉnh đã được ghi âm hoặc được tổng hợp từ trước. Thông thường tiếng nói ở trạng thái không cảm xúc được dùng như đầu vào và một số phương pháp biến đổi đặc trưng âm hoặc các kỹ thuật khác được sử dụng để chuyển tiếng nói nguồn thành tiếng nói đích có cảm xúc. Việc sử dụng tiếng nói ở trạng thái không cảm xúc làm đầu vào khiến cho tính tính chân thực (tự nhiên) của tiếng nói tổng hợp được đảm bảo phần nào. Bên cạnh đó, việc sử dụng các kỹ thuật biến đổi tiếng nói có thể cho chúng ta khả năng điều khiển các tham số âm một cách linh hoạt.

Trong tổng hợp tiếng nói có cảm xúc bằng phương pháp phát lại, tiếng nói có cảm xúc được tổng hợp một cách độc lập thông qua việc sử dụng cơ sở dữ liệu tiếng nói cảm xúc tương ứng. Ở phương pháp này, việc tổng hợp tiếng nói có cảm xúc đạt được bằng cách chỉ đơn thuần là phát lại những gì có sẵn trong cơ sở dữ liệu cảm xúc tương ứng, hoặc sử dụng các mô hình được huấn luyện từ cơ sở dữ liệu cảm xúc tương ứng. Các hệ thống tổng hợp tiếng nói có cảm xúc dựa trên lựa chọn đơn vị (unit selection) và HMM, được huấn luyện trên cơ sở dữ liệu cảm xúc tương ứng [155, 63, 60, 45, 116] thuộc phương pháp phát lại. Phương pháp này không có khả năng mô hình hóa một cách tường minh các đặc tính âm của cảm xúc, và nó cũng cần cơ sở dữ liệu tiếng nói rất lớn để có thể cải thiện tính tự nhiên của tiếng nói tổng hợp.

nói tổng hợp được điều khiển bởi phép nội suy giữa hai mô hình thống kê được huấn luyện trên các cơ sở dữ liệu cảm xúc khác nhau. Một số nghiên cứu đã công bố sử dụng phép nội suy và cải tiến mô hình HMM để tổng hợp tiếng nói có cảm xúc [101, 154]. Các kỹ thuật cải tiến tạo nên sự linh động trong việc xây dựng các mô hình thống kê với lượng dữ liệu nhỏ nếu như đã có sẵn mô hình trung bình; các kỹ thuật này cũng có thể được sử dụng để tổng hợp tiếng nói ở các trạng thái cảm xúc khác nhau [10, 107]. Tuy nhiên, nhược điểm đáng chú ý của các hệ thống tổng hợp dựa trên HMM là tính tự nhiên của tiếng nói tổng hợp có cảm xúc bị giảm do đặc tính vốn có của các mô hình HMM là quá làm mịn (over-smoothing) các tham số âm.

4.2.2 Đặc trưng âm liên quan đến tiếng nói có cảm xúc

Để có khả năng thực hiện việc đưa cảm xúc vào tiếng nói tổng hợp, về mặt âm học chúng ta cần phải có hiểu biết chi tiết về việc các đặc trưng âm trong tiếng nói liên quan như thế nào đến cảm xúc. Tổng hợp các nghiên cứu trước đây đã chỉ ra rằng có hai loại đặc trưng âm có ảnh hưởng lớn đến trạng thái cảm xúc trong tiếng nói: một loại liên quan tới ngôn điệu và loại còn lại liên quan đến âm sắc.

Ngôn điệu: Ngôn điệu về cơ bản là một tập các yếu tố điều khiển cao độ, độ to, và tốc độ của tiếng nói. Sự biến đổi của âm điệu, nhịp điệu, kiểu nhấn chính là những cái mà chúng ta gọi là ngôn điệu của một câu. Phụ thuộc vào trạng thái cảm xúc của người nói, một câu có thể được phát âm với các đặc tính ngôn điệu khác nhau. Vì vậy, sự biến đổi ngôn điệu trong một phát âm có ảnh hưởng rất lớn đến cảm xúc được thể hiện trong tiếng nói [78]. Đây chính là lý do mà ngôn điệu là một trong những yếu tố quan trọng cần được khảo sát khi tìm sự biến đổi đặc trưng âm liên quan tới trạng thái cảm xúc trong tiếng nói. Về mặt âm học, các đặc trưng âm được xem là quan trọng đối với ngôn điệu phần lớn được trích ra từ tần số cơ bản (F0), năng lượng, và khoảng thời gian. Những đặc trưng này được mô tả sau đây.

Tần số cơ bản: Đường F0 thể hiện sự thay đổi của F0 trong miền thời gian, nó cung cấp thông tin về điểm nhấn và âm điệu trong phát âm của câu. Những thông tin như vậy có ảnh hưởng rất lớn đối với sự cảm nhận trạng thái cảm xúc trong tiếng nói. Vì vậy, trong lĩnh vực nghiên cứu tiếng nói có cảm xúc, F0 là

đặc trưng âm đã và đang được nghiên cứu thường xuyên và từ thời điểm sớm nhất. Tác giả Erickson [43] đã đưa ra tóm tắt về các nghiên cứu trước đây, nội dung của những nghiên cứu này là tìm ra loại đặc trưng âm nào có liên quan đến trạng thái cảm xúc trong tiếng nói. Hầu hết các nghiên cứu đều nhận thấy rằng đường F0 có ảnh hưởng lớn lên trạng thái cảm xúc trong tiếng nói, bất kể là phương pháp thu thập dữ liệu nào được sử dụng hay ngôn ngữ được dùng là ngôn ngữ gì.

Khoảng thời gian: Về khía cạnh vật lý, khoảng thời gian chủ yếu được nhận thấy như là độ dài, khoảng dừng, và tốc độ của phát âm tiếng nói. Nó thay đổi khá nhiều khi người nói ở trong các trạng thái cảm xúc khác nhau. Trong lĩnh vực nghiên cứu tiếng nói có cảm xúc, đã có các nghiên cứu chỉ ra ảnh hưởng của khoảng thời gian đối với trạng thái cảm xúc trong tiếng nói, ở các ngôn ngữ khác nhau ví dụ tiếng Anh, tiếng Nhật, tiếng Ý [62, 94, 113, 130]. Vì vậy, khoảng thời gian cũng là một trong những yếu tố quan trọng cần được khảo sát.

Năng lượng: Năng lượng của tiếng nói được quyết định bởi thể tích luồng khí của hơi được gửi ra từ phổi, chủ yếu nó thể hiện độ to của âm được cảm nhận bởi người nghe. Tương tự như đường F0, hình bao năng lượng cũng có ảnh hưởng

Một phần của tài liệu (LUẬN án TIẾN sĩ) nghiên cứu mô hình nhân vật ảo biểu cảm trên khuôn mặt ba chiều nói tiếng việt (Trang 71 - 85)

Tải bản đầy đủ (PDF)

(144 trang)