Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
2,27 MB
Nội dung
Ngô Thị Duyên NGHIÊN CỨU MÔ HÌNH NHÂN VẬT ẢO BIỂU CẢM TRÊN KHUÔN MẶT BA CHIỀU NÓI TIẾNG VI T Chuyên ngành: Khoa học máy tính Mã số: 62.48.01.01 TÓM TẮT LUẬN ÁN TIẾ SĨ Hà Nội –2015 THÔNG TIN Công trình hoàn thành tại: Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội Người hướng dẫn khoa học: PGS.TS Bùi Thế Duy GS.TS Masato Akagi Phản biện 1: PGS.TS Hà Hải Nam Phản biện 2: PGS.TS Huỳnh Quyết Thắng Phản biện 3: PGS.TS Đỗ Năng Toàn Luận án tiến sĩ bảo vệ trước hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp P212 – E3 Trường Đại học Công nghệ - ĐHQGHN Vào hồi 09 ngày 30 tháng 12 năm 2015 Có thể tìm hiểu luận án tại: -Thư viện Quốc gia Việt Nam -Trung tâm Thông tin – Thư viện, Đại học Quốc gia Hà Nội CHƯƠNG GIỚI THIỆU 1.1 Đặt vấn đề Cùng với phát triển nhanh chóng lĩnh vực trí tuệ nhân tạo, đồ họa máy tính, xử lý ngôn ngữ tự nhiên, nhà nghiên cứu giành nhiều công sức nhằm cải tiến tương tác người máy tính, làm cho thích hợp, linh động “hướng người” Một phương thức để thực điều thông qua việc tạo nhân vật ảo Vì vậy, xây dựng nhân vật ảo toán quan tâm nhiều miền ứng dụng rộng lớn chúng: giải trí, giáo dục, thương mại điện tử… Nhân vật ảo đối tượng thông minh, có khả hoạt động cách tự chủ, có yếu tố giống với người cảm xúc, biểu cảm, hội thoại Để xây dựng nhân vật ảo, thông thường cần xây dựng ba thành phần sau: Một khuôn mặt có khả nói, thể cử động môi nói, thể biểu cảm tín hiệu giao tiếp Một thể có khả thể cử Một mô hình trí tuệ bao gồm suy nghĩ, cảm xúc, động lực, hành vi, tính cách nhân vật Nội dung luận án nghiên cứu toán xây dựng khuôn mặt ba chiều nói tiếng Việt cho nhân vật ảo Cụ thể, luận án tập trung nghiên cứu số kỹ thuật thể cảm xúc cho nhân vật ảo nói tiếng Việt 1.2 Bài toán cách giải Nhìn chung, mô hình tổng thể để giải toán cung cấp cảm xúc cho nhân vật ảo thể Hình 1.2 Nội dung nghiên cứu luận án liên quan đến toán thể cảm xúc cho nhân vật ảo nói tiếng Việt, liên quan đến mô đun nằm hình chữ nhật đứt nét Hình 1.2 Bài toán thể cảm xúc cho nhân vật ảo có đầu vào trạng thái cảm xúc liên tục, đầu biểu cảm nhân vật ảo thể trạng thái cảm xúc Luận án chọn hai kênh biểu cảm khuôn mặt tiếng nói để giải toán thể cảm xúc cho nhân vật ảo nói tiếng Việt Luận án đề xuất ba kết nghiên cứu góp phần giải toán Thứ nhất, để tăng tính tự nhiên, thuyết phục biểu cảm khuôn mặt thể cảm xúc cho nhân vật ảo, luận án đề xuất mô hình chuyển trạng thái cảm xúc liên tục thành biểu cảm khuôn mặt Thứ hai, để tạo khả thể cảm xúc kênh tiếng nói cho nhân vật ảo nói tiếng Việt, luận án đề xuất mô hình biến đổi tiếng nói tiếng Việt trạng thái tự nhiên thành tiếng nói có cảm xúc Thứ ba, luận án xây dựng khuôn mặt ba chiều có khả thể cảm xúc khuôn mặt giọng nói tiếng Việt cho nhân vật ảo Sau đó, luận án đề xuất phương pháp tiến hành đánh giá khả biểu cảm độ thuyết phục khuôn mặt 3D cho nhân vật ảo 1.3 Cấu trúc luận án Ngoài chương Giới thiệu phần Kết luận, luận án tổ chức sau Chương trình bày tổng quan nghiên cứu liên quan đến cảm xúc, mối quan hệ trạng thái cảm xúc kênh biểu cảm Trong chương này, luận án tổng kết nghiên cứu liên quan tới việc cung cấp cảm xúc khả thể cảm xúc cho nhân vật ảo Chương đề xuất mô hình tạo biểu cảm khuôn mặt thể trạng thái cảm xúc liên tục nhân vật ảo Mô hình đề xuất thứ dựa kết nghiên cứu tâm lý sinh lý học trình bày trước Sau luận án đề xuất mô thứ hai dựa kết phân tích cử động khuôn mặt sở liệu video tự nhiên Chương đề xuất mô hình biến đổi tiếng nói tiếng Việt để thể cảm xúc nhân vật ảo; mô hình tổng hợp tiếng nói tiếng Việt có cảm xúc từ đầu vào tiếng nói trạng thái tự nhiên Trong Chương 5, dựa kết nghiên cứu trình bày Chương Chương luận án xây dựng khuôn mặt ba chiều có khả thể trạng thái cảm xúc liên tục cách tự nhiên khuôn mặt giọng nói tiếng Việt CHƯƠNG CẢM XÚC VÀ THỂ HIỆN CẢM XÚC CHO NHÂN VẬT ẢO 2.1 Nghiên cứu tâm lý học cảm xúc Tổng hợp nghiên cứu cho thấy có bốn quan điểm mặt tâm lý học để định nghĩa, nghiên cứu, giải thích cảm xúc Quan điểm Darwin cho cảm xúc phổ quát có chức thích nghi Các nghiên cứu người đến từ văn hóa khác nhận diện biểu cảm khuôn mặt số lượng nhỏ cảm xúc Quan điểm James xem cảm xúc phản ứng thể, cho trải nghiệm thay đổi thể chủ yếu bắt nguồn từ trải nghiệm cảm xúc Ba loại thay đổi thể xem xét là: hành vi biểu cảm, hành vi công cụ, thay đổi sinh lý Quan điểm kiến tạo xã hội xem xét cảm xúc "một vai trò xã hội tạm thời bao gồm đánh giá, thẩm định cá nhân tình huống" Quan điểm tin cảm xúc gắn liền với văn hóa phân tích cách nhìn vào mức xã hội khác Quan điểm nhận thức tin cảm xúc dựa trình thẩm định nhận thức Quan điểm vai trò nhận thức việc trải nghiệm cảm xúc thông qua việc tập trung vào mối quan hệ cảm xúc cách mà người thẩm định kiện môi trường Cảm xúc xem phản ứng ý nghĩa kiện, liên quan đến mục tiêu động cá nhân 2.2 Mối quan hệ cảm xúc kênh biểu cảm 2.2.1 Cảm xúc cử động khuôn mặt Các nhà nghiên cứu khẳng định tồn mối quan hệ cử động khuôn mặt trạng thái cảm xúc người Hầu hết nghiên cứu tâm lý học mối quan hệ cảm xúc cử động khuôn mặt theo ba quan điểm chính: Quan điểm cảm xúc cho có tập nhỏ cảm xúc phân biệt hoàn toàn với nhờ biểu cảm khuôn mặt Theo quan điểm này, tồn mẫu biểu cảm quán, bẩm sinh, phổ quát cho cảm xúc bản; trạng thái mà dấu hiệu khuôn mặt riêng cảm xúc bản; tất cảm xúc cảm xúc pha trộn nhóm cảm xúc Quan điểm nhận thức biểu cảm khuôn mặt thể cảm xúc cho kết trình thẩm định gắn liền với thay đổi hoạt động nhiều hệ thống thể, bao gồm khuôn mặt Quan điểm đa chiều cho trạng thái cảm xúc phân biệt dựa số lượng nhỏ chiều, cử động khuôn mặt liên kết với chiều Hệ mã hóa cử động khuôn mặt (Facial Action Coding System - FACS) FACS phát triển nhằm mục đích xác định tất cử động khuôn mặt phân biệt mắt FACS liên quan tới việc xác định mặt khác nhau, riêng lẻ, theo nhóm gây biến đổi hành vi khuôn mặt Những biến đổi khuôn mặt, với bên tạo nên biến đổi gọi đơn vị cử động - AU FACS danh sách gồm 64 đơn vị cử động Liên quan đến mối quan hệ cảm xúc cử động khuôn mặt, AU mã hóa cử động hay nhóm thường quan sát thấy tạo biểu cảm khuôn mặt thể cảm xúc 2.2.2 Cảm xúc giọng nói Tiếng nói kênh quan trọng thứ hai việc thể trạng thái cảm xúc Lời nói bao gồm ba thành phần văn phạm, nội dung, giọng điệu phát âm; đó, giọng điệu phát âm có ảnh hưởng lớn tới việc cảm nhận trạng thái cảm xúc hội thoại Đã có chứng đáng kể trạng thái cảm xúc có ảnh hưởng trực tiếp tới việc tạo phát âm lời nói Tuy nhiên, cần nhấn mạnh đặc trưng giọng điệu cần phải đánh giá dựa tiêu chuẩn thiết lập mẫu giọng nói bình thường người tình cho trước Trong tất trường hợp, biến đổi đặc trưng giọng điệu xung quanh chuẩn có ý nghĩa giá trị tuyệt đối 2.3 Cung cấp cảm xúc cho nhân vật ảo Có hai vấn đề cần quan tâm giải toán cung cấp cảm xúc cho nhân vật ảo cung cấp trạng thái cảm xúc cho nhân vật ảo cung cấp chế thể cảm xúc cho nhân vật ảo Đã có nghiên cứu đề xuất cho toán cung cấp trạng thái cảm xúc cho nhân vật ảo Các mô hình đề xuất nhiều dạng thức: hệ thống dựa luật, hệ thống dựa luật mờ, hệ thống phân tán,… Trong số nhiều mô hình đề xuất, có mô hình giải cách đầy đủ thỏa đáng vấn đề liên quan đến toán cài đặt cảm xúc máy tính, là: linh động độc lập với miền ứng dụng, cảm xúc cần phải có cường độ chế phân rã theo thời gian, cảm xúc cần phải gắn liền với cá tính trạng thái động Mô hình cảm xúc ParleE đề xuất Bui cộng giải vấn đề Với ParleE, nhân vật ảo có khả phản ứng lại kiện với cảm xúc thích hợp cường độ khác Với toán cung cấp chế thể cảm xúc cho nhân vật ảo, hầu hết nghiên cứu tập trung vào kênh biểu cảm khuôn mặt CHƯƠNG MÔ HÌNH THỂ HIỆN CẢM XÚC TRÊN KHUÔN MẶT 3.1 Giới thiệu Biểu cảm khuôn mặt nguồn thông tin quan trọng trạng thái cảm xúc người Vì vậy, cung cấp cho nhân vật ảo khả thể cảm xúc khuôn mặt yếu tố quan trọng nhằm nâng cao khả tương tác chúng 3.2 Những nghiên cứu liên quan Để cung cấp cho nhân vật ảo khả thể cảm xúc, trước tiên cần hiểu mối quan hệ cảm xúc cử động khuôn mặt Theo chúng tôi, việc mô mối quan hệ cảm xúc cử động khuôn mặt kết nghiên cứu thuộc quan điểm cảm xúc hữu ích Cho đến nay, có nhiều nghiên cứu theo quan điểm cảm xúc để mô mối quan hệ cảm xúc khuôn mặt đề xuất Tuy nhiên, theo hiểu biết chúng tôi, chưa có nghiên cứu xem xét động thái theo thời gian cử động khuôn mặt thể cảm xúc Ở đây, động thái theo thời gian thời điểm khoảng thời gian cử động khuôn mặt Từ hiểu biết mối quan hệ cảm xúc cử động khuôn mặt, nhiều nghiên cứu thể cảm xúc khuôn mặt cho nhân vật ảo đề xuất Những phương pháp chia thành hai lớp: Phương pháp thể cảm xúc tĩnh: Nhiều nhà nghiên cứu sử dụng mô hình bánh xe cảm xúc mô tả Plutchik để tạo chế ánh xạ trạng thái cảm xúc thành biểu cảm khuôn mặt nhận diện cách phổ biến Tuy nhiên, mô hình thể cảm xúc tĩnh Nó không cung cấp chế quán cho việc tạo biểu cảm cảm xúc khuôn mặt Vì vậy, biểu cảm khuôn mặt đuợc thể thời điểm bất kỳ, hoàn toàn độc lập với biểu cảm cảm xúc trước khuôn mặt Một nhược điểm khác thể cảm xúc tĩnh cảm xúc thường biến đổi tương đối chậm, thay đổi biểu cảm từ cảm xúc thành cảm xúc trái ngược chiếm thời gian đáng kể, điều không phù hợp Phương pháp thể cảm xúc động lưu lại thay đổi cường độ cảm xúc theo thời gian, cung cấp chế quán cho việc tạo biểu cảm khuôn mặt giải giới hạn phương pháp thể cảm xúc tĩnh Tuy nhiên, hệ thống thể cảm xúc động có giải việc thể cảm xúc mà chưa tính đến yếu tố thời gian biểu cảm Trong khoảng nhỏ thời gian, trạng thái cảm xúc ánh xạ trực tiếp thành biểu cảm khuôn mặt, sau biểu cảm thể khuôn mặt Trong trường hợp có cảm xúc diễn khoảng thời gian dài việc ánh xạ trực tiếp từ cảm xúc thành biểu cảm khuôn mặt làm giảm tính tự nhiên nhân vật ảo 3.3 Mô hình tạo biểu cảm khuôn mặt thể trạng thái cảm xúc liên tục 3.3.1 Mô hình đề xuất thứ Dựa kết nghiên cứu tâm lý sinh lý học, luận án đề xuất mô hình thứ tạo biểu cảm khuôn mặt thể trạng thái cảm xúc liên tục nhân vật ảo Mô hình Hình 3.2: Mô hình thứ chuyển trạng thái cảm xúc liên tục thành biểu dựa ý tưởng cảm khuôn mặt biểu cảm thể cảm xúc khuôn mặt xảy vài giây có thay đổi đáng kể trạng thái cảm xúc, xác tăng đáng kể cường độ cảm xúc Khi thay đổi đáng kể cường độ cảm xúc, biểu cảm khuôn mặt giữ mức thấp để thể tâm trạng thay cảm xúc, cường độ cảm xúc cao Như hình 3.2, mô hình gồm bốn thành phần: [1.] Đầu vào chuỗi véc tơ trạng thái cảm xúc (ESV) theo thời gian, kết từ thành phần cảm xúc nhân vật ảo Mỗi ESV véc tơ chứa cường độ sáu cảm xúc thời điểm t, biểu diễn số thực: ESV t = (et1, et2,…, et6) với ≤ eti ≤ [2.] Đầu chuỗi véc tơ độ co mặt (FMCV) theo thời gian Mỗi véc tơ FMCV thời điểm t mô tả sau: MFCV t = (mt1, mt2,…, mt19) với ≤ mti ≤ Đây véc tơ biểu diễn mức co 19 bên phía phải mô hình khuôn mặt 3D mô hình khuôn mặt 3D Bui đề xuất [3.] Mô đun Lựa chọn chế độ biểu cảm định biểu cảm khuôn mặt có tạo để thể trạng thái cảm xúc thời hay biểu cảm khuôn mặt giữ mức độ thấp để thể tâm trạng thay cảm xúc Thành phần thực việc kiểm tra xem có tăng đáng kể cường độ cảm xúc kéo dài ba giây (khoảng thời gian biểu cảm thể cảm xúc), tức nếu: eix – eix-1 > θ, t – ≤ x ≤ t, t thời điểm tại, θ ngưỡng để kích hoạt biểu cảm thể cảm xúc khuôn mặt Nếu có thay đổi đáng kể cường độ cảm xúc, véc tơ EVS chuyển trực tiếp thành véc tơ FMCV dùng Hệ thống dựa luật mờ đề xuất Bui Ngược lại, thay đổi đáng kể cường độ cảm xúc, véc tơ EVS chuẩn hóa tới cường độ thấp sau chuyển thành véc tơ FMCV dùng hệ thống dựa luật mờ [4.] Hệ thống dựa luật mờ đề xuất Bui cộng dùng để chuyển véc tơ ESV thành véc FMCV 3.3.2 Mô hình đề xuất thứ hai Mô hình đề xuất thứ hai dựa kết phân tích sở liệu video biểu cảm khuôn mặt thể cảm xúc 3.3.2.1 Mẫu biểu cảm khuôn mặt thể cảm xúc Cơ sở liệu Luận án sử dụng sở liệu biểu cảm khuôn mặt tự nhiên Từ ba sở liệu MMI, FEEDTUM DISFA, chọn video khuôn mặt người tham gia trạng thái tự nhiên, tiến dần tới trạng thái đỉnh điểm biểu cảm, sau trở lại trạng thái tự nhiên Cuối có 215 video chọn: vui - 67 video, buồn - 25 video, giận - 25 video, khinh bỉ - 33, sợ hãi - 30 video, ngạc nhiên - 35 video Phân tích cử động khuôn mặt thể cảm xúc Quá trình phân tích cử động khuôn mặt thể cảm xúc minh họa Hình 3.3 A Mô đun Phát khuôn mặt: Với frame video đầu vào, mô đun trả kích thước vị Hình 3.3: Sơ đồ khối hệ thống phân tích cử động khuôn mặt thể cảm xúc trí xấp xỉ khuôn mặt phát Luận án sử dụng thuật toán Viola Jones để phát khuôn mặt B Mô đun ASM Fitting: Mô đun dùng thuật toán ASM fitting để trích điểm đặc trưng từ khuôn mặt phát Trong vùng khuôn mặt trả từ mô đun Phát khuôn mặt, mô đun ASM Fitting sử dụng Active Shape Model để tìm kiếm vị trí xác điểm đặc trưng khuôn mặt Đầu mô đun ASM Fitting vị trí 68 điểm đặc trưng khuôn mặt (ASM shape) C Mô đun Chuẩn hóa khuôn mặt: Mô đun dùng khoảng cách hai mắt để thực việc chuẩn hóa Các ASM shape chuẩn hóa cho khoảng cách hai mắt ASM shape D Mô đun Trích cường độ AU: Mô đun sử dụng điểm đặc trưng có từ thao tác chuẩn hóa để trích đặc trưng khuôn mặt liên quan tới sáu cảm xúc Nó dùng vị trí điểm đặc trưng chuẩn hóa để tính cường độ AU liên quan đến trạng thái cảm xúc thể video đầu vào Kết phân tích Từ việc quan sát đồ thị cường độ AU theo thời gian, đề xuất mẫu theo thời gian định nghĩa trước cho biểu cảm khuôn mặt sáu cảm xúc Mẫu theo thời gian cho biểu cảm thể cảm xúc vui cảm xúc buồn mô tả Hình 3.6 (a); mẫu theo thời gian cho biểu cảm thể cảm xúc khinh bỉ, giận, sợ, ngạc nhiên Hình 3.6 (b) Hình 3.6 (a): Mẫu theo thời gian biểu cảm khuôn mặt thể cảm xúc vui cảm xúc buồn (b): Mẫu theo thời gian biểu cảm khuôn mặt thể cảm xúc sợ, giận, ngạc nhiên, khinh bỉ Chúng định nghĩa chu kỳ biểu cảm sau: E = (P, Ts, Te, Do, Dr) P cường độ đích biểu cảm; Ts Te thời gian bắt đầu thời gian kết thúc chu kỳ; Do, Dr tương ứng là khoảng thời gian onset khoảng thời gian offset chu kỳ Quá trình chu kỳ biểu cảm xuất mô tả hàm theo thời gian: ( ( ) ) ( ( ) { ( ) ) ) ( Ø+ Ø- hàm mô tả giai đoạn onset offset chu kỳ biểu cảm ( Hàm mô tả phần onset: ) ( ) Hàm mô tả phần offset: ( ) ( ( ) ) Để xác thực tính hợp lý mẫu theo thời gian định nghĩa trước, thực thao tác so khớp (fitting) cho tất mẫu AU theo thời gian Thực thao tác so khớp cho tất mẫu AU thu giá trị trung bình tổng bình phương lỗi 0.055 với độ lệch chuẩn 0.078 Những giá trị cho thấy mẫu theo thời gian hàm so khớp hợp lý Kết phân tích cho thấy khoảng thời gian trung bình chu kỳ biểu cảm cho cảm xúc vui 3.5 giây, Hình 3.10: (a): Đồ thị thể cường độ cảm xúc vui Obie trận bóng đá (b): Đồ thị thể cảm xúc vui Obie chuẩn hóa mô hình đề xuất thứ (c): Đồ thị thể mức co Zymgomatic Major sau áp dụng mô hình đề xuất thứ Hình 3.12: (a): Đồ thị thể cường độ cảm xúc vui Obie trận bóng đá (b): Đồ thị thể cảm xúc vui Obie chuẩn hóa mô hình đề xuất thứ hai (c): Đồ thị thể mức co Zymgomatic Major sau áp dụng mô hình đề xuất thứ hai Hình 3.11: Biểu cảm khuôn mặt thể cảm xúc vui sau áp dụng mô hình đề xuất thứ Hình 3.13: Biểu cảm khuôn mặt thể cảm xúc vui sau áp dụng mô hình đề xuất thứ hai 11 Chúng xây dựng video clip có hình ảnh gồm hai phần: phần hình ảnh khuôn mặt ba nhân vật ảo A, B, C xếp theo thứ tự ngẫu nhiên, phần hình ảnh thể cường độ theo thời gian sáu cảm xúc mà nhân vật ảo thể khuôn mặt Người tham gia thực nghiệm đánh giá tính thuyết phục việc thể cảm xúc khuôn mặt nhân vật ảo theo thang điểm từ đến (0-Rất kém, 1-Kém, 2- Hơi kém, 3-Trung bình, 4-Khá tốt, 5Tốt, 6-Rất tốt) Thực nghiệm tiến hành với 14 người tham gia Sau tiến hành thực nghiệm, kết đánh giá người dùng tổng kết Bảng 3.3, Hình 3.16, Hình 3.17, Hình 3.18 Từ kết đánh giá thấy nhân vật ảo B thuyết phục nhân vật ảo A việc tạo biểu cảm thể cảm xúc khuôn mặt (kết luận 1), nhân vật ảo nhân vật ảo C thuyết phục nhân vật ảo B việc tạo biểu cảm thể cảm xúc khuôn mặt (kết luận 2) Dùng kết Bảng 3.3, tiến hành thực kiểm định thống kê để xác thực tính đắn hai kết luận Bảng 3.3: Tóm tắt kết đánh giá tính thuyết phục nhân vật ảo việc tạo biểu cảm khuôn mặt Hình 3.16: Kết đánh giá tính thuyết phục việc tạo biểu cảm khuôn mặt nhân vật ảo A Hình 3.17: Kết đánh giá tính thuyết phục việc tạo biểu cảm khuôn mặt nhân vật ảo B Hình 3.18: Kết đánh giá tính thuyết phục việc tạo biểu cảm khuôn mặt nhân vật ảo C Kết luận 1: Nhân vật ảo B thuyết phục nhân vật ảo A việc tạo biểu cảm thể cảm xúc khuôn mặt 12 Xét cặp giả thuyết, đối thuyết: H0: µA - µB ≥ ; H1: µA - µB < Chúng chọn mức ý nghĩa 0.05 sử dụng phương pháp kiểm định matchedpairs t-test Từ kết Bảng 3.3 tính t = -3.74102 Từ giá trị t ta có P = 0.00123 Vì P = 0.00123 < 0.05 nên giả thuyết H0 bị từ chối; kết luận Nhân vật ảo B thuyết phục nhân vật ảo A việc tạo biểu cảm thể cảm xúc khuôn mặt chấp nhận Kết luận 2: Nhân vật ảo C thuyết phục nhân vật ảo B việc tạo biểu cảm thể cảm xúc khuôn mặt Xét cặp giả thuyết, đối thuyết: H0: µB - µC ≥ ; H1: µB - µC < Chúng chọn mức ý nghĩa 0.05 sử dụng phương pháp kiểm định matchedpairs t-test Từ kết Bảng 3.3 tính được: t = -8.44639 Từ có P = 0.00000 Vì P = 0.00000 < 0.05 nên giả thuyết H0 bị từ chối; kết luận Nhân vật ảo C thuyết phục nhân vật ảo B việc tạo biểu cảm thể cảm xúc khuôn mặt chấp nhận Từ đây, kết luận nhân vật ảo C (sử dụng mô hình đề xuất thứ hai) thuyết phục (trong A, B, C) việc tạo biểu cảm thể cảm xúc khuôn mặt 3.5 Kết chương Luận án đề xuất hai mô hình tạo biểu cảm khuôn mặt thể trạng thái cảm xúc liên tục cho nhân vật ảo Thực nghiệm đánh giá cho thấy hai mô hình đề xuất thuyết phục nghiên cứu trước việc tạo biểu cảm khuôn mặt thể cảm xúc Và mô hình đề xuất thứ hai có tính thuyết phục cao hơn, ý tưởng cảm xúc kích hoạt, biểu cảm khuôn mặt xảy theo chuỗi với cường độ giảm dần sau giữ cường độ thấp để thể tâm trạng, cảm xúc tồn cường độ cao Luận án chọn mô hình đề xuất thứ hai xây dựng khuôn mặt 3D nói tiếng Việt cho nhân vật ảo Kết nghiên cứu nêu công bố kỷ yếu có phản biện Hội nghị quốc tế lần thứ 12 lần thứ 17 Multi-Agent Systems - PRIMA 2009, PRIMA 2014 (công trình khoa học số 1, công trình khoa học số 6), kỷ yếu có phản biện Hội nghị quốc tế lần thứ Knowledge and Systems Engineering - KSE 2014 (công trình khoa học số 5), Tạp chí Công nghệ thông tin truyền thông (công trình khoa học số 2) 13 CHƯƠNG MÔ HÌNH THỂ HIỆN CẢM XÚC TRONG GIỌNG NÓI TIẾNG VIỆT 4.1 Giới thiệu Chương luận án đề xuất mô hình tạo biểu cảm giọng điệu để thể cảm xúc kênh tiếng nói cho nhân vật ảo nói tiếng Việt Chúng đưa cách thức cho việc tổng hợp bốn trạng thái cảm xúc tiếng nói tiếng Việt, thông qua sử dụng kỹ thuật biến đổi đặc trưng âm, áp dụng cho phát âm trạng thái tự nhiên 4.2 Những nghiên cứu liên quan 4.2.1 Các phương pháp tổng hợp tiếng nói có cảm xúc Các phương pháp tổng hợp tiếng nói có cảm xúc chia thành ba loại chính: tổng hợp tiếng nói có cảm xúc điểu khiển tường minh; tổng hợp tiếng nói có cảm xúc phương pháp phát lại, tổng hợp tiếng nói có cảm xúc điều khiển không tường minh 4.2.2 Đặc trưng âm liên quan đến tiếng nói có cảm xúc Tổng hợp nghiên cứu trước có hai loại đặc trưng âm có ảnh hưởng lớn đến trạng thái cảm xúc tiếng nói ngôn điệu âm sắc Về mặt âm học, đặc trưng âm xem quan trọng ngôn điệu phần lớn trích từ tần số (F0), lượng, khoảng thời gian Âm sắc liên quan tới cảm giác thính giác mà người nghe có nghe tiếng nói; thể phổ tín hiệu tiếng nói Các tham số phân tích từ phổ xem có liên quan tới âm sắc bao gồm tần số cộng hưởng hình dạng phổ Là ngôn ngữ đơn âm tiết có điệu, tiếng Việt có đặc trưng riêng biệt so ngôn ngữ phương Tây Cho tới nay, có số nghiên cứu ngôn điệu âm sắc tiếng nói tiếng Việt đề xuất Một số nghiên cứu tổng hợp tiếng nói tiếng Việt công bố Tuy nhiên, hầu hết nghiên cứu tập trung vào tiếng nói tự nhiên; có nghiên cứu tiếng nói tiếng Việt có cảm xúc 4.3 Trích đặc trưng âm liên quan tới tiếng nói tiếng Việt có cảm xúc 4.3.1 Cơ sở liệu Cơ sở liệu tiếng nói có cảm xúc bao gồm phát âm tiếng Việt tạo nghệ sĩ nam nghệ sĩ nữ Họ phải phát âm 19 câu năm trạng thái bản: tự nhiên, vui, buồn, giận, giận Vì vậy, sở liệu có tổng số 190 phát âm Thực nghiệm kiểm tra cảm nhận người cảm xúc phát âm thực với 12 sinh viên; kết thực nghiệm cho thấy nhìn chung tỉ lệ nhận dạng thu cao 4.3.2 Giai đoạn trích đặc trưng âm 14 Đặc trưng âm liên quan tới ngôn điệu khảo sát bao gồm tần số bản, lượng, khoảng thời gian Với âm sắc, tần số cộng hưởng độ nghiêng phổ phân tích Ở mức phát âm câu, có 14 tham số âm tính phân tích để tìm mối quan hệ biến đổi ngôn điệu, âm sắc với trạng thái cảm xúc tiếng nói tiếng Việt Tần số trung bình lượng trung bình âm tiết khảo sát Cụ thể, giai đoạn trích chọn đặc trưng thực sau: Với phát âm, trước tiên thông tin F0, thông tin lượng trích dùng STRAIGHT Sau đó, từ thông tin này, số tham số âm liên quan tới F0 lượng tính Các tham số liên quan tới F0 gồm tần số cao (HP), tần số trung bình (AP), khoảng tần số (PR); tần số trung bình âm tiết xác định; tham số liên quan tới lượng gồm: lượng lớn (HPW), lượng trung bình (APW), khoảng lượng (PWR), lượng trung bình âm tiết Tiếp đến, với khoảng thời gian, phát âm, thông tin phân đoạn thời gian trước tiên xác định tay Việc xác định bao gồm số âm vị, thời gian (ms), nguyên âm Khoảng thời gian tất âm, khoảng thời gian khoảng dừng xác định tay với hỗ trợ phần Wavesurfer Từ đó, tham số liên quan tới khoảng thời gian xác định bao gồm: trung bình khoảng dừng (MPAU), tổng thời gian phát âm (TL), khoảng thời gian phụ âm (CL), tỉ lệ khoảng thời gian phụ âm khoảng thời gian nguyên âm (RCV) Cuối cùng, với phổ tín hiệu tiếng nói, tần số cộng hưởng (F1, F2, F3) độ nghiêng phổ (ST) tính Phổ thu cách sử dụng STRAIGHT ba tần số cộng hưởng F1, F2, F3 tính với LPC-order 12 Độ nghiêng phổ tính từ H1-A3 H1 mức dB tần số cộng hưởng A3 mức họa ba có tần số gần với tần số cộng hưởng thứ 15 Sau thực giai đoạn trích Bảng 4.3: Biến đổi trung bình tham số bốn chọn đặc trưng trên, với trạng thái cảm xúc so với trạng thái tự nhiên mức âm tiết số 190 phát âm sở liệu, có tập 14 giá trị tương ứng với 14 tham số âm mức phát âm câu Từ 190 tập này, với tham số trạng thái cảm xúc, giá trị hệ số biến đổi so với chuẩn xác định Kết có 152 tập, tập chứa 14 giá trị hệ số biến đổi Trong có 19 tập cho bốn trạng thái cảm xúc, cho nghệ sĩ tham gia phát âm Sau đó, với gói 19 tập này, nhóm tập có tương đồng hệ số biến đổi chọn Cuối cùng, từ cụm chọn, giá trị trung bình hệ số biến đổi tương ứng với 14 tham số trạng thái cảm xúc tính Các giá trị liệt kê Bảng 4.2 Bảng 4.3 số kết phân tích định lượng mức âm tiết Trong bảng này, thuật ngữ "Âm tiết đầu" âm tiết thuộc từ/cụm từ vị trí đầu câu; thuật ngữ "Âm tiết cuối" âm tiết thuộc từ/cụm từ vị trí kết thúc câu 4.4 Tổng hợp tiếng nói tiếng Việt có cảm xúc 4.4.1 Xây dựng luật biến đổi tiếng nói tiếng Việt tự nhiên thành tiếng nói có cảm xúc Khi trạng thái cảm xúc câu nói tiếng Việt thay đổi, đặc trưng âm không biến đổi đồng tất âm tiết Thực tế xác nhận kết phân tích sở liệu Phần 4.3.2 Vì vậy, xây dựng luật dùng để biến đổi tiếng nói tiếng Việt tự nhiên thành tiếng nói có cảm xúc, có tính đến biến đổi đặc trưng âm mức âm tiết Từ kết phân tích thể Bảng 4.2 Bảng 4.3 xây dựng luật dùng để biến đổi tiếng nói tiếng Việt tự nhiên thành tiếng nói có cảm xúc, luật có tính đến biến đổi đặc trưng âm mức âm tiết Ví dụ, luật để tổng hợp cảm xúc vui cho giọng nữ sau: (Cảm xúc vui-Giọng nữ){HP:12.23%, AP:7.75%, PR:51.57%, APW:17.21%, HPW:7.96%, PWR:12.61%, MPAU:-3%, CL:-3.15%, RCV:-10.24%, TL:-3.55%, F1:9.99%, F2:15.43%, F3:2.17%, ST:-14%, F-AP:8.35%, F-APW:17.42%, FMD:2.85%, L-AP:9.05%, L-APW:19.23%, L-MD:16.84%} (1) Với luật này, đặc trưng âm biến đổi không đồng âm tiết Ví dụ, khoảng thời gian âm tiết thường điều chỉnh giảm, khoảng thời gian âm tiết đầu/cuối phát âm lại điều chỉnh tăng 16 4.4.2 Tiến trình tổng hợp tiếng nói có cảm xúc Luận án sử dụng kỹ thuật biến đổi tiếng nói để tổng hợp tiếng nói tiếng Việt có cảm xúc từ đầu vào tiếng nói tự nhiên Tiến trình thực biến đổi tiếng nói thể Hình 4.2 Trước tiên, STRAIGHT dùng để trích đường F0, hình bao lượng, phổ tín hiệu tiếng nói tự nhiên, đó, thông tin phân đoạn thời gian xác định tay Sau đặc trưng âm liên quan tới F0, lượng, phổ, khoảng thời gian Hình 4.2: Tiến trình bóp méo tiếng nói sử dụng STRAIGHT biến đổi dựa luật biến đổi suy từ tập hệ số Bảng 4.2 Quá trình biến đổi thực có tính đến thay đổi tham số đặc trưng âm mức âm tiết Bảng 4.3 Cuối cùng, tiếng nói có cảm xúc tổng hợp từ đường F0, hình bao lượng, phổ, khoảng thời gian biến đổi thông qua sử dụng STRAIGHT Quá trình biến đổi thực theo tiến trình Hình 4.3 Hình 4.3: Tiến trình biến đổi đặc trưng âm 4.5 Thực nghiệm đánh giá Chúng chọn 10 câu tiếng Việt khác với câu sử dụng để trích kết biến đổi đặc trưng âm Phần 4.3 Sau đó, phát âm trạng thái tự nhiên 10 câu vừa nêu tạo nam nữ Các phát âm trạng thái tự nhiên sử dụng để tổng hợp tiếng nói có cảm xúc Trước tiên, luật trình bày Phần 4.4.1 áp dụng để tổng hợp tiếng nói có cảm xúc theo tiến trình trình bày Phần 4.4.2 Chúng gọi "Phương pháp biến đổi mức âm tiết" Sau đó, tổng hợp tiếng nói có cảm xúc theo tiến trình trình bày Phần 4.4.2 áp dụng luật suy từ Bảng 4.2 Chúng gọi "Phương pháp biến đổi mức phát âm" Các luật sử dụng "Phương pháp biến đổi mức phát âm" không tính đến biến đổi đặc trưng âm mức âm tiết; với luật này, đặc trưng âm âm tiết biến đổi đồng Ví dụ, luật tương ứng với luật (1) dùng 17 để tổng hợp cảm xúc vui cho giọng nữ "Phương pháp biến đổi mức phát âm" sau: {(Cảm xúc vui-Giọng nữ){HP:12.23%, AP:7.75%, PR:51.57%, APW:17.21%, HPW:7.96%, PWR:12.61%, MPAU:-3%, CL:-3.15%, RCV:-10.24%, TL:-3.55\%, F1:9.99%, F2:15.43%, F3:2.17%, ST:-14%} (2) Tiếp đến, thực nghiệm đánh giá cảm nhận người nghe thực cho phát âm tổng hợp Thực nghiệm tiến hành theo cách tương tự thực nghiệm đánh giá Phần Hình 4.4: Kết nhận dạng tiếng nói tổng hợp có cảm xúc 4.3.1 Kết thực nghiệm Hình 4.4 cho thấy kết nhận dạng tiếng nói tổng hợp phương pháp biến đổi mức âm tiết cao kết nhận dạng tiếng nói tổng hợp phương pháp biến đổi mức phát âm; mặt tổng thể, kết nhận dạng tiếng nói tổng hợp có cảm xúc phương pháp biến đổi mức âm tiết tương đối cao Thực nghiệm đánh giá với người dùng Thực nghiệm tiến hành với ba nhân vật ảo: - Nhân vật ảo A: nhân vật ảo cổ động viên bóng đá Obie nói trên, tiếng nói nhân vật ảo A tiếng nói trạng thái tự nhiên, cảm xúc - Nhân vật ảo B: nhân vật ảo A, "Phương pháp biến đổi mức phát âm" áp dụng để tạo biểu cảm giọng điệu cho Bảng 4.4: Tóm tắt kết đánh giá tính thuyết phục nhân vật ảo B - Nhân vật ảo C: nhân vật ảo việc tạo biểu cảm giọng điệu nhân vật ảo A, "Phương pháp biến đổi mức âm tiết" áp dụng để tạo biểu cảm giọng điệu cho nhân vật ảo C Mỗi nhân vật ảo tạo video clip có hình ảnh gồm hai phần: phần hình ảnh khuôn mặt nhân vật ảo, phần hình ảnh thể cường độ theo thời gian sáu cảm xúc mà nhân vật ảo thể 18 Người tham gia thực nghiệm đánh giá tính thuyết phục việc thể cảm xúc giọng nói nhân vật ảo theo thang điểm từ đến Thực nghiệm tiến hành với 14 người tham gia; kết đánh giá tổng kết Bảng 4.4, Hình 4.7, Hình 4.8, Hình 4.9 Từ kết đánh giá thấy nhân vật ảo A việc tạo biểu cảm giọng điệu, bước đầu thấy nhân vật ảo C thuyết phục nhân vật ảo B việc tạo biểu cảm thể cảm xúc giọng nói Dùng kết Bảng 4.4 tiến hành thực kiểm định thống kê để xác thực tính đắn kết luận Hình 4.7: Kết đánh giá tính thuyết phục Hình 4.8: Kết đánh giá tính thuyết phục việc tạo biểu cảm giọng điệu nhân vật ảo A việc tạo biểu cảm giọng điệu nhân vật ảo B Kết luận: Nhân vật ảo C thuyết phục nhân vật ảo B việc tạo biểu cảm thể cảm xúc giọng nói Xét cặp giả thuyết, đối thuyết: H0: µB - µC ≥ ; H1: µB - µC < Chúng chọn mức ý nghĩa 0.05 sử dụng phương pháp kiểm định matched-pairs Hình 4.9: Kết đánh giá tính thuyết phục việc tạo biểu cảm giọng điệu nhân vật ảo C t-test Từ kết Bảng 4.4 tính t = -2.85706 Từ giá trị t ta có P = 0.00674 Vì P = 0.00674 < 0.05 nên kết luận chấp nhận Như vậy, "Phương pháp biến đổi mức âm tiết" hiệu "Phương pháp biến đổi mức phát âm" việc tạo biểu cảm giọng điệu cho nhân vật ảo nói tiếng Việt 4.7 Kết chương Chương luận án đề xuất mô hình biến đổi tiếng nói tiếng Việt từ trạng thái tự nhiên thành tiếng nói có cảm xúc, cung cấp cho nhân vật ảo khả thể cảm xúc giọng nói tiếng Việt Kết thực nghiệm đánh giá cho thấy trạng thái cảm xúc tổng hợp nhận dạng tương đối tốt Kết nghiên cứu nêu công bố kỷ yếu có phản biện Hội nghị quốc tế lần thứ lần thứ Knowledge and Systems Engineering - KSE 2012, KSE 2014 (công trình khoa học số 3, công trình khoa học số 4) 19 CHƯƠNG XÂY DỰNG KHUÔN MẶT BA CHIỀU NÓI TIẾNG VIỆT CHO NHÂN VẬT ẢO 5.1 Giới thiệu Chương luận án mô tả trình xây dựng khuôn mặt ba chiều có khả thể cảm xúc khuôn mặt tiếng nói cho nhân vật ảo nói tiếng Việt 5.2 Những nghiên cứu liên quan Mô hình khuôn mặt ba chiều Luận án sử dụng mô hình khuôn mặt ba chiều dựa đề xuất tác giả Bui Mô hình khuôn mặt bao gồm lưới đa giác thể khuôn mặt, mặt B-spline thể môi, hệ tạo biến đổi tự nhiên bề mặt khuôn mặt, điều khiển tương tác cơ, tạo nếp nhăn, điểm lồi, lõm thời gian thực Tạo chuyển động môi phát âm tiếng nói Cohen Masaro đề xuất nghiên cứu để mô hình hóa hiệu ứng đồng phát âm chuyển động môi nói Đồng phát âm hiệu ứng pha trộn âm vị xung quanh có ảnh hưởng lên âm vị Một chuyển động môi tương ứng với phân đoạn tiếng nói thể phân đoạn hình vị Mỗi phân đoạn hình vị có ưu phát âm; hàm ưu xác định mức gần môi để đạt tới giá trị đích hình vị Sự chồng phát âm theo thời gian tạo hàm ưu chồng cử động liền kề tương ứng với lệnh phát âm Mỗi cử động có tập hàm ưu thế, hàm cho tham số; trung bình có trọng số tất hàm ưu tạo hình dáng cuối môi Tổng hợp cử động khuôn mặt Bui cộng đề xuất chế tổng hợp loại cử động khuôn mặt khác Cử động khuôn mặt chia thành nhóm gọi kênh; tác giả đề xuất chế để tổng hợp cử động kênh chế để tổng hợp cử động kênh khác Trong kênh, có hai cử động chồng nhau, cử động tổng hợp theo cử động thứ thời điểm bắt đầu cử động thứ hai, sau cử động tổng hợp tăng/giảm để tiến tới đích cử cử động thứ hai, sau theo cử động thứ hai Để tổng hợp cử động từ kênh khác nhau, tác giả đưa giải pháp giải vấn đề xung đột tham số liên quan đến cử động khác nhau; sau đó, hoạt động tham số tổng hợp cách lấy giá trị lớn tham số từ tất kênh Tại thời điểm xác định, có xung đột xảy tham số 20 kênh khác tham số liên qua tới cử động với độ ưu tiên cao chiếm ưu lấn át tham số với độ ưu tiên thấp 5.3 Kiến trúc hệ thống Kiến trúc tổng thể hệ thống khuôn mặt 3D minh họa Hình 5.1 Đầu vào hệ thống tiếng nói trạng thái tự nhiên với danh sách âm vị tương ứng có kèm theo thông tin thời gian, chuỗi véc tơ trạng thái cảm xúc theo thời gian (EVS) 5.3.1 Mô đun Tạo biểu cảm giọng điệu (VESS) Mô đun VESS sử dụng kết nghiên cứu trình bày Chương để chuyển tiếng nói tiếng Việt trạng thái tự nhiên thành tiếng nói có cảm xúc tương ứng với trạng thái cảm xúc đầu vào Cảm xúc chọn cảm xúc có cường độ cao cảm xúc đầu vào 5.3.2 Mô đun Tạo biểu cảm khuôn mặt (EFE) Mô đun EFE sử dụng kết nghiên cứu trình bày Chương để tạo biểu cảm khuôn mặt thể trạng thái cảm xúc liên tục Đầu vào mô đun EFE chuỗi véc tơ trạng thái cảm xúc (EVS) theo thời gian đầu chuỗi véc tơ độ co mặt (FMCV) tương ứng 5.3.3 Mô đun Tổng hợp Mô đun Tổng hợp tạo chuyển động môi phát âm tiếng Việt kết hợp chuyển động với cử động khuôn mặt thể cảm xúc Hình vị cho âm vị tiếng Việt: Luận án dựa luật đưa nghiên cứu tác giả Do Nguyen để xác định hình vị tương ứng âm vị tiếng Việt Để tạo hình vị cho nguyên âm, lượng quay hàm mức co có ảnh hưởng lên môi ban đầu xác định dựa hình thang nguyên âm Sau đó, giá trị tinh chỉnh lại tay dựa so sánh hình vị nguyên âm khuôn mặt 3D với hình vị nguyên âm khuôn mặt người thật Để tạo hình vị cho phụ âm, luận án chia phụ âm thành ba loại: phụ âm môi - môi, phụ âm môi - răng, loại thứ ba chứa phụ âm lại Các luật nghiên cứu tác giả Do Nguyen áp dụng để khởi tạo hình vị ban đầu cho phụ âm; sau hình vị tinh chỉnh lại theo cách tương tự làm cho nguyên âm Tổng hợp chuyển động môi phát âm tiếng Việt: Phát âm phân đoạn tiếng nói độc lập, phụ thuộc vào phân đoạn trước sau 21 Luận án áp dụng mô hình tác giả Cohen Massaro để tạo hiệu ứng đồng phát âm cử động môi phát âm tiếng Việt Tổng hợp biểu cảm khuôn mặt cử động môi phát âm tiếng Việt Để tổng hợp biểu cảm khuôn mặt thể cảm xúc cử động môi phát âm tiếng Việt, luận án áp dụng nghiên cứu đề xuất Bui cộng Trong hệ thống khuôn mặt nói tiếng Việt, tạo quyền ưu tiên cao cho cử động môi nói Cử động khuôn mặt cuối cùng, kết trình tổng hợp, hiển thị khuôn mặt 3D với tiếng nói tổng hợp đồng hóa 5.4 Thực nghiệm đánh giá Luận án sử dụng ParleE – mô hình cảm xúc cho nhân vật ảo đề xuất Bui, đặt khuôn mặt miền cổ động viên bóng đá Mục đích việc sử dụng ParleE miền cổ động viên bóng đá tạo đầu vào để kiểm tra, đánh giá khuôn mặt nói tiếng Việt xây dựng Thực nghiệm tiến hành với hai nhân vật ảo: Nhân vật ảo A: nhân vật ảo có khuôn mặt ba chiều mô đun "Tạo biểu cảm giọng điệu" bị vô hiệu hóa, nhân vật ảo A thể cảm xúc khuôn mặt, tiếng nói Nhân vật ảo B: nhân vật ảo thể cảm xúc khuôn mặt giọng nói Hai video clip cho hai nhân vật ảo A, B xây dựng Mục tiêu thực nghiệm ghi lại kết cảm nhận trạng thái cảm xúc người dùng xem video clip, nhằm mục đích so sánh với trạng thái cảm xúc mà thực tế nhân vật ảo cần thể Một chương trình có giao diện Hình 5.4 chạy video clip cho người dùng xem; trình này, người dùng chọn trạng thái cảm xúc mà họ nhận thấy nhân vật ảo thể cách bấm vào nút bên Kết mà chương trình trả mốc thời gian trạng thái cảm xúc mà người dùng cảm nhận Thực nghiệm tiến hành với 12 người tham gia; kết đánh giá tổng kết Hình 5.6 Hình 5.7 Dòng thể cảm xúc thực mà nhân vật ảo cần phải thể hiện, dòng thể cảm xúc mà người dùng cảm nhận từ khuôn mặt nhân vật ảo Mỗi cảm xúc biểu diễn màu tương ứng; số phía dòng mốc thời gian tính theo giây Kết đánh giá cho thấy với nhân vật ảo A, cảm xúc thể khuôn mặt mà tiếng nói, có nhầm lẫn hay bỏ sót số cảm xúc kết cảm nhận người dùng nhìn chung tương đối tốt Với nhân vật ảo B, cảm xúc 22 thể khuôn mặt giọng nói, kết cảm nhận người dùng tốt tốt so với kết cảm nhận nhân vật ảo A Như vậy, việc kết hợp thể cảm xúc khuôn mặt giọng nói nhân vật ảo làm tăng độ xác kết cảm nhận người dùng 5.5 Kết chương Chương luận án mô tả trình xây dựng khuôn mặt ba chiều có khả thể cảm xúc khuôn mặt giọng nói tiếng Việt Kết nghiên cứu nêu công bố kỷ yếu có phản biện Hội nghị quốc tế lần thứ 11 Computing and Communication Technologies - RIVF 2015 (công trình khoa học số 7) 23 KẾT LUẬN Luận án nghiên cứu toán thể cảm xúc cho nhân vật ảo nói tiếng Việt Luận án đề xuất ba kết nghiên cứu sau Thứ nhất, luận án đề xuất mô hình tạo biểu cảm khuôn mặt thể trạng thái cảm xúc liên tục nhân vật ảo Ý tưởng mô hình cảm xúc kích hoạt, biểu cảm khuôn mặt xuất theo chuỗi với cường độ giảm dần Ý tưởng xuất phát từ trình sử dụng kỹ thuật nhận dạng biểu cảm khuôn mặt để tự động phân tích sở liệu video tự nhiên Kết thực nghiêm đánh giá cho thấy mô hình đề xuất góp phần nâng cao tính thuyết phục nhân vật ảo thể cảm xúc khuôn mặt Thứ hai, luận án đề xuất mô hình tạo biểu cảm giọng điệu giọng nói tiếng Việt Từ trình phân tích sở liệu tiếng nói tiếng Việt có cảm xúc, luật thể mối quan hệ đặc trưng âm tiếng nói có cảm xúc tiếng nói trạng thái tự nhiên xây dựng Sau đó, luật sử dụng để biến đổi tiếng nói tiếng Việt trạng thái tự nhiên thành tiếng nói tổng hợp có cảm xúc Kết thực nghiệm đánh giá cho thấy tiếng nói tổng hợp nhận dạng cảm xúc tốt Thứ ba, luận án xây dựng khuôn mặt ba chiều có khả thể cảm xúc giọng nói tiếng Việt, đồng thời có khả thể cảm xúc khuôn mặt thể cử động môi phát âm từ tiếng Việt Khuôn mặt ba chiều sử dụng cho nhân vật ảo nói tiếng Việt, góp phần làm tăng tính tự nhiên, thuyết phục chúng Mặc dù mô hình đề xuất góp phần làm tăng tính thuyết phục nhân vật ảo việc thể cảm xúc Tuy nhiên, mô hình hạn chế chưa xem xét ảnh hưởng yếu tố cá tính, động cơ, nhân vật ảo việc thể cảm xúc Ngoài ra, với mô hình biến đổi tiếng nói tiếng Việt, luật biến đổi sử dụng chung cho loại câu khác nhau, điều làm giảm tính tự nhiên tiếng nói tổng hợp Trong thời gian tới, tập trung giải hạn chế vừa nêu 24 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN Thi Duyen Ngo, The Duy Bui, (2009), When and how to smile: Emotional expression for 3D conversational agents Agent Computing and Multi-Agent Systems, volume 5044 of Lecture Notes in Computer Science, chapter 31, pages 349-358 Springer Berlin/Heidelberg, Berlin, Heidelberg Thi Duyen Ngo, Nguyen Le Tran, Quoc Khanh Le, Chinh Huu Pham, Le Hung Bui, (2011), An approach for building a Vietnamese talking face Journal on Information and Communication Technologies, ISSN 1859-3526, 6(26), pp 207–216 Thi Duyen Ngo, The Duy Bui, (2012), A study on prosody of Vietnamese emotional speech In Proceedings of the Fourth International Conference on Knowledge and Systems Engineering (KSE 2012), IEEE, pp 151-155 Thi Duyen Ngo, Masato Akagi, The Duy Bui, (2014), Toward a Rule-Based Synthesis of Vietnamese Emotional Speech In Proceedings of the Sixth International Conference on Knowledge and Systems Engineering (KSE 2014), Advances in Intelligent Systems and Computing 326, pp 129-142, Springer International Publishing Thi Duyen Ngo, Thi Chau Ma, The Duy Bui (2014), Emotional facial expression analysis in the time domain In Proceedings of the Sixth International Conference on Knowledge and Systems Engineering (KSE 2014), Advances in Intelligent Systems and Computing 326, pp 487-498, Springer International Publishing Thi Duyen Ngo, Thi Hong Nhan Vu, Viet Ha Nguyen, The Duy Bui (2014), Improving simulation of continuous emotional facial expressions by analyzing videos of human facial activities In Proc of the 17th International Conference on Principles and Practice of Multi-Agent Systems (PRIMA 2014) Lecture Notes in Computer Science Volume 8861, 2014, pp 222-237 Springer International Publishing Thi Duyen Ngo, The Duy Bui (2015), A Vietnamese 3D Taking Face for Embodied Conversational Agents In Proc of the 11th IEEE-RIVF International Conference on Computing and Communication Technologies (RIVF 2015), pp.94-99 [...]... MẶT BA CHIỀU NÓI TIẾNG VIỆT CHO NHÂN VẬT ẢO 5.1 Giới thiệu Chương này của luận án mô tả quá trình xây dựng một khuôn mặt ba chiều có khả năng thể hiện cảm xúc trên khuôn mặt và trong tiếng nói cho nhân vật ảo nói tiếng Việt 5.2 Những nghiên cứu liên quan Mô hình khuôn mặt ba chiều Luận án sử dụng mô hình khuôn mặt ba chiều dựa trên cơ được đề xuất bởi tác giả Bui Mô hình khuôn mặt bao gồm một lưới... vật ảo: Nhân vật ảo A: là nhân vật ảo có khuôn mặt ba chiều trong đó mô đun "Tạo biểu cảm giọng điệu" đã bị vô hiệu hóa, nhân vật ảo A chỉ thể hiện cảm xúc trên khuôn mặt, không có tiếng nói Nhân vật ảo B: là nhân vật ảo thể hiện cảm xúc trên cả khuôn mặt và trong giọng nói Hai video clip cho hai nhân vật ảo A, B được xây dựng Mục tiêu của thực nghiệm là ghi lại kết quả cảm nhận trạng thái cảm xúc... 2015 (công trình khoa học số 7) 23 KẾT LUẬN Luận án nghiên cứu bài toán thể hiện cảm xúc cho nhân vật ảo nói tiếng Việt Luận án đã đề xuất ba kết quả nghiên cứu chính như sau Thứ nhất, luận án đề xuất mô hình tạo biểu cảm khuôn mặt thể hiện trạng thái cảm xúc liên tục của nhân vật ảo Ý tưởng chính của mô hình là khi một cảm xúc được kích hoạt, biểu cảm khuôn mặt sẽ xuất hiện theo chuỗi với cường độ... luận Nhân vật ảo C thuyết phục hơn nhân vật ảo B trong việc tạo biểu cảm thể hiện cảm xúc trên khuôn mặt được chấp nhận Từ đây, có thể kết luận nhân vật ảo C (sử dụng mô hình đề xuất thứ hai) thuyết phục nhất (trong A, B, C) trong việc tạo biểu cảm thể hiện cảm xúc trên khuôn mặt 3.5 Kết chương Luận án đã đề xuất hai mô hình tạo biểu cảm khuôn mặt thể hiện trạng thái cảm xúc liên tục cho nhân vật ảo. .. với ba nhân vật ảo: Nhật vật ảo A: là nhân vật ảo cổ động viên bóng đá Obie nói trên; nhân vật ảo này sử dụng cơ chế ánh xạ trực tiếp để chuyển trạng thái cảm xúc liên tục thành biểu cảm khuôn mặt Nhân vật ảo B: chính là một bản sao của nhân vật ảo A nhưng cơ chế ánh xạ trực tiếp được thay thế bằng mô hình đề xuất thứ nhất Nhân vật ảo C: chính là một bản sao của nhân vật ảo A nhưng cơ chế ánh... động của môi khi phát âm tiếng Việt Tổng hợp biểu cảm khuôn mặt và cử động của môi khi phát âm tiếng Việt Để tổng hợp biểu cảm khuôn mặt thể hiện cảm xúc và cử động của môi khi phát âm tiếng Việt, luận án áp dụng nghiên cứu được đề xuất bởi Bui và cộng sự Trong hệ thống khuôn mặt nói tiếng Việt, chúng tôi tạo quyền ưu tiên cao hơn cho cử động của môi khi nói Cử động khuôn mặt cuối cùng, là kết quả... âm giữa tiếng nói có cảm xúc và tiếng nói ở trạng thái tự nhiên được xây dựng Sau đó, các luật này được sử dụng để biến đổi tiếng nói tiếng Việt ở trạng thái tự nhiên thành tiếng nói tổng hợp có cảm xúc Kết quả thực nghiệm đánh giá cho thấy tiếng nói tổng hợp được nhận dạng cảm xúc khá tốt Thứ ba, luận án đã xây dựng một khuôn mặt ba chiều có khả năng thể hiện cảm xúc trong giọng nói tiếng Việt, đồng... đánh giá với người dùng Thực nghiệm được tiến hành với ba nhân vật ảo: - Nhân vật ảo A: là nhân vật ảo cổ động viên bóng đá Obie nói trên, tiếng nói của nhân vật ảo A là tiếng nói ở trạng thái tự nhiên, không có cảm xúc - Nhân vật ảo B: chính là một bản sao của nhân vật ảo A, nhưng ở đây "Phương pháp biến đổi ở mức phát âm" đã được áp dụng để tạo biểu cảm giọng điệu cho Bảng 4.4: Tóm tắt kết quả đánh... được tiến hành với 14 người tham gia Sau khi tiến hành thực nghiệm, kết quả đánh giá của người dùng được tổng kết trong Bảng 3.3, Hình 3.16, Hình 3.17, và Hình 3.18 Từ kết quả đánh giá có thể thấy nhân vật ảo B thuyết phục hơn nhân vật ảo A trong việc tạo biểu cảm thể hiện cảm xúc trên khuôn mặt (kết luận 1), và nhân vật ảo nhân vật ảo C thuyết phục hơn nhân vật ảo B trong việc tạo biểu cảm thể hiện cảm. .. tính thuyết phục của nhân vật ảo B - Nhân vật ảo C: chính là một bản các nhân vật ảo trong việc tạo biểu cảm giọng điệu sao của nhân vật ảo A, nhưng ở đây "Phương pháp biến đổi ở mức âm tiết" đã được áp dụng để tạo biểu cảm giọng điệu cho nhân vật ảo C Mỗi nhân vật ảo được tạo một video clip có hình ảnh gồm hai phần: phần trên là hình ảnh khuôn mặt của nhân vật ảo, phần dưới là hình ảnh thể hiện cường