Nhìn chung tính cách là tập hợp những suy nghĩ, hành vi và những mẫu cảm xúc. Đến nay đã có rất nhiều những nghiên cứu và lý thuyết khác nhau về việc sự biểu diễn tính cách, nhƣng phổ biến nhất trong số đó là Factor Five hay còn gọi là Big5. Trong mô hình Factor Five, Lewis Goldberg phân chia tính cách ra 5 yếu tố: sự hƣớng ngoại (Extraversion), sự hài hòa (Agreeableness), sự ngay thẳng (Conscientiousness), Neuroticism và sự cởi mở (Openness).
Cảm xúc trong một cuộc hội thoại là yếu tố rất quan trong. Một cuộc hội thoại thành công là nhờ có hai yếu tố: lời nói và các cử chỉ phi ngôn ngữ trong đó gồm có cảm xúc, cử chỉ, dáng điệu, nét mặt… Cảm xúc trong hội thoại giúp ngƣời đối thoại hiểu rõ nội dung của cuộc hội thoại. Cũng giống nhƣ tính cách, trong nghiên cứu về mô hình hóa cảm xúc vào máy tính có rất nhiều phƣơng pháp, có hai mô hình phổ biến nhất đó là Ekman và mô hình OCC (Ortony, Clore và Collins).
Mô hình OCC đƣợc viết tắt từ ba tên tác giả đó là Ortony, Collins và Clore. Thay vì chúng ta mô tả mọi cảm xúc tồn tại trong cuộc sống, mô hình OCC phân loại cảm xúc ra thành nhiều nhóm mức độ, hay còn gọi là loại cảm xúc, những cảm xúc trong cùng nhóm thì sẽ có những nguyên nhân tác động giống nhau.
Ortony, Collins và Clore đƣa ra phƣơng pháp nhận thức về cảm xúc. Lý thuyết này vô cùng có ích cho các dự án mô hình hóa agent kèm theo cảm xúc. Với suy nghĩa cảm xúc là “sự kết hợp các phản ứng” đặt nền tảng cho sự phân tích của họ. Những tác giả này không mô tả các sự kiên theo cách gây ra các cảm xúc.
Hình 5: Mô hình cảm xúc OCC 2.4.7. Một số agent hội thoại hiện thân
2.4.7.1. REA - An Embodied Conversational Agent
Rea là agent hội thoại, chuyên môn chính là bất động sản và cô có quyền truy cập vào một cơ sở dữ liệu có sẵn của nhà công và nhà ở để bán ở Boston. Cô ấy có thể hiển thị hình ảnh của những ngƣời và tài sản của các phòng khác nhau, và điểm ra và thảo luận của họ phun ra các tính năng. Sau đây là một trích từ một tƣơng tác thực sự:
Mike approaches the projection screen. Rea is currently turned side on and is gazing idly about. As Mike moves within range of the two cameras mounted above the screen, Rea turns to face him and says:
REA> Hello. How can I help you?
MIKE> I'm looking to buy a place near MIT.
Rea nods, indicating that she is following.
REA> I have a house to show you.
A picture of a house appears on-screen behind Rea who blinks and looks at the house and then at Mike.
REA> It’s in Somerville.
MIKE> Tell me about it.
Rea looks up and away while she plans what to say
REA> It’s big.
Rea makes an expansive gesture with her hands.
Mike brings his hands up as if he is about to speak and so Rea does not continue; instead waiting for him to speak.
MIKE> Tell me more about it
REA> Sure thing. It has a nice garden.
Rea sketches a curved gesture with her hands indicating that the garden extends along two sides of the house
MIKE> How far is it?
Rea makes it clear that it is five minutes on foot from the T station by making a walking gesture with her fingers
MIKE> How big is the house?
REA> It has four bedrooms, three bathrooms. . .
Mike interrupts Rea who stops speaking immediately.
MIKE> Wait. Tell me, where is the master bedroom?
REA> I’m sorry, I didn’t catch that. What did you ask me?
MIKE> Where is the master bedroom?
REA> It’s upstairs.
Rea points up
MIKE> Where is the master bathroom?
REA> It’s next to the bedroom.
Rea brings her hands together to indicate the relationship between the bedroom and the bathroom.
And the house tour continues.
Kiến trúc REA
Gồm có 3 thành phần chính:
o Dữ liệu đầu vào chấp nhận nhiều hình thức diễn đạt ví dụ nhƣ các thiết bị đầu vào. Tuy nhiên các cách thức này đều đƣợc tích hợp vào một đại diện ngữ nghĩa.
o Phần đại diện ngữ nghĩa này có nhiều cách trao đổi để thông tin tƣơng tác và xác nhận để điều chỉnh và đóng góp cho mỗi hành động hội thoại đƣợc duy trì trong suốt hệ thống.
o Sự phân chia thói quen ứng xử theo hƣớng các chức năng giao tiếp của nó đƣợc phản ánh quá sự cấu tạo của kiến trúc, nơi tập trung các quyết định theo các chức năng (sự hiểu biết, kê hoạch phản hồi, và các module tái tạo), và chuyển đến các quyết định bên lề theo các hành vi (quản lý đầu vào và lập lịch hành động).
Hình 6: Conversational agent architecture
2.4.7.2. Ola – một agent hội thoại với cử chỉ điệu bộ
Dự án Olga đã phát triển một giao diện agent hoạt hình cho dịch vụ thông tin. Giao diện kết hợp đồ họa, lời hội thoại và nhân vật hoạt hình 3D giống con ngƣời cho đa dạng hóa dữ liệu vào ra. Sự tƣơng tác thông minh đƣợc quản lý bằng các kỹ thuật bắt nguồn từ các lời hội thoại, nhƣng đƣợc mở rộng cho các hình thức đồ. Agent Olga là sáng tạo trong việc kết hợp hệ thống hội thoại với một hệ thống nhân vật hoạt hình 3D sử dụng tổng hợp đồng bộ các cử động của môi khi nói và cử chỉ, điệu bộ. Đồng bộ lời nói với cử động môi làm tăng tính dễ hiểu, trong khi nét mặt và điệu bộ mô tả trạng thái bên trong của agent và tập trung hội thoại.
Giao diện agent đa dạng
Hầu hết các giao diện hội thoại dựa trên thao tác trực tiếp, nơi ngƣời dùng tự chịu trách nhiệm giám sát và thực hiện tất cả các công việc. Tuy nhiên, giao diện quản lý gián tiếp đang đƣợc phát triển, cho phép ngƣời sử dụng ủy thác một số công việc cho một agent giao diện. Ví dụ công việc có thể đƣợc thiết lập bởi ngƣời hƣớng dẫn cụ thể hoặc bằng các kỹ thuật ngầm đƣợc tìm hiểu thông qua sự quan sát mẫu hành động của ngƣời dùng (Maes, 1996). Tuy nhiên, các kỹ thuật sau đã bị chỉ trích dựa trên sự dự đoán trƣớc đƣợc, kiểm soát và hiểu cho ngƣời sử dụng (Schneiderman, 1997).
Hình 7: Nhân vật hoạt hình 3D
Trong dự án Olga, chúng tôi đã phát triển một hệ thống đa phƣơng, kết hợp một giao diện hội thoại với một giao diện ngƣời dùng đồ họa, cung cấp cho ngƣời tiêu dùng thông tin và cả âm thanh. Thông tin phản hồi từ hệ thống đƣợc thể hiện thông qua một nhân vật hoạt hình 3D có khả năng nói. Hệ thống gồm bốn thành phần chính: thành phần hiểu ngôn ngữ và lời; giao diện thao tác trực tiếp cung cấp thông tin đồ họa và công cụ điều khiển; nhân vật hoạt hình; và một trình quản lý hội thoại.
Trình quản lý hội thoại
Quản lý hội thoại đƣợc dựa trên kỹ thuật đƣợc phát triển ở giao diện hội thoại lời nói cho hệ thống thông tin điện thoại với nhiều ngôn ngữ khác nhau (Eckert & McGlashan, 1993). Một mô hình gồm ba phần cho sự tƣơng tác chịu trách nhiệm về ngữ nghĩa, giao việc và thông dịch hội thoại. Thành phần ngữ nghĩa cung cấp một sự phiên dịch dựa vào ngữ cảnh với dữ liệu vào của ngƣời dùng, đó là khả năng giải quyết sự trùng lặp và giản. Thành phần giao việc (task) phụ trách phân luồng các thông tin có đƣợc từ ngƣời sử dụng đến việc truy cập cơ sở dữ liệu. Thành phần hội thoại theo kỹ thuật hƣớng sự kiện 'sự kiện-đuổi' để thông dịch thực dụng dữ liệu vào của ngƣời dùng và tạo ra các phản hồi cho agent (Giachin & McGlashan, 1996). Trên cơ sở các sự việc đƣa vào của ngƣời sử dụng, nó cập nhật một mô hình tƣơng tác gồm mục tiêu agent và chiến lƣợc tƣơng tác. Những mục tiêu xác định hành vi của agent, cho phép xác nhận và làm rõ dữ liệu vào của ngƣời sử dụng (để giảm thiểu hội thoại), cũng nhƣ các yêu cầu thu thập thêm thông tin (để tối đa hóa tiến trình hội thoại). Chiến lƣợc hội thoại năng động để hành vi của agent phong phú trong quá trình xử lý.
Nhân vật hoạt hình
Nhân vật là một tiểu thƣ giống nhƣ các nhân vật họa hình, có thể đƣợc chuyển động trong thời gian thực. Nhân vật có khả năng tổng hợp lời nói từ văn bản với hoạt động đồng bộ của môi, hàm và lƣỡi. Nó cũng hỗ trợ biểu hiện cử chỉ và nét mặt để nhấn mạnh trong hội thoại, đồ họa tham khảo trực quan nhƣ hình minh họa, bảng biểu và thông tin trạng thái nội tại của hệ thộng nhƣ đang nghệ, hiểu, ngập ngừng, đang suy nghĩ (ví dụ thao tác ám chỉ đang tìm kiếm thông tin trong cơ sở dữ liệu).
Lời nói, cử chỉ và nét mặt
Một lý do quan trọng cho việc sử dụng agent hoạt hình giao thiệp là nó thực sự sẽ đóng góp, đôi khi đáng kể, đến khả năng truyền đạt của ngôn luận (LeGoff et al., 1994). Điều này đặc biệt đúng nếu môi trƣờng âm thanh môi trƣờng không tốt, ví dụ do tiếng ồn, tiếng nói chuyện xen vào hoặc sự suy yếu của thính giác. Trong một số thử nghiệm, agent hội thoại Olga thấy rằng độ dễ hiểu của khả năng truyền đạt của nó là 30% nếu trong môi trƣờng tiếng ồn và chỉ có âm thanh, còn là 47% nếu kết hợp giữa âm thanh và biểu hiện nét mặt (Beskow et al., 1997).
CHƢƠNG 3. MÔ HÌNH MẶT 3D BIỂU CẢM
3.1. Giới thiệu
Khuôn mặt của con ngƣời là rất đặc biệt, nó là một phần quan trọng của cơ thể nhờ nó mà có thể nhận ra dáng vẻ bề ngoài của một con [21]. Trong số hàng trăm khuôn mặt, chúng ta vẫn có thể nhận ra một mặt quen thuộc. Chúng ta cũng có khả năng phát hiện sự thay đổi nhỏ của nét mặt. Khả năng này phát triển từ những ngày thơ ấu rất sớm của chúng ta và nó trang bị cho chúng ta công cụ giao tiếp cơ bản. Nhƣ kết luận do Sigman và Capps (1997) trong "Children with Autism: A Developmental Perspective", với trẻ sơ sinh tầm chín tháng tuổi bắt đầu quan sát đƣợc các nét mặt phản hồi của những ngƣời khác. Trẻ em phát triển bình thƣờng thì một năm tuổi bắt đầu có thể bắt đầu phân biệt biểu hiện của cảm xúc. Trẻ sơ sinh để tiếp tục cải tiến khả năng này trong khi chúng phát triển lên.
Nét mặt con ngƣời đóng vai trò rất quan trọng trong hội thoại trực tiếp (Argyle, 1990). Chuyển động của môi khi nói cung cấp một gợi ý trực quan về những gì đang đƣợc nói. Cohen và Massaro (1993) [14] đã cho thấy rằng video chứa sự chuyển động của môi cùng với âm thanh sẽ tăng sự nhận biết âm ngữ hơn so với nếu chúng ta chỉ có âm thanh. Sự chuyển động của môi là rất cần thiết cho ngƣời điếc để hiểu một cuộc đàm thoại. Biểu hiện khuôn mặt, trong hoàn cảnh giao tiếp phi ngôn ngữ, thƣờng ngụ ý sự thay đổi năng động của nét mặt theo thời gian. Tuy nhiên, nhƣ là hình ảnh tĩnh của mặt cũng có thể bày tỏ cảm xúc, các mặt biểu hiện có thể đƣợc tĩnh. Mặc dù nếu không có ngữ cảnh đi theo thì với chỉ hình ảnh nét mặt chúng ta có thể bị mơ hồ và nhập nhằng. Nét mặt thay đổi liên tục trong quá trình giao tiếp. Nét mặt có thể biểu lộ cảm xúc và tâm trạng. Nó cũng có thể truyền tải thông tin về nhân cách hay cá tính của một ngƣời. Thông tin này ẩn bên trong của con ngƣời mà không thể lấy đƣợc từ các kênh bằng lời nói.
Gần đây sự quan tâm đối với việc mô hình hoá kiểu dáng khuôn mặt và mô hình hoá đã đƣợc thúc đẩy nhờ sự xuất hiện ngày càng mạnh mẽ của những nhân vật ảo trong phim, trong băng đĩa và các trò chơi máy tính. Các ứng dụng có thể khác là: đàm thoại 3D, gửi thƣ điện tử 3D hoặc tán chuyện qua hệ thống các máy tính đƣợc kết nối với nhau. Liên tục kể từ công cuộc tiên phong của Parke [13], các cuộc nghiên cứu
đã cố gắng để tạo ra một kiểu dáng khuôn mặt và hình ảnh hoạt hoạ giống nhƣ thật. Trong một bản điều tra chuyên nghiệp đọc giả đã đƣợc điều tra ý kiến [14].
Sự phức tạp của kỹ thuật giải phẫu khuôn mặt ngƣời và các biểu hiện tình cảm tự nhiên thể hiện trên nét mặt làm nảy sinh khó khăn trong việc mô hình hoá diện mạo khuôn mặt ngƣời và những biểu hết sức tinh tế. Mặc dù một vài nghiên cứu gần đây [3, 10, 15] đã mang tới những kết quả thực tế với những bƣớc tiến triển khá nhanh, qúa trình tạo ra một mô hình đầu ngƣời đặc biệt phù hợp với biểu hiện hoạt hoạ trên khuôn mặt thƣờng đòi hỏi việc gia công nhiều hơn của con ngƣời [15], những biểu hiện vật lý trên khuôn mặt [10], hay sự cần thiết của một cơ sở dữ liệu khổng lồ của các khuôn mặt ngƣời [3].
Mô hình của chúng tôi tiếp cận trên cơ sở những kỹ thuật ảo trên máy tính trong đó những cặp đôi khác biệt về hình ảnh âm thanh đƣợc dung để tạo ra các hình học cụ thể và chính xác. Để làm đƣợc một mô hình hoàn hoả của phần đầu, chúng tôi có đƣợc phần trán và các góc nhìn của khuôn mặt ngƣời, một cái nhìn từ phần đỉnh đầu và một cái nhìn từ sau, mỗi cái sẽ cho một cấu trúc 3D riêng biệt của các phần có thể nhìn thấy của phần đầu. Hệ thống tƣơng tác lẫn nhau của chúng tôi cho phép ngƣời sử dụng tách riêng một chuỗi các cuộc đàm thoại giữa mỗi mạng lƣới âm thanh và nguyên mẫu các phần đỉnh mô hình. Những cuộc hội thoại một- một trên đƣợc sử dụng để sắp xếp theo chuỗi một cách tự động các mạng lƣới âm thanh với mô hình nguyên mẫu và để chỉnh sửa lại mô hình cuối cùng để tự thêm vào cái hình học của một chủ thể mới
Hình ảnh minh hoạ 1 cho thấy một hệ thống các hình ảnh đầu vào và khuôn mặt 3D đƣợc tổng hợp trong một kiểu tƣơng tự. Hình ảnh 2 mô tả kiểu mẫu chung trƣớc và sau kỹ thuật tạo hiệu ứng hình ảnh bằng máy tính. Hệ thống của chúng tôi giúp ngƣời sử dụng có thể chỉnh sửa hình ảnh minh hoạ ban đầu nếu cần thiết.
Bởi vì mạng lƣới kiểu mẫu của chúng tôi chỉ bao gồm 1700 các hình đa giác (vì mục đích tốc độ) so với khoảng 20-40K các hình tam giác cho mỗi sự dựng lại, vì thế mà quá trình điều chỉnh hoàn toàn là một đơn giản hoá hay là quá trình nén lại. Mạng lƣới kiểu mẫu ban đẩu gồm kỹ xảo hoạt hoạ, (trong trƣờng hợp của chúng tôi chúng tôi đã thử hai phƣơng pháp: kỹ thuật tạo hiệu ứng âm thanh các đỉnh mỏ neo hay muscle- based information cho mối đỉnh [19]), vì thế sau khi quá trình điều chỉnh hoàn tất,
chúng tôi có thể làm sống động hoá mô hình mô tả toàn bộ phần đầu ngƣời với sự ƣớc tính đƣợc.
Đặc tính ƣu việt nổi trội của công nghệ của chúng tôi là chúng tôi khôi phục lại toàn bộ hình đầu ngƣời so với [10], [3] nơi mà chỉ có phần trán là đƣợc mô hình hoá. Chúng tôi đạt đƣợc điều đó mà không cần điều chỉnh bất kỳ thông số nào hay cần tạo thêm các điểm trên khuôn mặt [10]. Việc sử dụng thuật toán nổi để thu nhận hình ảnh giúp tránh đƣợc việc sử dụng những thiết bị đắt tiền nhƣ máy quét 3D, hay bộ số hoá 3D của Inspeck. Một đặc tính ƣu việt khác là một chiếc máy quay điển hình có thể trích tách các bản đồ kết cấu ở độ phân giải cao hơn so với máy quét ( chiếc máy quét Cyberware tiêu biểu tạo ra một khung lƣới là 512x256).
Điểm khác biệt chính giữa các tiếp cận của chúng tôi và [15] là việc sử dụng những góc nhìn khác nhau của đầu ngƣời cho phép chúng tôi phục hồi lại hầu nhƣ toàn bộ hình học đầu ngƣời bao gồm phần sau và phần đỉnh đầu, và sự giảm đi các con số thông thƣờng của các cuộc đàm thoại cần thiết cho việc tạo dựng một hình mẫuu khuôn mặt cụ thể từ 99 [15] hay 182 [10] tới ít dƣới 50. Cũng cần phải chú ý rằng giải pháp của chúng tôi rẻ hơn bởi vì chúng tôi chỉ dung một bộ đôi máy quay thay cho 5