CHƢƠNG 2 AGENT HỘI THOẠI HIỆN THÂN
2.4. Agent hội thoại hiện thân
2.4.7.2. Ola – một agent hội thoại với cử chỉ điệu bộ
Dự án Olga đã phát triển một giao diện agent hoạt hình cho dịch vụ thông tin. Giao diện kết hợp đồ họa, lời hội thoại và nhân vật hoạt hình 3D giống con ngƣời cho đa dạng hóa dữ liệu vào ra. Sự tƣơng tác thông minh đƣợc quản lý bằng các kỹ thuật bắt nguồn từ các lời hội thoại, nhƣng đƣợc mở rộng cho các hình thức đồ. Agent Olga là sáng tạo trong việc kết hợp hệ thống hội thoại với một hệ thống nhân vật hoạt hình 3D sử dụng tổng hợp đồng bộ các cử động của môi khi nói và cử chỉ, điệu bộ. Đồng bộ lời nói với cử động môi làm tăng tính dễ hiểu, trong khi nét mặt và điệu bộ mô tả trạng thái bên trong của agent và tập trung hội thoại.
Giao diện agent đa dạng
Hầu hết các giao diện hội thoại dựa trên thao tác trực tiếp, nơi ngƣời dùng tự chịu trách nhiệm giám sát và thực hiện tất cả các công việc. Tuy nhiên, giao diện quản lý gián tiếp đang đƣợc phát triển, cho phép ngƣời sử dụng ủy thác một số công việc cho một agent giao diện. Ví dụ công việc có thể đƣợc thiết lập bởi ngƣời hƣớng dẫn cụ thể hoặc bằng các kỹ thuật ngầm đƣợc tìm hiểu thông qua sự quan sát mẫu hành động của ngƣời dùng (Maes, 1996). Tuy nhiên, các kỹ thuật sau đã bị chỉ trích dựa trên sự dự đoán trƣớc đƣợc, kiểm soát và hiểu cho ngƣời sử dụng (Schneiderman, 1997).
Hình 7: Nhân vật hoạt hình 3D
Trong dự án Olga, chúng tôi đã phát triển một hệ thống đa phƣơng, kết hợp một giao diện hội thoại với một giao diện ngƣời dùng đồ họa, cung cấp cho ngƣời tiêu dùng thông tin và cả âm thanh. Thông tin phản hồi từ hệ thống đƣợc thể hiện thông qua một nhân vật hoạt hình 3D có khả năng nói. Hệ thống gồm bốn thành phần chính: thành phần hiểu ngôn ngữ và lời; giao diện thao tác trực tiếp cung cấp thông tin đồ họa và công cụ điều khiển; nhân vật hoạt hình; và một trình quản lý hội thoại.
Trình quản lý hội thoại
Quản lý hội thoại đƣợc dựa trên kỹ thuật đƣợc phát triển ở giao diện hội thoại lời nói cho hệ thống thông tin điện thoại với nhiều ngôn ngữ khác nhau (Eckert & McGlashan, 1993). Một mô hình gồm ba phần cho sự tƣơng tác chịu trách nhiệm về ngữ nghĩa, giao việc và thông dịch hội thoại. Thành phần ngữ nghĩa cung cấp một sự phiên dịch dựa vào ngữ cảnh với dữ liệu vào của ngƣời dùng, đó là khả năng giải quyết sự trùng lặp và giản. Thành phần giao việc (task) phụ trách phân luồng các thông tin có đƣợc từ ngƣời sử dụng đến việc truy cập cơ sở dữ liệu. Thành phần hội thoại theo kỹ thuật hƣớng sự kiện 'sự kiện-đuổi' để thông dịch thực dụng dữ liệu vào của ngƣời dùng và tạo ra các phản hồi cho agent (Giachin & McGlashan, 1996). Trên cơ sở các sự việc đƣa vào của ngƣời sử dụng, nó cập nhật một mô hình tƣơng tác gồm mục tiêu agent và chiến lƣợc tƣơng tác. Những mục tiêu xác định hành vi của agent, cho phép xác nhận và làm rõ dữ liệu vào của ngƣời sử dụng (để giảm thiểu hội thoại), cũng nhƣ các yêu cầu thu thập thêm thông tin (để tối đa hóa tiến trình hội thoại). Chiến lƣợc hội thoại năng động để hành vi của agent phong phú trong quá trình xử lý.
Nhân vật hoạt hình
Nhân vật là một tiểu thƣ giống nhƣ các nhân vật họa hình, có thể đƣợc chuyển động trong thời gian thực. Nhân vật có khả năng tổng hợp lời nói từ văn bản với hoạt động đồng bộ của môi, hàm và lƣỡi. Nó cũng hỗ trợ biểu hiện cử chỉ và nét mặt để nhấn mạnh trong hội thoại, đồ họa tham khảo trực quan nhƣ hình minh họa, bảng biểu và thông tin trạng thái nội tại của hệ thộng nhƣ đang nghệ, hiểu, ngập ngừng, đang suy nghĩ (ví dụ thao tác ám chỉ đang tìm kiếm thông tin trong cơ sở dữ liệu).
Lời nói, cử chỉ và nét mặt
Một lý do quan trọng cho việc sử dụng agent hoạt hình giao thiệp là nó thực sự sẽ đóng góp, đôi khi đáng kể, đến khả năng truyền đạt của ngôn luận (LeGoff et al., 1994). Điều này đặc biệt đúng nếu môi trƣờng âm thanh môi trƣờng không tốt, ví dụ do tiếng ồn, tiếng nói chuyện xen vào hoặc sự suy yếu của thính giác. Trong một số thử nghiệm, agent hội thoại Olga thấy rằng độ dễ hiểu của khả năng truyền đạt của nó là 30% nếu trong môi trƣờng tiếng ồn và chỉ có âm thanh, còn là 47% nếu kết hợp giữa âm thanh và biểu hiện nét mặt (Beskow et al., 1997).