Một số agent hội thoại 3D và 2D

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Xây dựng hệ thống Agent hội thoại hiện thân cho tương tác người - máy. (Trang 28 - 32)

2.4.1. Sự phát triển

Mặc dù đã có những bƣớc phát triển nhƣng chúng ta chƣa thể quá kỳ vọng rằng trong tƣơng lai những agent này có thể đạt tới trình độ giao tiếp nhƣ con ngƣời. Điều đó không có nghĩa là chúng không thể đóng một vai trò quan trọng. Bates (1992) giới thiệu khái niệm “believability”(“sự có thể tin tƣởng đựơc”) trong lĩnh vực nghiên cứu này. “Sự có thể tin tƣởng đƣợc” đƣợc biểu hiện trong một ECA khi mặc dù thiếu sự giao tiếp hiện thực, việc sử dụng tính đa phƣơng thức của một mô hình làm giảm bớt sự thiếu tin tƣởng của ngƣời tham gia đối thoại.

Những thành công trong nghiên cứu ngôn ngữ học máy tính hóa (computational linguistics), giao diện đa hình thái (multimodal interface), đồ họa máy tính, và agent tự trị đã dẫn đến sự phát triển những con ngƣời ảo tự trị hay bán tự trị ngày càng tinh vi trong vài năm qua. Những nhân vật tự trị thuộc loại này rất quan trọng để sử dụng trong sản phẩm hoạt hình, giao diện, và các trò chơi vi tính. Các mô hình thông minh và có hành vi tự trị ngày càng nhiều hơn so với các mô hình vật lý đơn giản mà có sự điều kiển của con ngƣời. Trí thông minh ở đây không những nói đến khả năng suy luận, lập luận mà còn ám chỉ đến các "social smarts"- khả năng để thu hút hấp dẫn con ngƣời trong lối nói chuyện cuốn hút, hấp dẫn với lời nói và hành vi thích hợp của điệu bộ cơ thể. Nghiên cứu của tôi tập trung vấn đề xã hội và sự trí thông của giao tiếp - "conversational smarts"- và làm thế nào để thực hiện các loại mô hình con ngƣời ảo có khả năng ngôn ngữ và xã hội hóa để thực hiện hội thoại trực tiếp.

Trƣớc đây chúng ta đã biết đến hai hệ thống đƣợc phát triển đó là Animated Conversation của Cassell [19] và Ymir của Thórisson [20]. Animated Conversation là hệ thống đầu tiên có thể tạo ra những điệu bộ, nét mặt và ngữ điệu phù hợp với ngữ cảnh, hệ thống này đƣợc sử dụng cho các agent hoạt hình dựa trên sự biểu diễn ngữ nghĩa của thông tin, nhƣng nhƣợc điểm của hệ thống này là không tƣơng tác với con ngƣời theo thời gian thực. Hệ thông Ymir tập trung vào tích hợp đa phƣơng thức đầu vào ngƣời sử dụng, bao gồm các cử chỉ, sự nhìn chăm chú, lời nói, và ngữ điệu, nhƣng cũng có khả năng hạn chế đầu vào trong thời gian thực.

Hiện tai đang có hƣớng nghiên cứu phát triển một kiến trúc agent hội thoại hiện thân với mong muốn tích hợp tính năng đầu vào phong phú với thời gian thực của Ymir với khả năng sinh ngữ nghĩa và tổng hợp đa dạng của Animated Conversation [13]. Chúng ta mong rằng hệ thống có đƣợc sẽ cung cấp một nhân vật hội thoại có khả năng tƣơng tác phong phú, trực quan, mạnh mẽ cho cuộc hội thoại với con ngƣời. Chúng ta cũng tin rằng nhƣ vậy, một hệ thống nhƣ vậy sẽ cung cấp một nền tảng vững mạnh để tiếp tục phát triển agent hội thoại hiện thân.

2.4.2. Động lực phát triển

Có rất nhiều động lực tồn tại dựa trên nghiên cứu về cuộc hội thoại trực tiếp của con ngƣời trong phát triển giao diện cho agent hội thoại hiện thân. Động lực phổ biến nhất của chúng tôi phát sinh từ thực tế đó là hội thoại là một kỹ năng chính của con ngƣời, hội thoại là một kỹ năng đƣợc học từ rất sớm và từ thực tế đó cơ thể con ngƣời trở thành công cụ biểu cảm rất tốt để hỗ trợ hội thoại. Những bằng chứng đó làm chúng tôi tin rằng agent hội thoại hiện thân có thể phát triển để trở thành phƣơng thức giao tiếp mạnh mẽ của con ngƣời với máy tính. Tuy nhiên, một phần quan trọng của niệm tin này thì sự triển khai của họ phải đƣợc dựa trên nghiên cứu thực tế của hội thoại giữa con ngƣời và con ngƣời, và kiến trúc của nó phải phản ánh đƣợc bản chất thực của hội thoại đó.

Một động lực khác làm cơ sở thiết kế của kiến trúc cho agent hội thoại hiện thân dựa trên những nghiên cứu cuộc hội thoại giữa con ngƣời và con ngƣời trong thực tế, phát sinh từ một cuộc điều tra về các nhu cầu cụ thể mà không phù hợp trong giao diện hiện tại. Ví dụ, cách để làm nào cho hệ thống hội thoại có thể hoạt động tốt khi sự nhận dạng tiếng nói kém chất lƣợng, để hỗ trợ hiệu quả cộng tác giữa con ngƣời

và máy móc và giữa con ngƣời với thiết bị máy móc trung gian. Chúng ta tin rằng những agent hội thoại hiện thân nhƣ vậy sẽ thỏa mãn đầy đủ nhu cầu bởi vì các chức năng này là chính xác cho những cuộc hội thoại. Tuy nhiên, nhƣng chức năng này phải đƣợc mô hình hóa một cách cẩn thận trong giao diện.

Tính trực giác: Hội thoại thực chất là một kỹ năng của con ngƣời đƣợc học hỏi qua nhiều năm phát triển và đƣợc thực hành hàng ngày. Giao diện giao tiếp cung cấp một mô hình trực quan cho tƣơng tác, vì ngƣời dùng không cần thiết để học thêm những kỹ năng mới.

Redundancy và Modality Switching: Các giao diện hội thoại hiện thân hỗ trợ sự phong phú và bổ trợ lẫn nhau giữa chế độ đầu vào. Điều này cho phép ngƣời sử dụng và hệ thống tăng độ tin cậy khi truyền đạt thông tin trong nhiều phƣơng thức, và để tăng tính diễn cảm bằng cách sử dụng mỗi phƣơng thức cho loại biểu cảm.

Bản chất xã hội của tương tác: Cho dù máy tính có giống con ngƣời hay không thì ngƣời ta cũng gán cho chúng những thuộc tính giống với con ngƣời nhƣ sự thân thiện, hay sự cộng tác (cooperativeness) [12]. Một hiện tiếp giao diện có thể tận dụng lợi thế này và tạo ra cảm giác cuốn hút tự nhiên cho ngƣời dùng trong các cuộc hội thoại với máy tính. Nếu giao diện đƣợc thiết kế tốt để trả lời trong hội thoại thì sự tƣơng tác có thể đƣợc cải thiện.

2.4.3. Hội thoại trực tiếp với con ngƣời

Hội thoại hiện thân phản hồi với nhiều hình thức diễn đạt khác nhau nhƣ lời nói, ngôn điệu, cử chỉ tay, biểu hiện nét mặt và động tác của đầu. Ngƣời nói sử dụng các phƣơng thức này một cách song song và kết hợp theo các cách thức cần thiết, trong ngƣời nghe đƣa ra các phản hồi đa dạng và phong phú theo cách tƣơng tự. Ngƣời nói và ngƣời nghe thực hiện chuyển đổi vai trò “ngƣời nói – ngƣời nghe” thông qua chuỗi hành vi “turn-talking”.

Hiện nay đã có nhiều nhóm phát triển framework hội thoại với các chức năng (Function), cách thức (Modality), tính toán (Timing), hành vi (Behavior) (FMTB) cho kế hoạch tƣơng tác hội thoại giữa một agent hội thoại hiện thân và con. Nói chung, tất cả hành vi hội thoại trong framework FMTB phải hỗ trợ cho các chức năng hội thoại,

và bất cứ hành động trong thể thức nào đều phải truyền đạt giao tiếp có mục. Một số tính năng nổi bật của cuộc hội thoại

o Sự khác biệt chức năng tuyên bố và tƣơng tác của hội thoại.

o Sử dụng một số cách thức trong hội thoại.

o Tầm quan trọng của việc tính toán giữa các hành vi giao tiếp (và gia tăng co- temporality hay đồng bộ giữa những ngƣời tham gia)

o Sự khác biệt giữa các hành vi hội thoại và chức năng hội thoại.

2.4.4. Yêu cầu kiến trúc

Việc đầu tƣ xây dựng của một nhân vật máy tính có thể tham gia hiệu quả vào hội thoại trực tiếp nhƣ mô tả ở trên đòi hỏi kiến trúc có những tính năng sau:

Đầu vào và đầu ra đa cách thức: Khi ngƣời tham gia hội thoại gửi và nhận thông điệp thông qua các cử chỉ, ngữ điệu và ánh mắt cũng nhƣ lời nói, thì hệ thống cũng phải hỗ trợ tiếp nhận và chuyển tải thông tin này.

Thời gian thực: Hệ thống phải cho phép ngƣời nói xem thông tin phản hồi và lần lại các yêu cầu, trong ngƣời nghe có thể gửi những thông tin này bất cứ lúc nào thông qua các thể thức khác nhau. Các kiến trúc cần đủ linh hoạt để kiểm soát các thread khác nhau trong giao tiếp. Các thread khác nhau yêu cầu có thời gian phản ứng khác nhau. Hệ thống nên phản ánh thực tế là các tiến trình xử lý khác nhau tập trung vào các hành động trên những khoảng thời gian khác nhau.

Hiểu và tổng hợp thông tin mệnh lệnh và tương tác: Xử lý thông tin mệnh lệnh (propositional) cần xây dựng một mô hình nhu cầu ngƣời dùng và tri thức. Vì vậy, các kiến trúc phải bao gồm cả cơ sở tri thức lĩnh vực và cơ sở tri thức thuyết trình động. Sự xuất hiện thông tin mệnh lệnh đòi hỏi một môđun lập kế hoạch tính toán thể hiện đầu ra nhiều câu và quản lý trật tự trình bày các sự kiện độc lập.

Mô hình chức năng hội thoại: Rõ ràng chức năng này cung cấp cả nguyên tắc và môđun hóa để cho chúng ta có thể kết hợp nhiều mođun lại với nhau. Mô hình chức năng chi phối đến kiến trúc hệ thống vì các mô-đun cốt lõi của hệ thống hoạt động riêng trên chức năng, trong khi các module khác phía ngoài chuyển đổi đầu vào vào các chức năng, và chức năng đƣa kết quả đến đầu ra. Điều này cũng tạo một kiến trúc

cân đối bởi vì các chức năng và hình thức diễn đạt giống nhau trong cả đầu ra lẫn đầu vào.

2.4.5. Kiến trúc hội thoại hiện thân

Ở bậc cao, kiến trúc của hệ thống đƣợc chia ra các phần nhƣ: trình quản lý đầu vào (Input Manager) đảm nhiệm đón nhận các dữ liệu vào thông qua nhiều cách thức; bộ lập lịch hành động (Action Scheduler) chịu trách nhiệm đồng bộ các hành động ra qua các phƣơng thức; và một thành phần giải quyết các chƣc năng tƣơng tác thời gian thực và các phản hồi thảo luận nhƣ là sự hiểu biết và tổng hợp nội dung. Mô hình kiến trúc đƣợc mô tả qua Hình 4.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Xây dựng hệ thống Agent hội thoại hiện thân cho tương tác người - máy. (Trang 28 - 32)

Tải bản đầy đủ (PDF)

(69 trang)