Agent hội thoại hiện thân

Agent hội thoại là các bƣớc đi kế tiếp cho thế thệ tƣơng tác giữa ngƣời và máy tính. Điều này không chỉ giúp cho con ngƣời tƣơng tác tự nhiên hơn, mà còn tăng độ hiệu quả và tốc độ làm việc với máy tính. Trong nghiên cứu này, tôi sẽ trình bày một số phần chính cần thiết cho sự hoạt động của agent hội thoại và đƣa ra những công việc đã hoàn tất cũng nhƣ những công việc còn phải thực hiện. Chúng ta vẫn còn nhiều việc phải làm để xây dựng một agent hội thoại cho công việc chung, nhƣng tôi hy vọng rằng những kiến thức đóng góp trong quá trình nghiên cứu này sẽ giúp agent hội thoại sẽ sớm đƣợc thành công trong tƣơng lai gần.

Agent hội thoại khai thác các công nghệ ngôn ngữ tự nhiên, để thu hút ngƣời dùng trong tìm kiếm thông tin văn bản và trong hội thoại hƣớng nhiệm vụ cho một loạt các ứng dụng. Công nghệ này đã triển khai trên các trang web bán lẻ, họ phản hồi những yêu cầu của khách hàng về các sản phẩm và dịch vụ. Agent hội thoại liên kết với dịch vụ tài chính, các trang web trả lời các câu hỏi về số dƣ tài khoản và cung cấp thông tin portfolio. Agent hội thoại mang tính sƣ phạm trợ giúp sinh viên bằng cách cung cấp hƣớng giải quyết vấn đề khi họ tìm hiểu. Agent hội thoại trong giải trí đƣợc triển khai trong các trò chơi để thu hút ngƣời chơi trong các cuộc hội thoại tình huống về các sự kiện game-thế giới. Trong thời gian tới, agent hội thoại sẽ hỗ trợ một loạt các ứng dụng trong các doanh nghiệp kinh doanh, giáo dục, chính phủ, y tế và giải trí.

Agent hội thoại hiện thân là một loại agent hội thoại cao cấp, ngoài tính năng giao tiếp mà một agent hội thoại có, còn sử dụng các hội thoại sử dụng nét mặt, dáng điệu, cử chỉ để giao tiếp. Hay chính là nhân cách hóa vào agent, để chúng không những trò chuyện với con ngƣời mà còn có những hành vi và phản ứng để tƣơng tác lại với ngƣời sử dụng.

Agent hội thoại hiện thân là một hình thức giao diện ngƣời dùng thông minh. Về mặt đồ họa, agent hiện thân là sự kết hợp các cử chỉ, biểu hiện nét mặt và cách giao tiếp tƣơng tác trực tiếp với ngƣời sử dụng: hay chính là sự tƣơng tác giữa con ngƣời và máy tính. Giao tiếp mặt đối mặt cho phép các kênh giao tiếp phong phú hơn, có thể biểu lộ cảm xúc trên khuôn mặt, kết hợp các cử chỉ, hành động và sự đính hƣơng trong môi trƣờng 3 chiều. Sự giao tiếp này diễn ra thông qua cả hai bằng lời nói và những hành động không lời nói nhƣ nhìn chằm chằm, cử chỉ điệu bộ, âm điều của lời nói và điệu bộ của cơ thể. Do đó agent hội thoại hiện thân có thể đƣợc định nghĩa giống với các đặc điểm của những cuộc trò chuyện mặt đối mặt của con ngƣời, bao gồm:

o Khả năng nhận biết và phản hồi những đầu vào là lời nói và dạng phi ngôn ngữ.

o Khả năng tạo ra những lời nói đáp trả và những phƣơng thức phản hồi phi ngôn ngữ.

o Khả năng thực hiện các chức năng hội thoại nhƣ thay đổi chuyện trò, phản hồi.

Vài hình ảnh minh hoạ về các agent hội thoại hiện thân đƣợc trình bày trong Hình 3. Từ trái qua phải chúng ta thấy: Jennifer James, một nữ lái xe với nhiệm vụ là thiết lập mối quan hệ với cảm giác yêu mến, tin tƣởng và sự trung thành với khách hang của mình, Karin thông báo các chƣơng trình hoà nhạc và bán vé, Steve hƣớng dẫn sinh viên về bảo dƣỡng các thiết bị máy móc phức tạp và Linda tƣ vấn về học tập.

Hình 3: Một số agent hội thoại 3D và 2D 2.4.1. Sự phát triển

Mặc dù đã có những bƣớc phát triển nhƣng chúng ta chƣa thể quá kỳ vọng rằng trong tƣơng lai những agent này có thể đạt tới trình độ giao tiếp nhƣ con ngƣời. Điều đó không có nghĩa là chúng không thể đóng một vai trò quan trọng. Bates (1992) giới thiệu khái niệm “believability”(“sự có thể tin tƣởng đựơc”) trong lĩnh vực nghiên cứu này. “Sự có thể tin tƣởng đƣợc” đƣợc biểu hiện trong một ECA khi mặc dù thiếu sự giao tiếp hiện thực, việc sử dụng tính đa phƣơng thức của một mô hình làm giảm bớt sự thiếu tin tƣởng của ngƣời tham gia đối thoại.

Những thành công trong nghiên cứu ngôn ngữ học máy tính hóa (computational linguistics), giao diện đa hình thái (multimodal interface), đồ họa máy tính, và agent tự trị đã dẫn đến sự phát triển những con ngƣời ảo tự trị hay bán tự trị ngày càng tinh vi trong vài năm qua. Những nhân vật tự trị thuộc loại này rất quan trọng để sử dụng trong sản phẩm hoạt hình, giao diện, và các trò chơi vi tính. Các mô hình thông minh và có hành vi tự trị ngày càng nhiều hơn so với các mô hình vật lý đơn giản mà có sự điều kiển của con ngƣời. Trí thông minh ở đây không những nói đến khả năng suy luận, lập luận mà còn ám chỉ đến các "social smarts"- khả năng để thu hút hấp dẫn con ngƣời trong lối nói chuyện cuốn hút, hấp dẫn với lời nói và hành vi thích hợp của điệu bộ cơ thể. Nghiên cứu của tôi tập trung vấn đề xã hội và sự trí thông của giao tiếp - "conversational smarts"- và làm thế nào để thực hiện các loại mô hình con ngƣời ảo có khả năng ngôn ngữ và xã hội hóa để thực hiện hội thoại trực tiếp.

Trƣớc đây chúng ta đã biết đến hai hệ thống đƣợc phát triển đó là Animated Conversation của Cassell [19] và Ymir của Thórisson [20]. Animated Conversation là hệ thống đầu tiên có thể tạo ra những điệu bộ, nét mặt và ngữ điệu phù hợp với ngữ cảnh, hệ thống này đƣợc sử dụng cho các agent hoạt hình dựa trên sự biểu diễn ngữ nghĩa của thông tin, nhƣng nhƣợc điểm của hệ thống này là không tƣơng tác với con ngƣời theo thời gian thực. Hệ thông Ymir tập trung vào tích hợp đa phƣơng thức đầu vào ngƣời sử dụng, bao gồm các cử chỉ, sự nhìn chăm chú, lời nói, và ngữ điệu, nhƣng cũng có khả năng hạn chế đầu vào trong thời gian thực.

Hiện tai đang có hƣớng nghiên cứu phát triển một kiến trúc agent hội thoại hiện thân với mong muốn tích hợp tính năng đầu vào phong phú với thời gian thực của Ymir với khả năng sinh ngữ nghĩa và tổng hợp đa dạng của Animated Conversation [13]. Chúng ta mong rằng hệ thống có đƣợc sẽ cung cấp một nhân vật hội thoại có khả năng tƣơng tác phong phú, trực quan, mạnh mẽ cho cuộc hội thoại với con ngƣời. Chúng ta cũng tin rằng nhƣ vậy, một hệ thống nhƣ vậy sẽ cung cấp một nền tảng vững mạnh để tiếp tục phát triển agent hội thoại hiện thân.

2.4.2. Động lực phát triển

Có rất nhiều động lực tồn tại dựa trên nghiên cứu về cuộc hội thoại trực tiếp của con ngƣời trong phát triển giao diện cho agent hội thoại hiện thân. Động lực phổ biến nhất của chúng tôi phát sinh từ thực tế đó là hội thoại là một kỹ năng chính của con ngƣời, hội thoại là một kỹ năng đƣợc học từ rất sớm và từ thực tế đó cơ thể con ngƣời trở thành công cụ biểu cảm rất tốt để hỗ trợ hội thoại. Những bằng chứng đó làm chúng tôi tin rằng agent hội thoại hiện thân có thể phát triển để trở thành phƣơng thức giao tiếp mạnh mẽ của con ngƣời với máy tính. Tuy nhiên, một phần quan trọng của niệm tin này thì sự triển khai của họ phải đƣợc dựa trên nghiên cứu thực tế của hội thoại giữa con ngƣời và con ngƣời, và kiến trúc của nó phải phản ánh đƣợc bản chất thực của hội thoại đó.

Một động lực khác làm cơ sở thiết kế của kiến trúc cho agent hội thoại hiện thân dựa trên những nghiên cứu cuộc hội thoại giữa con ngƣời và con ngƣời trong thực tế, phát sinh từ một cuộc điều tra về các nhu cầu cụ thể mà không phù hợp trong giao diện hiện tại. Ví dụ, cách để làm nào cho hệ thống hội thoại có thể hoạt động tốt khi sự nhận dạng tiếng nói kém chất lƣợng, để hỗ trợ hiệu quả cộng tác giữa con ngƣời

và máy móc và giữa con ngƣời với thiết bị máy móc trung gian. Chúng ta tin rằng những agent hội thoại hiện thân nhƣ vậy sẽ thỏa mãn đầy đủ nhu cầu bởi vì các chức năng này là chính xác cho những cuộc hội thoại. Tuy nhiên, nhƣng chức năng này phải đƣợc mô hình hóa một cách cẩn thận trong giao diện.

Tính trực giác: Hội thoại thực chất là một kỹ năng của con ngƣời đƣợc học hỏi qua nhiều năm phát triển và đƣợc thực hành hàng ngày. Giao diện giao tiếp cung cấp một mô hình trực quan cho tƣơng tác, vì ngƣời dùng không cần thiết để học thêm những kỹ năng mới.

Redundancy và Modality Switching: Các giao diện hội thoại hiện thân hỗ trợ sự phong phú và bổ trợ lẫn nhau giữa chế độ đầu vào. Điều này cho phép ngƣời sử dụng và hệ thống tăng độ tin cậy khi truyền đạt thông tin trong nhiều phƣơng thức, và để tăng tính diễn cảm bằng cách sử dụng mỗi phƣơng thức cho loại biểu cảm.

Bản chất xã hội của tương tác: Cho dù máy tính có giống con ngƣời hay không thì ngƣời ta cũng gán cho chúng những thuộc tính giống với con ngƣời nhƣ sự thân thiện, hay sự cộng tác (cooperativeness) [12]. Một hiện tiếp giao diện có thể tận dụng lợi thế này và tạo ra cảm giác cuốn hút tự nhiên cho ngƣời dùng trong các cuộc hội thoại với máy tính. Nếu giao diện đƣợc thiết kế tốt để trả lời trong hội thoại thì sự tƣơng tác có thể đƣợc cải thiện.

2.4.3. Hội thoại trực tiếp với con ngƣời

Hội thoại hiện thân phản hồi với nhiều hình thức diễn đạt khác nhau nhƣ lời nói, ngôn điệu, cử chỉ tay, biểu hiện nét mặt và động tác của đầu. Ngƣời nói sử dụng các phƣơng thức này một cách song song và kết hợp theo các cách thức cần thiết, trong ngƣời nghe đƣa ra các phản hồi đa dạng và phong phú theo cách tƣơng tự. Ngƣời nói và ngƣời nghe thực hiện chuyển đổi vai trò “ngƣời nói – ngƣời nghe” thông qua chuỗi hành vi “turn-talking”.

Hiện nay đã có nhiều nhóm phát triển framework hội thoại với các chức năng (Function), cách thức (Modality), tính toán (Timing), hành vi (Behavior) (FMTB) cho kế hoạch tƣơng tác hội thoại giữa một agent hội thoại hiện thân và con. Nói chung, tất cả hành vi hội thoại trong framework FMTB phải hỗ trợ cho các chức năng hội thoại,

và bất cứ hành động trong thể thức nào đều phải truyền đạt giao tiếp có mục. Một số tính năng nổi bật của cuộc hội thoại

o Sự khác biệt chức năng tuyên bố và tƣơng tác của hội thoại.

o Sử dụng một số cách thức trong hội thoại.

o Tầm quan trọng của việc tính toán giữa các hành vi giao tiếp (và gia tăng co- temporality hay đồng bộ giữa những ngƣời tham gia)

o Sự khác biệt giữa các hành vi hội thoại và chức năng hội thoại.

2.4.4. Yêu cầu kiến trúc

Việc đầu tƣ xây dựng của một nhân vật máy tính có thể tham gia hiệu quả vào hội thoại trực tiếp nhƣ mô tả ở trên đòi hỏi kiến trúc có những tính năng sau:

Đầu vào và đầu ra đa cách thức: Khi ngƣời tham gia hội thoại gửi và nhận thông điệp thông qua các cử chỉ, ngữ điệu và ánh mắt cũng nhƣ lời nói, thì hệ thống cũng phải hỗ trợ tiếp nhận và chuyển tải thông tin này.

Thời gian thực: Hệ thống phải cho phép ngƣời nói xem thông tin phản hồi và lần lại các yêu cầu, trong ngƣời nghe có thể gửi những thông tin này bất cứ lúc nào thông qua các thể thức khác nhau. Các kiến trúc cần đủ linh hoạt để kiểm soát các thread khác nhau trong giao tiếp. Các thread khác nhau yêu cầu có thời gian phản ứng khác nhau. Hệ thống nên phản ánh thực tế là các tiến trình xử lý khác nhau tập trung vào các hành động trên những khoảng thời gian khác nhau.

Hiểu và tổng hợp thông tin mệnh lệnh và tương tác: Xử lý thông tin mệnh lệnh (propositional) cần xây dựng một mô hình nhu cầu ngƣời dùng và tri thức. Vì vậy, các kiến trúc phải bao gồm cả cơ sở tri thức lĩnh vực và cơ sở tri thức thuyết trình động. Sự xuất hiện thông tin mệnh lệnh đòi hỏi một môđun lập kế hoạch tính toán thể hiện đầu ra nhiều câu và quản lý trật tự trình bày các sự kiện độc lập.

Mô hình chức năng hội thoại: Rõ ràng chức năng này cung cấp cả nguyên tắc và môđun hóa để cho chúng ta có thể kết hợp nhiều mođun lại với nhau. Mô hình chức năng chi phối đến kiến trúc hệ thống vì các mô-đun cốt lõi của hệ thống hoạt động riêng trên chức năng, trong khi các module khác phía ngoài chuyển đổi đầu vào vào các chức năng, và chức năng đƣa kết quả đến đầu ra. Điều này cũng tạo một kiến trúc

cân đối bởi vì các chức năng và hình thức diễn đạt giống nhau trong cả đầu ra lẫn đầu vào.

2.4.5. Kiến trúc hội thoại hiện thân

Ở bậc cao, kiến trúc của hệ thống đƣợc chia ra các phần nhƣ: trình quản lý đầu vào (Input Manager) đảm nhiệm đón nhận các dữ liệu vào thông qua nhiều cách thức; bộ lập lịch hành động (Action Scheduler) chịu trách nhiệm đồng bộ các hành động ra qua các phƣơng thức; và một thành phần giải quyết các chƣc năng tƣơng tác thời gian thực và các phản hồi thảo luận nhƣ là sự hiểu biết và tổng hợp nội dung. Mô hình kiến trúc đƣợc mô tả qua Hình 4.

Hình 4: Chi tiết kiến trúc hội thoại Quản lý đầu vào (Input manager)

Trình quản lý đầu vào đón nhận dữ liệu từ nhiều thiết bị đầu vào, chuyển đổi nó vào một dạng thức để sử dụng trong các phân hệ khác trong hệ thống, rồi đƣa các kết quả Understanding Module. Thông tin tƣơng tác cũng sẽ đƣợc chuyển trực tiếp đến các module phản ứng (Reaction Module) để giảm thiểu thời gian phản ứng của hệ thống.

Input Manager đơn thuần chỉ là nhận thông tin từ các thiết bị cung cấp thông tin về lời nói, cử chỉ điệu bộ, nét mặt, ánh mắt của ngƣời dùng và các hình thức diễn đạn giao tiếp khác. Trong tất cả các trƣờng hợp, các thông tin này khi gửi đến Input Manager đều đƣợc đánh dấu thời điểm đón nhận và kết thúc tính chi tiết đến từng miligiây.

Module nhận thức (Understanding Module)

Module nhận thức chịu trách nhiệm kết hợp tất cả các phƣơng thức dữ liệu đầu vào một sự hiểu biết mạch lạc rõ ràng. Module này nhận thông tin từ trình quản lý đầu vào và có thể truy cập tri thức về lĩnh vực ứng dụng (Static Knowledge Base) và ngữ cảnh diễn thuyết hiện tại (Discourse Model) để giúp nó giải thích các dữ liệu đầu vào.

Module phản ứng (Reaction Module)

Module phản hứng chịu trách nhiệm về "sự lựa chọn hành động” của các kiến trúc, xác định nhân vật sẽ làm gì tại mỗi thời điểm. Module phản ứng nhận không đồng thời thông tin cập nhật từ trình quản lý đầu vào và module nhân thức, và sử dụng các thông tin về lĩnh vực (Static Knowledge Base) và trạng thái thuyết trình hiện tại để xác định hành động thực hiện.

Module lập kế hoạch phản hồi (Response Planner Module)

Môdun này chịu trách nhiệm lên kế hoạch cho một chuỗi các hành động, một số hoặc tất cả trong đó sẽ cần phải đƣợc thực hiện trong chu trình tƣơng lai để đạt đƣợc mục tiêu giao tiếp hoặc đƣợc giao.

Generation Module

Các Generation Module có trách nhiệm thực hiện chức năng thuyết trình với đầu ra từ Reaction Module bằng cách tạo ra một tập hợp các hành động phối hợp cơ bản (nhƣ sinh ra lời nói hay cử chỉ, hoặc biểu hiện khuôn mặt), gửi các hành động đến môđun lập lịch hành động để thực thi, thực hiện và giám sát sự thi hành của chính module này.

Module lập lịch hành động (Action Scheduling Module)

Module lập lịch hành động (Action Scheduler) là phần "điều khiển vận động" cho nhân vật, có trách nhiệm phối hợp hành động đầu ra ở mức thấp nhất. Nó xử lý tập

Một số kỹ thuật cải tiến cho chatterbot

Kiến trúc hội thoại hiện thân