Tương tác người-máy đa phương thức

Một phần của tài liệu Nghiên cứu phát triển các API phục vụ cho bài toán thông minh hóa robot (Trang 33)

2.2.5.1. Khái niệm tương tác đa phương thức

Trong cuộc sống hằng ngày, con người giao tiếp với nhau bằng nhiều phương thức như: tiếng nĩi, biểu cảm nét mặt, hình ảnh, cử chỉ,… Việc sử dụng kết hợp nhiều phương thức giao tiếp một cách tự nhiên và hiệu quả là điều rất bình thường và dễ dàng. Tuy nhiên, với giao tiếp người-máy thì điều này gặp rất nhiều

Chương 2: Tổng quan về bài tốn thơng minh hĩa robot

- 33 -

vấn đề khĩ khăn và phức tạp. Điều này dẫn tới một thực tế là những thiết kế giao tiếp người-máy của chúng ta thường theo hướng bắt người sử dụng thích nghi với phương thức của máy hơn là bắt máy phải tuân theo quy tắc của người sử dụng. Việc sử dụng một tương tác đơn hay các tương tác độc lập nhau đã thu được những thành cơng nhất định tuy nhiên chúng vẫn cịn xa so với mong muốn cĩ được quá trình giao tiếp người – máy một cách tự nhiên, cĩ nhiều cảm xúc như giữa con người với con người.

Trước đây, trong các thiết kế giao diện người dùng (Graphic User Interfaces) tương tác người-máy chủ yếu thơng qua các thiết bị đầu vào của máy như: bàn phím, chuột,…và các đầu vào này được xử lý hoàn tồn độc lập với nhau, nĩ khơng được thiết kế để thu thập dữ liệu nhiều đầu vào đồng thời (ví dụ khi nhấn chuột thì các đầu vào khác bị bỏ qua). Xuất phát từ ý tưởng “bắt chước” giao tiếp con người với con người kết hợp các phương thức giao tiếp với nhau giao diện đa phương thức ra đời. Các hệ thống đa phương thức nhìn chung khơng thu thập thơng tin thơng qua chuột và bàn phím. Chúng cung cấp khả năng tương tác rõ ràng, linh hoạt, và mạnh mẽ trong giao tiếp người-máy. Cĩ thể định nghĩa giao diện đa phương thức là một hệ thống cho phép xử lý kết hợp hai hoặc nhiều hơn các chế độ đầu vào của người dùng như: tiếng nĩi, cử chỉ, hình ảnh, … theo cách thức phù hợp với đầu ra đa phương tiện (bằng loa, màn hình, cử chỉ,…) [11]. Hai loại hệ thống đa phương thức phổ biến nhất là sự kết hợp giữa tiếng nĩi và cử chỉ, và tiếng nĩi sự di chuyển của mơi.

Ví dụ như khi chỉ sử dụng mơ hình nhận dạng ngữ âm thì sẽ cĩ kết quả là cuộc trao đổi thơng tin giữa người – máy trở nên đơn điệu, tốc độ phát sinh tiếng nĩi hầu như khơng thay đổi. Tuy nhiên, khi kết hợp tương tác truyền thơng này với bộ nhận dạng cảm xúc thì kết quả được cải thiện rất nhiều về chất lượng của cuộc đối thoại người – máy.

Do các giao thức giao tiếp thành phần (hình ảnh, tiếng nĩi, cử chỉ,…) cịn nhiều vấn đề về chất lượng và tính hiệu quả nên việc xây dựng các giao tiếp đa

Chương 2: Tổng quan về bài tốn thơng minh hĩa robot

- 34 -

phương thức cần phải xác định nhiệm vụ cụ thể mà hệ thống cần đạt được. Xây dựng, thiết kế kỹ lưỡng các ngữ cảnh sử dụng hệ thống là điều kiện tiên quyết ảnh hưởng tới hiệu quả của cuộc đối thoại người-máy đa phương thức. Trong đĩ, việc xác định những thơng tin liên quan tới giao tiếp của con người (cử chỉ, văn hĩa, thĩi quen,…) để vận dụng trong giao tiếp người-máy là yếu tố hết sức quan trọng.

2.2.5.2. Giới thiệu một số hệ thống đa phương thức

Các hệ thống đa phương thức đã ra đời và phát triển từ những năm 80. Cho đến nay nhiều hệ thống với độ phức tạp và hiệu quả ngày càng tăng. Sau đây là một số hệ thống đa phương thức tiêu biểu:

- Một trong những hệ thống tương tác đa phương thức kết hợp tiếng nĩi và cử chỉ đầu tiên là hệ thống “Put That There” [10]. Hệ thống này cho phép người dùng cĩ thể sử dụng tiếng nĩi và cử chỉ để thao tác, ra lệnh các đối tượng trên màn hình 2D. Hệ thống này được Bolt giới thiệu năm 1980. Ví dụ khi người dùng nĩi “đặt hình vuơng ở kia” và đồng thời chỉ tay vào vị trí muốn đặt vật. Hệ thống sẽ tính tốn, xác định tọa độ của hình vuơng so với vị trí cần đặt khi nhận được từ “kia”.

Hình 2.8 : Hệ thống Put-That-There

- Một hệ thống giao tiếp đa phương thức tương tự dựa trên tiếng nĩi và bút (pen) là hệ thống xử lý từ ngữ của IBM (Human-Centric Word Processor-HCWP).

Chương 2: Tổng quan về bài tốn thơng minh hĩa robot

- 35 -

Hệ thống này cho phép người dùng đọc vào những nội dung (từ ngữ) mong muốn,

sau đĩ những nội dung, từ ngữ đọc vào này sẽ được sửa chữa, xử lý bằng giao diện tương tác đa phương thức tiếng nĩi và bút. Sau khi người dùng đọc một đoạn văn bản và được hiển thị trên màn hình người sử dụng cĩ thể đọc những câu lệnh để thao tác trên văn bản như: sửa lỗi chính tả, xĩa, bơi đen đoạn văn bản,…Ví dụ để xĩa một từ người dùng sẽ đọc lệnh “xĩa từ này” sau đĩ dùng bút chỉ vào từ muốn xĩa hoặc muốn gạch chân một đoạn văn bản thì cĩ thể nĩi “gạch chân từ đây tới kia” đồng thời chỉ vào từ bắt đầu và kết thúc.

Hình 2.9 : Sơ đồ hệ thống xử lý đầu vào của HCWP

Hệ thống được tích hợp bộ nhận dạng tiếng nĩi và nhận dạng cử chỉ, trong đĩ thời gian và vị trí của mỗi cử chỉ được lưu trữ trong một bộ đệm tạm thời. Những thơng tin về lệnh bằng tiếng nĩi và cử chỉ sẽ được đưa vào khối nhận dạng ngơn ngữ tự nhiên (Natural Language Understanding - NLU) để xác định ý nghĩa của lệnh tương ứng với các luồng thơng tin đầu vào. Thơng tin thu được tiếp tục được

Chương 2: Tổng quan về bài tốn thơng minh hĩa robot

- 36 -

xử lý trong khối phân tích ngơn ngữ chuẩn và tạo ra những sự kiện tương ứng tới trình soạn thảo.

- Một hệ thống đa phương thức khác là hệ thống HuMaNet của AT&T Laboratories (Berkley and Flanagan, 1990). Hệ thống này được thiết kế để hỗ trợ hội thảo với nhiều thiết bị đầu cuối ở những nơi khác nhau. Hệ thống này bao gồm một dãy các microphone tự động định hướng để thu âm thanh, bộ thiết lập cuộc gọi, truy xuất và hiển thị dữ liệu điều khiển bằng tiếng nĩi nhờ vào bộ tổng hợp tiếng nĩi với số từ vựng giới hạn, dữ liệu truy xuất được bảo mật từ xa bằng nhận dạng người nĩi, hiển thị và tính tốn hình ảnh màu chất lượng cao với tốc độ 64 kbps. Mỗi bộ phận chức năng được thực hiện bằng một máy tính riêng. Các máy tính được nối mạng với nhau và hoạt động một cách đồng bộ.

Trên nền tảng của hệ thống trên, một hệ thống đa phương thức nâng cấp tích hợp ánh sáng, âm thanh, và màn hình cảm ứng cĩ thể xác định thêm được khuơn mặt và chữ viết là hệ thống hội thảo video/audio tại trung tâm CAIP (Flanagan 1994).

Chương 2: Tổng quan về bài tốn thơng minh hĩa robot

- 37 -

Hệ thống này đã sử dụng một số lượng lớn các microphone lắp đặt theo bố cục 3 chiều (hình 2. 11) để nâng cao chất lượng âm thanh thu được trong phịng hội thảo. Nhờ cách bố trí này mà làm giảm được nhiễu khơng mong muốn trong phịng hội thảo.

Hình 2.11 : Bố cục 3 chiều lắp đặt hệ thống microphone trong phịng hội thảo

Nhiễu trong phịng đã giảm rất nhiều khi sử dụng mảng 21 sensor 7x7x7 ở chính giữa trần của phịng hội thảo 7x5x3m so với dùng duy nhất 1 sensor ở giữa phịng. Kết quả này thể hiện qua hệ số nhiễu - tín hiệu (signal-to-reverberant noise rate SNR) như dưới hình sau:

Chương 2: Tổng quan về bài tốn thơng minh hĩa robot

- 38 -

2.2.5.3. Các vấn đề quan trọng trong hệ thống đa phương thức2.2.5.3.1. Biểu diễn của khơng gian và thời gian 2.2.5.3.1. Biểu diễn của khơng gian và thời gian

Trong hoạt động giao tiếp của con người thì yếu tố khơng gian và thời gian cĩ vai trị rất quan trọng, nĩ là yếu tố nền tảng cho hầu hết các hoạt động địi hỏi trí thơng minh của con người. Trong mơi trường tương tác đa phương thức, những thơng tin về khơng gian và thời gian cần được thể hiện, trao đổi, và xử lý giữa các phần tử sử dụng ở các chế độ khác nhau.

Trong thực tế, các thơng tin về khơng gian và thời gian cần được phân tích, tách ra từ ngơn ngữ tự nhiên (ngơn ngữ con người) và được xử lý tiếp hoặc ngược lại những thơng tin thu được này cần được thể hiện lại bằng ngơn ngữ con người.

Những yếu tố này phân chia việc xử lý thơng tin về khơng gian và thời gian trong ngơn ngữ tự nhiên làm 2 chức năng xử lý là: nghiên cứu về sự thể hiện và suy luận các yếu tố khơng gian và thời gian; lý thuyết hĩa và tính tốn ngơn từ (theoretical and computation linguistics). Chức năng đầu nhằm thu được những thơng tin về khơng gian và thời gian. Chức năng sau cĩ liên quan chặt chẽ tới chức năng đầu và tập chung chủ yếu vào nhận biết nội dung, ngữ nghĩa và xử lý các thơng tin này. Cả hai chức năng này trong các ứng dụng cĩ tương tác lẫn nhau cần phải được xử lý đồng thời, kết hợp với dữ liệu thực và dữ liệu ngơn ngữ. Ví dụ như hiểu được một câu chuyện, miêu tả một ngữ cảnh,…

Việc hiểu được các yếu tố về khơng gian và thời gian trong ngơn ngữ tự nhiên và ngược lại dùng ngơn từ để thể hiện ý nghĩa về khơng gian thời gian bao gồm các nội dung sau:

- Xác định các phần tử ngơn ngữ để truyền tải các thơng tin này (mốc đánh dấu - markers);

- Phân thích các nội dung ngữ nghĩa của nĩ;

- Đưa ra những hệ thống phù hợp cho việc thể hiện và xử lý các nội dung này; - Thực thi và thể hiện các nội dung về khơng gian và thời gian.

Chương 2: Tổng quan về bài tốn thơng minh hĩa robot

- 39 -

Để đạt được kết quả cuộc đối thoại người – máy tự nhiên và giàu cảm xúc gần như giữa con người với con người thì hệ thống đa phương thức cần phải xử lý được các thơng tin về khơng gian và thời gian trong các kênh thơng tin được sử dụng và sự phối hợp giữa các kênh thơng tin này.

2.2.5.3.2. Yếu tố thời gian

Chúng ta cĩ thể nhận thấy những dấu hiệu thể hiện yếu tố thời gian trong hầu hết các ngơn ngữ như thời của động từ, các trạng từ chỉ thời gian (hơm qua, ngày mai, 2 ngày sau,…). Chúng cĩ vai trị rất quan trọng để hiểu được nội dung của một câu đưa ra [12]. Ví dụ trong tiếng anh, so sánh 2 câu: “He was crossing the street”

“He crossed the street” thì chỉ cĩ câu thứ 2 là được hiểu rằng người này đã băng qua bên kia con đường. Như vậy, cần phải xác định được giá trị thời gian (thời điểm) một cách chính xác của câu lệnh trong giao tiếp đa phương thức.

Để thể hiện tầm quan trọng của yếu tố thời gian trong tương tác giữa người và một hệ thống điều khiển chúng ta sẽ minh họa bằng 2 ngữ cảnh của hệ thống nhận dạng đa phương thức tiếng nĩi và cử chỉ cùng cĩ 3 sự kiện (X, Y, Z) giống nhau về thời gian xảy ra mỗi sự kiện và thứ tự thời gian xuất hiện của chúng nhưng kết quả cuối quá trình ở 2 ngữ cảnh lại khác nhau [9].

Hình 2.13 : Hai ngữ cảnh cĩ cùng thứ tự và thời gian xuất hiện nhưng kết quả khác nhau

Chương 2: Tổng quan về bài tốn thơng minh hĩa robot

- 40 -

Hai ngữ cảnh tuy cĩ cùng số lượng các sự kiện, thời gian xuất hiện mỗi sự kiện và thứ tự xuất hiện nhưng khoảng cách thời gian xuất hiện các sự kiện kề nhau là khơng giống nhau. Điều này đã dẫn tới kết quả ở 2 ngữ cảnh là khác nhau. Trong ngữ cảnh 1, sự kiện X xuất hiện tách rời so với 2 sự kiện Y, Z do đĩ nĩ được xử lý như là một sự kiện đơn, hai sự kiện Y và Z sẽ được xử lý như là sự kiện đa phương thức (cùng được xử lý). Trong ngữ cảnh 2, hai sự kiện X, Y xuất hiện liền nhau và được coi là một sự kiện đa phương thức, sự kiện Z xuất hiện độc lập cuối cùng nên được xử lý như một sự kiện đơn. Để minh họa cụ thể ảnh hưởng của khoảng cách thời gian xuất hiện các sự kiện này ta giả định rằng sự kiện X là lệnh đọc

“pressure” hiển thị áp suất của hệ thống, sự kiện Y là “plus two” để tăng giá trị lên 2 đơn vị, sự kiện Z là “pointing at the temperature icon” để hiển thị nhiệt độ hiện tại của hệ thống. Như vậy trong ngữ cảnh 1, sự kiện X xảy ra hệ thống sẽ hiển thị giá trị áp suất hiện tại của hệ thống, sự kiện Y và Z xuất hiện hệ thống sẽ tăng nhiệt độ hiện tại lên 2 độ sau đĩ hiển thị giá trị nhiệt độ này. Trong ngữ cảnh 2, sự kiện X và Y xảy ra hệ thống sẽ tăng áp suất lên 2 đơn vị và sau đĩ hiển thị giá trị nhiệt độ hiện tại khi sự kiện Z xuất hiện.

Một yếu tố nữa cần chú ý khi giải quyết vấn đề thời gian trong giao tiếp đa phương thức là yếu tố thời gian thực xảy ra sự kiện và thời gian sự kiện được đưa vào bộ xử lý. Vấn đề này nảy sinh xuất phát từ bản thân các phương thức truyền thơng của hệ thống, mỗi phương thức cĩ thời gian xử lý là khác nhau. Ví dụ như thời gian xử lý hành động chạm vào là nhanh hơn nhiều so với thời gian nhận dạng tiếng nĩi, hình ảnh và diễn gải thơng tin.

2.2.5.3.3. Yếu tố khơng gian

Trong giao tiếp hàng ngày của con người, dấu hiệu về yếu tố khơng gian xuất hiện một cách thường xuyên, nĩ thể hiện bằng các giới từ chỉ khơng gian như: trước, sau, trên dưới, ngoài, … và bằng các động từ chỉ sự di chuyển như: đến, băng qua,… Tuy nhiên, các giới từ này khơng thể phân tích độc lập thơng qua các yếu tố

Chương 2: Tổng quan về bài tốn thơng minh hĩa robot

- 41 -

hình học mà phụ thuộc rất nhiều vào ngữ cảnh (Herkovits 1986). Những nghiên cứu chỉ ra rằng thơng tin về khơng gian cĩ thể liên quan tới một số yếu tố sau [13]:

- Yếu tố chỉ định

- Những thành phần chức năng của đối tượng được đề cập đến - Tính chất vật lý của đối tượng

- Những xem xét dựa trên thực tế.

Việc xử lý các thơng tin về khơng gian thường địi hỏi việc phối hợp song song với quá trình xử lý ảnh để giúp định vị trong khơng gian tương tác hoặc xác định các thơng tin từ bản đồ, biểu đồ,…

Việc diễn giải các thơng tin về khơng gian đặc biệt quan trọng và cần thiết trong các ứng dụng như:

- Các nghiên cứu trong lĩnh vực trí tuệ nhân tạo trong việc thể hiện các thơng tin về khơng gian, hệ thống thơng tin địa lý, bản đồ, biểu đồ,…

- Truy vấn cơ sở dữ liệu khơng gian, phân tích và tạo ra bản đồ miêu tả các hiện tượng về khơng gian và thời gian

- Hệ thống tự động hướng dẫn, mơ tả đường đi.

2.2.5.4. Tương tác đa phương thức kết hợp tiếng nĩi và cử chỉ

Khơng giống như hệ thống chỉ cĩ một phương thức, hệ thống đa phương thức rất linh hoạt và cho phép người dùng thay đổi tương tác bên trong các mơ hình để thể hiện các thơng tin khác nhau. Điều này cho phép nhiều người dùng khác nhau với những kỹ năng khác nhau, tuổi tác, ngơn ngữ và khả năng bản thân khác nhau làm việc tốt hơn với hệ thống máy tính họ tương tác. Ví dụ cùng một hệ thống nhưng mỗi người giao tiếp với hệ thống cĩ một cách thức tương tác riêng, cĩ người

Một phần của tài liệu Nghiên cứu phát triển các API phục vụ cho bài toán thông minh hóa robot (Trang 33)

Tải bản đầy đủ (PDF)

(86 trang)