Trong hoạt động giao tiếp của con người thì yếu tố khơng gian và thời gian cĩ vai trị rất quan trọng, nĩ là yếu tố nền tảng cho hầu hết các hoạt động địi hỏi trí thơng minh của con người. Trong mơi trường tương tác đa phương thức, những thơng tin về khơng gian và thời gian cần được thể hiện, trao đổi, và xử lý giữa các phần tử sử dụng ở các chế độ khác nhau.
Trong thực tế, các thơng tin về khơng gian và thời gian cần được phân tích, tách ra từ ngơn ngữ tự nhiên (ngơn ngữ con người) và được xử lý tiếp hoặc ngược lại những thơng tin thu được này cần được thể hiện lại bằng ngơn ngữ con người.
Những yếu tố này phân chia việc xử lý thơng tin về khơng gian và thời gian trong ngơn ngữ tự nhiên làm 2 chức năng xử lý là: nghiên cứu về sự thể hiện và suy luận các yếu tố khơng gian và thời gian; lý thuyết hĩa và tính tốn ngơn từ (theoretical and computation linguistics). Chức năng đầu nhằm thu được những thơng tin về khơng gian và thời gian. Chức năng sau cĩ liên quan chặt chẽ tới chức năng đầu và tập chung chủ yếu vào nhận biết nội dung, ngữ nghĩa và xử lý các thơng tin này. Cả hai chức năng này trong các ứng dụng cĩ tương tác lẫn nhau cần phải được xử lý đồng thời, kết hợp với dữ liệu thực và dữ liệu ngơn ngữ. Ví dụ như hiểu được một câu chuyện, miêu tả một ngữ cảnh,…
Việc hiểu được các yếu tố về khơng gian và thời gian trong ngơn ngữ tự nhiên và ngược lại dùng ngơn từ để thể hiện ý nghĩa về khơng gian thời gian bao gồm các nội dung sau:
- Xác định các phần tử ngơn ngữ để truyền tải các thơng tin này (mốc đánh dấu - markers);
- Phân thích các nội dung ngữ nghĩa của nĩ;
- Đưa ra những hệ thống phù hợp cho việc thể hiện và xử lý các nội dung này; - Thực thi và thể hiện các nội dung về khơng gian và thời gian.
Chương 2: Tổng quan về bài tốn thơng minh hĩa robot
- 39 -
Để đạt được kết quả cuộc đối thoại người – máy tự nhiên và giàu cảm xúc gần như giữa con người với con người thì hệ thống đa phương thức cần phải xử lý được các thơng tin về khơng gian và thời gian trong các kênh thơng tin được sử dụng và sự phối hợp giữa các kênh thơng tin này.
2.2.5.3.2. Yếu tố thời gian
Chúng ta cĩ thể nhận thấy những dấu hiệu thể hiện yếu tố thời gian trong hầu hết các ngơn ngữ như thời của động từ, các trạng từ chỉ thời gian (hơm qua, ngày mai, 2 ngày sau,…). Chúng cĩ vai trị rất quan trọng để hiểu được nội dung của một câu đưa ra [12]. Ví dụ trong tiếng anh, so sánh 2 câu: “He was crossing the street”
và “He crossed the street” thì chỉ cĩ câu thứ 2 là được hiểu rằng người này đã băng qua bên kia con đường. Như vậy, cần phải xác định được giá trị thời gian (thời điểm) một cách chính xác của câu lệnh trong giao tiếp đa phương thức.
Để thể hiện tầm quan trọng của yếu tố thời gian trong tương tác giữa người và một hệ thống điều khiển chúng ta sẽ minh họa bằng 2 ngữ cảnh của hệ thống nhận dạng đa phương thức tiếng nĩi và cử chỉ cùng cĩ 3 sự kiện (X, Y, Z) giống nhau về thời gian xảy ra mỗi sự kiện và thứ tự thời gian xuất hiện của chúng nhưng kết quả cuối quá trình ở 2 ngữ cảnh lại khác nhau [9].
Hình 2.13 : Hai ngữ cảnh cĩ cùng thứ tự và thời gian xuất hiện nhưng kết quả khác nhau
Chương 2: Tổng quan về bài tốn thơng minh hĩa robot
- 40 -
Hai ngữ cảnh tuy cĩ cùng số lượng các sự kiện, thời gian xuất hiện mỗi sự kiện và thứ tự xuất hiện nhưng khoảng cách thời gian xuất hiện các sự kiện kề nhau là khơng giống nhau. Điều này đã dẫn tới kết quả ở 2 ngữ cảnh là khác nhau. Trong ngữ cảnh 1, sự kiện X xuất hiện tách rời so với 2 sự kiện Y, Z do đĩ nĩ được xử lý như là một sự kiện đơn, hai sự kiện Y và Z sẽ được xử lý như là sự kiện đa phương thức (cùng được xử lý). Trong ngữ cảnh 2, hai sự kiện X, Y xuất hiện liền nhau và được coi là một sự kiện đa phương thức, sự kiện Z xuất hiện độc lập cuối cùng nên được xử lý như một sự kiện đơn. Để minh họa cụ thể ảnh hưởng của khoảng cách thời gian xuất hiện các sự kiện này ta giả định rằng sự kiện X là lệnh đọc
“pressure” hiển thị áp suất của hệ thống, sự kiện Y là “plus two” để tăng giá trị lên 2 đơn vị, sự kiện Z là “pointing at the temperature icon” để hiển thị nhiệt độ hiện tại của hệ thống. Như vậy trong ngữ cảnh 1, sự kiện X xảy ra hệ thống sẽ hiển thị giá trị áp suất hiện tại của hệ thống, sự kiện Y và Z xuất hiện hệ thống sẽ tăng nhiệt độ hiện tại lên 2 độ sau đĩ hiển thị giá trị nhiệt độ này. Trong ngữ cảnh 2, sự kiện X và Y xảy ra hệ thống sẽ tăng áp suất lên 2 đơn vị và sau đĩ hiển thị giá trị nhiệt độ hiện tại khi sự kiện Z xuất hiện.
Một yếu tố nữa cần chú ý khi giải quyết vấn đề thời gian trong giao tiếp đa phương thức là yếu tố thời gian thực xảy ra sự kiện và thời gian sự kiện được đưa vào bộ xử lý. Vấn đề này nảy sinh xuất phát từ bản thân các phương thức truyền thơng của hệ thống, mỗi phương thức cĩ thời gian xử lý là khác nhau. Ví dụ như thời gian xử lý hành động chạm vào là nhanh hơn nhiều so với thời gian nhận dạng tiếng nĩi, hình ảnh và diễn gải thơng tin.
2.2.5.3.3. Yếu tố khơng gian
Trong giao tiếp hàng ngày của con người, dấu hiệu về yếu tố khơng gian xuất hiện một cách thường xuyên, nĩ thể hiện bằng các giới từ chỉ khơng gian như: trước, sau, trên dưới, ngoài, … và bằng các động từ chỉ sự di chuyển như: đến, băng qua,… Tuy nhiên, các giới từ này khơng thể phân tích độc lập thơng qua các yếu tố
Chương 2: Tổng quan về bài tốn thơng minh hĩa robot
- 41 -
hình học mà phụ thuộc rất nhiều vào ngữ cảnh (Herkovits 1986). Những nghiên cứu chỉ ra rằng thơng tin về khơng gian cĩ thể liên quan tới một số yếu tố sau [13]:
- Yếu tố chỉ định
- Những thành phần chức năng của đối tượng được đề cập đến - Tính chất vật lý của đối tượng
- Những xem xét dựa trên thực tế.
Việc xử lý các thơng tin về khơng gian thường địi hỏi việc phối hợp song song với quá trình xử lý ảnh để giúp định vị trong khơng gian tương tác hoặc xác định các thơng tin từ bản đồ, biểu đồ,…
Việc diễn giải các thơng tin về khơng gian đặc biệt quan trọng và cần thiết trong các ứng dụng như:
- Các nghiên cứu trong lĩnh vực trí tuệ nhân tạo trong việc thể hiện các thơng tin về khơng gian, hệ thống thơng tin địa lý, bản đồ, biểu đồ,…
- Truy vấn cơ sở dữ liệu khơng gian, phân tích và tạo ra bản đồ miêu tả các hiện tượng về khơng gian và thời gian
- Hệ thống tự động hướng dẫn, mơ tả đường đi.
2.2.5.4. Tương tác đa phương thức kết hợp tiếng nĩi và cử chỉ
Khơng giống như hệ thống chỉ cĩ một phương thức, hệ thống đa phương thức rất linh hoạt và cho phép người dùng thay đổi tương tác bên trong các mơ hình để thể hiện các thơng tin khác nhau. Điều này cho phép nhiều người dùng khác nhau với những kỹ năng khác nhau, tuổi tác, ngơn ngữ và khả năng bản thân khác nhau làm việc tốt hơn với hệ thống máy tính họ tương tác. Ví dụ cùng một hệ thống nhưng mỗi người giao tiếp với hệ thống cĩ một cách thức tương tác riêng, cĩ người tương tác bằng tiếng nĩi, cĩ người tương tác bằng cử chỉ, cĩ người tương tác bằng hình ảnh, cĩ người tương tác với hệ thống qua những đoạn văn bản,…Hệ thống đa
Chương 2: Tổng quan về bài tốn thơng minh hĩa robot
- 42 -
phương thức cũng cĩ khả năng hỗ trợ rất nhiều trong tương tác người-máy thơng qua các thiết bị di động nơi mà mơi trường tương tác chứa nhiều yếu tố nhiễu.
Tiếng nĩi và cử chỉ là 2 phương thức phổ biến nhất trong giao tiếp của con người. Con người từ khi mới sinh ra đã cĩ bản năng học tập các cách thức giao tiếp sử dụng tiếng nĩi và cử chỉ. Việc xử lý tiếng nĩi kết hợp với nhận dạng cử chỉ để giúp cho cuộc đối thoại thêm giống với con người được coi là phương thức truyền thơng ưu tiên trong phát triển hệ thống đa phương thức. Hình vẽ sau thể hiện một ví dụ về người dùng nĩi kết hợp với dùng cử chỉ tay để thao tác các đối tượng trên màn hình máy tính.
Hình 2.14 : Giao diện tương tác đa phương thức tiếng nĩi và cử chỉ
Mục tiêu của hệ thống đa phương thức khơng chỉ là cài đặt nhiều phương thức truyền thơng cùng lúc lên hệ thống mà cần cĩ sự kết hợp giữa chúng. Ví dụ khi một người muốn di chuyển một vật trên màn hình sử dụng hệ thống nhận dạng tiếng nĩi và nhận dạng cử chỉ như thể hiện ở hình trên, người này chỉ cần nĩi “đặt cái này
Chương 2: Tổng quan về bài tốn thơng minh hĩa robot
- 43 -
ở đây” trong khi chỉ tay vào vị trí đang đặt vật và chỉ tay vào vị trí muốn đặt vật cuối cùng (hệ thống “Put That There”, Bolt, 1980).
Trong giao tiếp của con người thì việc sử dụng kết hợp tiếng nĩi và cử chỉ được thực hiện một cách chính xác và cĩ sự liên kết chặt chẽ với nhau về cả khơng gian và thời gian. Tuy nhiên, hệ thống máy mĩc lại khơng thể đạt được sự đồng bộ trong sự kết hợp với nhau về thời gian và khơng gian. Ví dụ như cĩ sự khác biệt về mặt thời gian đáp ứng của các thiết bị khác nhau, và thậm chí là cùng một thiết bị, sự khác biệt này đơi khi là rất lớn. Thời gian xử lý của hệ thống nhận dạng tiếng nĩi của 1 từ lớn hơn nhiều so với thời gian nhận dạng một hành động chạm vào trên màn hình cảm ứng (nĩ bao gồm thời gian định vị tọa độ của điểm hiện tại và điểm mà cử chỉ trỏ tới). Chính sự sai lệnh này cĩ thể dẫn đến kết quả là dịng thơng tin thu được là khơng đúng như thứ tự thời gian xảy ra của nĩ trong thực tế, làm cho hệ thống tổng hợp sai câu lệnh mà người dùng đang yêu cầu.
Sự phối hợp thơng tin giữa tiếng nĩi và cử chỉ gặp nhiều vấn đề phức tạp như sử dụng tiêu chuẩn nào để quyết định sự phối hợp một thơng tin với một thơng tin khác và sự phối hợp này nên thực hiện ở cấp độ nào. Sự phối hợp giữa 2 phương
thức cĩ thể ở cấp độ ngữ nghĩa hoặc cấp độ từ vựng. Ở cấp độ từ vựng cho phép
thiết kế những cơng cụ giao tiếp đa phương thức một cách tự động mặc dù sự phối hợp này cĩ thể xuất hiện lỗi. Sự phối hợp ở cấp độ ngữ nghĩa cho kết quả ổn định hơn vì nĩ áp dụng nhiều tiêu chuẩn hơn nhưng sự phối hợp này lại phụ thuộc vào từng ứng dụng cụ thể. Ngoài ra, một vấn đề nữa là giải quyết những mâu thuẫn về mặt ngữ nghĩa cĩ thể xảy ra giữa tiếng nĩi và cử chỉ và việc ứng dụng những nguyên tắc thơng tin dự phịng cĩ mâu thuẫn.
Yếu tố thời gian là cực kỳ quan trọng trong giao tiếp đa phương thức, trong giao tiếp bằng tiếng nĩi và cử chỉ cũng khơng ngoại lệ. Nĩ là một tiêu chí cơ bản và cần thiết cho quá trình phối hợp thơng tin đa phương thức, sự phối hợp này cĩ thể là tổ chức lại thứ tự thời gian thực của thơng tin. Do vậy, chúng ta cần phải gán các nhãn thời gian cho tất cả các thơng điệp (từ, cử chỉ,…) do người dùng tạo ra.
Chương 2: Tổng quan về bài tốn thơng minh hĩa robot
- 44 -
Bên cạnh những yếu tố trên,chúng ta cần xem xét các đặc tính của mỗi phương thức truyền tin và những ràng buộc kỹ thuật của các phương thức đĩ. Ví dụ như khi tính bảo mật của hệ thống địi hỏi mức độ an toàn rất cao ta nên sử dụng các phương thức cĩ nguy cơ nhận dạng sai là thấp và phải cĩ thêm những thơng tin dự phịng để giảm nguy cơ này. Việc xác định cú pháp của tương tác đa phương thức cũng là điều cần thiết. Cấu trúc ngữ pháp này nên tính đến các thơng số khác như trạng thái của người dùng, nhiệm vụ đang thực thi, và mơi trường xung quanh (mơi trường cĩ độ nhiễu cao sẽ cản trở việc sử dụng tiếng nĩi).
Một giao diện đa phương thức là sự kết hợp nhiều phương thức nên hệ thống muốn cĩ độ ổn định, tính hiệu quả cao thì tất yếu phải cĩ phương thức kết hợp những tương tác đa phương thức này một cách hiệu quả. Tuy nhiên, bản thân mỗi thành phần của hệ thống đa phương thức cần phải cĩ cơng cụ để nhận dạng cĩ hiệu quả. Do kết quả thu được khơng đồng đều trong các nghiên cứu về từng giao thức kể trên đã làm hạn chế khá nhiều khả năng tạo ra một giao tiếp đa phương thức hiệu quả, tự nhiên và thân thiện với người dùng.
2.2.5.5. Tương tác đa phương thức kết hợp biểu cảm nét mặt và nhận dạng tiếng nĩi tiếng nĩi
Do nhu cầu và khả năng cơng nghệ hiện tại mà các thiết bị, robot,…cần phải nâng cao tính thơng minh hĩa như khả năng nhận dạng tiếng nĩi tự động qua việc
sử dụng kết hợp những nguồn kiến thức khác nhau tương tự như nguồn kiến thức
xung quanh mà con người sử dụng trong giao tiếp hàng ngày (Erman & Lesser, 1990). Các hệ thống nhận dạng hiện nay thơng thường chỉ sử dụng các thơng tin âm học thu được từ hệ thống loa, trong mơi trường cĩ nhiều nhiễu chúng được sử dụng thêm các thơng tin phụ trợ như: thơng tin về ngữ pháp, âm điệu, …Tuy nhiên, một nguồn thơng tin phụ trợ khác là thơng tin quang học lại ít được quan tâm và sử dụng trong các hệ thống như thế này, ví dụ như các thơng tin về vùng mặt hoặc vùng khoang tạo âm. Những thơng tin quang học này cĩ khả năng kháng nhiễu rất cao và hầu như khơng vị ảnh hưởng của nhiễu trong các quá trình gây ra nhiễu âm (Silsbee,
Chương 2: Tổng quan về bài tốn thơng minh hĩa robot
- 45 -
1993). Thực tế nhiều nghiên cứu đã cho thấy rằng việc xử lý kết hợp các nguồn thơng tin âm học và thơng tin quang học đã cải thiện được đáng kể chất lượng của
hệ thống nhận dạng tiếng nĩi cũng như hệ thống đa phương thức khác cĩ sử dụng
phương thức giao tiếp này. Ví dụ như hệ thống nhận dạng tiếng nĩi tự động của Brooke (1990) đã nâng cao được hệ số nhiễu tín hiệu SNR với độ lợi từ 10 đến 12 dB. Tương tự, hệ thống nhận dạng tiếng nĩi sẽ cải thiện được kết quả rất nhiều nếu kết hợp nguồn thơng tin âm học với nguồn thơng tin phụ trợ về quang học như: biểu cảm nét mặt, vị trí đầu, cằm, lơng mày, tai, mắt, mũi, miệng, hàm, cổ, và tĩc (Palachaud, Badler, 1994). Những biểu cảm nét mặt của con người thường mang các thơng tin thể hiện cảm xúc (giận dữ, ngạc nhiên), sự thành thật, thái độ, cá tính (Ekman, Huang, 1993). Hơn thế nữa, việc tạo ra tiếng nĩi và biểu cảm nét mặt của con người cĩ sự liên kết tương hỗ với sự đồng bộ cao –tức là những thay đổi thường xuất hiện đồng thời cùng tiếng nĩi và biểu cảm nét mặt.