Tương tác đa phương thức kết hợp biểu cảm nét mặt và nhận

Một phần của tài liệu Nghiên cứu phát triển các API phục vụ cho bài toán thông minh hóa robot (Trang 45)

Một giao diện đa phương thức là sự kết hợp nhiều phương thức nên hệ thống muốn cĩ độ ổn định, tính hiệu quả cao thì tất yếu phải cĩ phương thức kết hợp những tương tác đa phương thức này một cách hiệu quả. Tuy nhiên, bản thân mỗi thành phần của hệ thống đa phương thức cần phải cĩ cơng cụ để nhận dạng cĩ hiệu quả. Do kết quả thu được khơng đồng đều trong các nghiên cứu về từng giao thức kể trên đã làm hạn chế khá nhiều khả năng tạo ra một giao tiếp đa phương thức hiệu quả, tự nhiên và thân thiện với người dùng.

2.2.5.5. Tương tác đa phương thức kết hợp biểu cảm nét mặt và nhận dạng tiếng nĩi tiếng nĩi

Do nhu cầu và khả năng cơng nghệ hiện tại mà các thiết bị, robot,…cần phải nâng cao tính thơng minh hĩa như khả năng nhận dạng tiếng nĩi tự động qua việc

sử dụng kết hợp những nguồn kiến thức khác nhau tương tự như nguồn kiến thức

xung quanh mà con người sử dụng trong giao tiếp hàng ngày (Erman & Lesser, 1990). Các hệ thống nhận dạng hiện nay thơng thường chỉ sử dụng các thơng tin âm học thu được từ hệ thống loa, trong mơi trường cĩ nhiều nhiễu chúng được sử dụng thêm các thơng tin phụ trợ như: thơng tin về ngữ pháp, âm điệu, …Tuy nhiên, một nguồn thơng tin phụ trợ khác là thơng tin quang học lại ít được quan tâm và sử dụng trong các hệ thống như thế này, ví dụ như các thơng tin về vùng mặt hoặc vùng khoang tạo âm. Những thơng tin quang học này cĩ khả năng kháng nhiễu rất cao và hầu như khơng vị ảnh hưởng của nhiễu trong các quá trình gây ra nhiễu âm (Silsbee,

Chương 2: Tổng quan về bài tốn thơng minh hĩa robot

- 45 -

1993). Thực tế nhiều nghiên cứu đã cho thấy rằng việc xử lý kết hợp các nguồn thơng tin âm học và thơng tin quang học đã cải thiện được đáng kể chất lượng của

hệ thống nhận dạng tiếng nĩi cũng như hệ thống đa phương thức khác cĩ sử dụng

phương thức giao tiếp này. Ví dụ như hệ thống nhận dạng tiếng nĩi tự động của Brooke (1990) đã nâng cao được hệ số nhiễu tín hiệu SNR với độ lợi từ 10 đến 12 dB. Tương tự, hệ thống nhận dạng tiếng nĩi sẽ cải thiện được kết quả rất nhiều nếu kết hợp nguồn thơng tin âm học với nguồn thơng tin phụ trợ về quang học như: biểu cảm nét mặt, vị trí đầu, cằm, lơng mày, tai, mắt, mũi, miệng, hàm, cổ, và tĩc (Palachaud, Badler, 1994). Những biểu cảm nét mặt của con người thường mang các thơng tin thể hiện cảm xúc (giận dữ, ngạc nhiên), sự thành thật, thái độ, cá tính (Ekman, Huang, 1993). Hơn thế nữa, việc tạo ra tiếng nĩi và biểu cảm nét mặt của con người cĩ sự liên kết tương hỗ với sự đồng bộ cao –tức là những thay đổi thường xuất hiện đồng thời cùng tiếng nĩi và biểu cảm nét mặt.

Một điểm khác nhau quan trọng giữa thơng tin quang học và thơng tin âm học là với mỗi loại từ (nguyên âm, phụ âm) thì thể hiện của nĩ ở 2 dạng thơng tin này lại khơng giống nhau. Ví dụ, với nguyên âm cĩ thơng tin quang học hầu như là khác nhau nhưng các phụ âm lại cĩ thơng tin quang học tương tự nhau như âm p, b, m. Trong mơi trường cĩ nhiễu thì thơng tin âm học của những âm này (ví dụ p) lại giống với nhiều âm khác. Do đĩ, nếu sử dụng kết hợp 2 nguồn thơng tin này ta cĩ

thể xác định được âm mong muốn. Tuy nhiên, phương pháp này gặp khĩ khăn trong

việc giải quyết vấn đề về hiệu ứng McGurk (McGurk & MacDonald, 1976), đĩ là sự nhầm lẫn khi nhận biết về một âm khác với âm gốc được phát đi do nhầm lẫn về thơng tin âm học và quang học. Mặc dù cĩ hạn chế như vậy nhưng thường thì sự kết hợp 2 loại thơng tin này sẽ cải thiện được đáng kể chất lượng của hệ thống nhận dạng nhất là trong mơi trường cĩ nhiều nhiễu.

Hiện nay, các hệ thống theo xu hướng này chủ yếu tập trung vào tích hợp các thơng tin quang học ở vùng khoang tạo âm của người nĩi (nhận dạng khẩu hình tự động) với các thơng tin về âm học. Nguồn âm thanh thường chứa một chuỗi các vector chứa các hệ số dự báo tuyến tính, hoặc các hệ số dải thơng của bộ lọc, hoặc

Chương 2: Tổng quan về bài tốn thơng minh hĩa robot

- 46 -

các dạng tương tự. Các thơng tin quang học bao gồm một chuỗi các vector chứa những đặc trưng tĩnh của khoang tạo âm như: diện tích, chu vi, chiều cao, chiều

rộng,…

Cĩ 2 giải pháp thường được sử dụng để xây dựng hệ thống cĩ sự kết hợp 2 nguồn thơng tin này là dùng bộ so sánh để pha trộn hai loại thơng tin và nhận dạng bằng cách dùng một vector chứa đựng cả 2 loại thơng tin. Với giải pháp đầu, bộ so sánh bao gồm một loạt các quy tắc nhất định hoặc cĩ thể tích hợp thêm bộ logic mờ.

Giải pháp thứ 2 thực hiện nhận dạng bằng một vector bao gồm cả thơng tin quang

học và âm học. Các hệ thống này thường dùng mạng neural để kết hợp thơng tin quang học và âm học để tăng hệ số SNR trước khi nhận dạng âm.

Nhìn chung hiện nay các hệ thống sử dụng thêm các nguồn thơng tin quang học trong nhận dạng tiếng nĩi để nâng cao chất lượng hệ thống nhận dạng.

Chương 3: Các yếu tố đặc thù trong giao tiếp người-robot

- 47 -

Chương 3: Các yếu tố đặc thù trong giao tiếp người – robot 3.1. Khái niệm bài tốn giao tiếp người – robot

Mơi trường làm việc của robot đang ngày càng được mở rộng từ mơi trường

cơng nghiệp sang mơi trường cuộc sống hàng ngày của con người và nĩ xuất hiện ở những nơi làm việc của con người như: nhà ở, văn phịng, nhà hàng, …Khi chuyển mơi trường làm việc sang mơi trường giao tiếp với con người, robot cần phải cĩ khả năng tương tác với con người. Như vậy, robot cũng cần phải được trang bị các kiến thức xã hội, nĩ liên quan tới các lĩnh vực nghiên cứu như: tâm lý học, trí truệ nhân tạo, …Sự thay đổi mơi trường hoạt động này kéo theo sự thay đổi các tiến trình (tác vụ) hoạt động được cài đặt của robot và cách thức tương tác với đối tác giao tiếp.

Từ nhu cầu thực tế trong lĩnh vực nghiên cứu về robot, các nhà nghiên cứu đã thay đổi cách nhìn nhận vấn đề rằng robot là một cơng cụ hoặc một thiết bị được vận hành bởi người sử dụng sang nhận thức mới robot là đối tác, là một người bạn của con người trong giao tiếp hằng ngày ở nơi làm việc hay ở nhà.

Như vậy, ta cĩ thể định nghĩa bài tốn HRI (Human Robot Interaction) là một lĩnh vực nghiên cứu nhằm mục đích hiểu, thiết kế, và đánh giá một hệ thống robot để sử dụng cùng (hoặc bởi) với con người.

Để hiểu rõ hơn về bài tốn tương tác người robot, chúng ta cĩ thể so sánh bài tốn HRI với hai lĩnh vực nghiên cứu đã đạt được nhiều kết quả và ứng dụng rộng rãi trong cuộc sống là trí tuệ nhân tạo AI (Artificial Intelligent) và tương tác người máy tính HCI (Human Computure Interaction).

Giữa AI và HRI cĩ sự khác nhau nhất định. Đối với AI, mục tiêu của nĩ là cài đặt trí thơng minh của con người vào (thành) trí thơng minh của robot. Cịn đối với HRI, cĩ sự trao đổi trí thơng minh theo cả 2 chiều giữa con người và robot. Do đĩ, khơng thể áp dụng hướng tiếp cận AI vào bài tốn HRI. Hình sau thể hiện sự khác biệt này.

Chương 3: Các yếu tố đặc thù trong giao tiếp người-robot

- 48 -

Hình 3.1: Mơ hình AI và HRI

Hình 3.2: Quan hệ tương tác giữa người và robot

Tương tự cách tiếp cận theo hướng AI, cách tiếp cận theo hướng HCI cũng khơng phù hợp với hướng tiếp cận HRI bởi máy tính khơng cĩ khả năng tự trị và ít tương tác. Ngược lại, robot cĩ khả năng tự trị, nhận thức cũng như cảm xúc để thực hiện tương tác trực tiếp 2 chiều hoặc thực hiện một tiến trình nào đĩ liên quan tới tương tác với con người. Do đĩ chúng ta cần xây dựng một hướng tiếp cận khác để phù hợp và cĩ thể lý thuyết hĩa về mối quan hệ giữa con người và robot.

3.1.1. Hướng tiếp cận

Hai phương pháp tiếp cận chính được sử dụng hiện nay là phương pháp inner và outer. Phương pháp inner là phương pháp dựa trên cách thức giao tiếp giữa con người với con người để ứng dụng vào giao tiếp người và robot. Trong khi đĩ, phương pháp outer được phát triển từ cách thức truyền tin giữa người và robot để

Chương 3: Các yếu tố đặc thù trong giao tiếp người-robot

- 49 -

phục vụ chức năng cụ thể nào đĩ. Hiện nay phương pháp inner được các nhà nghiên cứu quan tâm đặc biệt vì nĩ cải thiện được khả năng giao tiếp với con người của robot một cách tự nhiên nhất. Thế hệ các robot này được gọi là robot xã hội.

3.1.2. Giao tiếp giữa người với người

Giao tiếp được định nghĩa như là một phương pháp trao đổi kinh nghiệm. Sự giao tiếp của con người là một quá trình trao đổi thơng tin qua một mơi trường trung gian. Mơi trường này bao gồm các thực thể chính như: khơng khí, nhiễu, tín hiệu, giấy.

Giao tiếp giữa con người với con người được chia làm 2 loại. Giao tiếp ngơn ngữ (verbal communication) và giao tiếp phi ngơn ngữ (Nonverbal communication).

Giao tiếp ngơn ngữ gồm: Giọng nĩi, thanh âm, giọng (tone), tính rõ ràng (clarity), tính nhấn mạnh (emphasis), tính lặp lại (repetition), âm thanh, người phiên dịch.

Giao tiếp phi ngơn ngữ gồm các thành phần: Nhìn, cảm xúc, hành động, cử chỉ, nghe và viết. Trong giao tiếp con người với con người cĩ đến 65% lượng thơng tin trao đổi là giao tiếp phi ngơn ngữ.

3.1.3. Giao tiếp người – robot

Xuất phát từ tương tác người với người, tương tác người-máy người ta vận dụng vào xây dựng tương tác người-robot. Một quá trình giao tiếp người-robot thường trải qua các bước sau:

- Kết nối - khởi tạo hội thoại

- Giao tiếp – đối thoại 2 chiều thơng qua sử dụng ngơn ngữ ngơn ngữ và phi ngơn ngữ

Chương 3: Các yếu tố đặc thù trong giao tiếp người-robot

- 50 - - Dừng kết nối.

Khởi tạo giao tiếp

Để bắt đầu một đoạn giao tiếp, robot cĩ thể dùng giao thức tồn tại giữa người với người để chấp nhận hoặc từ chối một tiếp cận. Tương tác xảy ra khi người dùng đang cĩ ý định muốn nĩi chuyện với robot và trường hợp robot chủ động nĩi chuyện với người dùng. Trong tương tác người-người, con người cĩ thể rễ ràng phát hiện sự thân thiện của đối tác, sự chấp nhận đối thoại cĩ thể thơng qua ánh mắt. Đối với giao tiếp người-robot, việc nhận biết được cảm xúc của người dùng qua ánh mắt đối với robot là hết sức khĩ khăn. Robot sẽ thực hiện điều này thơng qua cử chỉ, hướng cơ thể của người dùng và các tương tác phi ngơn ngữ của robot.

Hai chiến lược phổ biến dùng để khởi tạo giao tiếp là: chọn mục tiêu, thực hiện đường đi ngắn nhất để tiếp cận mục tiêu, chào mục tiêu khi mục tiêu đi vào cự li giao tiếp hoặc khởi tạo bằng chiến lược cải tiến. Chiến lược cải tiến gồm: tiếp cận, dừng, tránh và rời khỏi. Khi người dùng thay đổi quỹ đạo, ta xem như người dùng tránh khi đĩ robot hướng đến người dùng và tỏ ý muốn tương tác. Khi người dùng dừng, robot bắt đầu đối thoại. Khi người dùng rời khỏi, robot bỏ qua việc bắt đầu hội thoại.

Giao thức đề xuất người-robot

Những robot xã hội nhìn chung cần cĩ các giao thức sau:

- Giao thức khởi động hội thoại sử dụng chủ yếu các yếu tố phi ngơn ngữ để tiến hành khởi tạo giao tiếp thơng qua việc bày tỏ ý muốn giao tiếp với người dùng

- Giao thức truyền thơng đồng bộ nhiều kênh tương tác nhiều module, tương tác phối hợp với nhau một cách chính xác theo thời gian

Chương 3: Các yếu tố đặc thù trong giao tiếp người-robot

- 51 -

- Giao thức sử dụng các yếu tố giống như con người: cử chỉ, ánh mắt, hướng cơ thể, xoay đầu, … để truyền đạt thơng tin tới người dùng

- Giao thức điều khiển hướng quay đầu kết hợp với cử chỉ và lời nĩi

- Giao thức tương tác nội bộ giữa nhiều kênh tương tác, nhiều module tương tác

- Cần cĩ sự đồng bộ về thời gian giữa các thành phần, đối tượng trong hệ thống

Hệ thống tương tác giữa người-robot là cực kỳ phức tạp, số lượng thơng tin và phạm vi cĩ thể cĩ của thơng tin là rất lớn. Cần kết hợp các chế độ robot tự hành và robot điều khiển từ xa.

3.2. Những vấn đề chính trong giao tiếp người – máy

Bài tốn HRI là bài tốn tìm hiểu và hình thành các tương tác giữa một hoặc nhiều người với một hoặc nhiều robot. Sự tương tác giữa người và robot là một vấn đề tất yếu trong lĩnh vực robot học. Ngay cả các robot cĩ khả năng tự trị thì cũng cĩ sự tương tác với con người. Tất cả các robot được chế tạo đều được sử dụng bởi hoặc làm việc cho con người. Các robot này được trang bị kiến thức của nhiều lĩnh

vực khác nhau: tâm lý học, ngơn ngữ học, tốn học, khoa học máy tính, …Những

vấn đề chính cần giải quyết trong bài tốn HRI là:

- Mức độ tự trị và hành vi của robot

- Vấn đề trao đổi thơng tin

Sự tương tác, cĩ thể hiều là quá trình làm việc với nhau để hoàn thành một mục tiêu, xuất hiện từ yêu cầu cần kết hợp các yếu tố này lại với nhau. Người thiết kế hệ tương tác người-robot cần cố gắng để tìm hiểu và hình thành sự tương tác này.

Chương 3: Các yếu tố đặc thù trong giao tiếp người-robot

- 52 -

3.2.1. Mức độ tự trị và hành vi của robot3.2.1.1. Mức độ tự trị của robot 3.2.1.1. Mức độ tự trị của robot

Thiết kế khả năng tự trị của robot là quá trình ánh xạ các thơng tin thu được từ mơi trường của robot thành những phản ứng tương ứng của bộ phận chấp hành, tự động xây dựng các biểu đồ, hoặc các phản ứng dưới dạng tiếng nĩi, …Mức độ tự trị của robot thể hiện khả năng thực hiện nhiệm vụ một cách độc lập của robot. Tồn tại nhiều quan điểm khi phân chia các cấp độ tự trị của robot nhưng sự phân cấp phổ biến nhất, và ứng dụng rộng rãi nhất là sự phân cấp thành 10 cấp của Tom Sheridan [14]. Các cấp độ này được sắp xếp theo thứ tự tăng dần mức độ tự trị từ cấp độ con người tự thực hiện toàn bộ yêu cầu, robot khơng làm gì cho tới cấp độ robot tự thực hiện các nhiệm vụ hoàn tồn khơng cần sự can thiệp của con người. Sau đây là 10 cấp độ:

1. Robot khơng cĩ sự trợ giúp con người, con người làm tất cả (Robot offers no assistance, human does it all)

2. Robot đưa ra một tập các hoạt động thay thế yêu cầu của con người (Robot offers a complete set of action alternatives)

3. Robot thu hẹp một số sựa lựa chọn (Robot narrows the selection down to a few choices)

4. Robot đề xuất một hoạt động riêng lẻ (Robot suggests a single action) 5. Robot thực thi hoạt động nếu con người đồng ý (Robot executes that

action if human approves)

6. Robot cho con người giới hạn thời gian để ngăn cản robot trước khi robot thực thi tự động (Robot allows the human limited time to veto before automatic execution)

7. Robot thực thi nhiệm vụ tự động sau đĩ gửi thơng tin cần thiết cho con người (Robot executes automatically then necessarily informs the human)

Chương 3: Các yếu tố đặc thù trong giao tiếp người-robot

- 53 -

8. Robot chỉ gửi thơng tin cho con người sau khi thực thi nhiệm vụ tự động nếu cĩ yêu cầu của con người (Robot informs human affter automatic execution only if human asks)

9. Robot chỉ gửi thơng tin cho con người sau khi thực thi nhiệm vụ tự động

Một phần của tài liệu Nghiên cứu phát triển các API phục vụ cho bài toán thông minh hóa robot (Trang 45)

Tải bản đầy đủ (PDF)

(86 trang)