4. So sánh giữa các thiết bị với nhau : Mỗi vấn đề đều có hai mặt, thúc đẩy bởi các lợi ích khác nhau nhƣ kinh tế, sở thích cá nhân và theo kinh nghiệm cá nhân. Các nhân tố về con ngƣời ảnh hƣởng đến sự di chuyển ngắn hay dài, sự chính xác của vị trí, tỉ lệ lỗi, thời gian học và sự thỏa mãn của ngƣời dùng. Các vấn đề khác là giá cả, tính ổn định, yêu cầu về không gian, các vấn đề nhức hay mỏi, tính tƣơng thích với các hệ thống khác.
Trong các nghiên cứu trƣớc đây, thiết bị trỏ trực tiếp nhƣ bút điện tử hay các màn hinh tiếp xúc thƣờng chạy rất nhanh nhƣng lại là các thiết bị kém chính xác nhất. Tốc độ nhanh xuất phát từ các thiết bị trỏ trực tiếp và sự không chính xác từ các vấn đề phản hồi, thiết kế vật lý và sử dụng các cách thức khác nhau. Các cách thức nhƣ là nhƣ là lift-off và sự chính xác hơn trên các thiết bị làm cho chúng trở nên hữu dụng hơn để xây dựng các màn hình tiếp xúc, bảng mầu và các bút.
Các thiết bị thao tác không trực tiếp gây nên nhiều cuộc tranh cãi. Bảng mầu thích hợp nếu nhƣ ngƣời sử dụng có thể sử dụng thiết bị trong thời gian dài mà không có bàn phím. Kết hợp giữa việc sử dụng bút cùng với bảng mầu cho phép ngƣời dùng điều khiển ở mức độ cao, đặc biệt thích hợp đối với những nghệ sĩ sử dụng các chƣơng trình vẽ.
Thông thƣờng ngƣời ta tin rằng các thiết bị trỏ chuột nhanh hơn so với cách sử dụng bàn phím nhƣ là cách sử dụng các phím để điều khiển chuột, tuy nhiên cũng còn tuỳ thuộc vào từng nhiệm vụ khác nhau. Khi mà có một số danh mục trên màn hình và con trỏ chuột phải nhảy qua các danh mục khác nhau thì sử dụng các phím trỏ chuột nhanh hơn so với sử dụng các thiết bị trỏ chuột. Đối với các nhiệm vụ yêu cầu kết hợp cả gõ và trỏ, các phím trỏ chuột tỏ ra nhanh hơn so
thiết kế cho các thiết bị trỏ chuột. Các màn hình tiếp xúc đƣợc phổ biến rộng rãi trong các phƣơng tiện công cộng và các ứng dụng trong thƣ viện. Các thiết bị nêu trên đều phù hợp cho các nhiệm vụ sử dụng con trỏ chuột. Các phím trỏ chuột thích hợp khi mà có một ít số lƣợng các danh mục trên màn hình. Cần điều khiển thích hợp khi chơi các trò về máy bay, bởi vì tính dễ cầm và dễ điều khiển, tuy nhiên nhiều khi vẫn không đƣợc chính xác. Các thiết bị trỏ không trực tiếp cần phải tìm hiểu kĩ hơn so với các thiết bị trỏ trực tiếp.
2. 3. 4. Nhận dạng giọng nói và số hóa
Mong muốn có thể giao tiếp với máy vi tính là động lực thôi thúc nhiều nhà nghiên cứu khác nhau. Thực tế cho thấy vấn đề trên là rất phức tạp và nhiều điều đáng ngạc nhiên cần phải suy tính. Các nhà thiết kế phần cứng tạo nên bƣớc chuyển hóa mạnh mẽ với các thiết bị về âm thanh và chuyển tải dữ liệu. Tuy nhiên mong muốn để có đƣợc một chiếc máy tính có thể giao tiếp thông thạo với ngƣời dùng vẫn còn là mơ ƣớc chứ không mang tính thực tế. Thay vào đó, các ứng dụng thực tế cho các nhiệm vụ đặc biệt với các thiết bị đặc biệt tỏ ra hiệu quả trong việc phục vụ ngƣời dùng một cách nhanh chóng với tỉ lệ lỗi thấp. Ngƣời thiết kế nhận ra điều đó một cách miễn cƣỡng, mặc dù các vấn đề kĩ thuật đã đƣợc giải quyết và các thuật toán nhận dạng đƣợc cải tiến, các câu lệnh điều khiển bằng giọng nói yêu cầu ngƣời sử dụng phải huy động bộ nhớ nhiều hơn so với cách sử dụng phối hợp tay và mắt, điều mà đƣợc thực hiện bởi trong bộ não. Các vấn đề về tiếng ồn và sự đa dạng trong lời nói làm cho vấn đề trở nên phức tạp hơn. Ngƣợc lại, lƣu giữ giọng nói và tạo ra một bài diễn văn có nhiều triển vọng và luôn luôn sẵn sàng bởi vì sự có mặt của máy điện thoại đang trở nên phổ biến tuy nhiên chúng luôn luôn có sự khó khăn nhất định nhƣ việc chuyển tải so với các phƣơng pháp nhƣ văn bản.
Lợi ích đối với những ngƣời thiệt thòi là rất dễ nhận ra, tuy nhiên cũng có nhiều hãng chƣa lắp đặt các thiết bị vào ra dữ liệu thông qua giọng nói. Tuy nhiên, các thiết bị cho nhiệm vụ đặc biệt này đang phát triển rất nhanh và ngày càng trở nên dễ sử dụng.
Đối với những ngƣời thiết kế, công nghệ nhận dạng giọng nói có bốn vấn đề cần quan tâm: nhận dạng các tiếng nói riêng biệt, nhận dạng các đoạn, lƣu giữ các đoạn nói và sinh tiếng nói. Một chủ đề liên quan đó chính là việc sử dụng các âm lƣỡi, thu âm và âm thanh. Các thiết bị này có thể kết hợp đƣợc với nhau để tạo ra nhiều tính năng đa dạng: từ hệ thống đơn giản chỉ có nút bật và tắt, cho đến các hệ thống phức tạp mà có thể tƣơng tác bằng các câu lệnh nói, tạo ra các phản hồi bằng tiếng nói và các chú giải cùng với các âm thanh lƣu trữ.
Việc nắm vững các quá trình xử lý của thần kinh trong vấn đề xử lý âm thanh có tác dụng đáng kể. Tại sao nghe các bản nhạc giao hƣởng của Mozart lại có thể kích thích tính sáng tạo của
mỗi ngƣời trong khi nghe radio lại ngăn cản điều đó. Liệu có phải là ngữ nghĩa của bản tin radio ngăn cản điều đó trong khi nghe âm nhạc của Mozart nói chung lại ngƣợc lại theo một cách nào đó. Tất nhiên nghe nhạc Mozart với sự chuyên tâm của một nhà âm nhạc có thể cảm nhận hết đƣợc những vẻ đẹp trong đó. Liệu có cách sử dụng âm thanh hay lời thoại hay một cách nào đó để có sự tập trung, có thể phá hỏng hay làm tăng sự hỗ trợ trong quá trình xử lý, các nguyên nhân nào khác hay là các vấn đề về thiết kế giao diện. Liệu có một phƣơng pháp nào tốt hơn để kết hợp các phần mềm vẽ hơn là các bộ xử lý chữ.
1. Nhận dạng các tiếng nói riêng biệt : Các thiết bị nhận dạng tiếng nói riêng biệt đƣợc phát âm bởi một ngƣời nào đó có thể hoạt động với độ tin cậy khoảng từ 90 cho đến 98% với khoảng 200 từ vựng. Cách thức ngƣời sử dụng lập đi lập lại các từ vựng từ một đến hai lần là một phần trong hầu hết các hệ thống. Có cách thức phụ thuộc vào độ tin cậy đối với các ứng dụng đó.
Thành công của các ứng dụng đó phải có đƣợc nếu nhƣ một trong các tiêu chuẩn sau tồn tại:
a. Tay của ngƣời dùng không thể làm việc đƣợc
b. Sự cần thiết có tính di động
c. Mắt của ngƣời dùng đang làm việc khác
d. Việc sử dụng bàn phím là không thể.
Trong các ứng dụng mà màn hình đƣợc sử dụng thì đầu vào bằng giọng nói không mang lại nhiều hiệu quả. Các nghiên cứu trong việc sử dụng con trỏ chuột bởi giọng nói và bàn phím thì khả năng thao tác lại tăng lên gấp đôi. So sánh giữa 10 ngƣời gõ bàn phím sử dụng các lệnh gõ và 10 ngƣời không gõ bàn phím sử dụng câu lệnh bằng tiếng nói để sửa các tài liệu trên mạng. Đối với cả hai kiểu thì ngƣời dùng vẫn phải sử dụng các chuỗi thông tin về các tham số. Ngƣời gõ thích sử dụng bàn phím. Ngƣời không gõ lúc đầu thích ra lệnh bằng ngôn ngữ sau đó lại thích ra lệnh bằng các câu lệnh tại cuối phiên khi làm việc.
Đối với nghiên cứu của 24 chuyên gia lập trình, việc sử dụng các câu lệnh thì khả năng hoàn thành công việc kém hơn so với sử dụng các câu lệnh bằng cách gõ. Tuy nhiên cách thức sử dụng các lệnh gõ lại có thể mang nhiều lỗi hơn. Nhƣ vậy đối với các thí nghiệm với các hệ thống bằng giọng nói mà vƣợt quá 90 phút thì chất lƣợng có thể tốt hơn.
Một kết quả thí nghiệm của MacDraw, có tám ngƣời vẽ các sơ đồ khác nhau trong đó có sử dụng câu lệnh bằng giọng nói thay vì chọn từ bảng mầu thì thời gian thực hiện tăng lên 21%.. Điểm khác biệt ở đây chính là giảm đƣợc thời gian của việc phải di chuyển con trỏ liên tục từ bảng mầu cho đến hình vẽ và ngƣợc trở lại. Một thí nghiệm khác cũng cho thấy kết quả tƣong tự đó là sử dụng các câu lệnh ngôn ngữ thay cho cách thức các bộ xử lý chữ thông thƣờng. Mặc dù quá trình nhận dạng giọng nói là nhanh hơn so với cách thức sử dụng con trỏ chuột, tỉ lệ lỗi cũng
so với việc lựa chọn các danh mục từ các thực đơn đã có sẵn với con trỏ chuột. Điều này cũng đƣợc các nhà thiết kế của hang IBM quan tâm. Họ viết “mặc dù với rất nhiều ngƣời có mối liên tƣởng chặt chẽ với ngôn ngữ. Khi thao tác với bàn phím, ngƣời dùng có thể tiếp tục cải tiến công việc của họ trong khi đó là các phiên bản cũ. Trong việc đọc và viết, ngƣời dùng có thể trải qua nhiều các giao diện khác nhau giữa đầu ra của các ý tƣởng ban đầu và thảo luận tỉ mỉ về các vấn đề đó”. Nhiều các vấn đề nghiên cứu gần đây đóng góp để cải tiến sự nhận thức trong các điều kiện khó khăn, loại bỏ sự cần thiết của các giọng nói hƣớng dẫn và làm tăng các vốn từ vựng.
Liệu nhận dạng giọng nói có thể phát triển đến đâu hiện nay vẫn là một câu hỏi lớn. Nhận dạng giọng nói nhìn chung dành cho các từ riêng biệt với các mục đích riêng biệt, còn chƣa đáp ứng đƣợc nhiều các nhu cầu cho vấn đề tƣơng tác. Bàn phím, phím chức năng, các thiết bị trỏ với các thao tác trực tiếp thƣờng có tốc độ nhanh hơn và các hành động hay câu lệnh cũng có thể dễ nhìn thấy hơn và dễ thao tác hơn. Điều khiển lỗi và các phản hồi thích hợp với các giọng nói đầu vào thƣờng là rất chậm và khó khăn. Kết hợp giọng nói và các thao tác trực tiếp có thể là rất hữu dụng nhƣ trong các nghiên cứu của Pausch và Leatherby.
2. Nhận dạng các đoạn nói : Có phần mềm có thể hiểu đƣợc các tiếng nói và thậm chí có thể phân tích đƣợc tiếng nói thông qua môi nhƣng thực tế cần phải tỉnh táo hơn. Mặc dù có nhiều nhà nghiên cứu tập trung vào vấn đề này tuy nhiên thành công vẫn ở mức rất hạn chế nhƣ các vấn đề trong ngành X quang. Điều khó khăn nằm ở chính các đƣờng biên khác biệt giữa các từ. Các từ phát âm giống nhau hay đơn điệu đều làm mờ đi sự khác biệt trên.
Hy vọng ở đây là với hệ thống nhận dạng các đoạn nói ngƣời dùng có thể đọc chính tả cho máy, biên soạn các đoạn văn cho máy, cho phép các máy tính có thể duyệt qua một đoạn dài nhƣ các chƣơng trình radio hay cuộc nói chuyện điện thoại. Sử dụng giọng nói cho việc xác thực cũng là một trong những cách thức hiệu quả cho các vấn đề an ninh. Ngƣời sử dụng phải nói một đoạn để cho máy tính có thể phân tích và xác định đối tƣợng đang sử dụng có hợp lệ hay không.
Có nhiều hãng đã phát triển phần mềm nhƣ nàu nhƣ của Verbex khi mà họ tuyên bố có khả năng phân tích và chính xác tới 99, 5% với các vốn từ vựng khoảng 10 000 từ, của Speech khả năng chính xác tới 95% với khoảng 40 000 từ vựng. IBM đã tiến hành một số thí nghiệm trong đó có sử dụng các cấu trúc ngữ pháp con để tăng khả năng nhận thức. Các nhiệm vụ yêu cầu bao gồm có điều khiển hệ thống, yêu cầu về thông tin và các chứng nhận...
Mặc dù có nhiều sự tiến bộ trong thời gian qua bởi các hãng và các công ty khác nhau, đánh giá sau đây vẫn còn mang tính giá trị “Tƣơng tác thoải mái và tự nhiên bằng giọng nói vẫn còn nằm vƣợt quá xa so với khả năng của chúng ta, vấn đề này hoàn toàn không dễ giải quyết”.
3. Lƣu trữ và chuyển tải giọng nói : Mặc dù không hấp dẫn nhƣng rất hữu dụng đó là các hệ thống cho phép lƣu và chuyển các giọng nói. Các thông báo bằng giọng nói đƣợc lƣu lại rất hữu dụng cho các chƣơng trình thời tiết, hàng không, thông tin về tài chính tuy nhiên các thông tin cá nhân thông qua điện thoại là phổ biến hơn cả. Sau khi đã đăng ký dịch vụ, ngƣời sử dụng phần mềm có thể tiếp cận các lệnh thông qua các phím bấm để lƣu các hƣớng dẫn thông báo sau đó các thông báo này sẽ đƣợc gửi đi cho một hay nhiều ngƣời đã đăng ký dịch vụ. Ngƣời sử dụng phân mềm có thể nhận đƣợc các thông báo, bật lại các thông báo, trả lời các thông báo đối với ngƣời gọi, xóa các thông báo hay nhận các thông báo. Việc tự động loại bỏ sự im lặng và tăng tốc độ trong những lần chuyển đổi có thể giảm thời gian đi một nửa.
Công nghệ thƣ giọng nói hoạt động khá ổn định với giá thành thấp và đƣợc ngƣời dùng yêu thích. Vấn đề tăng lên do sự lóng ngóng trong việc sử dụng 12 phím điện thoại cho các câu lệnh, yêu cầu cần thiết quay các số để kiểm tra các thông báo đã chuyển đi chƣa và cho các thông báo điện thoai bởi vì tính dễ sử dụng trong việc phân phối các thông báo cho nhiều ngƣời.
Các thông tin thông báo trong điện thoại cũng thu đƣợc một số thành công mặc dù ngƣời gọi vẫn cảm thấy dài và phức tạp. Các tiếng nói hƣớng dẫn trong các bảo tàng cũng thu đƣợc thành công bởi vì chúng cho phép ngƣời dùng có thể điều khiển đƣợc nhịp độ trong khi vẫn mang đến những tín hiệu tích cực. Các nhà tâm lý đã dự đoán rằng, nếu nhƣ có một vài yếu tố nhƣ ánh sáng, tiếp xúc, nghe đƣợc tiến hành thì quá trình học sẽ diễn ra nhanh hơn. Việc thêm các hƣớng dẫn bằng giọng nói đối với các hệ thống hƣớng dẫn hay các hệ thống trợ giúp có thể cải tiến quá trình xử lý thông tin đƣợc tốt hơn. Tuy nhiên, có một điều hiển nhiên là ngƣời dùng của các hệ thống hƣớng dẫn thích các hƣớng dẫn bằng chữ hơn là các hƣớng dẫn bằng giọng nói. Việc thêm vào các chú thích bằng giọng nói cho các tài liệu có thể giúp cho thầy giáo dễ dàng đánh giá các bài của sinh viên. Chỉnh sửa các giọng nói hƣớng dẫn là có thể tuy nhiên, vẫn còn có rất nhiều sự khó khăn.
4. Sinh giọng nói : Việc sinh ra các giọng nói là một ví dụ thành công về công nghệ và tính khả thi ứng dụng có thể vƣợt quá một số nhà phát triển. Chất lƣợng của âm thanh là tốt nếu nhƣ các chữ và phát âm cho các dữ liệu số đƣợc lƣu trong từ điển. Khi mà có thuật toán để sinh ra các âm thanh, đôi khi chất lƣợng lại giảm xuống. Các giọng nói đƣợc số hóa thƣờng là những phƣơng pháp tốt khi mà các âm điệu của ngôn ngữ cung cấp tính xác thực cao hơn. Đối với một số ứng dụng, các máy tính giống nhƣ một máy nói đƣợc ƣa thích hơn. Michaelis và Wigggin năm 1982 đƣa ra một số tiêu chuẩn cách sinh ra giọng nói đƣợc ƣa thích nếu nhƣ có một trong các điều kiện sau:
Thông báo đơn giản
Thông báo ngắn
Thông báo không nên xuất hiện ở sau
Các yếu tố thị giác có thể không đáp ứng đƣợc nhu cầu và do vậy cần phải có sự nghe.
Các tiêu chuẩn trên áp dụng cho các giọng nói đƣợc số hóa và làm đơn giản quá trình ghi chép. Các giọng nói đƣợc số hóa cho phép kết nối với nhau để thực hiện các đoạn và câu phức