Mong muốn có thể giao tiếp với máy vi tính là động lực thôi thúc nhiều nhà nghiên cứu khác nhau. Thực tế cho thấy vấn đề trên là rất phức tạp và nhiều điều đáng ngạc nhiên cần phải suy tính. Các nhà thiết kế phần cứng tạo nên bước chuyển hóa mạnh mẽ với các thiết bị về âm thanh và chuyển tải dữ liệu. Tuy nhiên mong muốn để có được một chiếc máy tính có thể giao tiếp thông thạo với người dùng vẫn còn là mơ ước chứ không mang tính thực tế. Thay vào đó, các ứng dụng thực tế cho các nhiệm vụ đặc biệt với các thiết bị đặc biệt tỏ ra hiệu quả trong việc phục vụ người dùng một cách nhanh chóng với tỉ lệ lỗi thấp. Người thiết kế nhận ra điều đó một cách miễn cưỡng, mặc dù các vấn đề kĩ thuật đã được giải quyết và các thuật toán nhận dạng được cải tiến, các câu lệnh điều khiển bằng giọng nói yêu cầu người sử dụng phải huy động bộ nhớ nhiều hơn so với cách sử dụng phối hợp tay và mắt, điều mà được thực hiện bởi trong bộ não. Các vấn đề về tiếng ồn và sự đa dạng trong lời nói làm cho vấn đề trở nên phức tạp hơn. Ngược lại, lưu giữ giọng nói và tạo ra một bài diễn văn có nhiều triển vọng và luôn luôn sẵn sàng bởi vì sự có mặt của máy điện thoại đang trở nên phổ biến tuy nhiên chúng luôn luôn có sự khó khăn nhất định như việc chuyển tải so với các phương pháp như văn bản.
Lợi ích đối với những người thiệt thòi là rất dễ nhận ra, tuy nhiên cũng có nhiều hãng chưa lắp đặt các thiết bị vào ra dữ liệu thông qua giọng nói. Tuy nhiên, các thiết bị cho nhiệm vụ đặc biệt này đang phát triển rất nhanh và ngày càng trở nên dễ sử dụng.
Đối với những người thiết kế, công nghệ nhận dạng giọng nói có bốn vấn đề cần quan tâm: nhận dạng các tiếng nói riêng biệt, nhận dạng các đoạn, lưu giữ các đoạn nói và sinh tiếng nói. Một chủ đề liên quan đó chính là việc sử dụng các âm lưỡi, thu âm và âm thanh. Các thiết bị này có thể kết hợp được với nhau để tạo ra nhiều tính năng đa dạng: từ hệ thống đơn giản chỉ có nút bật và tắt, cho đến các hệ thống phức tạp mà có thể tương tác bằng các câu lệnh nói, tạo ra các phản hồi bằng tiếng nói và các chú giải cùng với các âm thanh lưu trữ.
Việc nắm vững các quá trình xử lý của thần kinh trong vấn đề xử lý âm thanh có tác dụng đáng kể. Tại sao nghe các bản nhạc giao hưởng của Mozart lại có thể kích thích tính sáng tạo của
mỗi người trong khi nghe radio lại ngăn cản điều đó. Liệu có phải là ngữ nghĩa của bản tin radio ngăn cản điều đó trong khi nghe âm nhạc của Mozart nói chung lại ngược lại theo một cách nào đó. Tất nhiên nghe nhạc Mozart với sự chuyên tâm của một nhà âm nhạc có thể cảm nhận hết được những vẻ đẹp trong đó. Liệu có cách sử dụng âm thanh hay lời thoại hay một cách nào đó để có sự tập trung, có thể phá hỏng hay làm tăng sự hỗ trợ trong quá trình xử lý, các nguyên nhân nào khác hay là các vấn đề về thiết kế giao diện. Liệu có một phương pháp nào tốt hơn để kết hợp các phần mềm vẽ hơn là các bộ xử lý chữ.
1. Nhận dạng các tiếng nói riêng biệt : Các thiết bị nhận dạng tiếng nói riêng biệt được phát âm bởi một người nào đó có thể hoạt động với độ tin cậy khoảng từ 90 cho đến 98% với khoảng 200 từ vựng. Cách thức người sử dụng lập đi lập lại các từ vựng từ một đến hai lần là một phần trong hầu hết các hệ thống. Có cách thức phụ thuộc vào độ tin cậy đối với các ứng dụng đó.
Thành công của các ứng dụng đó phải có được nếu như một trong các tiêu chuẩn sau tồn tại:
a. Tay của người dùng không thể làm việc được
b. Sự cần thiết có tính di động
c. Mắt của người dùng đang làm việc khác
d. Việc sử dụng bàn phím là không thể.
Trong các ứng dụng mà màn hình được sử dụng thì đầu vào bằng giọng nói không mang lại nhiều hiệu quả. Các nghiên cứu trong việc sử dụng con trỏ chuột bởi giọng nói và bàn phím thì khả năng thao tác lại tăng lên gấp đôi. So sánh giữa 10 người gõ bàn phím sử dụng các lệnh gõ và 10 người không gõ bàn phím sử dụng câu lệnh bằng tiếng nói để sửa các tài liệu trên mạng. Đối với cả hai kiểu thì người dùng vẫn phải sử dụng các chuỗi thông tin về các tham số. Người gõ thích sử dụng bàn phím. Người không gõ lúc đầu thích ra lệnh bằng ngôn ngữ sau đó lại thích ra lệnh bằng các câu lệnh tại cuối phiên khi làm việc.
Đối với nghiên cứu của 24 chuyên gia lập trình, việc sử dụng các câu lệnh thì khả năng hoàn thành công việc kém hơn so với sử dụng các câu lệnh bằng cách gõ. Tuy nhiên cách thức sử dụng các lệnh gõ lại có thể mang nhiều lỗi hơn. Như vậy đối với các thí nghiệm với các hệ thống bằng giọng nói mà vượt quá 90 phút thì chất lượng có thể tốt hơn.
Một kết quả thí nghiệm của MacDraw, có tám người vẽ các sơ đồ khác nhau trong đó có sử dụng câu lệnh bằng giọng nói thay vì chọn từ bảng mầu thì thời gian thực hiện tăng lên 21%.. Điểm khác biệt ở đây chính là giảm được thời gian của việc phải di chuyển con trỏ liên tục từ bảng mầu cho đến hình vẽ và ngược trở lại. Một thí nghiệm khác cũng cho thấy kết quả tưong tự đó là sử dụng các câu lệnh ngôn ngữ thay cho cách thức các bộ xử lý chữ thông thường. Mặc dù quá trình nhận dạng giọng nói là nhanh hơn so với cách thức sử dụng con trỏ chuột, tỉ lệ lỗi cũng cao hơn cho việc sử dụng tiếng mà yêu cầu cao về bộ nhớ ngắn hạn. Kết quả này được các nhà
so với việc lựa chọn các danh mục từ các thực đơn đã có sẵn với con trỏ chuột. Điều này cũng được các nhà thiết kế của hang IBM quan tâm. Họ viết “mặc dù với rất nhiều người có mối liên tưởng chặt chẽ với ngôn ngữ. Khi thao tác với bàn phím, người dùng có thể tiếp tục cải tiến công việc của họ trong khi đó là các phiên bản cũ. Trong việc đọc và viết, người dùng có thể trải qua nhiều các giao diện khác nhau giữa đầu ra của các ý tưởng ban đầu và thảo luận tỉ mỉ về các vấn đề đó”. Nhiều các vấn đề nghiên cứu gần đây đóng góp để cải tiến sự nhận thức trong các điều kiện khó khăn, loại bỏ sự cần thiết của các giọng nói hướng dẫn và làm tăng các vốn từ vựng.
Liệu nhận dạng giọng nói có thể phát triển đến đâu hiện nay vẫn là một câu hỏi lớn. Nhận dạng giọng nói nhìn chung dành cho các từ riêng biệt với các mục đích riêng biệt, còn chưa đáp ứng được nhiều các nhu cầu cho vấn đề tương tác. Bàn phím, phím chức năng, các thiết bị trỏ với các thao tác trực tiếp thường có tốc độ nhanh hơn và các hành động hay câu lệnh cũng có thể dễ nhìn thấy hơn và dễ thao tác hơn. Điều khiển lỗi và các phản hồi thích hợp với các giọng nói đầu vào thường là rất chậm và khó khăn. Kết hợp giọng nói và các thao tác trực tiếp có thể là rất hữu dụng như trong các nghiên cứu của Pausch và Leatherby.
2. Nhận dạng các đoạn nói : Có phần mềm có thể hiểu được các tiếng nói và thậm chí có thể phân tích được tiếng nói thông qua môi nhưng thực tế cần phải tỉnh táo hơn. Mặc dù có nhiều nhà nghiên cứu tập trung vào vấn đề này tuy nhiên thành công vẫn ở mức rất hạn chế như các vấn đề trong ngành X quang. Điều khó khăn nằm ở chính các đường biên khác biệt giữa các từ. Các từ phát âm giống nhau hay đơn điệu đều làm mờ đi sự khác biệt trên.
Hy vọng ở đây là với hệ thống nhận dạng các đoạn nói người dùng có thể đọc chính tả cho máy, biên soạn các đoạn văn cho máy, cho phép các máy tính có thể duyệt qua một đoạn dài như các chương trình radio hay cuộc nói chuyện điện thoại. Sử dụng giọng nói cho việc xác thực cũng là một trong những cách thức hiệu quả cho các vấn đề an ninh. Người sử dụng phải nói một đoạn để cho máy tính có thể phân tích và xác định đối tượng đang sử dụng có hợp lệ hay không.
Có nhiều hãng đã phát triển phần mềm như nàu như của Verbex khi mà họ tuyên bố có khả năng phân tích và chính xác tới 99, 5% với các vốn từ vựng khoảng 10 000 từ, của Speech khả năng chính xác tới 95% với khoảng 40 000 từ vựng. IBM đã tiến hành một số thí nghiệm trong đó có sử dụng các cấu trúc ngữ pháp con để tăng khả năng nhận thức. Các nhiệm vụ yêu cầu bao gồm có điều khiển hệ thống, yêu cầu về thông tin và các chứng nhận...
Mặc dù có nhiều sự tiến bộ trong thời gian qua bởi các hãng và các công ty khác nhau, đánh giá sau đây vẫn còn mang tính giá trị “Tương tác thoải mái và tự nhiên bằng giọng nói vẫn còn nằm vượt quá xa so với khả năng của chúng ta, vấn đề này hoàn toàn không dễ giải quyết”.
3. Lưu trữ và chuyển tải giọng nói : Mặc dù không hấp dẫn nhưng rất hữu dụng đó là các hệ thống cho phép lưu và chuyển các giọng nói. Các thông báo bằng giọng nói được lưu lại rất hữu dụng cho các chương trình thời tiết, hàng không, thông tin về tài chính tuy nhiên các thông tin cá nhân thông qua điện thoại là phổ biến hơn cả. Sau khi đã đăng ký dịch vụ, người sử dụng phần mềm có thể tiếp cận các lệnh thông qua các phím bấm để lưu các hướng dẫn thông báo sau đó các thông báo này sẽ được gửi đi cho một hay nhiều người đã đăng ký dịch vụ. Người sử dụng phân mềm có thể nhận được các thông báo, bật lại các thông báo, trả lời các thông báo đối với người gọi, xóa các thông báo hay nhận các thông báo. Việc tự động loại bỏ sự im lặng và tăng tốc độ trong những lần chuyển đổi có thể giảm thời gian đi một nửa.
Công nghệ thư giọng nói hoạt động khá ổn định với giá thành thấp và được người dùng yêu thích. Vấn đề tăng lên do sự lóng ngóng trong việc sử dụng 12 phím điện thoại cho các câu lệnh, yêu cầu cần thiết quay các số để kiểm tra các thông báo đã chuyển đi chưa và cho các thông báo điện thoai bởi vì tính dễ sử dụng trong việc phân phối các thông báo cho nhiều người.
Các thông tin thông báo trong điện thoại cũng thu được một số thành công mặc dù người gọi vẫn cảm thấy dài và phức tạp. Các tiếng nói hướng dẫn trong các bảo tàng cũng thu được thành công bởi vì chúng cho phép người dùng có thể điều khiển được nhịp độ trong khi vẫn mang đến những tín hiệu tích cực. Các nhà tâm lý đã dự đoán rằng, nếu như có một vài yếu tố như ánh sáng, tiếp xúc, nghe được tiến hành thì quá trình học sẽ diễn ra nhanh hơn. Việc thêm các hướng dẫn bằng giọng nói đối với các hệ thống hướng dẫn hay các hệ thống trợ giúp có thể cải tiến quá trình xử lý thông tin được tốt hơn. Tuy nhiên, có một điều hiển nhiên là người dùng của các hệ thống hướng dẫn thích các hướng dẫn bằng chữ hơn là các hướng dẫn bằng giọng nói. Việc thêm vào các chú thích bằng giọng nói cho các tài liệu có thể giúp cho thầy giáo dễ dàng đánh giá các bài của sinh viên. Chỉnh sửa các giọng nói hướng dẫn là có thể tuy nhiên, vẫn còn có rất nhiều sự khó khăn.
4. Sinh giọng nói : Việc sinh ra các giọng nói là một ví dụ thành công về công nghệ và tính khả thi ứng dụng có thể vượt quá một số nhà phát triển. Chất lượng của âm thanh là tốt nếu như các chữ và phát âm cho các dữ liệu số được lưu trong từ điển. Khi mà có thuật toán để sinh ra các âm thanh, đôi khi chất lượng lại giảm xuống. Các giọng nói được số hóa thường là những phương pháp tốt khi mà các âm điệu của ngôn ngữ cung cấp tính xác thực cao hơn. Đối với một số ứng dụng, các máy tính giống như một máy nói được ưa thích hơn. Michaelis và Wigggin năm 1982 đưa ra một số tiêu chuẩn cách sinh ra giọng nói được ưa thích nếu như có một trong các điều kiện sau:
Thông báo đơn giản
Thông báo ngắn
Thông báo không nên xuất hiện ở sau
Các yếu tố thị giác có thể không đáp ứng được nhu cầu và do vậy cần phải có sự nghe.
Các tiêu chuẩn trên áp dụng cho các giọng nói được số hóa và làm đơn giản quá trình ghi chép. Các giọng nói được số hóa cho phép kết nối với nhau để thực hiện các đoạn và câu phức tạp hơn. Tóm lại, phát triển giọng nói là một trong những công nghệ mang tính tiềm năng cao. Bây giờ những nhà thiết kế thông minh phải quyết định chọn tình huống phù hợp nhất để mang tính ưu trội trong quá trình cạnh tranh công nghệ. Các ứng dụng tốt đó là các chương trình điện thoại như là một sự bổ sung đối với CRT hoặc là thông qua việc gắn chặt trong các phần mềm tiêu thị sản phẩm nhỏ.
5. Âm thanh, thính giác và âm nhạc : Ngoài những vấn đề ở trên thì các máy phát âm thanh còn bao gồm các vấn đề như âm thanh khi nói, vấn đề phức tạp hơn như thông tin hiển thị bởi sự kết hợp giữa âm thanh, thính giác và âm nhạc và sự kết hợp của các yếu tố trên. Các thế hệ Teletype bao gồm có các giọng nói để có thể cảnh báo cho người dùng khi các thông báo đang đến hay giấy in đã đi ra ngoài. Một số các phiên bản về sau có thêm một số tính năng như cảnh báo hay xác nhận sự kết thúc của các hành động. Thậm chí các bàn phím được thiết kế được xây dựng với ý định để bảo tồn các phản hồi băng âm thanh. Các bộ chip xử lý để biến đổi từ tín hiệu số-tương tự và từ tương tự-tín hiệu số ngày càng trở nên có sức mạnh và rẻ hơn. Gaver’s SonicFinder đã thêm âm thanh vào vào các giao diện Macintosh bằng cách khi các file kéo xuống thì có thêm âm thanh phụ họa, tiếng động nhỏ khi mà đường biên cửa sổ vượt qua. Hiệu quả cho người dùng chính là nằm ở điểm sự thoả mãn đối với các hành động ví dụ như đối với người có tật về thị giác thì âm thanh là điều vô cùng quan trọng. Mặt khác, sau một vài giờ đồng hồ thì âm thanh là một sự ngăn cản hơn là đóng góp, đặc biệt là đối với căn phòng bao gồm có nhiều người sử dụng và nhiều máy. Việc sử dụng âm thanh để cung cấp các phản hồi trong việc tìm kiếm và định hướng nhiệm vụ có thể làm tăng từ 20 đến 25%. Kết quả trên thu về trong khi kiểm nghiệm 12 chuyên gia máy tính.
Âm thanh hướng dẫn cho người khiếm thị cũng đã được nêu lên. Mỗi file đều có một âm thanh đi kèm mà thường liên quan thuộc tính kích cỡ, và có thể xác định được các hướng dẫn. Khi mà thư mục xuất hiện, mỗi file có thể chạy các âm thanh đồng thời và thứ tự. Một cách khác, file có âm thanh liên kết với các kiểu file để người dùng có thể xác định được đâu là bảng tính, đồ