Chúng tơi chưa có tham vọng biến máy tính thành thiết bị thơng minh đến nỗi nó có thể làm theo mọi câu lệnh của người dùng đưa vào, mà chúng tơi giới hạn nghiên cứu của mình trong các câu lệnh đơn giản vốn đã quen thuộc với người dùng hiện tại. Chúng tơi tiếp tục những gì Microsoft đã đưa ra và cải thiện các kết quả đó thơng qua một số giới hạn sau.
Chúng tôi tập trung nghiên cứu tiếng Việt rời rạc trước và dành tiếng Việt liên tục cho các nghiên cứu tương lai. Giới hạn này được đưa ra vì chúng tơi chưa tìm hiểu sâu về ranh giới giữa các từ trong tiếng nói liên tục. Sự va chạm giữa các từ trong tiếng nói liên tục tạo ra các tín hiệu rất phức tạp và khơng mong muốn khiến cho độ chính xác của q trình nhận dạng giảm đi đáng kể. Chúng tơi đã có thử nghiệm trên tiếng nói liên tục nhưng chưa tìm ra phương pháp giải quyết.
Mục tiêu của chúng tôi là phát triển các ứng dụng nhận dạng trên máy tính cá nhân và cho người dùng cụ thể, do đó chúng tơi tập trung nghiên cứu các hệ nhận
dạng phụ thuộc người nói. Hơn nữa trang thiết bị nghiên cứu và số lượng mẫu thu thập được chưa cho phép chúng tôi mở rộng nghiên cứu sang lĩnh vực công cộng.
Chúng tôi không viết một hệ thống tương tác mới mà chúng ta sử dụng lại hệ thống có sẵn. Điều đó khơng những làm đơn giản quá trình triển khai mà cịn khơng bỏ đi những ứng dụng đã có trong hệ thống. Các hệ thống nhận dạng của Microsoft không khai thác được điều này mà chỉ hoạt động với các ứng dụng mới xây dựng có hỗ trợ nhận dạng tiếng nói.
Chúng tơi tập trung vào ngơn ngữ mệnh lệnh giống như những gì Microsoft đã làm, nhưng chúng tôi mở rộng tập mệnh lệnh này để bao gồm cả các mệnh lệnh của hệ thống. Và chúng tôi không phân biệt các mệnh lệnh của ứng dụng (ví dụ như File Save) với mệnh lệnh của hệ thống (ví dụ như Switch Application, Shut down). Việc này cũng tương tự như dùng bàn phím, người dùng ấn Ctrl+O, Alt+Tab, Ctrl+Alt+Del về bản chất đều giống nhau (là tín hiệu đưa vào từ bàn phím) nhưng các phím nóng của hệ thống sẽ được ưu tiên và được hệ thống xử lý trước.
Chúng tôi cố gắng thiết kế một bộ từ vựng và văn phạm mở đến mức có thể để người dùng có thể thêm vào. Đây là đặc điểm khơng có trong hệ thống của Micrsoft. Trong hệ lệnh của Microsoft, chúng ta có thể ra lệnh Font Arial để đổi phông chữ hiện tại thành Arial, nhưng chúng ta không thể ra lệnh Font VnArial để đổi phông chữ hiện tại thành VnArial, do từ VnArial không được thiết kế trong từ điển.
Chúng tôi nhận dạng ở mức chuyển đổi tín hiệu vào thành tín hiệu ra, ví dụ người dùng huấn luyện bằng bộ chữ TCVN3 thì hệ thống sẽ đưa ra đúng ký hiệu của TCVN3, chưa có một sự chuyển đổi tín hiệu ra sau khi nhận dạng. Do đó chúng tơi bỏ qua sự khơng thống nhất trong chính tả của tiếng Việt mà chúng tơi trình bày trong phần phân tích tiếng Việt.