Qua những phân tích về hạn chế và nguyên nhân tôi xin đề ra những giải pháp sau:
4.3.1 Về thuật toán
Thực hiện truy cập bộ nhớ DMA ( Direct Memory Access),sử dụng thư viện và thuật toán nhận diện giọng nói trong ngôn ngữ C# để xây dựng hệ thống thư viện nhúng cho vi điều khiển ARM :
Hình 4.8 Sơ đồ truy cấp bộ nhớ DMA nhận diện giọng nói
công việc nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận dạng với các mẫu đã được học và lưu trữ trong bộ nhớ. Khó khăn cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa tiếng nói của những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường âm học khác nhau. Xác định những thông tin biến thiên nào của tiếng nói là có ích và những thông tin nào là không có ích đối với nhận dạng tiếng nói là rất quan trọng. Đây là một nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật xác suất thống kê mạnh cũng khó khăn trong việc tổng quát hoá từ các mẫu tiếng nói những biến thiên quan trọng cần thiết trong nhận dạng tiếng nói.
4.3.1.2Ngôn ngữ lập trình C#
• Thư viện System.Speech, thư viện này nằm trong bộ .Net framwork 4.5, 4, 3.5, 3.0 và .NET 4 Client Profile
Bộ thư viện gồm hệ thống những câu lệnh giúp xử lý trong việc nhận dạng giọng nói
Bảng 4.1 Nhóm lệnh xử lí giọng nói trong thư viện xử lí giọng nói C#
Namespace Description
System.Speech.AudioFormat The System.Speech.AudioFormat namespa ce consists of a single
class, SpeechAudioFormatInfo, which contains information about the format of the audio that is being input to the speech recognition engine, or being output from the speech synthesis engine.
System.Speech.Recognition The System.Speech.Recognition namespac e contains Windows Desktop Speech technology types for implementing speech recognition.
System.Speech.Recognition.Sr gsGrammar
With the members of
the System.Speech.Recogntion.SRGSGra mmar namespace, you can
programmatically create grammars that comply with the W3C Speech Recognition Grammar Specification Version
1.0 (SRGS).
System.Speech.Synthesis The N:System.Speech.Synthesis namespac e contains classes for initializing and configuring a speech synthesis engine, for creating prompts, for generating speech, for responding to events, and for
modifying voice characteristics.
System.Speech.Synthesis.TtsE ngine
Supports the creation of Speech Synthesis Markup Language (SSML) based custom engines for rendering text to speech (TTS).
Thực hiện nhúng các bộ lọc khử nhiễu : - Bộ lọc Wiener
- Bộ lọc Kalman
- Bộ lọc phẳng Savizky Golay
4.3.2 Nâng cấp dòng chip ARM đang sử dụng
điều khiển giọng nói hoặc giao diện rich OS và còn được sử dụng trong các smartphone hoặc trên xe hơi để điều khiển các chức năng màn hình chạm và âm thanh phức tạp hơn. Theo ARM, trong nhiều trường hợp, một con chip M7 có thể thay thế chức năng của một nhóm chip vi điều khiển cấp thấp.
Các vi điều khiển khác cũng có chứ năng tương tự nhưng chất lượng thấp hơn:
Hình 4.9 So sánh khả năng xử lý tín hiệu số (DSP) của Cortex-M7 với SoC khác .
4.3.2.2 Cấu trúc Cortex-M7 và những ưu điểm
Chip Cortex-M7 là một vi điều khiển 32-bit cao cấp nhất trong series Cortex-M của ARM cho đến hiện nay. Theo ARM, Cortex-M7 có DSP (Digital Signal Processing:
Xử lý tín hiệu số) cao gấp đôi so với Cortex-M4 do đó có thể xử lý cùng lúc 2 tập lệnh, giúp cho M7 có thể hoạt động ở mức xung nhịp cao hơn.
DSP là một dạng xử lý tín hiệu số đặc biệt sử dụng cho các tác vụ phức tạp cùng lúc như giám sát động cơ tốc độ cao, xử lý các luồng dữ liệu âm thanh và hình ảnh đầu vào một cách hiệu quả.
Với khả năng xử lý 2 tập lệnh cùng lúc nên M7 có thể xử lý các phép tính phức tạp nhanh hơn rất nhiều. Phạm vi ứng dụng của Cortex-M7 rất rộng, từ điều khiển mô tơ chuyển động trong rô-bốt, máy bay không người lái, nhận dạng âm thanh, màn hình cảm ứng trên xe hơi hoặc thiết bị ngôi nhà thông minh cho đến các thiết bị đeo thông minh như đồng hồ, kính thông minh, sợi thông minh và các cảm biến dữ liệu khác.
Vài ứng dụng của ARM :