Tóm tắt quá trình thực hiện - Nhận dạng tiếng nói- 123docz.net

Hệ thống nhận dạng tiếng nói được thực hiện trải qua hai giai đoạn: Giai đoạn 1: Tạo cơ sở dữ liệu, gồm các bước:

Thu âm. Tiền xử lý. Trích đặc trưng. Lượng tử hóa vector. Lưu vào cơ sở dữ liệu.

Lặp lại cho tất cả tiếng nói cần nhận dạng. Giai đoạn 2: Nhận dạng, gồm các bước:

Thu âm. Tiền xử lý. Trích đặc trưng. Lượng tử hóa vector. Nhận dạng .

2. Các công việc đã thực hiện đƣợc

Thiết kế giao diện cho chương trình. Viết hàm tác động đến hệ thống. Viết hàm thu âm tín hiệu tiếng nói. Viết hàm tiền xử lý tín hiệu tiếng nói.

Thực hiện trích đặc trưng tín hiệu tiếng nói và lượng tử hóa vector. Tạo cơ sở dữ liệu mẫu.

Kết nối Matlab trong C#.

Viết chương trình phát âm thanh từ máy tính để trả lời với người điều khiển. Biễu diễn được tín hiệu tiếng nói trên máy tính.

Thực hiện sơ cấp chức năng nhận dạng số. Thực hiện tốt chức năng nhận dạng câu lệnh.

Thực hiện được các thao tác trên thư mục: tạo, xóa, di chuyển, vào thư mục, ra thư mục, lên, xuống thư mục, …theo tên các Giảng Viên, Sinh Viên, bằng cấp đã được định sẵn.

Đặc biệt có thể điều khiển đóng, mở CD ROM bằng tiếng nói một cách dễ dàng. Cơ sở dữ liệu mẫu dễ dàng mở rộng với số lượng lớn.

3. Các công việc chƣa thực hiện

Đang mở rộng thêm cơ sở dữ liệu mẫu và lấy mẫu từ nhiều người để kết quả nhận dạng cao.

Còn đang tìm hiểu việc kết hợp mô hình Markov ẩn với mạng Neural.

4. Hƣớng phát triển

TÀI LIỆU THAM KHẢO

Lawrence, Rabiner. 1989. “A tutorial on Hidden Markov Models and Selected Applications in

Speech Recognition”. IEEE, VOL.77, NO.2.

Lawrence, Rabiner, Biing-Hwuang Juang. 1993. “Fundamental of Speech Recognition”.

Prentice Hall.

Lê Tiến Thường. 2002. “Xử lý tín hiệu số và wavelets”. Nhà xuất bản Đại Học Quốc Gia

TPHCM.

Mark Gales, Steve Young.“The Application of Hidden Markov Model in Speech Recognition ”.

Nguyễn Hoàng Hải, Nguyễn Khắc Kiềm. 2003. “Lập trình Matlab”. Nhà xuất bản Khoa Học và Kỹ Thuật.

Nguyễn Quốc Đính, TS Huỳnh Thái Hoàng. “Thiết kế bộ nhận dạng tiếng nói dựa trên nền tảng DSP TMS320C2812”, Khoa Điện-Điện tử, Đại Học Bách khoa TPHCM.

Nguyễn Văn Giáp, KS Trần Việt Hồng. “Kĩ thuật nhận dạng tiếng nói và ứng dụng trong điều khiển”, Bộ môn Cơ Điện tử, khoa Cơ khí, Đại Học Bách khoa TPHCM.