Nghiên cứu các phương pháp nhận dạng khác

Một phần của tài liệu Nghiên cứu kỹ thuật nhận dạng tiếng nói tiếng việt và ứng dụng (Trang 76 - 81)

Chương 4 ỨNG DỤNG XÂY DỰNG HỆ THỐNG MÔ PHỎNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT BẰNG MẠNG NƠRON

4.4. Hướng mở rộng của đề tài

4.4.4. Nghiên cứu các phương pháp nhận dạng khác

Các nghiên cứu khác cho thấy hiện tại mô hình Markov ẩn (HMM) đang cho kết quả nhận dạng cao nhất. Hướng nghiên cứu mới của đề tài là tìm cách kết hợp mạng nơron và mô hình Markov ẩn nhằm kết hợp ưu điểm của hai mô hình.

Mặt khác, đối với bộ từ vựng nhỏ thì nhận dạng từ đơn (âm tiết) là thích hợp. Tuy nhiên với hệ nhận dạng cỡ lớn, nhất là hệ nhận dạng tiếng Việt hoàn chỉnh (6000 âm tiết) thì chọn đơn vị nhận dạng là âm tiết không hợp lí lắm. Một hướng nghiên cứu khác của đề tài là nhận dạng đối với đơn vị nhỏ hơn âm tiết là âm vị. Tức là xây dựng các hệ nhận dạng có chức năng:

• Phân biệt được nhiễu nền (khoảng lặng), phụ âm, nguyên âm.

• Nhận dạng phụ âm (phân biệt được các phụ âm khác nhau).

• Nhận dạng nguyên âm (phân biệt được các nguyên âm khác nhau).

• Nhận dạng thanh điệu của âm tiết.

67

KẾT LUẬN

Với kết quả kiểm tra độ chính xác nhận dạng như trên thì có thể thấy rằng việc áp dụng mô hình Markov ẩn trong nhận dạng tiếng Việt đã cho kết quả khá tốt. Tuy chưa thật sự hoàn hảo nhưng những kết quả thu được tương đối khả quan, từ đó có thể thấy rằng việc áp dụng mô hình mạng nơron MLP trong nhận dạng tiếng Việt là khá phù hợp, nếu đầu tư nghiên cứu nhiều hơn nữa phương pháp này sẽ còn đem lại hiệu quả cao hơn.

Trong chương trình khi chạy vẫn bị nhận dạng nhầm, nguyên nhân dẫn đến nhận dạng nhầm có thể là:

 Dữ liệu huấn luyện chưa đầy đủ, số từ đem huấn luyện chưa nhiều, chưa thu được từ nhiều người, nhiều nơi; môi trường thu âm còn nhiều nền nhiễu (tiếng ồn),…

 Một số thông số có ảnh hưởng đến độ chính xác nhận dạng như: hàm khởi tạo, số nút ẩn, giá trị kích hoạt trọng số,… có thể được lựa chọn chưa tối ưu.

Các nguyên nhân trên muốn khắc phục được đều cần phải có thời gian, và cần phải bỏ công sức nghiên cứu nhiều hơn nữa. Để hệ thống có thể được ứng dụng rộng rãi hơn cần phải cải tiến và mở rộng thêm. Với thiết kế đã được đưa ra thì hướng phát triển tiếp của tác giả có thể là:

 Tăng số lượng từ trong từ điển nhận dạng

 Có thể vừa thu âm, vừa nhận dạng (không phải chờ đến khi thu âm xong mới nhận dạng)

 Nhận dạng câu (có khả năng phán đoán được từ gần đúng)

 Mở rộng ứng dụng của chương trình, không chỉ tích hợp với bộ Microsoft Office Excel mà có thể nhập dữ liệu vào bất cứ chương trình nào.

Do thời gian làm Luận văn không có nhiều nên tác giả chưa có điều kiện để tìm hiểu hết những hướng tiếp cận mới trong nhận dạng tiếng nói. Hi vọng rằng trong thời gian tới tác giả Luận văn có thể hoàn thiện hơn nữa các nội dung đã đề ra.

TÀI LIỆU THAM KHẢO

Tiếng Việt:

[1] Võ Xuân Hào, ĐH Quy Nhơn - 2009: “Giáo trình ngữ âm tiếng Việt hiện đại”

[2] TS. Nguyễn Văn Giáp, KS. Trần Việt Hồng - Bộ môn Cơ điện tử - Khoa Cơ khí - Đại học Bách Khoa TPHCM: Kỹ thuật nhận dạng tiếng nói và ứng dụng trong điều khiển

[3] Nguyễn Thị Thanh Nga – Đại học Công nghiệp Thái Nguyên:

Nghiên cứu ứng dụng giải thuật di truyền kết hợp với thuật toán

‘vượt khe’ để cải tiến quá trình học của mạng neural MLP có mặt lỗi đặc biệt

[4] Đặng Ngọc Đức: “Mạng nơron và mô hình Markov ẩn trong nhận dạng tiếng Việt” – Luận án Tiến sỹ

[5] Nguyễn Hữu Tình, Lê Tấn Hùng, Phạm Ngọc Yến, Nguyễn Thị Lan:

Cơ sở Matlab và ứng dụng” - Sách NXB KHKT – 2009.

[6] Nguyễn Thành Phúc: “Một phương pháp nhận dạng lời Việt: Áp dụng phương pháp kết hợp mạng Nơron với mô hình Markov ẩn cho các hệ thống nhận dạng lời Việt” - Luận án Tiến sĩ Kỹ thuật, Thư viện trường ĐHBK Hà Nội.

[7] Đặng Ngọc Đức, Lương Chi Mai: “Tăng cường độ chính xác của hệ thống mạng nơron nhận dạng tiếng Việt” - Tạp chí Bưu chính Viễn thông, số 11 (3/2004).

[8] Phạm Văn Sự, Lê Xuân Thành – Học viện Công nghệ bưu chính viễn thông: “Bài giảng xử lý tiếng nói” – 2010.

Tiếng Anh:

[9] NEURAL NETWORKS: Basics using MATLAB Neural Network

[10] Theodoros Giannakopoulos, Department of Informatics and Telecommunications University of Athens, Greece: “A method for silence removal and segmentation of speech signals, implemented in Matlab

[11] G. Saha1, Sandipan Chakroborty2, Suman Senapati3 - Department of Electronics and Electrical Communication Engineering: “A New Silence Removal and Endpoint Detection Algorithm for Speech and Speaker Recognition Applications

LÝ LỊCH TRÍCH NGANG Họ và tên: Ngô Văn Cương

Ngày tháng năm sinh: 01/10/1974 Nơi sinh: Bắc Ninh

Địa chỉ liên lạc: Khoa CNTT-Trường CĐ Thủy Sản - Từ Sơn - Bắc Ninh.

Quá trình đào tạo:

1993-1997: Học đại học - Trường ĐH Kinh tế Quốc dân. Chuyên ngành Tin học kinh tế.

Quá trình công tác:

1997-2000: Giáo viên trường THPT Lý Thái Tổ - Từ Sơn - Bắc Ninh.

2000-nay: Giáo viên trường CĐ Thủy Sản - Từ Sơn - Bắc Ninh.

Một phần của tài liệu Nghiên cứu kỹ thuật nhận dạng tiếng nói tiếng việt và ứng dụng (Trang 76 - 81)

Tải bản đầy đủ (PDF)

(81 trang)