Thiết kế các bảng CSDL có quan hệ như sau

Một phần của tài liệu Đồ án tốt nghiệp nghiên cứu tìm hiểu lý thuyết về tiếng nói và mô hình mạng neuron (Trang 73 - 81)

- δk là sai số mà Neuron thứ k phải chịu trách nhiệm, được xác định theo công thức:

Thiết kế các bảng CSDL có quan hệ như sau

Trong đó:

+ Bảng “DMphuam”: danh mục của 8 phụ âm là: kh(không), m(một, mười), h(hai), b(ba, bốn bảy), n(năm), s(sáu), t(tám), ch(chín) , gồm 2 trường ‘idphuam’ (khoá chính) và trường ‘phuam’ (tên phụ âm).

+ Bảng “DMvan”: dạnh mục của 11 vần là:ông, ột, ai, a, ốn, ăm, áu, ảy, ám, ín, ười. Bảng gồm 2 trường: ‘idvan’ (khoá chính) và ‘van’ (tên vần).

+ Bảng “DMamtiet” : danh mục của 11 âm tiết là: không, một, hai, ba, bốn, năm, sáu, bảy, tám, chín, mười. Bảng gồm 2 trường: ‘idamtiet’ (khoá chính) và ‘amtiet’ (tên 11 chữ số).

+ Bảng “tbldtrungphuam”: có tất cả 89 trường, 1 trường idphuam là khoá chính, và 88 đặc trưng của phụ âm; trong đó gồm 32 đặc trưng LPC, 48 đặc trưng Ceptral-LPC, 4 đặc trưng COSIN và 4 đặc trưng Haar.

+ Bảng “tbldtrungvan”: có tất cả 265 trường, 1 trường idvan là khoá chính, và

264 đặc trưng của phụ âm; trong đó gồm 96 đặc trưng LPC, 144 đặc trưng Ceptral-LPC, 12 đặc trưng COSIN và 12 đặc trưng Haar.

+ Bảng “tbldtrungamtiet”: có tất cả 485 trường, 1 trường idamtiet là khoá

chính, và 484 đặc trưng của phụ âm; trong đó gồm 176 đặc trưng LPC, 264 đặc trưng Ceptral-LPC, 22 đặc trưng COSIN và 22 đặc trưng Haar.

Thực chất xây dựng CSDL với nhiều đặc trưng như vậy nhằm cho việc nhận dạng sát hơn, có nghĩa là cố gắng tìm những đặc trưng đại diện nhất cho một kiểu biến đổi toán học áp dụng trên tập dữ liệu âm thanh.

2. Xây dựng chương trình 2.1 Chức năng Hệ Thống

Thực hiện mở File âm thanh lưu trữ trong ổ cứng, và chức năng thu tiếng nói.

Thực hiện các phép tiền xử lý trước khi đi vào trích rút đặc trưng. Đó là phép xác định đoạn có tiếng nói, chuẩn hoá biên độ, lọc nhiễu, xác định ranh giới phụ âm và nguyên âm. Trong đó đáng quan tâm nhất tới Module xác định ranh giới cắt phụ âm và nguyên âm. Về thuật toán cắt như đã chỉ rõ ở phần lý thuyết chương II. Tuy nhiên do dữ liệu âm thanh là rất động do ảnh hưởng rất lớn bởi nhiễu môi trường, do vậy nếu áp dụng y nguyên thuật toán cắt thì nhiều trường hợp đoạn phụ âm cắt được là quá ít thông tin, không đảm bảo cho nhận dạng, do vậy cần thêm điều kiện xiết chặt hơn nữa là so sánh vị trí cắt bởi thuật toán với vị trí cắt đầu tiên xác định là bắt đầu đoạn có tiếng nói. Thực nghiệm cho thấy đoạn phụ âm chỉ rộng khoảng 4-6 Frame(110 mẫu) là đảm bảo cho nhận dạng. Vì vậy, nếu đường cắt phụ âm-nguyên âm mà nhỏ hơn 4 Frame tính đến đường cắt đầu đoạn có tiếng nói thì lấy đường cắt tại vị trí cách giới hạn đầu đọan có

tiếng nói là 4 Frame, nếu đường cắt nằm xa cách đường cắt đầu đoạn có tiếng nói lớn hơn 4Frame thì giữ nguyên.

Bằng cách kết hợp với điều kiện trên thì việc xác đinh rang giới cắt phụ âm- nguyên âm là bảo đảm.

2.2 Chức năng trích rút đặc trưng

+ Đặc trưng phụ âm: Khi đã xác định được ranh giới cắt phụ âm-nguyên âm. Ta chia đều đoạn phụ âm tính từ giới hạn đầu đoạn có tiếng nói đến vị trí ranh giới cắt thành 4 Frame và tính 40 hệ số LPC cho 4 Frame này, sau đó tiếp tục sử dụng các phép biến đổi toán học đã nêu nhằm biến đổi 1 lần nữa các hệ số LPC này thành các hệ số đặc trưng tương ứng rồi lưu vào cơ sở dữ liệu.

+ Đặc trưng vần: Vần được xác định là 12 Frame(110 mẫu) tính từ ranh giới cắt kéo về sau. Tính các hệ số đặc trưng tương ứng cho 12 Frame này và lưu vào cơ sở dữ liệu.

+ Đặc trưng âm tiết: Từ đoạn có tiếng nói đã xác định, chia đều là 22 Frame. Tính các hệ số đặc trưng tương ứng cho 22 Frame này và lưu vào cơ sở dữ liệu.

2.3 Chức năng khởi tạo và huấn luyện mạng Noron

Cho phép người dùng xây dựng 1 cấu trúc mạng thử nghiệm để học các đặc trưng của 3 thành phần: phụ âm, vần, âm tiết.

Về kiểu học, có thể chọn 1 trong 3 kiểu học đã nêu rõ chương III, trong đó kiểu học thích nghi thường luôn cho kết quả hội tụ nhanh.

Về tập dữ liệu học: có thể học từ các File âm thanh hiện có (đặc trưng chưa lưu vào cơ sở dữ liệu ) hoặc học từ các bảng CSDL đã được lưu.

Một điều chú ý là: Quá trình học thường rất lâu, do vậy cần thông minh tránh những trường hợp đáng tiếc ảnh hưởng đến quá trình mạng đang học, như mất điện là mất hết, không lưu được kết cấu mạng lại và quá trình lại phải khởi tạo mạng và huấn luyện lại. Giải pháp là cứ khoảng ¼ thời gian mạng học thì tự động lưu mạng vào File trên đĩa cứng.

Sau khi mạng học xong, nhớ lưu laị cấu hình mạng noron để làm công cụ cho nhận dạng.

Thực chất xây dựng chương trình này là để Test các cấu hình mạng khác nhau, để chọn ra mạng hợp lý nhất đưa vào nhận dạng.

2.4 Chức năng nhận dạng Theo 2 hướng nhận dạng

+ Nhận dạng bằng Mạng Nơron: Cấu hình mạng Nơron đã được lựa chọn và học mẫu, được load để nhận dạng các thành phần.

+ Nhận dạng bằng hàm khoảng cách Oclit: So sánh đối chiếu với các mẫu dữ liệu trong CSDL, các mẫu của cùng 1 thành phần trong các bảng CSDL được tính lấy giá trị trung bình, rồi tính khoảng cách so với thành phần cần nhận dạng. Tính giá trị hàm khoảng cách nhỏ nhất rồi xác định tương ứng mẫu cần nhận dạng là thành phần nào.

* Nhận xét: Nhận dạng bằng mạng Nơron nhanh hơn nhiều bằng hàm khoảng cách, nhưng cấu hình lựa chọn mạng thực sự là vấn đề quan tâm vì chưa có 1 lý thuyết nào nói về phương pháp chọn chính xác mà thường thông qua thực nghiệm. Còn nhận dạng bằng hàm khoảng cách thì không phải qua bước trung gian là huấn luyện học tập mẫu, tuy nhiên việc tính trung bình các mẫu của cùng một thành phần mà tập dữ liệu lớn thì lại lâu hơn. Về nguyên tắc mạng Nơron là tổng quát và tốt nhất.

(adsbygoogle = window.adsbygoogle || []).push({});

Một phần của tài liệu Đồ án tốt nghiệp nghiên cứu tìm hiểu lý thuyết về tiếng nói và mô hình mạng neuron (Trang 73 - 81)