5. Nhiệm vụ nghiên cứu
2.1. Sơ đồ tổng quan hệ thống nhận dạng tự động các phƣơng ngữ chính của tiếng
Chƣơng này sẽ trình bày chi tiết các bƣớc để xây dựng hệ thống nhận dạng tự động các phƣơng ngữ chính của tiếng Việt nói sử dụng bộ công cụ Alize.
2.1. Sơ đồ tổng quan hệ thống nhận dạng tự động các phƣơng ngữ chính của tiếng Việt nói. Việt nói.
Một hệ thống nhận dạng tự động các phƣơng ngữ chính của tiếng Việt nói đƣợc thực hiện qua các bƣớc sau:
Hình 2.1. Các bước thực hiện nhận dạng tự động các phương ngữ chính của tiếng Việt nói
Giải thích Hình 2.1:
Hình 2.1 là các bƣớc thực hiện nhận dạng tự động các phƣơng ngữ chính của tiếng Việt nói.
- Thu âm dữ liệu tiếng việt nói theo phƣơng ngữ: là thu tín hiệu âm thanh ngƣời nói dƣới dạng file *.wav. Mỗi ngƣời đƣợc huấn luyện với 100 file trở lên, và có đầy đủ giọng nam và giọng nữ. Cùng nói theo các nội dung thông tin giống nhau với 5 chủ đề đời sống, khoa học, kinh doanh, ô tô xe máy, pháp luật và ở 3 phƣơng ngữ chính của Việt Nam (Bắc Bộ, Trung Bộ, Nam Bộ) có chung tần số thu âm là 16000hz, 16bit, mono.
Kết quả
Thu âm dữ liệu tiếng việt nói theo phƣơng ngữ
Huấn luyện (training)
26
- Huấn luyện: Giai đoạn này mục đích là để tạo cho mỗi ngƣời nói có một mô hình đặc trƣng riêng theo phƣơng pháp nhất định. Luận văn này chọn mô hình hỗn hợp Gaussion (GMM) để huấn luyện.
- Thử nghiệm: Giai đoạn này là gói dữ liệu đã trích chọn đặc trƣng hệ thống sẽ tính toán ứng với mỗi phƣơng ngữ có độ tƣơng đồng cao nhất hay điểm số lớn nhất sẽ là kết quả nhận dạng phƣơng ngữ.
2.1.1. Sơ đồ huấn luyện (trainning) nhận dạng tự động phƣơng ngữ của tiếng Việt nói.
Hình 2.2. Sơ đồ huấn luyện nhận dạng tự động phương ngữ tiếng Việt nói:
Nhìn vào sơ đồ huấn luyện ta có thể thấy chỉ cần tạo MFCC file một lần cho các file âm thanh để dùng cho cả huấn luyện và nhận dạng, loại bỏ khoảng lặng và và chuẩn hóa đặc trƣng cũng vậy ta chỉ cần chạy 1 lần cho cả cơ sở dữ liệu dùng để huấn luyện và nhận dạng. Dữ liệu chứa mô hình phƣơng ngữ Huấn luyện mô hình nền Huấn luyện mô hình đích (GMM) Trích chọn đặc trƣng Chuẩn hóa đặc trƣng Loại bỏ khoảng lặng
27
Các mô hình nền, mô hình đích đƣợc tạo ra và lƣu dƣới dạng file nhị phân
world_init.gmm, world.gmm, world_initinit.gmm, CSDLNam_BacA_gmm.gmm, CSDLNam_NamA_gmm.gmm, CSDLNam_NamB_gmm.gmm.