Tỷ lệ nhận dạng trung bình với số lượng thành phần Gauss khác nhau

Một phần của tài liệu Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng việt theo phương thức phát âm (Trang 87 - 89)

Số lượng thành phần Gauss Tỷ lệ nhận dạng 20 70,8% 32 72,1% 64 71,5% 128 74,0% 256 73,2% 512 73,9% 1024 74,9% 2048 75,1% 4096 74,6%

Trên đây đã trình bày việc tiếp cận nhận dạng phương ngữ tiếng Việt thơng qua mơ hình GMM. Bên cạnh GMM, cịn có một số tiếp cận khác để nhận dạng phương ngữ bằng cách sử dụng một số bộ phân lớp như SVM (SMO), IBk, JRip, PART, Multilayer Perceptrol. Phần sau đây của luận án sẽ trình bày kết quả nhận dạng phương ngữ tiếng Việt theo các cách tiếp cận này.

3.2. SVM nhận dạng phương ngữ tiếng Việt

3.2.1. Bộ phân lớp SMO

SMO (Sequential Minimal Optimization Algorithm) là thuật giải tối ưu hóa cực tiểu lần lượt được dùng để giải bài tốn quy hoạch tồn phương (Quadratic Programming - QP) phát sinh trong huấn luyện máy véc tơ hỗ trợ [85].

SMO là một thuật giải đơn giản giải nhanh bài tốn QP SVM mà khơng cần lưu trữ ma trận quá lớn và cũng không cần phải gọi các chương trình con lặp lại cho mỗi bài tốn con. SMO phân giải bài toán QP tổng thể thành bài các bài toán con tương tự phương pháp của Osuna [131].

Không giống như các phương pháp trước đó, SMO lựa chọn để giải quyết bài tốn tối ưu hóa nhỏ nhất có thể cho mỗi bước. Đối với bài toán QP SVM chuẩn, bài toán tối ưu hóa nhỏ nhất có thể kéo theo hai nhân tử Lagrange vì các nhân Lagrange phải tuân theo ràng buộc cân bằng tuyến tính. Tại mỗi bước, SMO chọn hai nhân tử Lagrange để tối ưu hóa đồng thời, tìm các giá trị tối ưu cho các nhân tử và cập nhật các SVM để phản ánh các giá trị tối ưu mới (Hình 1.2).

88

Ưu thế của SMO là việc giải hai nhân tử Lagrange có thể được thực hiện một cách giải tích. Do vậy, tồn bộ các bước lặp nội tại do việc tối ưu hóa QP sẽ tránh được. Vịng lặp nội tại của thuật giải có thể được biểu diễn theo số lượng nhỏ của mã C hơn là kéo theo tồn bộ chương trình con của thư viện lặp QP. Dù có nhiều bài tốn con tối ưu hóa hơn phải giải, mỗi bài toán con được giải nhanh nên bài tốn QP tổng thể có thể được giải nhanh.

Thêm vào đó, SMO khơng u cầu lưu trữ ma trận quá lớn (khơng tính đến một lượng nhỏ bộ nhớ cần thiết để lưu trữ các ma trận 2 x 2 mà SMO yêu cầu). Như vậy, bài toán huấn luyện SVM rất lớn có thể chứa gọn vào trong bộ nhớ của máy tính cá nhân thơng thường. Bởi vì tránh được các thao tác trên các ma trận lớn, SMO có thể ít chịu ảnh hưởng do độ chính xác gây ra.

SMO có ba thành phần: một là phương pháp giải tích để giải hai nhân tử Lagrange, hai là mẹo mực để chọn các nhân tử dùng cho tối ưu hóa và cuối cùng là phương pháp để tính b. Ngồi ra, SMO có thể được tăng tốc bằng cách dùng kỹ thuật tăng tốc.

Hình 3.4: Hai nhân tử Lagrange phải đáp ứng tất cả các ràng buộc

của bài toán đầy đủ.

Trên Hình 3.4 [131], các ràng buộc khơng cân bằng làm cho các nhân tử Lagrange nằm trong hộp. Các ràng buộc đẳng thức tuyến tính khiến chúng nằm trên một đường chéo. Do vậy, mỗi bước của SMO phải tìm ra tối ưu của hàm mục tiêu trên một đoạn đường chéo. Trong hình này, 𝛾 = 𝛼1𝑜𝑙𝑑+ 𝑠𝛼2𝑜𝑙𝑑, là một hằng số phụ thuộc vào các giá trị trước của 𝛼1 và 𝛼2 và 𝑠 = 𝑦1𝑦2.

3.2.2. Thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng SMO

3.2.2.1. Bộ phân lớp SMO trong Weka

Bộ phân lớp SMO là một trong những bộ phân lớp thuộc bộ công cụ Weka. Weka gồm tập hợp các thuật giải học máy dùng cho khai phá dữ liệu do Đại học Waikato, New Zealand phát triển [177]. Dữ liê ̣u đầu vào cho huấn luyê ̣n và thử nghiê ̣m là file các tham số đă ̣c trưng theo đi ̣nh da ̣ng ARFF (Attribute-Relation File Format) [177].

89

Sau đây là phương pháp trích chọn đặc trưng và các thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng SMO.

3.2.2.2. Trích chọn đặc trưng

Dữ liê ̣u dùng cho huấn luyện và nhận dạng được trích cho ̣n đă ̣c trưng bao gồm 384 hệ số do bộ công cu ̣ OpenSMILE [46] thực hiện. Đây là dữ liê ̣u thớng kê của mỡi file tiếng nói. Với mỡi file tiếng nói đươ ̣c trích cho ̣n đặc trưng, OpenSMILE sẽ cho ra 384 tham sớ. Q trình tính tốn các tham số này được thực hiện như sau:

Đầu tiên file tiếng nói được phân tách thành một tập các khung với độ dài khung là 25 ms và độ dịch khung 10 ms. Với mỗi khung tiếng nói, tính 16 giá trị đặc trưng:

- Năng lượng khung

- 12 hệ số MFCC (Mel Frequency Cepstral Coefficients) - Tỷ lệ biến thiên qua trục không (Zero-Crossing Rate) - Xác suất âm hữu thanh

- Tần số cơ bản

Sau đó, tính đạo hàm bậc nhất theo thời gian của 16 giá trị này và thu được 32 tham số. Vì các tham số được tính trên từng khung tiếng nói nên số giá trị cho mỗi tham số chính bằng số khung phân tách được từ file tiếng nói ban đầu. Dựa trên từng tập giá trị của mỗi tham số, tính 12 giá trị thống kê như sau:

- Giá trị nhỏ nhất, giá trị lớn nhất, độ chênh lệch giữa giá trị lớn nhất và giá trị nhỏ nhất, thời điểm đạt giá trị lớn nhất, thời điểm đạt giá trị nhỏ nhất, trung bình số học trên tập giá trị.

- Độ dốc, độ lệnh và lỗi trung bình bình phương của xấp xỉ tuyến tính. - Độ lệch chuẩn, skewness (mô men bậc 3), kurtosis (mô men bậc 4).

Như vậy, với mỗi file tiếng nói, số đặc trưng tính được sẽ bằng 32 x 12 = 384 đặc trưng.

Việc thử nghiệm sử dụng SMO để nhận dạng phương ngữ được thực hiện theo các trường hợp như sau.

3.2.2.3. Dùng đầy đủ 384 tham số đặc trưng

Ngữ liệu phương ngữ dùng cho nhận dạng được chia theo phương pháp đánh giá chéo theo tỷ lệ 1:10. Thời gian huấn luyện mơ hình hết 148,13 giây. Bảng 3.5 là kết quả nhận dạng trên tổng số 18686 file thử nghiệm. Ma trận sai nhầm được cho trên Bảng 3.6.

Một phần của tài liệu Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng việt theo phương thức phát âm (Trang 87 - 89)

Tải bản đầy đủ (PDF)

(141 trang)