Thanh điệu và đặc trưng thanh điệu

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu áp dụng mô hình mạng nơ ron end to end cho nhận dạng tiếng nói tiếng việt (Trang 57 - 59)

Về mặt hình thức nếu không xét đến sự biến đổi thanh điệu trên các phụ âm dừng ở cuối âm tiết thì tiếng Việt có 6 thanh điệu [58]. Bao gồm thanh huyền, ngã, hỏi, sắc, nặng và thanh bằng (không có thanh điệu, thể hiện trong chữ viết là không dấu).

Hình 3-1: Các đường đặc tính của 6 thanh điệu tiếng Việt (nguồn [35])

a) Thanh bằng: (T1) là thanh điệu cao, có đường đặc tính bằng phẳng như đường số 1trong Hình 3-1;

b) Thanh huyền: (T2) Là thanh điệu thấp, đường đặc tính có dạng bằng phẳng tương tự thanh bằng nhưng phần cuối có phần đi xuống thấp hơn như thể hiện ở đường số 2 trong Hình 3-1;

c) Thanh ngã: (T3) Đường số 3 Hình 3-1, đường đặc tính của thanh ngã biến đổi từ ngang, thấp rồi cao.

d) Thanh hỏi: (T4) Đường số 4 Hình 3-1, là thanh thấp và có đường đặc tính gãy ở giữa;

c) Thanh sắc: (T5) Đường số 5 Hình 3-1, đường đặc tính của thanh sắc có hướng đi lên;

d) Thanh nặng: (T6) Đường số 6 Hình 3-1, là thanh thấp và có đường đặc tính đi xuống;

Các từ kết hợp với các thanh điệu khác nhau sẽ được phát âm với các âm tiết khác nhau, và một âm tiết được phân biệt với các âm tiết khác bởi ký tự thanh điệu của nó. Do đó, một đặc tính tiếng nói bao gồm thông tin thanh điệu sẽ giúp cải thiện hiệu suất. Trong các nghiên cứu trước đây [13] [37] [38] đã được chứng minh trên tiếng Việt.

3.2. Mô hình End-to-End đề xuất cho nhận dạng tiếng Việt

Kiến trúc E2E được đề xuất cho nhận dạng tiếng Việt được mô tả trong Hình 3.2. Có ba phần chính trong kiến trúc này.

Phần thứ nhất là lớp đầu vào, gồm một biến đổi LDA (Linear Discriminant Analysis) đóng vai trò biến đổi tạo ra vector đặc trưng.

Phần thứ hai là các lớp ẩn, chính là các lớp TDNN (Time Delay Deep Neural Network) như đã được trình bày. Mỗi lớp gồm có 1024 đơn vị. Bối cảnh trễ của hai lớp đầu tiên và lớp thứ tư là (-1, 0, 1), ba lớp cuối cùng là (-3, 0, 3) và các lớp còn lại là 0. Cấu hình này được khuyến nghị trong [59]. Lớp ẩn trên cùng là lớp LSTM tùy biến, tiếp nhận kích hoạt ht từ lớp TDNN thứ tám làm đầu vào. Để phục vụ việc so sánh, hai loại kiến trúc đã được xây dựng. Loại thứ nhất, bao gồm một lớp LSTM như lớp ẩn thứ chín, mô hình này được ký hiệu là TDNN + LSTM. Loại thứ hai, ký hiệu là TDNN, chỉ bao gồm các lớp TDNN sử dụng như các lớp ẩn.

Phần thứ ba là lớp đầu ra, là một mạng CTC. Kích thước của lớp này chính là kích thước bộ âm vị cần đáp ứng.

Hình 3-2: Kiến trúc E2E cho nhận dạng tiếng Việt

Nói chung, về kiến trúc có thể được coi gồm hai thành phần. Ý tưởng cho thành phần đầu tiên, các lớp TDNN mà tại đó mỗi lớp có thể được cấu hình linh hoạt với bối cảnh trễ cụ thể, thực thi như một mô hình biến đổi đặc trưng để nén các đặc trưng ngữ âm và các thông tin phụ thuộc ngữ cảnh thành đặc trưng bậc cao hơn với kích thước nhỏ hơn. Thành phần thứ hai là một bộ mã hóa-giải mã, gồm các lớp LSTM + CTC. Nhờ có khả năng ghi nhớ các phụ thuộc dài kỳ, lớp LSTM có thể mã hóa và mô hình hóa đặc trưng cấp cao thu được từ thành phần thứ nhất và các tầng trước đó. Cuối cùng, lớp CTC sẽ giải mã và dự đoán đầu ra. Vì thế với kiến trúc này, ba lợi thế của các mô hình TDNN, LSTM và CTC có thể được tích hợp vào một mô hình đơn nhất. Chúng có khả năng mô hình hóa các đặc trưng với độ trễ tùy biến (TDNN), có khả năng ghi nhớ các quyết định dài kỳ trước đó như thông tin theo ngữ cảnh cho quyết định ở hiện tại (LSTM), và cuối cùng là khả năng được đào tạo không yêu cầu về nhãn (CTC).

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu áp dụng mô hình mạng nơ ron end to end cho nhận dạng tiếng nói tiếng việt (Trang 57 - 59)