Thuật toán huấn luyện liên kết

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Giải quyết vấn đề nhận dạng tiếng Việt bằng phân tích cú pháp (Trang 86 - 88)

Chương 5

TRIỂN KHAI HỆ THỐNG NHẬN DẠNG

Trong phần này, chúng tơi muốn trình bày chi tiết các kết quả mà chúng tôi triển khai dựa trên phần lý thuyết mà chúng tơi đã nghiên cứu. Phần triển khai có thể được coi như tài liệu hướng dẫn sử dụng ở mức chi tiết và cũng có thể được coi như tài liệu tham khảo để triển khai hệ thống nhận dạng tương tự.

5.1. Các tập tin trong hệ thống

Trong phần này chúng tơi trình bày các định dạng của các tập tin được dùng trong các hệ thống mà chúng tôi triển khai. Một số tập tin có cấu trúc được cơng bố và sử dụng rộng rãi, đa số được chúng tôi thiết kế cục bộ cho hệ thống.

5.1.1. Tập tin âm thanh

Có rất nhiều định dạng tập tin âm thanh khác nhau, nhưng chúng tôi sử dụng tập tin WAV với định dạng PCM để lưu thơng tin âm thanh. Khơng có nhiều thơng tin âm thanh được lưu trữ trong các chương trình giao diện đồ hoạ do việc huấn luyện và nhận dạng xảy ra trực tuyến. Tuy nhiên chúng tôi lưu trữ âm thanh theo định dạng tập tin như sau

Tên trường Kích thước (byte) Ý nghĩa

riff 4 Gồm bốn ký tự “RIFF” đánh dấu đây là tập tin đa phương tiện trong Windows

file_size 4 Độ dài của tập tin âm thanh. Thường là phần format cộng với data

wave 4 Gồm bốn ký tự “WAVE” xác định đây là tập tin âm thanh, không phải video

fmt 4 Gồm bốn ký tự “fmt ” xác định điểm bắt đầu của định dạng. Ta nên tìm đến (seek) khối này

fmt_size 4 Kích thước của fmt. Thơng thường là 16 hoặc 18 tuỳ vào chương trình ghi âm

fmt_tag 2 Định dạng của phần dữ liệu. Có giá trị là 1 tương ứng với định dạng PCM

CPS 2 Số kênh trên một mẫu. 1 ứng với mono, và 2 ứng với stereo.

SPS 4 Tần số lấy mẫu, hay là số mẫu trên một giây. Có giá trị 8000Hz, 16000Hz, 44100Hz ... BYTESEC

(avg_byte_sec)

4 Số ô nhớ trên một đơn vị thời gian, tính bằng cơng thức BPC*CPS*SPS/8

BYTESAM (block_align)

2 Số ơ nhớ dành cho một mẫu, dùng để tính số mẫu, cơng thức BPC*CPS/8

BPC 2 Số bít trên mỗi kênh, thường là 8 hoặc 16, có thể là 32

data 4 Gồm bốn ký tự “data” đánh dấu điểm bắt đầu của dữ liệu âm thanh. Nên tìm đến (seek) data_size 4 Kích thước của dữ liệu âm thanh tính ra byte.

Đổi ra số mẫu bằng cách chia cho BYTESAM data_samp data_size Các mẫu sẽ được lưu liền kề nhau. s1, s2, s3.

Nếu mẫu có hai kênh thì kênh trái lưu trước rồi phải lưu sau. Nếu mỗi kênh có 16 bít, thì 8 bít thấp lưu trước và 8 bít cao lưu sau.

Bảng 5-1. Định dạng tập tin âm thanh5.1.2. Tập tin nhãn (label file format)

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Giải quyết vấn đề nhận dạng tiếng Việt bằng phân tích cú pháp (Trang 86 - 88)

Tải bản đầy đủ (PDF)

(107 trang)