Xác định các thơng sốn gữ điệu cho bộ phát âm tiếng việt bằng mạng

Một phần của tài liệu phần mềm hỗ trợ người khiếm thị học tiếng anh (Trang 35)

3 MƠ HÌNH MẠNG NƠ-RON XÁC ĐNNH CÁC THƠNG SỐN GỮ ĐIỆU

3.2 Xác định các thơng sốn gữ điệu cho bộ phát âm tiếng việt bằng mạng

Việc xác định các thơng số ngữđiệu sẽđược tiếp cận theo hướng “học” từ ngữ liệu tiếng nĩi tự nhiên với cơng cụ mạng nơ-ron. Các thơng số ngữđiệu của từng âm tiết trong câu sẽđược các mạng nơ-ron xác định dựa vào vector mơ tảđặc trưng cho âm tiết đĩ trong ngữ cảnh câu, giá trị của vector đặc trưng này cần phải xác định được một cách tựđộng trong quá trình xử lý văn bản.

Như vậy để xây dựng hệ thống ta cần phải thực hiện những việc sau:

• Xây dựng vector đặc trưng phù hợp cho các âm tiết tiếng Việt trong ngữ cảnh câu.

Trang 36

• Thiết lập và huấn luyện các mạng nơ-ron.

3.2.1 Vector mơ tảđặc trưng âm tiết trong ng cnh câu

Với đầu vào của hệ thống là một câu văn bản, thành phần xử lý ngơn ngữ tự nhiên sẽ chuyển đổi câu thành một dãy các âm tiết được phát âm. Các thuộc tính đặc trưng cho âm tiết trong ngữ cảnh câu được chọn bao gồm các thuộc tính cĩ khả năng liên hệảnh hưởng đến các thơng số ngữđiệu của âm tiết trong câu và giá trị các thuộc tính này phải xác định được một cách tựđộng.

Đối với một âm tiết riêng biệt ta cĩ các yếu tốđặc trưng cấu tạo hình vị gồm: phụ âm đầu, âm đệm (bán nguyên âm đầu), âm chính (nguyên âm), âm cuối (phụ âm hoặc bán nguyên âm cuối) và dấu thanh (Hình 2). Các yếu tố này tác động trực tiếp đến các tính chất âm học của âm tiết trong đĩ cĩ các tính chất về cường độ và trường độ. Biểu diễn hình vị (con chữ) khơng hồn tồn tương ứng 1-1 với âm vị, một âm vị cĩ khi được ghi lại bằng nhiều cách khác nhau, các vùng miền khác nhau cĩ thể cĩ cách phát âm khác nhau cho cùng một con chữ [3]. Do đĩ để hệ thống được linh hoạt, chúng tơi sử dụng biểu diễn hình vị thay vì âm vị cho các yếu tố trên, các mạng nơ-ron sẽ tự khám phá mối liên hệ giữa các yếu tố hình vị và thơng số ngữđiệu tương ứng.

Trong ngữ cảnh câu nĩi, bằng thực nghiệm ta thấy ngữđiệu của âm tiết cịn phụ thuộc vào mối liên hệ giữa nĩ với các âm tiết xung quanh, tính chất của ngữđoạn chứa âm tiết, vị trí âm tiết trong ngữđoạn tương ứng [6]. Ngồi ra ngữđiệu âm tiết cịn phụ thuộc vào các loại câu khác nhau.

Thừa hưởng thành quả từ các nghiên cứu xử lý ngơn ngữ tự nhiên cho phép xác định tựđộng ranh giới từ và từ loại tiếng Việt, chúng tơi xây dựng vector đặc trưng mơ tả âm tiết trong ngữ cảnh câu bao gồm:

• Các thuộc tính đặc trưng hình vị của: âm tiết hiện tại, âm tiết liền trước và sau.

• Số âm tiết của từ chứa: âm tiết hiện tại, âm tiết liền trước và sau.

• Vị trí của âm tiết trong từ chứa nĩ.

Trang 37

• Loại câu.

Như vậy, vector mơ tảđặc trưng âm tiết trong câu được chọn bao gồm 21 thuộc tính như trong Bng 1 Các đặc trưng ngơn ngữ của âm tiết trong câu và nội dung tương ứng (Giá trị Ø dùng cho các trường hợp hình vị âm tiết khơng cĩ thành phần tương ứng và từ loại khơng xác định):

Bng 1 Các đặc trưng ngơn ng ca âm tiết trong câu và ni dung tương ng

STT Đặc trưng Ni dung

01 Phụ âm đầu b, ch, c, d, đ, gh, gi, g, h, kh, k, l, m, ngh, ng, nh, n, ph, p, q, r, s, th, tr, t, v, x, Ø

02 Âm đệm o, u, Ø

03 Âm chính a, ă, â, e, ê, ia, iê, i, o, ơ, ơ, ua, uơ, u, ưa, ươ, ư, ya, yê, y, Ø

04 Âm cuối ch, c, m, ng, nh, n, p, t, i, y, o, u, Ø

05 Dấu thanh 0, 1, 2, 3, 4, 5 (tương ứng: ngang, sắc, huyền, hỏi, ngã, nặng)

06 Phụ âm đầu của âm tiết trước b, ch, c, d, đ, gh, gi, g, h, kh, k, l, m, ngh, ng, nh, n, ph, p, q, r, s, th, tr, t, v, x, Ø

07 Âm đệm của âm tiết trước o, u, Ø

08 Âm chính của âm tiết trước a, ă, â, e, ê, ia, iê, i, o, ơ, ơ, ua, uơ, u, ưa, ươ, ư, ya, yê, y, Ø

09 Âm cuối của âm tiết trước ch, c, m, ng, nh, n, p, t, i, y, o, u, Ø

10 Dấu thanh của âm tiết trước 0, 1, 2, 3, 4, 5 (tương ứng: ngang, sắc, huyền, hỏi, ngã, nặng)

11 Phụ âm đầu của âm tiết sau b, ch, c, d, đ, gh, gi, g, h, kh, k, l, m, ngh, ng, nh, n, ph, p, q, r, s, th, tr, t, v, x, Ø

12 Âm đệm của âm tiết sau o, u, Ø

13 Âm chính của âm tiết sau a, ă, â, e, ê, ia, iê, i, o, ơ, ơ, ua, uơ, u, ưa, ươ, ư, ya, yê, y, Ø

14 Âm cuối của âm tiết sau ch, c, m, ng, nh, n, p, t, i, y, o, u, Ø

15 Dấu thanh của âm tiết sau 0, 1, 2, 3, 4, 5 (tương ứng: ngang, sắc, huyền, hỏi, ngã, nặng)

Trang 38 16 Số âm tiết của từ chứa nĩ 1..4 17 Số âm tiết của từ chứa âm tiết trước 1..4 18 Số âm tiết của từ chứa âm tiết sau 1..4 19 Vị trí âm tiết trong từ chứa nĩ 0..3

20 Từ loại của từ chứa âm tiết N, V, I, E, J, X, A, C, P, Ø 21 Loại câu (.), (!), (?), (…)

Giá trị các thuộc tính đặc trưng này cĩ thể xác định được một cách hồn tồn tự động. Đối với các thuộc tính liên quan đến đặc trưng hình vị của âm tiết và thuộc tính “Loại câu” (các thuộc tính từ 1 đến 15 và 21 trong Bng 1), giá trị của chúng cĩ thểđược xác định dễ dàng bằng các xử lý đơn giản. Đối với các thuộc tính cịn lại (từ 16 đến 20), để xác định giá trị thì cần phải cĩ thơng tin về ranh giới từ và từ loại. Chúng tơi đã sử dụng thư viện phần mềm tách từ và gán nhãn từ loại do nhĩm VCL cung cấp [16][17]. Đầu vào là câu văn gồm các âm tiết sẽđọc, đầu ra là ranh giới từ và từ loại của mỗi từ. Một ví dụ xử lý tách từ và gán nhãn từ loại như sau:

• Giả sử, với các âm tiết sẽđọc gồm: (học), (sinh), (học), (sinh), (học)

• Ghép các âm tiết trên thành câu văn: “học sinh học sinh học .”

• Thực hiện xử lý tách từ và gán nhãn từ loại cho câu văn trên ta được chuỗi chứa thơng tin về ranh giới từ và tự loại như sau: “học_sinh/N học/V sinh_học/N ./.”

Sau khi xác định được các giá trịđặc trưng ta chuNn hố chúng bằng cách ánh xạ về miền giá trị số thực trong khoảng [0..1] theo cơng thức:

(V trí tính t 0 ca giá tr trong ct “Ni dung” Bng 3.1) Tr chun hố = (3.3)

(S lượng các giá tr - 1)

Ví dụ:

+ Thuộc tính đặc trưng thứ 1 là “Phụ âm đầu” cĩ giá trị là “Ø” (ứng với vị trí 0) sẽ được chuNn hĩa thành: 0 / (28-1) = 0

Trang 39

+ Thuộc tính đặc trưng thứ 3 là “Nguyên âm” cĩ giá trị là “y” (ứng với vị trí là 19) sẽ được chuNn hố thành: 19 / (20 – 1) = 1.

+ Thuộc tính đặc trưng thứ 5 là “Dấu thanh” cĩ giá trị là dấu huyền (ứng với vị trí là 2) sẽđược chuNn hố thành: 2 / (6 – 1) = 0,4.

3.2.2 D liu hun luyn

Dữ liệu huấn luyện được xây dựng dựa trên dữ liệu tiếng nĩi tự nhiên. Tập dữ liệu huấn luyện bao gồm tập hợp các mẫu dữ liệu huấn luyện, mỗi mẫu gồm chứa thơng tin vector đặc trưng của âm tiết trong ngữ cảnh câu và các thơng số ngữđiệu tương ứng với nĩ gồm: cường độ, trường độ và khoảng ngừng.

Bộ dữ liệu được xây dựng qua các bước như sau:

• Thu âm dữ liệu tiếng nĩi tự nhiên của cùng một người với cùng một phong cách ngữđiệu nhất định.

• Với mỗi âm tiết trong chuỗi tiếng nĩi ta đánh dấu vị trí bắt đầu, vị trí kết thúc, và nhãn tên của mỗi âm tiết. Việc đánh dấu được thực hiện thủ cơng với sự trợ giúp của cơng cụ phần mềm Transciber [49] (Hình 6). Cấu trúc nội dung của dữ liệu đánh dấu được trình bày minh họa như trong Bng 2:

Bng 2 Minh ha cu trúc ni dung ca d liu đánh du V trí bt đầu (giây) Âm tiết 0 Chúc 0.116 các 0.256 bn 0.429 mt 0.64 tun 0.929 <khong ngng> 1.107 vi

Trang 40 1.305 nhiu 1.622 nim 1.889 vui 2.124 <khong ngng> 2.428 2.65 sc 2.796 khe 3.074 di 3.256 dào.

Từ các thơng tin đánh dấu, ta dễ dàng xác định được các thơng tin về trường độ các âm tiết và khoảng ngừng sau mỗi âm tiết như sau:

• Trường độ âm tiết = Vị trí bắt đầu của dịng kế tiếp – Vị trí bắt đầu âm tiết

• Khoảng ngừng sau âm tiết:

bằng: 0, nếu dịng tiếp theo là một âm tiết.

bằng: độ dài của <khoảng ngừng>, nếu dịng tiếp theo là <khoảng ngừng>.

Với thơng số vị trí bắt đầu và trường độ của âm tiết, ta trích đoạn tín hiệu tiếng nĩi tương ứng và tính được giá trị cường độ trung bình của âm tiết.

Sau khi xác định được hết các giá trị cường độ, trường độ và khoảng ngừng cho tất cả các âm tiết huấn luyện, ta thống kê và loại bỏ các giá trị biên cĩ tần suất xuất hiện thấp khơng đáng kể, ta được khoảng giá trị của các thơng số ngữđiệu như sau:

• Cường độ: -35..-3 (dB)

• Trường độ: 50..550 (milisecond)

Trang 41

Tiếp theo ta chuNn hố giá trị các thơng số ngữđiệu cho các mẫu huấn luyện bằng cách ánh xạ sang miền giá trị số thực tương ứng trong đoạn [0..1] theo cơng thức như sau:

Tr chun hố = ([tr ban đầu]–[chn dưới])/([chn trên]–[chn dưới]) (3.4)

Sau cùng ta thực hiện phân tích xử lý ngơn ngữ cho từng câu dữ liệu huấn luyện ta xác định được giá trị của vector đặc trưng cho các âm tiết huấn luyện nhưđã trình bày trong mục 3.2.1.

Dữ liệu huấn luyện được lưu trữ thành 3 tập tin để huấn luyện cho 3 mạng nơ-ron tương ứng với 3 thơng số ngữđiệu. Tập tin chứa dữ liệu huấn luyện là tập tin văn bản dạng text được định dạng như sau:

• Dịng đầu tiên cĩ 3 cột cách nhau bởi khoảng trắng tương ứng lần lượt với tổng số âm tiết huấn luyện, số lượng thuộc tính đầu vào (21), số lượng thuộc tính đầu ra (1).

• Các dịng tiếp theo là thơng tin các âm tiết huấn luyện, mỗi âm tiết được biểu diễn bởi 2 dịng. Dịng thứ nhất cĩ 21 cột tương ứng giá trị của 21 thuộc tính đầu vào. Dịng thứ 2 cĩ một cột tương ứng với giá trị thuộc tính đầu ra. Ví dụ nội dung tập tin chứa dữ liệu huấn luyện:

20000 21 1 0.444 1.000 1.000 1.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.518 1.000 1.000 1.000 0.000 0.000 0.723286 0.518 1.000 1.000 1.000 0.000 0.000 0.000 0.000 0.000 0.444 1.000 1.000 1.000 0.000 0.000 1.000 1.000 1.000 1.000 0.000 0.000 0.756250 1.000 1.000 1.000 1.000 0.000 0.000 0.000 0.000 0.000 0.518 1.000 1.000 1.000 0.000 0.000 0.259 1.000 1.000 0.083 0.000 0.000 0.404133 ….

Trang 42

Hình 6 Màn hình cơng c Transcriber

3.2.3 Cu trúc các mng nơ-ron

Trang 43

Kiến trúc mạng nơ-ron truyền thẳng nhiều lớp được chúng tơi chọn sử dụng vì tính phổ biến của nĩ. Để việc huấn luyện dễ dàng và hiệu quả, mỗi yếu tố ngữđiệu sẽđược xác định bởi một mạng nơ-ron riêng biệt. Vì thế cĩ tất cả 3 mạng nơ-ron được sử dụng cho 3 yếu tố ngữđiệu tương ứng như Hình 7. Mỗi mạng gồm 21 nút input và 1 nút output. Số lượng lớp Nn và nút Nn sẽđược xác định chọn lựa bằng cách thử sai trong quá trình thực nghiệm.

3.2.4 Cài đặt và hun luyn các mng nơ-ron

Chúng tơi sử dụng thư viện FANN [47] để tạo và huấn luyện các mạng nơ-ron. Trọng số của các liên kết được khởi tạo với giá trị mặc định là 0.7. Hàm hoạt động của các nơ-ron là hàm sigmoid. Các mạng được huấn luyện với giải thuật lan truyền ngược được điều chỉnh cải tiến iRPROP (Improving resilient backpropagation) [44].

Trang 44

4 XÂY DNG B PHÁT ÂM TING VIT

Một phần của tài liệu phần mềm hỗ trợ người khiếm thị học tiếng anh (Trang 35)

Tải bản đầy đủ (PDF)

(196 trang)