NHẬN DẠNG CSLU VÀ HTK
Cơ sở dữ liệu
HTK: HTK có hai cách khởi tạo các tham số của các mô hình Markov ẩn. Dùng Hinit nếu như thông tin về nhãn thời gian sẵn có trong cơ sở dữ liệụ Nếu không HTK có thể dùng phương pháp khởi tạo phẳng (flat start) để khởi tạo các tham số của các mô hình. Các tham số này sau đó sẽ được tính toán bằng phương pháp nhúng. Như vậy HTK không bắt buộc các phát âm trong cơ sở dữ liệu cần phải được gán nhãn bằng taỵ CSLU: Vì CSLU dùng mạng ANN để học các âm vị trước khi xây dựng mạng lai ghép HMM/ANN. Các dữ liệu tương ứng với một âm vị đưa vào để huấn luyện cần phải có tính chất âm học của âm vị đó để mạng ANN có thể học được. Do đó các thông tin về nhãn thời gian là bắt buộc phải sẵn có trong cơ sở dữ liệu để hệ thống tìm ra các khung tín hiệu tương ứng với các âm vị, từ đó tính toán các vector đặc tính phổ dùng để huấn luyện mạng ANN.
Đơn vị nhận dạng cơ bản
HTK: Được thiết kế để có thể xây dựng hệ thống nhận dạng từ nhỏ tới hệ thống lớn. Với các hệ thống nhận dạng nhỏ, đơn vị nhận dạng cơ bản có thể là các từ. Khi đó số lượng các trạng thái trong mô hình có thể có thể được điều chỉnh nhiều hơn, thông thường là lên 6 hoặc 8 trạng tháị Với hệ thống nhận dạng có kích thước lớn, đơn vị nhận dạng cơ bản thường là âm vị hoặc bán âm tiết, số trạng thái trong mô hình khi đó được điều chỉnh nhỏ hơn, khoảng từ 3-5 trạng tháị
CSLU: Đơn vị nhận dạng cơ bản của CSLU luôn là category, là một phần của âm vị. Do đặc tính biến thiên tiếng nói theo thời gian, trong khoảng thời gian tồn tại của một âm vị, các đặc tính phổ của âm vị biến thiên từ lúc bắt đầu tới khi kết thúc một âm vị. Khoảng thời gian mà các đặc tính phổ tương đối tĩnh, tức là có thể dùng được cho huấn luyện mạng ANN chỉ là một phần của âm vị: phần bên trái của âm vị, nơi âm
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnụedụvn
vị chịu ảnh hưởng của ngữ cảnh phải, phần giữa của âm vị không chịu ảnh hưởng của ngữ cảnh và phần bên phải của âm vị, chịu ảnh hưởng của ngữ cảnh phảị
Khoảng lặng
HTK: Sử dụng hai đơn vị nhận dạng đặc biệt sp và sil để mô hình hoá khoảng
lặng trong tiếng nóị Âm vị sil được dùng mô hình hoá như là một ngắt giọng (short
pause) trong một phát âm. Âm vị sp gồm chỉ một trạng thái và trạng thái này được
buộc vào trạng thái thứ 3, trạng thái giữa của âm vị sil. Âm vị sp được coi như là có
mặt ở giữa các từ, là sự chuyển tiếp từ từ này sang từ kiạ Trong HTK các âm đóng (closure) không có mặt trong các đơn vị nhận dạng. Chúng được gộp vào các phụ âm ở đằng trước hoặc đằng sau tương ứng với nó. Mô hình Markov ẩn tự chúng có khả năng mô hình hoá sự biến thiên các đặc tính phổ trong âm đóng.
CSLU: Với CSLU, các khoảng lặng được nhóm vào một đơn vị nhận dạng là
.pau. Âm đóng được coi là một đơn vị nhận dạng riêng. Tuy nhiên về ảnh hưởng của
nó đến ngữ cảnh các âm vị khác thì chúng lại được xếp chung với đơn vị nhận dạng
.pau. Với mạng ANN, CSLU có cơ chế hiệu quả là dùng một đơn vị nhận dạng đặc biệt
là .garbage để loại bỏ ảnh hưởng của nhiễu, âm thanh không phải tiếng nói và loại bỏ các phát âm không có trong từ điển. Với cơ chế này tỷ lệ lỗi nhận dạng nhầm do lỗi chèn được giảm xuống, hệ thống chịu được ảnh hưởng của nhiễu và các âm thanh đan xen vào trong tiếng nóị
Phụ thuộc ngữ cảnh
HTK: Do đặc tính của tiếng nói, tất cả các hệ thống nhận dạng đều dùng đơn vị nhận dạng là phụ thuộc ngữ cảnh. Để tính đến ngữ cảnh trái và ngữ cảnh phải của âm vị, HTK dùng âm ba (triphone), trong đó một âm vị được bổ sung thêm ngữ cảnh từ âm vị độc lập ngữ cảnh tương ứng. Ví dụ như âm vị /a/ sẽ được chuyển thành âm ba
/b-a+n/ trong từ “bàn”, và khi đó đây là đơn vị nhận dạng khác với âm vị /a/ trong từ “đàn”: /đ-a+n/. Có hai loại âm ba được phân biệt: âm ba giới nội từ (word internal)
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnụedụvn
coi là chỉ có tác dụng trong từ đó, giữa các từ với nhau được coi là được ngăn cách bởi khoảng lặng. Phương pháp này của HTK tăng số lượng các âm ba lên rất lớn, với tiếng Việt số lượng các âm ba liên từ có thể lên tới hơn 16 nghìn âm bạ Với số lượng lớn như vậy, dữ liệu huấn luyện cần có là rất lớn và vấn đề thiếu hụt dữ liệu huấn luyện là khó tránh khỏị
CSLU: Để tính đến ảnh hưởng của ngữ cảnh đến các đơn vị nhận dạng, CSLU không thể làm như HTK bởi vì mạng ANN chỉ có thể tiến hành phân lớp với một phần của âm vị, nơi các đặc tính phổ không thay đổi nhiềụ CSLU tính đến sự thay đổi ngữ cảnh bằng cách chia một âm vị thành nhiều categorỵ Một âm vị có thể được chia thành 2 hoặc 3 hoặc được khai báo là một category phụ thuộc phảị Như vậy đơn vị nhận dạng cơ bản phụ thuộc ngữ cảnh của CSLU thực chất là âm đôi (biphone) chứ không phải là âm bạ Với cách làm này thì số lượng các đơn vị nhận dạng cơ bản của CSLU không lớn như trong trường hợp của HTK. Với tiếng Việt, nếu bộ từ điển bao gồm tất cả các từ, thì số lượng category là khoảng 2147 categorỵ
Gán nhãn cƣỡng bức
HTK: Giống như tất cả các hệ thống nhận dạng, gán nhãn cưỡng bức là một khâu quan trong trong quá trình huấn luyện. Sau khi hệ thống được khởi tạo nó cần phải gán nhãn dữ liệu huấn luyện để từ đó dùng các thông tin này cho phần huấn luyện tiếp theọ Trong HTK gán nhãn cưỡng bức còn có vai trò quan trọng là tìm dãy phát âm phù hợp nhất trong số các phiên âm âm vị của một từ. Trong gán nhãn cưỡng bức của HTK, ranh giới giữa các từ, các âm vị đều được xác định lạị
CSLU: CSLU tiến hành gán nhãn cưỡng bức sau quá trình khởi tạo đầu tiên để xác định lại ranh giới giữa các category trong cùng một âm vị. Trong khởi tạo lần đầu tiên, các category trong một âm vị được chia đều từ khoảng thời gian của âm vị. Sau khi hệ thống đã được khởi tạo, nó được dùng để xác định lại ranh giới này và bằng những gì đã học được hệ thống xác định ranh giới chính xác hơn là chia đều trong giai đoạn khởi đầụ Như vậy trong gán nhãn cưỡng bức của CSLU chỉ ranh giới của
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnụedụvn
category được xác định lại, ranh giới của từ, âm vị được xác định trong gán nhãn bằng tay không thay đổị
Phƣơng pháp buộc
HTK: Vấn đề không đủ dữ liệu huấn luyện luôn luôn tồn tại trong các hệ thống nhận dạng. HTK giải quyết vấn đề này bằng một trong hai phương pháp: dùng driven data hoặc tree-based. Dù cách nào được dùng thì HTK đều cho phép người dùng khai báo các tính chất, tiêu chí mong muốn để tiến hành buộc. Sau đó hệ thống sẽ tự động tính toán và buộc các đơn vị nhận dạng tuỳ theo dữ liệu của nó. Trong quá trình này, sự can thiệp từ bên ngoài là hạn chế. Với cách này, các đơn vị nhận dạng được buộc vào nhau phụ thuộc vào dữ liệu dùng để huấn luyện chúng và như vậy quá trình buộc sẽ chính xác.
CSLU: Để buộc các đơn vị, CSLU không có cơ chế tự động tính toán theo dữ liệu huấn luyện mà nó cho phép người dùng khai báo các nhóm ngữ cảnh. Các đơn vị nhận dạng có ngữ cảnh thuộc cùng nhóm ngữ cảnh sẽ được buộc vào nhaụ Như vậy việc buộc các âm vị với nhau hoàn toàn phụ thuộc vào chủ quan của người nghiên cứụ
Huấn luyện
Cả hai hệ thống CSLU và HTK giống như các hệ thống nhận dạng dùng HMM đều dùng huấn luyện nhúng để huấn luyện các mô hình Markov ẩn. Các HMM của các đơn vị nhận dạng được nối vào nhau tạo thành một mô hình HMM lớn. Sau đó các tham số của cả mô hình lớn này được điều chỉnh theo dữ liệu huấn luyện.
Có một điểm khác về huấn luyện của CSLU so với HTK là do hệ thống của CSU dùng mạng ANN, cho nên trong quá trình huấn luyện mạng ANN sẽ có nhiều tập giá trị trọng số tương ứng với mỗi vòng huấn luyện (iteration). Với mạng ANN, cần phải tìm ra được vòng lặp nào cho độ chính xác cao nhất và để xác định điều này hệ thống sẽ thử nhận dạng trên một tập dữ liệu gọi là tập dữ liệu phát triển. Kích thước tập dữ liệu này cần đủ lớn để đảm bảo rằng iteration cho kết quả chính xác nhất cũng sẽ cho kết
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnụedụvn
quả chính xác nhất với dữ liệu kiểm trạ Như vậy với CSLU một tập dữ liệu phát triển cần được bổ sung vào tập dữ liệu huấn luyện và dữ liệu kiểm trạ
Nhận dạng
HTK: Trong hệ thống nhận dạng, nhất là với hệ thống nhận dạng số lượng từ vựng lớn, mô hình ngôn ngữ đóng một vai trò quan trọng. HTK cho phép dùng mô hình ngôn ngữ bigram trong quá trình tìm kiếm nhận dạng bằng cách tích hợp các xác suất bigram vào trong mạng nhận dạng. Sự có mặt của mô hình bigram đã cải thiện đáng kể độ chính xác nhận dạng của hệ thống.
Mô hình hoá độ dài
CSLU dùng một cơ chế phạt (penalty) để khống chế độ dài của các đơn vị nhận dạng trong hệ thống nhận dạng. Trong quá trình huấn luyện, giới hạn về độ dài tối thiểu và tối đa với các đơn vị nhận dạng được xác định. Trong quá trình nhận dạng, nếu âm vị vượt quá một trong hai giá trị này thì chúng sẽ bị gán một giá trị phạt tùy thuộc vào định nghĩa hệ thống nhận dạng. Cách làm này nhằm khống chế khả năng nhận dạng nhầm do lỗi chèn.
HTK chưa có cơ chế nào để mô hình hoá độ dài của các đơn vị nhận dạng cơ bản. Kết quả nhận dạng trong các thử nghiêm cho thấy HTK rất nhạy cảm với các nhiễu và các âm thanh không phải tiếng nói trong phát âm, chúng thường được nhận dạng nhầm và do vậy làm tăng lỗi nhận dạng nhầm cho chèn.
Kết luận
Mỗi hệ thống nhận dạng đều có những ưu điểm và nhược điểm riêng. Phương pháp xây dựng hệ thống nhận dạng bằng HMM/ANN thích hợp cho các hệ thống nhận dạng có kích thước nhỏ. Hệ thống cũng tỏ ra có khả năng chịu nhiễu và các âm thanh xen lẫn tốt.
Phương pháp nhận dạng của HTK với đầy đủ các chức năng thích hợp cho xây dựng các hệ thống nhận dạng kích thước lớn. Dữ liệu huấn luyện không cần phải gán nhãn trước, mô hình ngôn ngữ bigram là những ưu điểm nổi bật của HTK.