- Mở đầu
3.1.4 Các phương pháp xây dựng từ điển Lexicon
Để xây dựng từ điển Lexicon, có 3 phương pháp thiết kế cơ bản như sau: ƒ Phương pháp phân đoạn theo chuyên gia: Theo Lamel và Adda,1996,
các chuyên gia âm học thực hiện phân đoạn một cơ sở dữ liệu tiếng nói và sau đó biến đổi bằng tay từng từ cho một công việc nhận dạng cụ thể, và xây dựng các quy tắc âm vị học. Phương pháp này khó thực hiện cho một cơ sở dữ liệu tiếng nói hiện đại với kích thước lớn, nó không phải là khả thi vì phải mất nhiều thời gian và có sự không thống nhất của các chuyên gia.
ƒ Phương pháp tự động: Phương pháp này là một nhiệm vụ rất phức tạp và nhiều khó khăn, trong đó cơ sở dữ liệu từ vựng lớn được phiên âm từ cơ sở dữ liệu ban đầu được cung cấp, không có phân khúc ở cấp âm tiết. Điều này đòi hỏi phải có cách tiếp cận hiện đại làm cho một số giả định liên quan đến cách mà dữ liệu được tạo ra và thu thập nó. Thứ nhất đó là cần thiết để đảm sự tồn tại của một tập hợp các mô hình âm thanh được đào tạo về cơ sở dữ liệu. Thứ hai, nó thường được giả định rằng có tồn tại một số hình thức của từ vựng tiêu chuẩn cho các cơ sở dữ liệu nhất định, từ đó nó phân tích và mở rộng lexicon thông qua quá trình hoạt động một cách tự động. Phần lớn quá trình xác định các biến thể phát âm mới hoặc các quy tắc được mô tả như là việc thu thập và phân tích các số liệu thống kê liên quan đến sự khác biệt giữa hai phân đoạn, có sử dụng các ma trận nhầm lẫn cho các âm tiết cụ thể theo ngữ cảnh, hoặc danh sách các cách phát âm
khác nhau của mỗi từ. Qua đó có thể thực hiện thêm vào hoặc xóa bỏ hoặc thay thế các âm tiết trong khi nhận dạng. Phương pháp này đang là trọng tâm nghiên cứu trong lĩnh vực xây dựng và phát triển lexicon và thậm chí lexicon đa ngôn ngữ.
ƒ Phương pháp bán tự động: Phương pháp này cung cấp một không gian có một nửa với sự can thiệp của các chuyên gia và không gian còn lại không có mặt của chuyên gia. Phương pháp tiếp cận này thường sử dụng một phương pháp tự động để đề xuất một số giải pháp thay thế cách phát âm hoặc các quy định âm vị học, từ đó một chuyên gia xem xét phải lựa chọn cái phù hợp nhất. Tuy nhiên, các phương pháp bán tự động cũng gặp phải những vấn đề tương tự về thời gian và sự không thống nhất như đã nêu cho các phương pháp không tự động, mặc dù ở một mức độ thấp hơn. Vì lý do này, các nhà khoa học đều mong muốn tạo ra một kỹ thuật hình thành từ vựng mà không đòi hỏi sự tham gia của chuyên gia, trong khi vẫn cho ra kết quả cùng một chất lượng như phương pháp phân đoạn theo chuyên gia.