Các phương pháp xây dựng từ điển Lexicon

Một phần của tài liệu nhandangtiengnoivietnamtuvunglonlientuc (Trang 49 - 50)

- Mở đầu

3.1.4 Các phương pháp xây dựng từ điển Lexicon

Để xây dựng từ điển Lexicon, cĩ 3 phương pháp thiết kế cơ bản như sau:

ƒ Phương pháp phân đoạn theo chuyên gia: Theo Lamel và Adda,1996,

các chuyên gia âm học thực hiện phân đoạn một cơ sở dữ liệu tiếng nĩi và sau đĩ biến đổi bằng tay từng từ cho một cơng việc nhận dạng cụ thể, và xây dựng các quy tắc âm vị học. Phương pháp này khĩ thực hiện cho một cơ sở dữ liệu tiếng nĩi hiện đại với kích thước lớn, nĩ khơng phải là khả thi vì phải mất nhiều thời gian và cĩ sự khơng thống nhất của các chuyên gia.

ƒ Phương pháp tự động: Phương pháp này là một nhiệm vụ rất phức tạp và

nhiều khĩ khăn, trong đĩ cơ sở dữ liệu từ vựng lớn được phiên âm từ cơ sở dữ liệu ban đầu được cung cấp, khơng cĩ phân khúc ở cấp âm tiết. Điều này địi hỏi phải cĩ cách tiếp cận hiện đại làm cho một số giả định liên quan đến cách mà dữ liệu được tạo ra và thu thập nĩ. Thứ nhất đĩ là cần thiết để đảm sự tồn tại của một tập hợp các mơ hình âm thanh được đào tạo về cơ sở dữ liệu. Thứ hai, nĩ thường được giả định rằng cĩ tồn tại một số hình thức của từ vựng tiêu chuẩn cho các cơ sở dữ liệu nhất định, từ đĩ nĩ phân tích và mở rộng lexicon thơng qua quá trình hoạt động một cách tự động. Phần lớn quá trình xác định các biến thể phát âm mới hoặc các quy tắc được mơ tả như là việc thu thập và phân tích các số liệu thống kê liên quan đến sự khác biệt giữa hai phân đoạn, cĩ sử dụng các ma trận nhầm lẫn cho các âm tiết cụ thể theo ngữ cảnh, hoặc danh sách các cách phát âm

khác nhau của mỗi từ. Qua đĩ cĩ thể thực hiện thêm vào hoặc xĩa bỏ hoặc thay thế các âm tiết trong khi nhận dạng. Phương pháp này đang là trọng tâm nghiên cứu trong lĩnh vực xây dựng và phát triển lexicon và thậm chí lexicon đa ngơn ngữ.

ƒ Phương pháp bán tự động: Phương pháp này cung cấp một khơng gian

cĩ một nửa với sự can thiệp của các chuyên gia và khơng gian cịn lại khơng cĩ mặt của chuyên gia. Phương pháp tiếp cận này thường sử dụng một phương pháp tự động để đề xuất một số giải pháp thay thế cách phát âm hoặc các quy định âm vị học, từ đĩ một chuyên gia xem xét phải lựa chọn cái phù hợp nhất. Tuy nhiên, các phương pháp bán tự động cũng gặp phải những vấn đề tương tự về thời gian và sự khơng thống nhất như đã nêu cho các phương pháp khơng tự động, mặc dù ở một mức độ thấp hơn. Vì lý do này, các nhà khoa học đều mong muốn tạo ra một kỹ thuật hình thành từ vựng mà khơng địi hỏi sự tham gia của chuyên gia, trong khi vẫn cho ra kết quả cùng một chất lượng như phương pháp phân đoạn theo chuyên gia.

Một phần của tài liệu nhandangtiengnoivietnamtuvunglonlientuc (Trang 49 - 50)

Tải bản đầy đủ (PDF)

(120 trang)