Hướng tiếp cận dựa vào ngữ nghĩa

Một phần của tài liệu Gióng hàng văn bản song ngữ anh việt (Trang 30 - 31)

Tính chất từ vựng, chẳng hạn như cùng nguồn gốc hoặc những cụm từ và từ“neo”có thể được sử dụng để gióng hàng. Đặc biệt với sự trợ giúp của từ điển song ngữ, phương pháp này hoàn toàn có thể mở rộng hơn nữa.

Có một số phương pháp lựa chọn từ ngữ đặc thù như là điểm neo để phục vụ bài toán gióng hàng. Các từ được lựa chọn bằng tay hoặc bằng một hàm phân phối nào đó.

Kay và Roscheisen sử dụng các từ có phân bố tương tự nhau trong tập hợp các câu có khả năng phù hợp nhất như điểm neo trong gióng hàng câu. Fung sử dụng vector để xác định hàm phân phối của các từ trong các phân đoạn tùy ý của văn bản. Các thông tin phân phối sau đó được sử dụng để xây dựng một tập các từ neo có thể được sử dụng cho gióng hàng câu. Nevado [14] cũng được sử dụng một tập các từ neo, mà họ

tự xác định, ví dụ, “for”, “and”, “I would like”, và “I wish”.

Simard áp dụng những từ cùng nguồn gốc như một tiêu chuẩn chính thay vì chiều dài ký tự trong cách tiếp cận của họ. Trong tiếng Anh, cũng như tiếng Latin, các từ có cùng nguồn gốc là những từ biến đổi từ cùng một từ gốc và do đó âm vị học hay chữ

viết sẽ tương tự nhau. Ví như từ “haus”trong tiếng Đức và từ “house”trong tiếng

Anhđược coi như là có chung từ gốc. Sử dụng sự tương tự trong chữ viết như ý tưởng cơ bản, Simard cho rằng những từ gọi là cùng nguồn gốc khi mà chúng chia sẻ ít nhất bốn ký tự đầu tiên của từ, và phải có ít nhất bốn ký tự. Rõ ràng, cặp từ tương tự như

“haus” và “house” sẽ không được công nhận là cùng nguồn gốc trong phương pháp

tiếp cận của họ. Do đó việc dung từcùng nguồn gốc chỉ có thể được áp dụng trong bài toán gióng hàng đối với cặp ngôn ngữ chia sẻ cùng một nguồn gốc.

Tần số xuất hiện của thứ tự từ cũng có thể được áp dụng để xây dựng một danh sách các từ được sử dụng trong gióng hàng.Trật tự từ là sự kết hợp các từ cùng xảy ra

một cách thường xuyên với một xác suất nào đó. Ví dụ, “stock market” và “make a

decision” là những cụm từ mang ý nghĩa và thường xuất hiện cùng nhau trong cùng

văn bản.

Cách tiếp cận dựa trên ngữ nghĩa là mang ý nghĩa của câu góp vào quá trình xem xét đánh giá một cặp câu là dịch của nhau. Hunalign, sử dụng một bản dịch thô dựa trên từ điển để kiểm tra sự giống nhau của các câu trong văn bản nguồn và ngôn ngữ đích. Phương pháp của Piperidis lại dựa vào tìm kiếm động từ, danh từ, tính từ và trạng từ trong câu. Họ xác định phần lớn nghĩa của câu(semantic load)dựa trên những từ đó. Sau đó các từ đó được sử dụng như một tiêu chuẩn cho bài toán gióng hàng.

Một phần của tài liệu Gióng hàng văn bản song ngữ anh việt (Trang 30 - 31)