Xác định từ ghép tiếng Việt và cụm từ tiếng Anh:

Một phần của tài liệu CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc (Trang 68 - 70)

Để có thể xác định được từ ghép tiếng Việt, chương trình sử dụng một từ điển từ ghép tiếng Việt. Từ điển này được lọc ra một cách tự động trong từ điển song ngữ Anh Việt.

Cấu trúc từ điển từ ghép tiếng Việt như sau:

Hình 5-23. Từ điển từ ghép tiếng Việt

[Vietnamese]: từ ghép tiếng Việt.

[English]: nghĩa tiếng Anh. Nếu có nhiều nghĩa thì các nghĩa cách nhau bởi dấu chấm phẩy (;).

Tương tự như vậy, nhưng danh sách các cụm từ tiếng Anh được lọc ra từ Lạc Việt từ điển và nhập vào cơ sở dữ liệu của hệ thống.

Hình 5-24. Từ điển cụm từ tiếng Anh

[English]: cụm từ tiếng Anh.

[Vietnamese]: nghĩa tiếng Việt. Nếu có nhiều nghĩa thì các nghĩa cách nhau bởi dấu chấm phẩy (;).

[Count]: chiều dài cụm từ.

Xác định từ ghép tiếng Việt và cụm từ tiếng Anh được thực hiện bằng phương pháp đơn giản là xác định từ ghép dài nhất có thể có trong văn bản, xét từ đầu đến cuối văn bản.

Hiện thực phân đoạn từ:

Đầu vào: (1)Danh sách từ đã được tách từ văn bản, (2)từ điển từ ghép tiếng Việt và (3)cụm từ tiếng Anh.

Đầu ra: Danh sách các từ ghép tiếng Việt và cụm từ tiếng Anh xuất hiện trong văn bản.

Phương pháp: Đọc một từ trong văn bản. Dựa vào từ điển, tìm từ ghép dài nhất bắt đầu bằng từ này, giả sử có chiều dài l. Nếu không có, nó là từ đơn. Nếu có,

đọc tiếp l-1 từ tiếp theo. Nếu không so trùng đúng với từ ghép dài nhất, giảm dần chiều dài của chuỗi văn bản để xác định từ ghép có tồn tại trong từ điển.

Một phần của tài liệu CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT doc (Trang 68 - 70)