Cấu trúc các file Từ điển

Một phần của tài liệu Đồ án tốt nghiệp Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận So khớp tập mẫu (Trang 78)

Theo như thiết kế, hệ thống chúng ta cần sử dụng đến hai loại từ điển chính:

Từ điển Anh-Việt (bao gồm khoảng 70.000 từ và nghĩa Tiếng Việt tương ứng) và

từ điển đồng nghĩa (Thesaurus), cộng thêm một từ điển phụ nữa, đó là: “Động từ bất quy tắc trong Tiếng Anh”. Để việc xử lý trong chương trình sau này được thuận tiện, nhanh chóng và không sai sót, thì việc tổ chức và lưu trữ một cách hợp lý các loại dữ liệu này đóng vai trò hết sức quan trọng.

Sau đây là cấu trúc lưu trữ cho từng loại từ điển:

• Từ điển Anh-Việt:

File từ điển Anh-Việt thực chất là mỗi chuỗi các block có cấu trúc giống nhau, mỗi block biểu diễn cho một từ Tiếng Anh.

Cấu trúc mỗi block như sau:

<Tên từ>

@<Tên từ>/<Phiên âm cho từ>/ *<Từ loại 1> -<Nghĩa số 1> -… -<Nghĩa số n> *… 80 Tập cây cú pháp chuẩn Cập nhật từ/luật mới

Sứa/ xóa từ khóa trong từ điển

PHÍA NGƯỜI DÙNG PHÍA HỆ THỐNG

QUẢN CÁC

TỪ ĐIỂN

Giao diện người-máy CÁC TỪ ĐIỂN

*<Từ loại m>

-<Nghĩa số 1> -…

-<Nghĩa số n>

Bảng 4. 4: Cấu trúc một block trong file Từ điển Anh-Việt.

• Từ điển Động từ bất quy tắc:

Từ điển này có cấu trúc mỗi bản ghi (trên một dòng) như sau:

Số thứ tự . Động từ nguyên thể :<4 dấu cách> Dạng quá khứ

đơn cách><Dấu /<Dấu cách>

Dạng quá khứ phân từ

Bảng 4. 5: Cấu trúc bản ghi trong file “Động từ bất quy tắc”.

Trong trường hợp Dạng quá khứ đơn hay Qúa khứ phân từ gồm nhiều hơn một từ, thì mỗi từ cách nhau bởi dấu phẩy (,).

Quá khứ phân từ= Quá khứ phân từ[1],…, Quá khứ phân từ[n] Ví dụ một vài bản ghi là:

15. bend: bent / bent

17. beseech: besought , beseeched / besought , beseeched

Một phần của tài liệu Đồ án tốt nghiệp Xây dựng thử nghiệm hệ dịch tự động Anh - Việt theo hướng tiếp cận So khớp tập mẫu (Trang 78)