Tồn bộ các mục từđược lấy trong kho ngữ liệu Englex [36]. Luận án khơng kiểm tra tính đúng và đủ của tập các từ vựng tiếng Anh Englex. Để tìm kiếm một mục từ trong từ điển tiếng Anh, phần mềm PC-PATR dựa trên giải thuật PC- KIMMO [36] thực hiện ánh xạ các từ biến hình vào từ gốc trong từđiển.
Sau khi chỉnh sửa các mục từ, từ điển được kiểm tra bằng cách sử dụng phần mềm ALE [21] phân tích câu tiếng Anh cĩ hỗ trợ HPSG để phân tích một số câu mẫu.
Hình 5.5. Ma trận giá trị của danh từ “book”
CAT CONTENT [ ] PHONOLOGY book SYNSEM ARG-ST [ ] n HEAD NN SU COMP SPR DT | [ ]
SYNSEM | CAT | HEAD NN SPR <DT|[]>
SYNSEM | CAT | HEAD TVB SPR <> SUBJ np1 COMPS np2
81
ALE là phần mềm lõi do Carpenter và cộng sự cơng bố năm 2001 dưới dạng phần mềm miễn phí. Được viết trên ngơn ngữ Prolog, ALE cho phép người sử dụng
định nghĩa hệ thống nét và các ma trận nhằm thực hiện phân tích câu theo các ràng buộc chính tắc. Tập luật được chia ra làm hai phần: Luật từ vựng và luật tạo cụm từ/câu. Việc tách tập luật từ vựng ra khỏi tập luật cụm từ là để thực hiện các xử lý biến hình của từ như số nhiều của “book” là “books” … Việc áp dụng ALE lên tập dữ liệu Englex cho phép tạo phần từ điển tiếng Anh bán tự động (xem mục 5.3 – 5.5). Luận án thực hiện việc tạo từđiển với 7.455 từ gốc, bao gồm việc gán nhãn từ
loại, liệt kê các từ khơng tìm thấy do là danh từ riêng, số, từ viết tắt và một số từ
ghép. Các trường hợp ngoại lệ này phải xử lý bằng tay. Sau khi cĩ phần tiếng Anh, các nghĩa từ tương ứng tiếng Việt sẽđược lắp vào để tạo ra từđiển song ngữ. Cơng việc này cĩ thể nhập bằng tay từ thơng tin cĩ trong các từđiển in giấy. Đây là cơng việc địi hỏi nhiều cơng sức và thời gian.