3.3.2. Các đặc trưng sử dụng cho bài toán gán nhãn ngữ nghĩa nơng:
Có nhiều đặc trưng được sử dụng trong bài tồn gán nhãn ngữ nghĩa nơng. Có thể phân loại các đặc trưng vào 5 nhóm như sau:
a. Đặc trưng cấu trúc nội bộ của các đối số ứng viên:
- Các mục từ hợp thành, hậu tố có chiều dài 2, 3, và 4, Bổ đề, và thẻ POS.2, 3 và 4, Bổ đề, và PoS tag.
- Từ thành phần nội dung, hậu tố theo sau có chiều dài 2, 3 và 4, là Bổ đề, PoS tag, và nhãn NE.
- Thành phần đầu tiên cuối cùng và các thẻ POS của đối số ứng viên. - Nhãn NE bao gồm trong cụm từ ứng viên.
- Các đặc trưng nhị phân để chỉ ra sự hiện diện của những lời gợi ý về thời gian, có nghĩa từ đó xuất hiện thường xuyên trong các cụm từ AM-TMP trong quá trình huấn luyện.
b. Các đặc trưng trích xuất từ các tham số ngữ cảnh:
- Các cụm từ nhãn, từ đầu và POS tag của thành phần cha, các thành phần anh em.
c. Đặc trưng mà mô tả các thuộc tính của cấu trúc vị ngữ: - Từ vị ngữ và bổ đề.
- Ngữ điệu vị ngữ (Predicate Voice): hiện đang phân biệt 5 loại giọng nói: tích cực, thụ động, kết hợp, bất định, và tiếp diễn. Một tính năng nhị phân để cho biết nếu các vị ngữ là thường xuyên - xuất hiện nhiều hơn hai lần trong các phân tập dữ liệu huấn luyện - hay không.
d. Các đặc trưng được tạo ra từ ngữ cảnh vị ngữ:
- Quy tắc phân loại, tức là các quy tắc cấu trúc cụm từ có thể mở rộng thành các vị ngữ cha.
e. Các đặc trưng mơ hình mà khoảng cách giữa các vị ngữ và các tham số: - Các đường dẫn trong cây cú pháp giữa các cụm từ đối số và các vị ngữ
như là một chuỗi các nhãn cú pháp cùng với sự chỉ đạo theo cây (lên hoặc xuống).
- Chiều dài của đường dẫn cú pháp trên.
- Số lượng các các mệnh đề (S * cụm từ) trong đường dẫn. - Các số cụm động từ (VP) trong đường dẫn.
- Số đếm subsumption, tức là sự khác biệt giữa các độ sâu trong cây cú pháp của các đối số và thành phần vị ngữ. Giá trị này là 0 nếu hai cụm từ chia sẻ cùng nút cha.
- Các thể loại quản lý, mà chỉ ra nếu đối số NP được thống trị bởi một câu (điển hình cho các đối tượng) hoặc một cụm động từ (điển hình cho các đối tượng).
- Khoảng cách bề mặt giữa các vị ngữ và các cụm từ tham số mã hóa như: số thẻ, động từ đầu cuối từ (VB *), dấu phẩy, và phối hợp (CC) giữa các cụm từ đối số và vị ngữ, và một tính năng nhị phân để cho biết nếu hai thành phần là liền kề.
- Một tính năng nhị phân để chỉ ra nếu đối số bắt đầu bằng một hạt vị ngữ, tức là một dấu hiệu nhìn thấy được bằng thẻ POS RP * và trực tiếp gắn liền với vị ngữ trong huấn luyện.
3.3.3. Huấn luyện và Kiểm tra
Sau khi chuẩn bị các tệp chứa từ (word-file), tệp chứa cú pháp nhãn ngữ nghĩa (synt-file), tệp chứa nhãn mệnh đề (props-file), tệp chứa nhãn danh từ
Huấn luyện
Để tiến hành huấn luyện, ta dùng cú pháp như sau: make train \
MODEL_DIR=<đường dẫn thư mục chứa tệp model> [WORD_FILE=< tệp chứa từ CoNLL > \]
[NE_FILE=< tệp chứa nhãn danh từ riêng CoNLL > \] [CHARNIAK_FILE=< tệp chứa cú pháp nhãn ngữ nghĩa>\] [PROP_FILE=<tệp chứa nhãn mệnh đề CoNLL >]
Trong đó: các tham số WORD_FILE, NE_FILE, CHARNIAK_FILE, PROP_FILE là những tham số tùy chọn,