Dữ liệu sử dụng trong quá trình chạy chƣơng trình- 123docz.net

Khi chạy bộ xử lý nhập nhằng nghĩa của từ, ta cần chuẩn hĩa bộ dữ liệu đã gán nghĩa và chƣa gán nghĩa. Ở mức đơn giản nhất ta cũng cần loại bỏ các dấu câu và từ đang cần gán nghĩa để lấy ra những từ thuộc nhĩm từ đồng xuất hiện. Ở mức cao hơn, để kiểm chứng lý thuyết về việc chuyển từ thuộc nhĩm từ đồng xuất hiện với từ đang cần gán nghĩa về dạng từ nguyên thể, ta cịn cần tiến hành biến đổi dữ liệu ban đầu nhiều hơn nữa. Một số trƣờng hợp cá biệt, nếu vì lý do nào đĩ mà dữ liệu ban đầu chƣa đƣợc gán nhãn từ loại thì ta cịn phải chạy thêm các thuật tốn phân lớp thơng tin từ loại. Do vậy, dữ liệu đầu vào tỏ ra kém hiệu quả nếu ta sử dụng trực tiếp nĩ trong quá trình chạy và kiểm thử bộ xử lý nhập nhằng nghĩa của từ. Vì thế ta cần phải chuyển nĩ về dạng thích hợp hơn, tránh phải chuẩn hĩa đi chuẩn hĩa lại dữ liệu trong quá trình mở rộng bộ dữ liệu xử lý nhập nhằng nghĩa của từ đang cần gán nghĩa.

Định dạng của dữ liệu sử dụng giống hồn tồn với dữ liệu chuẩn và chỉ thêm ngay sau tag <context> </context> một tag <standardized> </standardized> chứa câu đã đƣợc chuẩn hĩa. Với các văn bản thuộc bộ dữ liệu chƣa gán nghĩa thì phần senseid trong mỗi trƣờng hợp từ sẽ cĩ giá trị là “Unknown”

Dữ liệu sau khi chuẩn hĩa đƣợc lƣu lại vào một thƣ mục gồm file chứa dữ liệu huấn luyện (và các file kiểm tra nếu cĩ) cùng với một thƣ mục “Data” chứa tồn bộ file chứa các trƣờng hợp của từ thuộc bộ dữ liệu chƣa đƣợc gán nghĩa. Các trƣờng hợp thuộc cùng một văn bản sẽ đƣợc chứa vào cùng một file.

Dữ liệu sử dụng trong quá trình chạy chƣơng trình

Dữ liệu chuẩn đã gán nghĩa