Nltk.tag: cung cấp bộ gán nhãn từ loại cho những văn bản thiếu thơng tin từ loại.
Nltk.stem.wordnet: cung cấp bộ chuyển đổi từ về dạng từ nguyên thể.
5.2. Cơng cụ khảo sát, kiểm tra phƣơng pháp mở rộng bộ dữ liệu xử lý nhập nhằng nghĩa của từ. nhằng nghĩa của từ.
Đây là một cơng cụ do tơi lập trình bằng ngơn ngữ Python với mục đích kiểm tra trong thực tế phƣơng pháp mở rộng bộ dữ liệu cĩ cho lại hiệu quả tốt khơng. Vì đƣợc làm ra nhằm mục đích nghiên cứu nên bộ cơng cụ này cĩ những đặc tính sau đây:
Tính tùy biến cao:
Vì để nghiên cứu đƣợc thì việc tùy biến đƣợc các thơng số nhƣ mức độ hội tụ của hàm mở rộng dữ liệu, hay nhƣ cĩ tùy chọn cĩ chuyển các từ trong nhĩm từ đồng xuất hiện về dạng nguyên thể hay khơng, là một điều bắt buộc phải cĩ để cĩ thể khảo sát đƣợc kỹ càng các lý thuyết đã nêu ở trên và so sánh các kết quả giữa chúng.
Chƣơng 5: Cơng cụ khảo sát, kiểm tra phƣơng pháp mở rộng bộ dữ liệu xử lý nhập nhằng nghĩa
28
Tính linh hoạt trong sử dụng:
Bộ cơng cụ này cĩ tính linh hoạt cao trong việc sử dụng tức là nĩ cho phép dùng kết hợp các mơ đun theo một cách tự do nhất. Điều này cho phép thiết kế nhiều thử nghiệm khác nhau.
Sau đây là những phần chính của bộ cơng cụ cĩ liên quan tới việc bố trí thử nghiệm và kiểm tra kết quả độ chính xác, các phần khác khơng liên quan trực tiếp sẽ chỉ đƣợc trình bày sơ lƣợc: