Thay thế từ đồng nghĩa

Một phần của tài liệu Nghiên cứu, phát triển công cụ sinh mô tả sản phẩm cho thương mại điện tử (Trang 45 - 46)

Một phương pháp hiệu quả khác có thể áp dụng trong tác vụ viết lại văn bản là thay thế một số từ loại bằng từ đồng nghĩa của chúng. Để triển khai phương pháp này, luận văn sử dụng cơ sở dữ liệu từ vựng PPDB 2.012 [35] với hơn 100 triệu cụm từ cùng thư viện nlpaug13. Các tham số của thư viện nlpaug được cấu hình như sau:

aug_min: Số từ thay thế tối thiểu trong văn bản được thiết lập là 1.

aug_max: Số từ thay thế tối đa trong văn bản được thiết lập là 20.

aug_p: Xác suất thay thế từ đồng nghĩa là 0.3

tokenizer: thuật toán tách từ được thiết lập là thuật toán của thư viện nltk14

12 http://paraphrase.org/#/download

13 https://github.com/makcedward/nlpaug

33

stopwords: Danh sách từ dừng được thiết lập là danh sách mặc định trong

corpus của nltk.

Các bước của quá trình thay thế từ loại sử dụng cơ sở dữ liệu PPDB 2.0 bao gồm:

1. Tách từ bằng thuật toán của thư viện nltk, ra kết quả danh sách các token của văn bản đầu vào

2. Đánh dấu từ loại của các token trong danh sách, trong bước này cũng sử dụng mô hình gán nhãn từ loại của thư viện nltk

3. Loại các token là từ dừng, dấu câu hoặc các từ không có từ đồng nghĩa trong mạng từ PPDB 2.0 (có nhãn là “DT”)

4. Lấy ngẫu nhiên danh sách các từ cần tìm từ đồng nghĩa

5. Tìm các từ đồng nghĩa bằng PPDB 2.0, đối với mỗi từ có thể có nhiều từ đồng nghĩa tương ứng, do đó chỉ lấy ngẫu nhiên một từ duy nhất

6. Kết hợp văn bản gốc với các từ đồng nghĩa đã được trích xuất

Một phần của tài liệu Nghiên cứu, phát triển công cụ sinh mô tả sản phẩm cho thương mại điện tử (Trang 45 - 46)