Giới thiệu về các bộ từ điển

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân tích quan điểm cho các bài viết chính trị từ mạng xã hội (Trang 43 - 46)

Phương pháp sử dụng từ điển là một phương pháp tương đối đơn giản về cách triển khai. Bằng cách này, chúng ta sử dụng một hay nhiều tập các từ điển làm căn cứ để đối chiếu tham khảo với các đối tượng cần kiểm tra. Nếu đối tượng cần kiểm tra có xuất hiện trong từ điển, hệ thống có thể triển khai các hành động tiếp theo một cách phù hợp. Việc sử dụng từ điển cũng góp phần giới hạn sự xuất hiện của các đối tượng đặc biệt hoặc xuất hiện quá ít, đưa chúng về các trường hợp phổ biến và cụ thể hơn.

Trong giai đoạn xây dựng tiền xử lý dữ liệu, khía cạnh chính trị hiện nay quan tâm xác định các từ từ môi trường mạng xã hội (Social Language) và hư từ (Stopwords). Trong quá trình thực hiện bài luận văn đã tiến hành tổng hợp các bộ từ điển này qua các dự án khác nhau có sử dụng và bổ sung thêm từ vựng để tạo nên bộ từ điển phù hợp.

- Giới thiệu từ điển Social Language

Từ điển Social Language là danh sách bao gồm các từ teen code, tiếng lóng, tiếng địa phương, từ viết tắt, v.v… Tương ứng với mỗi từ trong từ điển là từ viết đúng chính tả, ngữ ngáp tiếng Việt.

Từ điển Vietnamese Social Language: được lưu dưới dạng tập tin .json, mỗi dòng là một từ có dạng: {"incorrect": <incorrect word>, "correct": <correct word>}

- Giới thiệu từ điển hư từ:

Từ điển hư từ: được lưu dưới dạng tập tin .txt. Ngoài những hư từ dưới dạng văn bản thuần, từ điển còn có cả các emoji với mục đích làm sạch dữ liệu để quá trình xử lý ở các bước sau hiệu quả hơn. Mỗi dòng của từ điển chứa một hư từ. Từ điển hư từ được nhóm sử dụng là một công trình mã nguồn mở.

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân tích quan điểm cho các bài viết chính trị từ mạng xã hội (Trang 43 - 46)

Tải bản đầy đủ (PDF)

(86 trang)