Tổng quan về quá trình tiền xử lý

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân tích quan điểm cho các bài viết chính trị từ mạng xã hội (Trang 41 - 43)

Tiền xử lý sẽ thực hiện thu thập thông tin về bài viết, chuyên mục từ các mạng xã hội trên môi trường Internet thông qua Crawler, sau quá trình biến đối các dữ liệu được thống nhất theo một quy chuẩn cụ thể. Dữ liệu sau khi được tiền xử lý sẽ đảm bảo một số ràng buộc nhất định như không tồn các ký

tự đặc biệt, dữ liệu rác, các thẻ html lẫn vào, đặc biệt là đã được tách thành các cụm từ ghép,… việc này sẽ đảm bảo các bước tiếp theo diễn ra chính xác hơn.

Hình 3-2 Các bước xử lý ngôn ngữ tự nhiên

Quá trình tiền xử lý đối với bài toán này, các công đoạn và các phương pháp như sau:

- Loại bỏ các thẻ html. Ví dụ: <div></div>, <span></span>, ... Phương pháp thực hiện: sử dụng bộ từ điển Social Language.

- Loại bỏ các icon, sticker. Ví dụ: :v, :D, :), ... Phương pháp thực hiện: sử dụng bộ từ điển hư từ.

- Tách từ: gom nhóm các từ đơn liền kề thành cụm từ có ý nghĩa, nhằm khử sự nhập nhằng về ngữ nghĩa. Phương pháp thực hiện: sử dụng công cụ Underthesea.

- Loại bỏ hư từ: nhằm loại bỏ stop word để tránh các thông tin nhiễu trong quá trình phân tích, ví dụ: “bấy nhiêu”, “nhé”, … Phương pháp thực hiện: sử dụng bộ từ điển hư từ.

- Chuẩn hóa dữ liệu: chuẩn hóa các từ viết tắt, sai chính tả, tiếng lóng, v.v… Phương pháp thực hiện: sử dụng bộ từ điển Social Language.

Tại mỗi công đoạn của các bước tiền xử lý dữ liệu có nhiều phương pháp được thực vận dụng như sử dụng từ điển, sử dụng công cụ lập trình, v.v… sẽ được giới thiệu tổng quát qua các phần tiếp theo.

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân tích quan điểm cho các bài viết chính trị từ mạng xã hội (Trang 41 - 43)

Tải bản đầy đủ (PDF)

(86 trang)