5 Đề xuất mơ hình gom cụm văn bản dựa trên mơ hình chủ đề kết hợp với véc-tơ ngữ
6.1 Thu thập dữ liệu
6.1.1 Nguồn dữ liệu
Đầu vào dữ liệu liên quan đến thông tin thu thập trên các trang báo mạng, diễn đàn. Vì hiện chưa có một nguồn dữ liệu tiêu chuẩn cho văn bản tiếng Việt trong việc phân cụm và quan sát sự thay đổi theo thời gian(đã tìm hiểu trên website thư viện MìAI, diễn đàn machine learning cơ bản). Do đó việc thu thập dữ liệu được tiến hành bằng việc sử dụng công cụ cào dữ liệu trên trang web có tên là Scrapy(nguồn:https://scrapy.org/).
Scrapy là một thư viện mã nguồn mở, nền tảng cho phép trích xuất dữ liệu từ trang web. Khả năng lấy dữ liệu nhanh chóng, đơn giản và có thể dễ dàng mở rộng tuỳ biến cơng cụ. Được phát triển và duy trì bởi Zyte. Cơng cụ này đơn giản trong cài đặt và xử lý dữ liệu, đã có thư viện sẵn trong ngơn ngữ python. Ngơn ngữ sử dụng là python, dữ liệu có thể định dạng để lưu trữ trên nhiều loại file như csv, excel, ..
Nguồn dữ liệu được lựa chọn lấy từ trang web VnExpress.vn. Đây là trang báo điện tử do tập đoàn FPT thành lập và ra mắt công chúng vào năm 2001. Là một trang web được tin cậy và có nền tảng lâu đời. Nguồn tin trên VnExpress có những ưu điểm bao gồm: nhanh chóng, ngắn gọn và đa dạng.
6.1.2 Q trình thu thập dữ liệu
Quá trình lấy dữ liệu trên nền tảng web với cơng cụ Scrapy gồm các bước:
• Lựa chọn các thông tin cần thiết: Ngày bài báo được công bố, văn bản của bài báo và thể loại bài báo. Ngày bài báo công bố được sử dụng để quan sát sự thay đổi luồng dư luận, văn bản bài báo để huấn luyện mơ hình và thể loại hay chủ đề bài báo để quan sát về sự phân bố dữ liệu trong tập dữ liệu đầu vào.
• Viết một Spider(Class) có nhiệm vụ sẽ lấy thơng tin văn bản trong các url được đặc tả trước về nơi lấy dữ liệu. Thông tin văn bản này sẽ nằm trong các thẻ, các tag html mà Spider sẽ cần phải trích xuất văn bản từ đó.
• Thực hiện chạy cơng cụ cào web với Spider đã tạo và lưu lại dữ liệu về một tệp .csv để có thể sử dụng trong mơ hình.
6.1.3 Kết quả thu thập dữ liệu
Với quá trình thu thập dữ liệu trong những tháng của quý 2 năm 2021, bao gồm 3 tháng(3,4,5) của năm 2021. Tổng lượng dữ liệu thô thu thập được: 16255 bài báo.