Mơ hình triển khai thực tế triển khai bài tốn phân loại tin tức

Một phần của tài liệu (LUẬN văn THẠC sĩ) xử lý trùng lặp, phân loại, xác định từ khóa quan trọng và sinh tóm tắt cho văn bản trong một hệ thống thu thập tin tức tự động (Trang 43 - 45)

Dữ liệu mẫu sau khi được tiền xử lý sẽ được tách từ khĩa và xây dựng đặc trưng, đặc trưng ở đây đây được thử nghiệm bằng TF-IDF trọng số từ trong nội dung tin và đưa vào triển khai huấn luyện mơ hình với thuật tốn SVM để tạo ra mơ hình (model) sau huấn luyện.

Một bản tin mới chưa được phân danh mục được xử lý và biểu diễn dưới dạng Vector với trọng số cũng là TF-IDF sẽ được tham chiếu với mơ hình sau huấn luyện để kết luận văn bản đĩ thuộc danh mục nào.

Một số yếu tố đĩng gĩp quyết định đến chất lượng của bộ phân lớp:

- Dữ liệu mẫu được cần lựa chọn rất kĩ để đảm bảo đặc trưng của từng lớp văn bản bộ dữ liệu mẫu trong luận văn được sự hỗ trợ của nhĩm biên tập viên chọn lọc từ các danh mục của báo điện tử VNExpress. Tiêu chuẩn của dữ liệu mẫu cũng được xem xét, một tin mẫu được xác định là chuẩn với độ dài là lớn hơn 300 và nhỏ hơn 4000 kí tự - một bản tin khơng quá ngắn và cũng khơng quá dài.

- Các chủ đề được phân loại kép chia các chủ đề ra các danh mục nhỏ hơn, ví dụ tin tức được chia thành 2 danh mục lớn là tin trong nước và tin nước ngồi, trong danh mục tin trong nước sẽ cĩ những danh mục con khác, và danh mục tin nước ngồi cũng vậy.

- Việc lựa chọn đặc trưng cũng được xem xét chỉ nên lấy phần tiêu đề và mơ tả, và các câu quan trọng trong bài, hay cả nội dung bài để xây dựng nên vector bản tin.

- Với bộ phân lớp sử dụng SVM cần thực hiện tùy chỉnh các tham số để kiểm nghiệm nhằm đạt được kết quả phân loại tốt nhất.

- Ngồi ra cịn cĩ bộ nhận dạng danh mục theo các đặc tính khác của tin tức chẳn hạn dựa vào URL của tin tức như slug ( một dạng danh mục được đánh dấu trên URL của tin tức ), hoặc cĩ thể dựa vào cách bài trí nội dung HTML thơ thẻ chọn nhấn mạnh trong CSS của trang tin, Một số tin tức cũng thường cho biết chủ đề từ việc trích xuất các vi định dạng ( microformat ) và chuẩn schema.org – tiêu chuẩn đánh dấu thơng tin của trang web ngữ nghĩa.

3.4.Giải quyết bài tốn xác định từ khĩa quan trọng và chọn câu tĩm tắt 3.4.1. Yêu cầu bài tốn thực tế 3.4.1. Yêu cầu bài tốn thực tế

Một phần của tài liệu (LUẬN văn THẠC sĩ) xử lý trùng lặp, phân loại, xác định từ khóa quan trọng và sinh tóm tắt cho văn bản trong một hệ thống thu thập tin tức tự động (Trang 43 - 45)

Tải bản đầy đủ (PDF)

(59 trang)