Chương 3 : Xây dựng hệ thống gợi ý tin tức sử dụng phản hồi ẩn
3.2. Hồ sơ đối tượng tin tức
Để xây dựng được hệ thống, điều căn bản nhất với các hệ thống gợi ý tin tức chính là hồ sơ đối tượng tin tức. Chính vì vậy, cần phải có được module thu thập tin tức sau đó mới tạo được hồ sơ của đối tượng tin tức.
Module thu thập tin tức có nhiệm vụ lấy danh sách các nguồn RSS từ cơ sở dữ liệu rồi từ đó kết nối tới trang báo qua các liên kết của RSS, lấy nội dung các tin tức là các đoạn mã HTML được máy chủ các trang báo trả về. Sau đó, module thu thập tin tức sẽ gửi các đoạn mã HTML của tin tức sang module tạo hồ sơ đối tượng.
Các trang báo
Module thu thập tin tức
Lấy mã HTML của URL chứa tin
Cơ sở dữ liệu
Các nguồn RSS
Hình 3.4: Quá trình thu thập tin tức
Như đã trình bày trong chương 2, hồ sơ đối tượng tin tức đại diện được biểu diễn dưới dạng đếm số lần xuất hiện của token: di = {(token1i, count1i), …, (tokenxi, countxi)},
với x là số token của bài báo i.
Quá trình tạo hồ sơ đối tượng tin tức đã được hệ thống xenoNews thực hiện từ trước nên tôi không đi sâu vào quá trình này. Hình 3.5 mô tả quá trình tạo hồ sơ đối tượng tin tức trong hệ thống.
Nội dung HTML của tin
Đẩy ra nội dung HTML từ các báo
Nội dung dạng thô Loại bỏ các tag HTML Nội dung dạng các token Phân đoạn từ Chuỗi các token sạch Loại bỏ các từ dừng
Hồ sơ đối tượng
tin tức
Xây dựng hồ sơ đối tượng tin tức
Module thu thập
tin tức