Hồ sơ đối tượng tin tức

Một phần của tài liệu (LUẬN văn THẠC sĩ) phản hồi ẩn trong hệ thống gợi ý nội dung (Trang 29 - 31)

Chương 3 : Xây dựng hệ thống gợi ý tin tức sử dụng phản hồi ẩn

3.2. Hồ sơ đối tượng tin tức

Để xây dựng được hệ thống, điều căn bản nhất với các hệ thống gợi ý tin tức chính là hồ sơ đối tượng tin tức. Chính vì vậy, cần phải có được module thu thập tin tức sau đó mới tạo được hồ sơ của đối tượng tin tức.

Module thu thập tin tức có nhiệm vụ lấy danh sách các nguồn RSS từ cơ sở dữ liệu rồi từ đó kết nối tới trang báo qua các liên kết của RSS, lấy nội dung các tin tức là các đoạn mã HTML được máy chủ các trang báo trả về. Sau đó, module thu thập tin tức sẽ gửi các đoạn mã HTML của tin tức sang module tạo hồ sơ đối tượng.

Các trang báo

Module thu thập tin tức

Lấy mã HTML của URL chứa tin

Cơ sở dữ liệu

Các nguồn RSS

Hình 3.4: Quá trình thu thập tin tức

Như đã trình bày trong chương 2, hồ sơ đối tượng tin tức đại diện được biểu diễn dưới dạng đếm số lần xuất hiện của token: di = {(token1i, count1i), …, (tokenxi, countxi)},

với x là số token của bài báo i.

Quá trình tạo hồ sơ đối tượng tin tức đã được hệ thống xenoNews thực hiện từ trước nên tôi không đi sâu vào quá trình này. Hình 3.5 mô tả quá trình tạo hồ sơ đối tượng tin tức trong hệ thống.

Nội dung HTML của tin

Đẩy ra nội dung HTML từ các báo

Nội dung dạng thô Loại bỏ các tag HTML Nội dung dạng các token Phân đoạn từ Chuỗi các token sạch Loại bỏ các từ dừng

Hồ sơ đối tượng

tin tức

Xây dựng hồ sơ đối tượng tin tức

Module thu thập

tin tức

Một phần của tài liệu (LUẬN văn THẠC sĩ) phản hồi ẩn trong hệ thống gợi ý nội dung (Trang 29 - 31)