Các đặc trưng riêng của tin tức

Một phần của tài liệu Chọn lọc thông tin dựa trên nội dung ứng dụng xây dựng hệ thống gợi ý tin tức theo nhu cầu người dùng (Trang 27)

Để có thể xây dựng một hệ thống gợi ý tin tức hiệu quả, ta cần phải lưu tâm đến những đặc trưng riêng sau của tin tức, khi so sánh với đối tượng trong các Hệ thống gợi ý khác:

- Khối lượng dữ liệu lớn: tin tức mới thường xuất hiện nhiều chỉ trong một thời gian

ngắn, vì vậy cần nhiều năng lực tính toán để đưa ra gợi ý.

- Không có cấu trúc: vì chỉ là một chuỗi các từ ngữ được ghép lại với nhau, định

dạng không có cấu trúc đó của tin tức đó khiến cho việc phân tích và tiền xử lý dữ liệu gặp nhiều khó khăn hơn. Đặc biệt là với tiếng Việt, hệ thống cần trải qua quá

trình tiền xử lý tốn kém thời gian để tách văn bản thành các từ có nghĩa (các

token), so với nhiều ngôn ngữ khác như tiếng Anh.

- Tính tức thời: tin tức thường có chu kỳ sống ngắn, nghĩa là sẽ mất giá trị rất nhanh,

thường chỉ sau một hoặc vài ngày.

- Tính phụ thuộc vào chủ thể thông tin: hầu hết tin tức đều mô tả sự kiện, đối tượng

cụ thể. Độc giả thường bị thu hút ngay bởi các thông tin như cái gì, ai, khi nào, ở đâu của sự kiện.

- Quá trình lựa chọn tin tức và Xếp hạng: sự hứng thú của người dùng với tin tức có

thay đổi liên tục, tuỳ thuộc vào các tin mà họ (và có thể là cả những người khác) quan tâm.

- Khả năng mở rộng: khả năng mở rộng của hệ thống gợi ý tin tức thường yêu cầu

các thuật toán đột phá và cả năng lực tính toán để xử lý dữ liệu lớn.Ví dụ, Google sử dụng mô hình có tên Map-reduce nhằm phân tán việc tính toán tập ngữ liệu lớn lên rất nhiều cụm máy tính, nằm rải rác khắp toàn cầu.

Chương 3: Hệ thống gợi ý tin tức tiếng Việt

xenoNews

Nội dung chính của chương mô tả bản mẫu hệ thống gợi ý tin tức tiếng Việt – xenoNews mà tôi xây dựng trong quá trình thực hiện luận văn này, bao gồm: kiến trúc hệ thống, mô hình người dùng, mô hình đại diện của đối tượng tin tức, giao diện web, …

Thứ tự trình bày các nội dung của chương bám sát các bước thực tế tôi đã tiến hành để tiến hành:

- Chọn lựa hướng tiếp cận và Mô hình xây dựng hệ thống - Phác thảo các yêu cầu hệ thống cần đạt được

- Xây dựng kiến trúc chi tiết của hệ thống

- Mô hình hoá các tin tức và xây dựng hồ sơ người dùng - Xây dựng Website

Trước tiên, cần lưu ý rằng xenoNews không phải là một trang báo điện tử, mà là một dịch vụ gợi ý tin tức, với nguồn tin lấy từ các báo mạng hay trang tin phổ biến đối với độc giả Việt Nam. Từ góc nhìn của người dùng, hệ thống được coi là ứng dụng web, có chức năng chính là phân tích thói quen, hành vi người dùng, từ đó hiển thị ra các tin tức phù hợp.

Một phần của tài liệu Chọn lọc thông tin dựa trên nội dung ứng dụng xây dựng hệ thống gợi ý tin tức theo nhu cầu người dùng (Trang 27)