Đặc trƣng của hệ thống gợi ý tin tức

Một phần của tài liệu Hệ gợi ý (Trang 45 - 46)

Hệ thống gợi ý tin tức là một lĩnh vực giàu tiềm năng bởi số lƣợng các đối tƣợng gợi ý, số lƣợng ngƣời dùng và số lƣợt sử dụng cao hơn nhiều so với các đối tƣợng gợi ý khác. Tuy nhiên, đi kèm theo đĩ là các khĩ khăn về các đặc trƣng riêng cĩ của miền đối tƣợng tin tức cũng nhƣ các đặc trƣng chung của ngƣời sử dụng gợi ý.

Tin tức là một đối tƣợng gợi ý đặc biệt, các đặc trƣng sau của tin tức giúp đƣa ra các giải pháp hữu hiệu hơn trong xây dựng giải pháp gợi ý:

 Tính khơng đồng nhất giá trị: Giá trị của tin tức chỉ cĩ thể đƣợc xác định bằng cách kết hợp các yếu tố: nội dung thơng tin của bản tin, nguồn tin, thời điểm xuất bản, nhà xuất bản, tác giả, ngƣời nhận tin,…

 Tính dễ sinh ra: một số lƣợng lớn tin tức cĩ thể sinh ra ở cùng một sự kiện, hiện tƣợng.

 Tính thời gian: theo thời gian, tin tức mất đi giá trị, địi hỏi hệ thống phải gợi ý kịp thời. Hệ thống gợi ý từ dữ liệu đƣợc lấy trong khoảng thời gian „x‟ ngày trƣớc đĩ.

Khi xem xét đến yếu tố phù hợp giữa đối tƣợng gợi ý và mối quan tâm ngƣời dùng, các đặc trƣng về mối quan tâm của ngƣời dùng cũng cần đƣợc xem xét.

 Tính đa quan tâm: Tại một thời điểm, ngƣời dùng cĩ thể cĩ nhiều mối quan tâm khác nhau. Ví dụ: họ cĩ thể quan tâm đến các thơng tin về cả kinh tế và chính trị.

 Tính thay mới: Mối quan tâm của họ cĩ thể phân chia thành 3 loại chính: các mối quan tâm dài hạn, các mối quan tâm trung hạn và các mối quan tâm ngắn hạn. Tính thay mới cĩ thể diễn ra ở cả ba loại mối quan tâm này, tuy

45

Học viên thực hiện: Nguyễn Văn Thịnh CB130460 Khĩa 2013B Lớp CNTT1

nhiên tốc độ thay mới của các mối quan tâm ngắn hạn là nhanh nhất và nĩ cũng cĩ ƣu thế hơn khi dùng để gợi ý các tin tức, vốn liên tục đƣợc sinh ra.

3.2. Phƣơng pháp gợi ý dựa theo nội dung.

Hệ thống gợi ý dựa trên nội dung khơng gặp phải vấn đề thƣa thớt dữ liệu, cĩ thể gợi ý tốt những bài báo mới chƣa cĩ nhiều đánh giá hoặc những bài báo ít đƣợc ƣa thích bởi số đơng ngƣời dùng.

Một số phƣơng pháp cĩ thể đƣợc sử dụng để tạo ra một vector đặc trƣng về nội dung cho các bài báo. Để cĩ đƣợc vector đặc trƣng cho các bài báo thì cần thu thập dữ liệu là thành phần chính của bài báo (tiêu đề, miêu tả, nội dung), sau đĩ thực hiện tiền xử lý dữ liệu nhƣ tách từ, loại bỏ từ dừng...

Một vector đặc trƣng C cho một bài báo đƣợc định nghĩa nhƣ sau:

C = ( , , ... , ).

Với n là số lƣợng thuật ngữ (term) khác nhau trong bài báo và giá trị là trọng số biểu thị mức độ quan trọng của từ thứ i. Tính tốn trọng số của từ là vấn đề quan trọng một phần cho thấy những đặc điểm của tài liệu và cũng là một điểm chính trong phƣơng pháp gợi ý dựa trên nội dung . Chú ý là dữ liệu một bài báo cụ thể sẽ gồm 3 phần chính: tiêu đề, miêu tả, nội dung sẽ đƣợc sử dụng để biểu diễn bài báo.

Một phần của tài liệu Hệ gợi ý (Trang 45 - 46)

Tải bản đầy đủ (PDF)

(91 trang)