Mơ hình pha phân tích dữ liệu tư vấn

Một phần của tài liệu Giải pháp mở rộng thông tin ngữ cảnh phiên duyệt web người dùng nhằm nâng cao chất lượng tư vấn trong hệ thống tư vấn tin tức (Trang 39 - 41)

32

chủ đề mà nội dung chính của tin tức hướng tới. Chú ý rằng số lượng các chủ đề

ẩn là khơng đổi, và mỗi chủ đề đều có một xác suất phản ánh nội dung của văn

bản. Ví dụ, nếu ta chọn mơ hình với 100 chủ đề ẩn để phân tích, mỗi văn bản

được xác định bởi một vector 100 chiều, với mỗi chiều là một chủ đề và mỗi giá

trị trong các chiều là trọng số xác suất của chủ đề tương ứng.

Bước 2. Xác định top các chủ đề có phân phối cao:

Từ các vector phân phối chủ đề của văn bản tin tức, ta cần xác định đâu là các chủ đề có thể đại diện cho nội dung thơng tin của tin tức. Các chủ đề này có thể được nhận ra bởi hai ràng buộc:

o Số lượng chủ đề có thể biểu diễn nội dung cho một văn bản phải nằm trong một giới hạn.

o Xác suất của chủ đề đó phải lớn hơn một ngưỡng cho trước.

Phân tích các thực thể liên quan.

Vì giá trị của tin tức cịn liên quan đến các thực thể mà nó đề cập tới, ví dụ như tin tức về kì nghỉ của tổng thống có giá trị hơn tin tức về kì nghỉ của một người bình thường.

Pha này xác định các thực thể nằm trong văn bản tin tức. Các thực thể có thể được trích

xuất từ văn bản thông qua hai bước:

Bước 1: Xác định tất cả các thực thể trong nội dung tin tức.

Nếu coi văn bản tin tức tương ứng với một xâu và mỗi thực thể trong từ điển là một mẫu, ta có thể áp dụng một thuật toán đối sánh xâu để nhận ra tất cả các thực thể nằm trong nội dung của tin tức. Kết quả của bước này là một danh sách các thực thể với trọng số là số lần xuất hiện của nó trong văn bản.

Bước 2: Lựa chọn các thực thể có trọng số cao để lưu trữ.

Những thực thể được nhận định là liên quan nhiều hơn tới nội dung của văn bản nếu nó được nhắc tới hơn một số lần nào đó, bước này thực hiện lọc bớt các thực thể xuất hiện quá ít (nhỏ hơn một ngưỡng). Các thực thể được lưu trữ như biểu diễn một phần giá trị của tin tức.

33

3.3.2. Pha tư vấn trực tuyến

Input: Tập Url lưu trong phiên duyệt web. Output: Tập các tin tức tư vấn.

Pha tiền xử lý tập Url trong phiên.

o Đưa các Url về một chuẩn thống nhất, xác định các tin tức trong phiên.

Pha phân tích mối quan tâm người dùng.

o Xác định tin tức trong phiên và các chủ đề tương ứng.

o Phân tích chủ đề ẩn phổ biến.

o Xác định tập thực thể liên quan trong phiên.

Pha xác định các tin tức tư vấn.

o Lọc ra danh sách các tin có cùng chủ đề phổ biến ẩn.

o Xếp hạng lại các tin có liên quan đến nhiều thực thể.

Tập url các tin tức trong phiên

Tiền xử lý CSDL tin

tức

Tập các tin tức trong phiên với các chủ đề ẩn. Thống kê các chủ đề phổ biến Các thực thể người dùng quan tâm trong phiên Truy vấn 1 Truy vấn 2 Các tin tức có chủ đề là chủ đề phổ biến. Truy vấn 3 Xếp hạng lại các tin tức Top các tin tức giành cho tư vấn

Một phần của tài liệu Giải pháp mở rộng thông tin ngữ cảnh phiên duyệt web người dùng nhằm nâng cao chất lượng tư vấn trong hệ thống tư vấn tin tức (Trang 39 - 41)

Tải bản đầy đủ (PDF)

(59 trang)