30
Xác định tập thực thể qua 2 bước
Bước 1: Xác định tài liệu cần phân tích thực thể. Các tài liệu được sử dụng đề
phân tích các thực thể biểu diễn sở thích người dùng thỏa mãn hai điều kiện
sau:
o Là các tin tức thuộc phiên duyệt web người dùng
o Là các tin tức có nội dung liên quan đến chủ đề người dùng quan tâm đã
xác định ở quá trình xác định chủ đề ẩn phổ biến.
Bước 2: Trích xuất các thực thể từ các văn bản tin tức.
3.3. Áp dụng mơ hình sở thích người dùng vào tư vấn tin tức
Nghiên cứu của chúng tôi phát triển một mơ hình hệ thống tư vấn sử dụng mơ hình mối quan tâm đề xuất ở phần trước. Trong đó, ý tưởng chung của việc tư vấn dựa trên xem các tin tức tư vấn tiềm năng là các tin tức mang thông tin về chủ đề và các thực thể
người dùng từng quan tâm. Ứng dụng tư vấn được tích hợp trong một hệ thống quản lý
nội dung (Content Management System). Vì vậy, giải pháp được đưa ra là xác định chủ đề và các thực thể nằm trong mỗi tin tức được thực hiện ngay sau khi dữ liệu tin tức được nhập vào cơ sở dữ liệu các tin tức của hệ thống. Khóa luận xem giai đoạn này là pha xử lý phân tích dữ liệu tư vấn. Sau pha này, mỗi tin tức sẽ tương ứng với hai danh sách một danh sách các chủ đề và một danh sách các thực thể. Pha tư vấn trực tuyến thực hiện thu thập thơng tin về sở thích người dùng thơng qua thống kê các chủ đề phổ biến trong phiên duyệt web, sau đó tự động sinh các truy vấn cho cơ sở dữ liệu, kết quả đạt được là dữ liệu
tư vấn liên quan thuộc về nhiều chủ đề và chứa các thông tin về các thực thể người dùng
từng quan tâm.
3.3.1. Pha phân tích dữ liệu tư vấn Input: Mỗi văn bản tin tức. Input: Mỗi văn bản tin tức.
Output: Phân tích chủ đề và thực thể của từng tin tức. Pha phân tích chủ đề ẩn.
o Suy diễn chủ đề ẩn
o Lựa chọn chủ đề chính
31
o Xác định các thực thể
o Lựa chọn thực thể chính
Pha này xử lý các tin tức trước khi được lưu trữ vào cơ sở dữ liệu. Quá trình xử lý gồm hai pha phân tích độc lập.
Phân tích các chủ đề ẩn
Tin tức được suy diễn các chủ đề nó thuộc vào theo một mơ hình chủ đề ẩn đã được huấn luyện. Pha này, được thực hiện bởi hai bước:
Bước 1. Suy diễn chủ đề ẩn:
Nhận đầu vào là các văn bản tin tức, bước này phân tích xác suất các chủ
đề ẩn phản ánh nội dung trong văn bản. Các chủ đề có xác suất lớn hơn là các
Top chủ đề có xác suất cao Top các thực thể có trọng số cao Mơ hình chủ đề Từ điển thực thể Tin tức Suy diễn chủ đề Xác định thực thể Cơ sở dữ liệu tin tức