Pha phân tích dữ liệu tư vấn

Một phần của tài liệu ĐỀ TÀI " GIẢI PHÁP MỞ RỘNG THÔNG TIN NGỮ CẢNH PHIÊN DUYỆT WEB NGƯỜI DÙNG NHẰM NÂNG CAO CHẤT LƯỢNG TƯ VẤN TRONG HỆ THỐNG TƯ VẤN TIN TỨC " pot (Trang 38 - 41)

Input: Mỗi văn bản tin tức.

Output: Phân tích chủ đề và thực thể của từng tin tức.

Pha phân tích chủ đề ẩn.

o Suy diễn chủ đề ẩn

o Lựa chọn chủ đề chính

31

o Xác định các thực thể

o Lựa chọn thực thể chính

Pha này xử lý các tin tức trước khi được lưu trữ vào cơ sở dữ liệu. Quá trình xử lý

gồm hai pha phân tích độc lập.

Phân tích các chủ đề ẩn

Tin tức được suy diễn các chủ đề nó thuộc vào theo một mô hình chủ đề ẩnđã được

huấn luyện. Pha này, được thực hiện bởi hai bước:

Bước 1. Suy diễn chủ đềẩn:

Nhận đầu vào là các văn bản tin tức, bước này phân tích xác suất các chủ đề ẩn phản ánh nội dung trong văn bản. Các chủ đề có xác suất lớn hơn là các

Top chủ đề có xác suất cao Top các thực thể có trọng số cao Mô hình chủ đề Từ điển thực thể Tin tức Suy diễn chủ đề Xác định thực thể Cơ sở dữ liệu tin tức

32

chủ đề mà nội dung chính của tin tức hướng tới. Chú ý rằng số lượng các chủ đề

ẩn là không đổi, và mỗi chủđề đều có một xác suất phản ánh nội dung của văn

bản. Ví dụ, nếu ta chọn mô hình với 100 chủ đề ẩn để phân tích, mỗi văn bản

được xác định bởi một vector 100 chiều, với mỗi chiều là một chủ đề và mỗi giá

trị trong các chiều là trọng số xác suất của chủ đềtương ứng.

Bước 2.Xác định top các chủ đề có phân phối cao:

Từ các vector phân phối chủ đề của văn bản tin tức, ta cần xác định đâu là các chủ đề có thể đại diện cho nội dung thông tin của tin tức. Các chủ đề này có thể được nhận ra bởi hai ràng buộc:

o Số lượng chủ đề có thể biểu diễn nội dung cho một văn bản phải nằm

trong một giới hạn.

o Xác suất của chủ đề đó phải lớn hơn một ngưỡng cho trước.

Phân tích các thực thể liên quan.

Vì giá trị của tin tức còn liên quan đến các thực thể mà nó đề cập tới, ví dụ như tin

tức về kì nghỉ của tổng thống có giá trị hơn tin tức về kì nghỉ của một người bình thường. Pha này xác định các thực thể nằm trong văn bản tin tức. Các thực thể có thể được trích

xuất từ văn bản thông qua hai bước:

Bước 1:Xác định tất cả các thực thể trong nội dung tin tức.

Nếu coi văn bản tin tức tương ứng với một xâu và mỗi thực thể trong từ điển

là một mẫu, ta có thể áp dụng một thuật toán đối sánh xâu để nhận ra tất cả các

thực thể nằm trong nội dung của tin tức. Kết quả của bước này là một danh sách

các thực thể với trọng số là số lần xuất hiện của nó trong văn bản.

Bước 2: Lựa chọn các thực thể có trọng số cao để lưu trữ.

Những thực thể được nhận định là liên quan nhiều hơn tới nội dung của văn

bản nếu nó được nhắc tới hơn một số lần nào đó, bước này thực hiện lọc bớt các

thực thể xuất hiện quá ít (nhỏ hơn một ngưỡng). Các thực thể được lưu trữ như

33

Một phần của tài liệu ĐỀ TÀI " GIẢI PHÁP MỞ RỘNG THÔNG TIN NGỮ CẢNH PHIÊN DUYỆT WEB NGƯỜI DÙNG NHẰM NÂNG CAO CHẤT LƯỢNG TƯ VẤN TRONG HỆ THỐNG TƯ VẤN TIN TỨC " pot (Trang 38 - 41)

Tải bản đầy đủ (PDF)

(59 trang)