Pha tư vấn trực tuyến

Một phần của tài liệu ĐỀ TÀI " GIẢI PHÁP MỞ RỘNG THÔNG TIN NGỮ CẢNH PHIÊN DUYỆT WEB NGƯỜI DÙNG NHẰM NÂNG CAO CHẤT LƯỢNG TƯ VẤN TRONG HỆ THỐNG TƯ VẤN TIN TỨC " pot (Trang 41 - 44)

Input: Tập Url lưu trong phiên duyệt web.

Output: Tập các tin tức tư vấn.

Pha tiền xử lý tập Url trong phiên.

o Đưa các Url về một chuẩn thống nhất, xác định các tin tức trong phiên.

Pha phân tích mối quan tâmngười dùng.

o Xác định tin tức trong phiên và các chủđề tương ứng.

o Phân tích chủ đề ẩn phổ biến.

o Xác định tập thực thể liên quan trong phiên.  Pha xác định các tin tức tư vấn.

o Lọc ra danh sách các tin có cùng chủ đề phổ biếnẩn.

o Xếp hạng lại các tin có liên quan đến nhiều thực thể.

Tập url các tin tức trong phiên

Tiền xử lý CSDL tin

tức

Tập các tin tức trong phiên với các chủ đề ẩn. Thống kê các chủ đề phổ biến Các thực thể người dùng quan tâm trong phiên Truy vấn 1 Truy vấn 2 Các tin tức có chủ đề là chủ đề phổ biến. Truy vấn 3 Xếp hạng lại các tin tức Top các tin tức giành cho tư vấn

34

Tiền xử lý dữ liệu

Các Url lưu trong phiên người dùng được đưa về dạng chuẩn và thống nhất.

 Loại bỏ các Url không tương ứng với một tin tức chi tiết.

 Đưa các Url về dạng chuẩn, loại bỏ các tham số thừa.

Ví dụ: www.bestnews4u.com?newsid=20#top

www.bestnews4u.com?newsid=20

 Loại bỏ các Url trùng lặp.

 Lọc lấy trường định danh tin tức (newsid) trong các địa chỉ Url.

Phân tích sở thích người dùng

Như đã trình bày trong chương 3, sở thích người dùng có thể được xác định thông

qua các chủ đề phổ biến và các thực thể. Để nâng cao tốc độ đáp ứng, các phân tích về

chủ đề và thực thể cho từng tin tức đã được thực hiện trong pha phân tích dữ liệu tư vấn. Vì vậy, sở thích người dùng có thể trực tiếp trích xuất từ cơ sở dữ liệu. Một cách hình thức, công việc này gồm ba bước:

Bước 1. Trích xuất từcơ sở dữ liệu các tin tức trong phiên và các chủ đề tương ứng. (truy vấn 1như minh họa hình 14) .

Bước 2. Thống kê các chủ đề ẩn phổ biến:

Từ dữ liệu thu được ở bước 1, hệ thống thống kê các chủ đề xuất hiện lặp lại

trên các tin tức. (adsbygoogle = window.adsbygoogle || []).push({});

Trong thực tế, khi số lượng các tin tức trong phiên còn ít, chưa có sự chồng

lấn về chủ đề hay các tin tức có thể nằm ở những chủ đề riêng rẽ. Do vậy, hệ thống chưa thể xác định được chủ đề nào được quan tâm phổ biến, giải pháp cho tình huống này là lựa chọn các chủ đề của tin tức gần nhất được người dùng truy cập. Trong các trường hợp còn lại, một ngưỡngnào đó được sử dụng để xác định tính phổ biến của chủ đề.

Bước 3.Xác định tập thực thể trong các tin tức thuộc các chủ đề ẩn phổ biến:

Mỗi tin tức có nội dung liên quan đến một tập hợp các thực thể. Sau khi đã

xác định được các chủ đề phổ biến, cần có một phương pháp xác định thực thể vừa

35

(có thể có những tin tức không thuộc về chủ đề phổ biến). Vì vậy, truy vấn thực

hiện trích xuất các thực thể cần thỏa mãn hai ràng buộc (truy vấn 2 như minh họa

hình 14):

o Thuộc vào các tin tức trong phiên.

o Thuộc vào các tin tức có chủ đề là chủ đề phổ biến.

Tư vấn tin tức

Giai đoạn cuối cùng của tiến trình tư vấn là tìm ra những tin tức phù hợp nhất với

sở thích người dùng. Vì vậy, sự tư vấn có thể đạt được theo hai bước sau:

Bước 1:Xác định các tin tức ứng viên từ tập các tin tức có thể tin vấn.

Hệ thống lọc ra các tin tức thuộc vào cùng chủ đề với mối quan tâm người

dùng, thông qua đối sánh chủ đề ẩn của các tin tức trong cơ sở dữ liệu và chủ đề ẩn

được phân tích là được người dùng quan tâm phổ biến (truy vấn 3 minh họa hình

14).

Bước 2: Xếp hạng lại các tin tức.

Kết quả của bước 1 là một lớp các tin tức có thể người dùng quan tâm ở mức

chủ đề, có thể có quá nhiều tin tức như vậy, do vậy cần có một giải pháp xếp hạng

lại các tin tức này. Một giải pháp có thể triển khai dựa trên ý tưởng một phần tiêu chí ra quyết định của người dùng phụ thuộcở việc xem xét tin tức đó có liên quan

đến các thực thể đang được họ quan tâm hay không.

Từ tập thực thể của các tin tức tư vấn tiềm năng, hạng của một tin tức được

xác định bằng số thực thể nó đề cập tới thuộc vào danh sách các thực thể người

dùng quan tâm trong phiên duyệt webđã được phân tích trong pha trước.  Bước 3:Tư vấn top các tin tức xếp hạng cao nhất.

Quá trình xếp hạng cho ra một danh sách các tin tức được sắp xếp theo thứ tự

giảm dần về mức độ liên quan tới các thực thể người dùng đang quan tâm. Bước

36 (adsbygoogle = window.adsbygoogle || []).push({});

Một phần của tài liệu ĐỀ TÀI " GIẢI PHÁP MỞ RỘNG THÔNG TIN NGỮ CẢNH PHIÊN DUYỆT WEB NGƯỜI DÙNG NHẰM NÂNG CAO CHẤT LƯỢNG TƯ VẤN TRONG HỆ THỐNG TƯ VẤN TIN TỨC " pot (Trang 41 - 44)