Mơ hình pha tư vấn trực tuyến

Một phần của tài liệu Giải pháp mở rộng thông tin ngữ cảnh phiên duyệt web người dùng nhằm nâng cao chất lượng tư vấn trong hệ thống tư vấn tin tức (Trang 41 - 47)

34

Tiền xử lý dữ liệu

Các Url lưu trong phiên người dùng được đưa về dạng chuẩn và thống nhất.

 Loại bỏ các Url không tương ứng với một tin tức chi tiết.

 Đưa các Url về dạng chuẩn, loại bỏ các tham số thừa.

Ví dụ: www.bestnews4u.com?newsid=20#top

 www.bestnews4u.com?newsid=20

 Loại bỏ các Url trùng lặp.

 Lọc lấy trường định danh tin tức (newsid) trong các địa chỉ Url.

Phân tích sở thích người dùng

Như đã trình bày trong chương 3, sở thích người dùng có thể được xác định thơng

qua các chủ đề phổ biến và các thực thể. Để nâng cao tốc độ đáp ứng, các phân tích về chủ đề và thực thể cho từng tin tức đã được thực hiện trong pha phân tích dữ liệu tư vấn. Vì vậy, sở thích người dùng có thể trực tiếp trích xuất từ cơ sở dữ liệu. Một cách hình thức, công việc này gồm ba bước:

Bước 1. Trích xuất từ cơ sở dữ liệu các tin tức trong phiên và các chủ đề tương

ứng. (truy vấn 1 như minh họa hình 14) .

Bước 2. Thống kê các chủ đề ẩn phổ biến:

Từ dữ liệu thu được ở bước 1, hệ thống thống kê các chủ đề xuất hiện lặp lại trên các tin tức.

Trong thực tế, khi số lượng các tin tức trong phiên cịn ít, chưa có sự chồng lấn về chủ đề hay các tin tức có thể nằm ở những chủ đề riêng rẽ. Do vậy, hệ thống

chưa thể xác định được chủ đề nào được quan tâm phổ biến, giải pháp cho tình

huống này là lựa chọn các chủ đề của tin tức gần nhất được người dùng truy cập.

Trong các trường hợp cịn lại, một ngưỡng nào đó được sử dụng để xác định tính

phổ biến của chủ đề.

Bước 3. Xác định tập thực thể trong các tin tức thuộc các chủ đề ẩn phổ biến:

Mỗi tin tức có nội dung liên quan đến một tập hợp các thực thể. Sau khi đã

xác định được các chủ đề phổ biến, cần có một phương pháp xác định thực thể vừa

35

(có thể có những tin tức khơng thuộc về chủ đề phổ biến). Vì vậy, truy vấn thực hiện trích xuất các thực thể cần thỏa mãn hai ràng buộc (truy vấn 2 như minh họa hình 14):

o Thuộc vào các tin tức trong phiên.

o Thuộc vào các tin tức có chủ đề là chủ đề phổ biến.

Tư vấn tin tức

Giai đoạn cuối cùng của tiến trình tư vấn là tìm ra những tin tức phù hợp nhất với

sở thích người dùng. Vì vậy, sự tư vấn có thể đạt được theo hai bước sau:  Bước 1: Xác định các tin tức ứng viên từ tập các tin tức có thể tin vấn.

Hệ thống lọc ra các tin tức thuộc vào cùng chủ đề với mối quan tâm người

dùng, thông qua đối sánh chủ đề ẩn của các tin tức trong cơ sở dữ liệu và chủ đề ẩn được phân tích là được người dùng quan tâm phổ biến (truy vấn 3 minh họa hình

14).

Bước 2: Xếp hạng lại các tin tức.

Kết quả của bước 1 là một lớp các tin tức có thể người dùng quan tâm ở mức chủ đề, có thể có quá nhiều tin tức như vậy, do vậy cần có một giải pháp xếp hạng lại các tin tức này. Một giải pháp có thể triển khai dựa trên ý tưởng một phần tiêu chí ra quyết định của người dùng phụ thuộc ở việc xem xét tin tức đó có liên quan

đến các thực thể đang được họ quan tâm hay không.

Từ tập thực thể của các tin tức tư vấn tiềm năng, hạng của một tin tức được

xác định bằng số thực thể nó đề cập tới thuộc vào danh sách các thực thể người

dùng quan tâm trong phiên duyệt web đã được phân tích trong pha trước.  Bước 3: Tư vấn top các tin tức xếp hạng cao nhất.

Quá trình xếp hạng cho ra một danh sách các tin tức được sắp xếp theo thứ tự giảm dần về mức độ liên quan tới các thực thể người dùng đang quan tâm. Bước này, hệ thống chọn ra N tin tức tiềm năng nhất để tư vấn tới người đọc.

36

3.4. Đánh giá kết quả tư vấn.

Việc đánh giá chất lượng của tin tức tư vấn trả về bởi hệ thống là một bài tốn khó, vì khơng có một độ đo ngữ nghĩa đánh giá chính xác được sự phù hợp giữa người dùng và tin tức hệ thống trả lại.

Herlocker [18] đưa ra hai nguyên nhân chủ yếu dẫn tới việc đánh giá các hệ thống

tư vấn là khó khăn. Nguyên nhân đầu tiên là chất lượng của hệ tư vấn phụ thuộc vào tập

dữ liệu sử dụng. Một hệ tư vấn tin tức có mơ hình tốt chưa chắc đã tư vấn tốt hơn một hệ

tư vấn có dữ liệu tốt (như một cơ sở dữ liệu tin tức phong phú). Nguyên nhân thứ hai là

việc đánh giá hệ tư vấn có thể hướng tới các mục tiêu khác nhau. Trong một số hệ thống,

các đánh giá có thể dựa trên số lần tư vấn dẫn đến quyết định đúng và sai. Trong một số khác, các đánh giá có thể dựa trên xem xét người dùng hài lịng hoặc khơng hài lòng đối

với các kết quả tư vấn.

Do các nguyên nhân này, để đánh giá tính đúng đắn của mơ hình tư vấn đã được

đề xuất, chúng tôi chủ yếu dựa vào việc thu thập ý kiến người sử dụng về kết quả tư vấn.

Bên cạnh đó, dựa vào kết quả nghiên cứu về phân tích sở thích của người sử dụng thơng qua lịch sử trình duyệt (history browser) được chúng tơi đề xuất trong cơng trình nghiên cứu sinh viên 2010 [1], chúng tôi đưa ra một phương pháp đánh giá tự động mơ hình phân tích sở thích dựa vào sự tương đồng giữa sở thích nổi trội trong phiên duyệt web với sở thích nổi trội của lịch sử duyệt web của người sử dụng trong cùng một thời

điểm. Phương pháp đánh giá này sẽ xem xét sự tương đồng giữa sở thích của người sử

dụng trên nhiều trang và sở thích người sử dụng trên hệ thống để đưa ra sự đánh giá. Chúng tơi so sánh 2 loại sở thích trên bằng cách lấy 3 chủ đề ẩn phổ biến nhất của 2 loại sở thích ra làm đại diện, nếu giữa chúng có sự xuất hiện của 1 chủ đề cụ thể nào thì xem

37

Chương 4: Thực nghiệm và đánh giá

4.1. Môi trường thực nghiệm

Bảng 5. Môi trường thực nghiệm.

Thành phần Thông số

CPU Core 2 Duo 2.0 GHz

RAM 2 GB HDD 320 GB OS Windows 7 Ultimate 4.2. Dữ liệu và công cụ 4.2.1. Dữ liệu Dữ liệu tư vấn

Để xây dựng bộ dữ liệu tư vấn của hệ thống, chúng tôi thu thập dữ liệu từ 3 trang

web là: Dantri, Vnexpress, 24h. Sau q trình tiến hành tiền xử lý như bóc tách lấy nội dung chính của tin tức, chúng tơi thu được 4333 tin :

 2060 tin trên website Dantri.com.vn  1291 tin trên website Vnexpress.net  982 tin trên website 24h.com.vn

Dữ liệu phiên duyệt web của người sử dụng

Chúng tôi tiến hành thu thập 30 phiên duyệt web của 30 người sử dụng trên các website Dantri và Vnexpress thơng qua việc phân tích các history.

Dữ liệu lịch sử trình duyệt của người sử dụng

Thu thập 30 dữ liệu lịch sử trình duyệt (history browser) của chính nhưng người sử

38

4.2.2. Công cụ

Bảng 6. Công cụ.

Công cụ Mô tả

SessionRecommendation Tác giả: Uông Huy Long

Mơ tả: Bộ cơng cụ phân tích sở thích duyệt web của người sử

dụng thông qua Session và tư vấn tin tức dựa trên sở thích đã

được phân tích

JGibbLDA Tác giả: Nguyễn Cẩm Tú và Phan Xn Hiếu

Mơ tả: Cơng cụ phân tích chủ đề ẩn cho tài liệu viết trên nền

Java

Website: http://jgibblda.sourceforge.net

VutmDic Tác giả: Trần Mai Vũ

Mô tả: Bộ từ điển thực thể gồm 6479 thực thể thuộc 4 loại thực thể: địa danh trong nước, địa danh nước ngoài, tên người, tên tổ chức.

Vnexpress 100topics Tác giả: Nguyễn Cẩm Tú và Phan Xuân Hiếu

Mô tả: Bộ dữ liệu 100 chủ đề ẩn được phân tích từ Vnexpress

dùng để phân tích chủ đề ẩn

Website: http://jgibblda.sourceforge.net/vnexpress- 100topics.txt

Crawler4j Tác giả: Yasser Ganjisaffar

Mô tả: Công cụ thu thập dữ liệu từ các website báo điện tử Website: http://code.google.com/p/crawler4j/

39

4.3. Thực nghiệm

4.3.1. Ví dụ về phân tích tin tức

Bảng 7. Một số chủ đề ẩn

Topic 86 Topic 23 Topic 94

du_lịch tour thái_lan du_khách đẹp khách singapore phố cổ điểm_đến bãi_biển sinh_thái de_france việt_nam vàng thể_thao hc chạy thế_giới vn sea_games điền_kinh vđv giành nội_dung asiad học_sinh quốc_tế em thi tốt_nghiệp giáo_viên quốc_gia lớp thpt tổ_chức giỏi kỳ_thi olympic Du lịch Bắc Kinh dịp Olympic cực khó 28/07/2008 08:17 Theo các hãng lữ hành Hà Nội,

hiện nay nhu cầu khách đi du lịch Bắc Kinh vào thời điểm diễn ra Olympic 2008 tăng cao song

các công ty không thể đáp ứng được. Vào thời

điểm này, giá phòng khách sạn tại Bắc Kinh tăng gấp 5 lần so với trước kia, lượng xe vận chuyển khách du lịch không thể đặt được do đã được huy

động phục vụ Olympic.

Mặt khác, vào thời điểm này, thủ tục xin cấp visa vào Trung Quốc cũng gặp nhiều khó khăn. Do vậy, không chỉ giá tour đến Bắc Kinh tăng đột biến mà các hãng lữ hành tại Trung Quốc còn từ chối khi phía Việt Nam đề nghị đưa khách sang…

Danh sách các chủ đề: - Topic 86 - Topic 23 - Topic 94 Danh sách các thực thể: - Bắc kinh - Hà Nội - Olympic - Trung Quốc - Việt Nam

Một phần của tài liệu Giải pháp mở rộng thông tin ngữ cảnh phiên duyệt web người dùng nhằm nâng cao chất lượng tư vấn trong hệ thống tư vấn tin tức (Trang 41 - 47)

Tải bản đầy đủ (PDF)

(59 trang)