Phương pháp dựa trên cây phân cấp khái niệm

Một phần của tài liệu LUẬN VĂN:GIẢI PHÁP MỞ RỘNG THÔNG TIN NGỮ CẢNH PHIÊN DUYỆT WEB NGƯỜI DÙNG NHẰM NÂNG CAO CHẤT LƯỢNG TƯ VẤN TRONG HỆ THỐNG TƯ VẤN TIN TỨC pdf (Trang 31 - 33)

Mối quan tâm người dùng được mô tả tập các khái niệm có trọng số. Ban đầu, các

khái niệm không trích ra từ văn bản mà được định nghĩa trước từ cây phân cấp các mục

mở ODP (The Open Directory Project)[30]. Dữ liệu người dùng được phân lớp vào một

trong các nhánh của cấu trúc phân cấp này. Vấn đề của phương pháp này là mức độ chi

tiết của mục có thể làm mất thông tin về các mối quan tâm chung và sự phụ thuộc vào độ

chính xác của các cây phân cấp khái niệm. Một trong các dự án đầu tiên sử dụng phương

pháp này là OBIWAN [24]. Ban đầu, họ dùng cấu trúc phân cấp khái niệm từ 3 mức đầu

tiên của ODP[30]. Dữ liệu người dùng được tự động phân lớp để tìm ra các các khái niệm

phù hợp nhất, các trọng số khái niệm tương ứng được tăng lên.

24

Chương 3. Mô hình

Đối với người dùng trong các hệ thống tư vấn, các yếu tố thuộc về ngữ cảnh sử dụng

hiện tại của người dùng ảnh hưởng lớn tới các lựa chọn trong tương lai của họ.

Các tin tức trong phiên duyệt web hiện phản ánh chính xác hơn những chủ đề hay

các thực thể người dùng muốn tìm hiểu thêm thông tin. Do vậy, phân tích thông tin từ các

tin tức này là một giải pháp tiềm năng để mở rộng thông tin ngữ cảnh so với phương pháp

chỉ phân tích trang tin hiện tại.

Trong khi các kĩ thuật biểu diễn sở thích người dùng hiện còn tồn tại các trở ngại

như trình bày trong chương 2. Có thể có một cách tiếp cận mới cho các vấn đề này dựa

trên phỏng đoán rằng một người dùng A có thể ưa thích một tin tức X nếu như A đã xem các tin tức cùng chủ đề với X và X liên quan đến nhiều hơn các thực thể định danh mà A quan tâm (ví dụ như tên một câu lạc bộ bóng đá như: ManU, hay tên một nhân vật nổi

tiếng như tổng thống Mỹ Obama).

Như vậy, một hồ sơ người dùng có thể được mô tả hình thức như sau:

Bảng 3. Ví dụ về một hồ sơ sở thích người dùng.

Người dùng Chủ đề quan tâm Thực thể quan tâm

An

“Bóng đá”, “Du lịch”,…

ManU, Chealsea, Đà

Lạt, Hội An,…

Các tin tức có thể được gán nhãn chủ đề bằng tay, tuy nhiên đó là một giải pháp

không khả thi do đòi hỏi chi phí lớn, đặc biệt khi có quá nhiều tin tức nảy sinh hay trong

các hệ thống tư động thu thập tin tức như RSSReader. Một hướng tiếp cận tiềm năng là sử (adsbygoogle = window.adsbygoogle || []).push({});

dụng phân tích chủ đề ẩn. Trong đó, ý tưởng cơ bản là xem các văn bản là một phân phối

xác suất theo chủ đề và mỗi chủ đề lại có phân phối xác suất trên các từ. Đã có nhiều

nghiên cứu khẳng định được tính ứng dụng của phân tích chủ đề ẩn như mô hình phân lớp, phâm cụm dữ liệu [22], bài toán xác định độ phù hợp giữa nội dung một trang web và

các thông điệp quảng cáo[21],…

Trong các mục sau, khóa luận trình bày một giải pháp xác định các sở thích người

25

Một phần của tài liệu LUẬN VĂN:GIẢI PHÁP MỞ RỘNG THÔNG TIN NGỮ CẢNH PHIÊN DUYỆT WEB NGƯỜI DÙNG NHẰM NÂNG CAO CHẤT LƯỢNG TƯ VẤN TRONG HỆ THỐNG TƯ VẤN TIN TỨC pdf (Trang 31 - 33)