Mối quan tâm người dùng được mô tả tập các khái niệm có trọng số. Ban đầu, các
khái niệm không trích ra từ văn bản mà được định nghĩa trước từ cây phân cấp các mục
mở ODP (The Open Directory Project)[30]. Dữ liệu người dùng được phân lớp vào một
trong các nhánh của cấu trúc phân cấp này. Vấn đề của phương pháp này là mức độ chi
tiết của mục có thể làm mất thông tin về các mối quan tâm chung và sự phụ thuộc vào độ
chính xác của các cây phân cấp khái niệm. Một trong các dự án đầu tiên sử dụng phương
pháp này là OBIWAN [24]. Ban đầu, họ dùng cấu trúc phân cấp khái niệm từ 3 mức đầu
tiên của ODP[30]. Dữ liệu người dùng được tự động phân lớp để tìm ra các các khái niệm
phù hợp nhất, các trọng số khái niệm tương ứng được tăng lên.
24
Chương 3. Mô hình
Đối với người dùng trong các hệ thống tư vấn, các yếu tố thuộc về ngữ cảnh sử dụng
hiện tại của người dùng ảnh hưởng lớn tới các lựa chọn trong tương lai của họ.
Các tin tức trong phiên duyệt web hiện phản ánh chính xác hơn những chủ đề hay
các thực thể người dùng muốn tìm hiểu thêm thông tin. Do vậy, phân tích thông tin từ các
tin tức này là một giải pháp tiềm năng để mở rộng thông tin ngữ cảnh so với phương pháp
chỉ phân tích trang tin hiện tại.
Trong khi các kĩ thuật biểu diễn sở thích người dùng hiện còn tồn tại các trở ngại
như trình bày trong chương 2. Có thể có một cách tiếp cận mới cho các vấn đề này dựa
trên phỏng đoán rằng một người dùng A có thể ưa thích một tin tức X nếu như A đã xem các tin tức cùng chủ đề với X và X liên quan đến nhiều hơn các thực thể định danh mà A quan tâm (ví dụ như tên một câu lạc bộ bóng đá như: ManU, hay tên một nhân vật nổi
tiếng như tổng thống Mỹ Obama).
Như vậy, một hồ sơ người dùng có thể được mô tả hình thức như sau:
Bảng 3. Ví dụ về một hồ sơ sở thích người dùng.
Người dùng Chủ đề quan tâm Thực thể quan tâm
An
“Bóng đá”, “Du lịch”,…
ManU, Chealsea, Đà
Lạt, Hội An,…
Các tin tức có thể được gán nhãn chủ đề bằng tay, tuy nhiên đó là một giải pháp
không khả thi do đòi hỏi chi phí lớn, đặc biệt khi có quá nhiều tin tức nảy sinh hay trong
các hệ thống tư động thu thập tin tức như RSSReader. Một hướng tiếp cận tiềm năng là sử
dụng phân tích chủ đề ẩn. Trong đó, ý tưởng cơ bản là xem các văn bản là một phân phối
xác suất theo chủ đề và mỗi chủ đề lại có phân phối xác suất trên các từ. Đã có nhiều
nghiên cứu khẳng định được tính ứng dụng của phân tích chủ đề ẩn như mô hình phân lớp, phâm cụm dữ liệu [22], bài toán xác định độ phù hợp giữa nội dung một trang web và
các thông điệp quảng cáo[21],…
Trong các mục sau, khóa luận trình bày một giải pháp xác định các sở thích người
25