24
Chương 3. Mơ hình
Đối với người dùng trong các hệ thống tư vấn, các yếu tố thuộc về ngữ cảnh sử dụng
hiện tại của người dùng ảnh hưởng lớn tới các lựa chọn trong tương lai của họ.
Các tin tức trong phiên duyệt web hiện phản ánh chính xác hơn những chủ đề hay
các thực thể người dùng muốn tìm hiểu thêm thơng tin. Do vậy, phân tích thơng tin từ các tin tức này là một giải pháp tiềm năng để mở rộng thông tin ngữ cảnh so với phương pháp chỉ phân tích trang tin hiện tại.
Trong khi các kĩ thuật biểu diễn sở thích người dùng hiện cịn tồn tại các trở ngại
như trình bày trong chương 2. Có thể có một cách tiếp cận mới cho các vấn đề này dựa
trên phỏng đoán rằng một người dùng A có thể ưa thích một tin tức X nếu như A đã xem các tin tức cùng chủ đề với X và X liên quan đến nhiều hơn các thực thể định danh mà A quan tâm (ví dụ như tên một câu lạc bộ bóng đá như: ManU, hay tên một nhân vật nổi tiếng như tổng thống Mỹ Obama).
Như vậy, một hồ sơ người dùng có thể được mơ tả hình thức như sau:
Bảng 3. Ví dụ về một hồ sơ sở thích người dùng.
Người dùng Chủ đề quan tâm Thực thể quan tâm
An “Bóng đá”, “Du
lịch”,…
ManU, Chealsea, Đà
Lạt, Hội An,…
Các tin tức có thể được gán nhãn chủ đề bằng tay, tuy nhiên đó là một giải pháp khơng khả thi do địi hỏi chi phí lớn, đặc biệt khi có q nhiều tin tức nảy sinh hay trong các hệ thống tư động thu thập tin tức như RSSReader. Một hướng tiếp cận tiềm năng là sử dụng phân tích chủ đề ẩn. Trong đó, ý tưởng cơ bản là xem các văn bản là một phân phối xác suất theo chủ đề và mỗi chủ đề lại có phân phối xác suất trên các từ. Đã có nhiều nghiên cứu khẳng định được tính ứng dụng của phân tích chủ đề ẩn như mơ hình phân lớp, phâm cụm dữ liệu [22], bài toán xác định độ phù hợp giữa nội dung một trang web và
các thông điệp quảng cáo[21],…
Trong các mục sau, khóa luận trình bày một giải pháp xác định các sở thích người dùng theo cách tiếp cận mới này.
25
3.1. Cơ sở lý thuyết
3.1.1. Phân tích thơng tin chủ đề dựa trên mơ hình chủ đề LDA.
Phân tích chủ đề cho văn bản nói chung và cho dữ liệu Web nói riêng có vai trị quan trọng trong việc “hiểu” và định hướng thông tin trên Web. Khi ta hiểu một trang Web có chứa những chủ đề hay thơng tin gì thì dễ dàng hơn cho việc xếp loại, sắp xếp, và tóm tắt nội dung của trang Web đó. Trong phân lớp văn bản, mỗi văn bản thường được xếp vào một lớp cụ thể nào đó. Trong phân tích chủ đề, chúng ta giả sử mỗi văn bản đề cập đến nhiều hơn một chủ đề (K chủ đề) và mức độ liên quan đến chủ đề được biểu diễn bằng phân phối xác suất của của tài liệu đó trên các chủ đề.