MỤC LỤC
Mỗi người dùng thuộc không gian ngươi dùng U được xác định bởi một hồ sơ (user profile), những thông tin lưu trong hồ sơ này có thể bao gồm các thông tin như giới tính, tuổi, quốc gia, tính trạng hôn nhân, … hay cũng có thể bao gồm các thông tin về sở thích, mối quan tâm của họ. Một khi hệ thống hiểu được người dùng quan tâm đến điều gì, nó thực thi một thuật toán tư vấn, so sánh, tổ hợp giữa các hồ sơ người dùng hoặc giữa hồ sơ người dùng với các đặc trưng sản phẩm, sau đó chọn ra tập hợp những sản phẩm người dùng có thể ưa thích.
Sự lạm dụng nội dung chuyên môn (Content over-specialisation): Sự tư vấn chỉ được tạo ra từ phân tích nội dung các sản phẩm đã từng được người dùng ưa thích, trong khi các những đánh giá của người dùng khác có thể được sử dụng để tư vấn những sản phẩm mới (thậm chí khác loại), những tư vấn dựa trên nội dung chỉ có thể đưa ra những sản phẩm tương tự với những gì họ đã từng đánh giá cao trước đây. Vấn đề thiếu tính đa dạng: Vì tri thức của hệ thống về nội dung chỉ dựa trên các lựa chọn từ phía người dùng, nên sự tư vấn thường có xu hướng lệch về những sản phẩm đã được chọn trong quá khứ, kết quả là trong khi phải xử lý lượng lớn dữ liệu, phần lớn những tư vấn được tạo ra lại chỉ tập trung vào những sản phẩm phổ biến nhất.
Tính thay mới có thể diễn ra ở cả ba loại mối quan tâm này, tuy nhiên tốc độ thay mới của các mối quan ngắn hạn là nhanh nhất và nó cũng có ưu thế hơn khi dùng để tư vấn các tin tức, vốn liên tục được sinh ra. Thứ nhất: Lọc dựa trên nội dung không gặp phải các vấn đề rất khó giải quyết của lọc cộng tác trên miền đối tượng tin tức: (i) vấn đề những đánh giá đầu: các tin tức liên tục được sinh ra và cần dễ dàng tiếp cận trong khi quá trình lọc cộng tác không thể tạo ra các sản phẩm chưa từng được đánh giá bởi người dùng khác hoặc những người dùng chưa từng đánh giá một sản phẩm nào; (ii) vấn đề ma trận thưa: Khó tìm ra được các sản phẩm đã được đánh giá bởi một lượng đủ người dùng vì số lượng quá lớn các tin tức mới và đặt gánh nặng cung cấp thông tin đánh giá lên người dùng [11]. Đầu tiên là dựa trên khảo sát về các phương pháp xây dựng mô hình hóa sở thích người dùng dựa trên các dữ liệu văn bản thường được áp dụng cho hướng tiếp cận lọc nội dung, đề xuất giải pháp mô hình sở thích người dùng dựa trên phân tích chủ đề ẩn phiên duyệt web người dùng (ngữ cảnh đọc tin tức).
Sau đó, dựa trên mô hình sở thích này của người dùng, những tin tức liên quan được thực hiện thông qua đối chiếu chủ đề và thực thể của chúng với những chủ đề và thực thể người dùng từng quan tâm.
Đối với phiên duyệt web, trở ngại cũng tương tự khi có nhiều hơn một người dùng cho một máy hay có sử dụng nhiều hơn một máy, một trình duyệt, nhưng nó không lưu trữ userid giữa những lần duyệt. Một người dùng bắt đầu với một phiên duyệt web mới, thông tin trong phiên duyệt web lưu lại vết các hành vi người dùng tương tác với hệ thống trong một lần duyệt web của họ ví dụ danh sách các pageview, thời gian giành cho mỗi pageview, địa chỉ IP,…. Ưu điểm quan trọng của giải pháp định danh dựa trên phiên duyệt web là nó không đặt bất cứ gánh nặng nào về phía người dùng, không gặp những nghi ngại về tính riêng tư (tức là không lưu lại bất cứ thông tin nào về người dùng) và cũng không yêu cầu bật cookie ở trình duyệt.
Dựa trên nguồn gốc các thông tin ẩn này, có thể chia các thông tin phản hồi ẩn thành hai loại: thông tin ẩn phía máy khách (client log) thu được từ bốn cách tiếp cận đầu và thông tin ẩn phía máy chủ (server log) thu được từ hai cách tiếp cận còn lại.
Điều này làm cho các thông tin có thể thu thập từ máy chủ ít hơn nhưng có ưu thế hơn về độ phức tạp của dữ liệu thu thập được cũng như tránh được các nghi ngại về tính riêng tư của người dùng. Các từ khóa được biểu diễn như các node vệ tinh xung quanh các khái niệm chính, trọng số liên kết giữa các khái niệm tương ứng cũng được thêm vào. Ban đầu, các khái niệm không trích ra từ văn bản mà được định nghĩa trước từ cây phân cấp các mục mở ODP (The Open Directory Project)[30].
Vấn đề của phương pháp này là mức độ chi tiết của mục có thể làm mất thông tin về các mối quan tâm chung và sự phụ thuộc vào độ chính xác của các cây phân cấp khái niệm.
Về mặt trực quan, LDA tìm những cấu trúc chủ đề (topics) và khái niệm (concepts) trong tập văn bản dựa trên thông tin về đồng xuất hiện (co-occurrence) của các từ khóa trong văn bản, và cho phép mô hình hóa các khái niệm đồng nghĩa (synonymy) và đa nghĩa (polysemy). Theo Nguyễn Cẩm Tú [22], với một mô hình chủ đề đã được huấn luyện tốt dựa trên tập dữ liệu toàn thể (Universial Dataset) bao phủ miền ứng dụng, ta có thể thực hiện một tiến trình quá trình suy diễn chủ đề cho các tài liệu mới tương tự như quá trình ước lượng tham số (tức là xác định được phân phối trên các chủ đề của tài liệu qua tham số theta). Tác giả cũng chỉ ra rằng sử dụng dữ liệu từ VnExpress1 huấn luyện được các mô hình có ưu thế hơn trong các phân tích chủ đề trên dữ liệu tin tức, trong khi các mô hình được huấn luyện bởi dữ liệu từ Wiki2 tốt hơn trong phân tích chủ đề các tài liệu mang tính học thuật.
Mỗi pageview có thể được xem như một tập hợp các đối tượng web hay các tài nguyên biểu diễn cho một hành vi người dùng cụ thể như đọc một trang tin tức, xem thông tin một sản phẩm hoặc thêm một sản phẩm vào giỏ hàng,…Mô hình sử dụng phiên duyệt web là danh sách các url tương ứng với các trang web người dùng truy cập vào hệ thống. Pha tư vấn trực tuyến thực hiện thu thập thông tin về sở thích người dùng thông qua thống kê các chủ đề phổ biến trong phiên duyệt web, sau đó tự động sinh các truy vấn cho cơ sở dữ liệu, kết quả đạt được là dữ liệu tư vấn liên quan thuộc về nhiều chủ đề và chứa các thông tin về các thực thể người dùng từng quan tâm. Bên cạnh đó, dựa vào kết quả nghiên cứu về phân tích sở thích của người sử dụng thông qua lịch sử trình duyệt (history browser) được chúng tôi đề xuất trong công trình nghiên cứu sinh viên 2010 [1], chúng tôi đưa ra một phương pháp đánh giá tự động mô hình phân tích sở thích dựa vào sự tương đồng giữa sở thích nổi trội trong phiên duyệt web với sở thích nổi trội của lịch sử duyệt web của người sử dụng trong cùng một thời điểm.
“Quỷ đỏ” MU ưu tiên chi 20 triệu bảng mua Benzema (Dân trí) - Lo ngại về hàng tấn công phụ thuộc quá nhiều vào phong độ Wayne Rooney hiện nay, Manchester United có kế hoạch chi ra 20 triệu bảng để mua chân sút Karim Benzema trong mùa Hè này. Owen, Rooney giúp MU bảo vệ thành công Carling Cup (Dân trí) - Dù để Aston Villa vượt lên dẫn trước ngay đầu trận nhưng với bản lĩnh của mình, “Quỷ đỏ” đã lội ngược dòng để giành chiến thắng 2-1 nhờ hai pha lập công của Owen và Rooney, qua đó lần thứ hai liên tiếp vô địch Carling Cup. Tuy nhiên, nếu chỉ tư vấn các tin tức thuộc cùng chủ đề thì có thể có quá nhiều tin tức được lựa chọn, cần có một giải pháp để sắp xếp lại các tin tức này, khóa luận sử dụng những thực thể nằm trong các tin tức đã được xem thuộc về chủ đề được quan tâm phổ biến (như MU, Wayne Rooney, Newcastle, Carling Cup, Owen,..) để xếp hạng lại những kết quả thu được.
Kết quả so sánh độ tương đồng chủ đề giữa phiên duyệt web và các trang web người dùng truy cập trước và sau phiên duyệt web cho thấy những phân tích về mối quan tâm người dùng có thể sử dụng để tổng hợp các mối quan tâm hiện tại và dự đoán các tin tức có thể được người dùng ưa thích trong tương lai.