Nhiệm vụ chính của một dịch vụ thông tin thông minh như xenoNews là tự động thích nghi với từng người dùng cụ thể. Chính vì vậy, việc phát triển các kỹ thuật mô hình hoá người dùng tương ứng là cốt lõi vấn đề. Như đã trình bày trong các chương trước, các thuật toán của những hệ thống dạng này có nguồn gốc từ các nghiên cứu IR và học máy. Cả hai cộng đồng này, ngay từ rất sớm đã tìm hiểu về tiềm năng các thuật toán trong mô hình hoá người dùng, ví dụ như các nghiên cứu của Belkin và các cộng sự năm 1997 [17],
3
[18] và Webb, 1998 [19]. Tuy nhiên, vấn đề này vẫn cần nhiều nghiên cứu để hoàn thiện. Và tuỳ thuộc vào từng ứng dụng cụ thể, quá trình mô hình hoá người dùng cần được áp dụng linh hoạt, có điều chỉnh. xenoNews là dịch vụ tin tức được thiết kế để gợi ý cho từng người dùng cụ thể. Xây dựng một hệ thống như vậy là một thách thức lớn đối với tôi, bởi vì các hướng tiếp cận truyền thống trong Thu thập thông tin hầu như không áp dụng trực tiếp được trong trường hợp này. Đa số các hệ thống IR giả định rằng người dùng có đặc tính rõ ràng, ổn định. Tuy nhiên hệ thống gợi ý tin tức đang cần xây dựng không nằm trong số đó, truy vấn của người dùng có thể được khái quát trong câu hỏi: “Có những tin tức gì mới mà tôi chưa biết, nhưng sẽ muốn biết?”. Việc tính toán kết quả thoả mãn truy vấn đó không đơn giản. Các khó khăn xuất phát từ số lượng chủ đề mà người dùng có thể quan tâm, số lượng tin tức mới luôn rất nhiều, sự thay đổi trong sở thích người dùng với các chủ đề, … Hơn nữa, người dùng cũng sẽ không hứng thú đối với những gì họ đã biết từ trước. Do vậy, hồ sơ người dùng cần có khả năng:
- Mô hình hoá được sở thích đa dạng của độc giả
- Linh hoạt để thích nghi nhanh với sự thay đổi trong thói quen đọc của họ
- Theo dõi những thông tin người dùng đã biết, tránh gợi ý ra các thông tin người dùng có thể đã biết
Bởi vậy, hệ thống gợi ý tin tức xenoNews sử dụng một kiểu hồ sơ người dùng lai
(hybrid user profile) bao gồm các mô hình riêng biệt, được xây dựng tự động, dành cho
sở thích ngắn hạn (short-term interest) và dài hạn (long-term interest). Phương thức mô
hình người dùng tương tự cũng đã được sử dụng trong hệ thống Daily Learner [20]. Ngoài các dữ liệu được tổng hợp tự động nêu trên, xenoNews còn chứa các thông tin “tự mô tả”
của người dùng về sở thích của họ (self-described user interests), cũng là một phần trong
hồ sơ người dùng.
- Mô hình ngắn hạn: được xây dựng dựa trên kết quả giám sát người dùng trong khoảng thời gian gần, giúp cho mô hình có thể điều chỉnh nhanh hơn với các tin người dùng đọc gần đây. Mô hình này sử dụng n bài báo người dùng quan tâm gần nhất. Trong cài đặt hệ thống mẫu mà tôi thử nghiệm (sẽ được đề cập đến trong chương tiếp theo), giá trị của n là 200.
Một tình huống nữa mà mô hình ngắn hạn tỏ ra hữu ích có thể được mô tả như sau: một người thường mong muốn theo dõi các “luồng tin” (thread), thuộc nhiều sự kiện khác nhau diễn ra trong thời gian gần – chức năng này cần đến thông tin ngắn hạn của các sự kiện đang diễn ra. Ví dụ, nếu một người sử dụng tỏ ra quan tâm đến
vấn đề “căng thẳng trên bán đảo Triều Tiên”, hệ thống sẽ xác định và gợi ý cho người dùng tin tức về vấn đề đó trong những ngày tiếp theo.
Các thông tin về mô hình ngắn hạn sẽ được CSDL cung cấp khi hệ thống cần đến. - Mô hình dài hạn: mỗi người dùng cũng lại có những sở thích tin tức chung khác
nhau. Việc mô hình hoá các sở thích chung này có thể giúp ích để quyết định xem một bài báo mới, không liên quan đến các sự kiện gần đây, có thuộc mối quan tâm của người dùng hay không. Tôi tiếp tục sử dụng ví dụ về “căng thằng trên bán đảo Triều Tiên” ở trên, vai trò của mô hình dài hạn là kết luận rằng: người dùng này dành sự quan tâm nhất định cho những bài báo thuộc vấn đề “chiến tranh”, “quân sự”, … (dựa trên các token có trong bài báo, hoặc cả luồng bài báo).
Từ lịch sử đọc tin và phản hồi của người dùng, các thông tin của mô hình dài hạn với mỗi người được cập nhật định kỳ, mã hóa nhị phân và lưu trữ trên đĩa cứng. - Các thông tin tự mô tả: có thể có những tin tức người dùng quan tâm mà cả mô
hình ngắn hạn và dài hạn đều chưa mô hình hoá được. Nguyên nhân có thể là do: chủ đề tin tức đó không xuất hiện gần đây, mô hình dài hạn cũng không gợi ý được vì không đủ căn cứ. Khi đó, các thông tin người dùng tự mô tả về sở thích của họ (dưới dạng các luật từ khoá) sẽ giúp hệ thống đưa ra quyết định.
Tiếp theo, tôi sẽ mô tả chi tiết hơn về các mô hình thông tin này, bao gồm: thuật toán được lựa chọn, cách thức hoạt động để mô hình hoá những đặc điểm khác nhau trong thói quen đọc của người dùng, và làm sao hệ thống gợi ý tin xenoNews có thể kết hợp chúng, tạo nên Hồ sơ người dùng thống nhất như thế nào.