Chương 3 : Hệ thống gợi ý tin tức tiếng Việt xenoNews
3.3 Thiết kế và cài đặt chi tiết các thành phần hệ thống
3.3.2 Hồ sơ người dùng (User profile)
Nhiệm vụ chính của một dịch vụ thơng tin thơng minh như xenoNews là tự động thích nghi với từng người dùng cụ thể. Chính vì vậy, việc phát triển các kỹ thuật mơ hình hố người dùng tương ứng là cốt lõi vấn đề. Như đã trình bày trong các chương trước, các thuật tốn của những hệ thống dạng này cĩ nguồn gốc từ các nghiên cứu IR và học máy. Cả hai cộng đồng này, ngay từ rất sớm đã tìm hiểu về tiềm năng các thuật tốn trong mơ hình hố người dùng, ví dụ như các nghiên cứu của Belkin và các cộng sự năm 1997 [17],
3
[18] và Webb, 1998 [19]. Tuy nhiên, vấn đề này vẫn cần nhiều nghiên cứu để hồn thiện. Và tuỳ thuộc vào từng ứng dụng cụ thể, quá trình mơ hình hố người dùng cần được áp dụng linh hoạt, cĩ điều chỉnh. xenoNews là dịch vụ tin tức được thiết kế để gợi ý cho từng người dùng cụ thể. Xây dựng một hệ thống như vậy là một thách thức lớn đối với tơi, bởi vì các hướng tiếp cận truyền thống trong Thu thập thơng tin hầu như khơng áp dụng trực tiếp được trong trường hợp này. Đa số các hệ thống IR giả định rằng người dùng cĩ đặc tính rõ ràng, ổn định. Tuy nhiên hệ thống gợi ý tin tức đang cần xây dựng khơng nằm trong số đĩ, truy vấn của người dùng cĩ thể được khái quát trong câu hỏi: “Cĩ những tin tức gì mới mà tơi chưa biết, nhưng sẽ muốn biết?”. Việc tính tốn kết quả thoả mãn truy vấn đĩ khơng đơn giản. Các khĩ khăn xuất phát từ số lượng chủ đề mà người dùng cĩ thể quan tâm, số lượng tin tức mới luơn rất nhiều, sự thay đổi trong sở thích người dùng với các chủ đề, … Hơn nữa, người dùng cũng sẽ khơng hứng thú đối với những gì họ đã biết từ trước. Do vậy, hồ sơ người dùng cần cĩ khả năng:
- Mơ hình hố được sở thích đa dạng của độc giả
- Linh hoạt để thích nghi nhanh với sự thay đổi trong thĩi quen đọc của họ
- Theo dõi những thơng tin người dùng đã biết, tránh gợi ý ra các thơng tin người dùng cĩ thể đã biết
Bởi vậy, hệ thống gợi ý tin tức xenoNews sử dụng một kiểu hồ sơ người dùng lai
(hybrid user profile) bao gồm các mơ hình riêng biệt, được xây dựng tự động, dành cho
sở thích ngắn hạn (short-term interest) và dài hạn (long-term interest). Phương thức mơ
hình người dùng tương tự cũng đã được sử dụng trong hệ thống Daily Learner [20]. Ngồi các dữ liệu được tổng hợp tự động nêu trên, xenoNews cịn chứa các thơng tin “tự mơ tả”
của người dùng về sở thích của họ (self-described user interests), cũng là một phần trong
hồ sơ người dùng.
- Mơ hình ngắn hạn: được xây dựng dựa trên kết quả giám sát người dùng trong khoảng thời gian gần, giúp cho mơ hình cĩ thể điều chỉnh nhanh hơn với các tin người dùng đọc gần đây. Mơ hình này sử dụng n bài báo người dùng quan tâm gần nhất. Trong cài đặt hệ thống mẫu mà tơi thử nghiệm (sẽ được đề cập đến trong chương tiếp theo), giá trị của n là 200.
Một tình huống nữa mà mơ hình ngắn hạn tỏ ra hữu ích cĩ thể được mơ tả như sau: một người thường mong muốn theo dõi các “luồng tin” (thread), thuộc nhiều sự kiện khác nhau diễn ra trong thời gian gần – chức năng này cần đến thơng tin ngắn hạn của các sự kiện đang diễn ra. Ví dụ, nếu một người sử dụng tỏ ra quan tâm đến
vấn đề “căng thẳng trên bán đảo Triều Tiên”, hệ thống sẽ xác định và gợi ý cho người dùng tin tức về vấn đề đĩ trong những ngày tiếp theo.
Các thơng tin về mơ hình ngắn hạn sẽ được CSDL cung cấp khi hệ thống cần đến. - Mơ hình dài hạn: mỗi người dùng cũng lại cĩ những sở thích tin tức chung khác
nhau. Việc mơ hình hố các sở thích chung này cĩ thể giúp ích để quyết định xem một bài báo mới, khơng liên quan đến các sự kiện gần đây, cĩ thuộc mối quan tâm của người dùng hay khơng. Tơi tiếp tục sử dụng ví dụ về “căng thằng trên bán đảo Triều Tiên” ở trên, vai trị của mơ hình dài hạn là kết luận rằng: người dùng này dành sự quan tâm nhất định cho những bài báo thuộc vấn đề “chiến tranh”, “quân sự”, … (dựa trên các token cĩ trong bài báo, hoặc cả luồng bài báo).
Từ lịch sử đọc tin và phản hồi của người dùng, các thơng tin của mơ hình dài hạn với mỗi người được cập nhật định kỳ, mã hĩa nhị phân và lưu trữ trên đĩa cứng. - Các thơng tin tự mơ tả: cĩ thể cĩ những tin tức người dùng quan tâm mà cả mơ
hình ngắn hạn và dài hạn đều chưa mơ hình hố được. Nguyên nhân cĩ thể là do: chủ đề tin tức đĩ khơng xuất hiện gần đây, mơ hình dài hạn cũng khơng gợi ý được vì khơng đủ căn cứ. Khi đĩ, các thơng tin người dùng tự mơ tả về sở thích của họ (dưới dạng các luật từ khố) sẽ giúp hệ thống đưa ra quyết định.
Tiếp theo, tơi sẽ mơ tả chi tiết hơn về các mơ hình thơng tin này, bao gồm: thuật tốn được lựa chọn, cách thức hoạt động để mơ hình hố những đặc điểm khác nhau trong thĩi quen đọc của người dùng, và làm sao hệ thống gợi ý tin xenoNews cĩ thể kết hợp chúng, tạo nên Hồ sơ người dùng thống nhất như thế nào.