Chương 2 Mô hình hóa sở thích người dùng cho các hệ tư vấn dựa trên nội dung
2.2. Thu thập thông tin về người dùng
Bước đầu tiên trong kĩ thuật học sở thích người dùng là thu thập các thông tin về người dùng cá nhân. Trong đó, một yêu cầu cơ bản là hệ thống cần phải xác định duy nhất người dùng. Nhiệm vụ này sẽ được trình bày trong phần 2.2.1. Các thơng tin người dùng
được có thể được thu thập hiện qua việc nhập trực tiếp bởi người dùng hay thu thập ẩn
thông qua một các tử phần mềm. Nó có thể thu thập từ máy khách của người dùng hay thu thập từ chính máy chủ ứng dụng. Phụ thuộc vào cách thức thu thập dữ liệu này mà những dạng dữ liệu khác nhau về người dùng có thể được thu thập. Một số lựa chọn và ảnh hưởng của các lựa chọn được trình bày ở mục 2.2.2. Nhìn chung, các hệ thống thu thập
thông tin ẩn và thu thập thơng tin từ máy chủ được ưa thích hơn do đặt ít hơn gánh nặng cung cấp thơng tin về phía người dùng và hạn chế được phiền hà vì yêu cầu cài đặt thêm phần mềm [14].
2.2.1. Phương pháp định danh người dùng
Định danh người dùng là tiêu chí quan trọng giúp hệ thống phân biệt, và xây dựng
hồ sơ khác nhau cho những người dùng khác nhau. Gauch và cộng sự [14] liệt kê ra 5 cách tiếp cận cơ bản trong định danh người dùng: các tử phần mềm (software agent), đăng nhập (login), proxy server, cookie và phiên duyệt web(session). Mỗi phương pháp đều có những ưu, nhược điểm riêng và ảnh hưởng các dữ liệu người dùng có thể thu thập được.
Ba phương pháp đầu tiên chính xác hơn, nhưng chúng yêu cầu sự tham gia của người dùng. Các tử phần mềm là một phần mềm nhỏ được đặt trên máy người dùng, thu
thập thông tin về họ và chia sẻ chúng với máy chủ thông qua một vài giao thức. Giải pháp
này có độ tin cậy cao nhất vì có nhiều hơn sự điều khiển khi triển khai ứng dụng và các
giao thức. Nó cũng có khả năng thu thập được nhiều thơng tin nhất vì có quyền truy cập tới nhiều hơn các nguồn thơng tin người dùng. Tuy nhiên, nó yêu cầu sự tham gia của
người dùng để cài đặt phần mềm, đó là một cản trở khơng dễ chịu. Giải pháp có độ tin cậy
thứ hai là dựa trên việc đăng nhập. Bởi vì người dùng định danh chính họ thơng qua đăng nhập, cách định danh này thường chính xác và có thể sử dụng để xác định người dùng dùng nhiều máy khách khác nhau. Mặt trở ngại của phương pháp này là người dùng cần thực hiện một tiến trình đăng kí và thực hiện đăng nhập và đăng xuất cho mỗi lần sử dụng.
Ở giải pháp thứ ba, một proxy server sẽ làm nhiệm vụ thu thập thông tin người dùng,
18
người dùng sử dụng nhiều máy tính, tương tự như hai giải pháp trên, nó yêu cầu người
dùng tham gia bằng cách đăng kí cùng một địa chỉ proxy cho tất cả các máy họ sử dụng. Hai phương pháp sau, cookie và phiên duyệt web không yêu cầu bất cứ sự tham gia nào từ phía người dùng. Trong lần đầu tiên trình duyệt máy khách truy cập vào hệ thống ,
một userid được tạo ra, id này sẽ được lưu trong cookie máy người dùng. Một người dùng truy cập vào cùng một trang web được xác định là duy nhất nếu cùng một userid được sử dụng. Tuy nhiên, nếu người dùng sử dụng nhiều hơn một máy tính, hay một loại trình duyệt, sẽ có những cookie khác nhau, và tương ứng là những hồ sơ người dùng khác
nhau. Hơn nữa, giải pháp này cũng gặp vấn đề khi có nhiều hơn một người dùng cho một
máy, hoặc trường hợp người dùng xóa, hay tắt cookie. Đối với phiên duyệt web, trở ngại
cũng tương tự khi có nhiều hơn một người dùng cho một máy hay có sử dụng nhiều hơn một máy, một trình duyệt, nhưng nó khơng lưu trữ userid giữa những lần duyệt. Một
người dùng bắt đầu với một phiên duyệt web mới, thông tin trong phiên duyệt web lưu lại
vết các hành vi người dùng tương tác với hệ thống trong một lần duyệt web của họ ví dụ danh sách các pageview, thời gian giành cho mỗi pageview, địa chỉ IP,…
Ưu điểm quan trọng của giải pháp định danh dựa trên phiên duyệt web là nó khơng đặt bất cứ gánh nặng nào về phía người dùng, khơng gặp những nghi ngại về tính riêng tư
(tức là khơng lưu lại bất cứ thông tin nào về người dùng) và cũng không yêu cầu bật cookie ở trình duyệt.
2.2.2. Các phương pháp thu thập thông tin
Thông thường, các kĩ thuật thu thập thơng tin được phân theo tính chất của dữ liệu
thu thập được. Theo đó, tương ứng với hai kiểu thơng tin người dùng ẩn và hiện, có hai
phương pháp thu thập thông tin người dùng.
2.2.2.1. Phương pháp thu thập thông tin người dùng hiện
Phương pháp thu thập thông tin người dùng hiện (hay thông tin phản hồi hiện) thu
thập những thông tin được nhập trực tiếp bởi người dùng, thông thường qua các HTML Form. Dữ liệu thu thập có thể là các là các thơng tin như ngày sinh, tình trạng hơn nhân, nghề nghiệp, sở thích,…
Một trong các hệ tư vấn sớm nhất Syskill & Webert [23] tư vấn các trang web dựa vào các phản hồi hiện. Nếu người dùng đánh giá cao một vài liên kết từ một trang, Syskill
19
& Webert sẽ tư vấn các trang liên kết khác. Thêm vào đó, hệ thống cịn có thể tạo một truy vấn tới máy tìm kiếm Lycos1 để trích xuất các trang web có thể người dùng sẽ ưa thích.
Một vấn đề với các thơng tin phản hồi hiện đó là nó đặt gánh nặng cung cấp thơng tin về phía người dùng. Vì vậy, nếu người dùng khơng muốn phải cung cấp các thông tin
riêng tư, họ sẽ khơng tham gia hoặc khơng cung cấp thơng tin chính xác. Hơn nữa, vì các
hồ sơ được duy trì tĩnh trong khi tồn tại các đặc điểm có thể thay đổi như sở thích, thói quen,…khiến cho những hồ sơ này có thể trở nên khơng chính xác nữa theo thời gian. Một lý lẽ cho những hệ thống sử dụng thông tin phản hồi hiện là trong một vài trường hợp
người dùng thích cung cấp, chia sẻ thơng tin của họ.
2.2.2.2. Phương pháp thu thập thông tin người dùng ẩn
Hồ sơ người dùng trong phương pháp này được xây dựng dựa trên các thông tin phản hồi ẩn. Ưu điểm của phương pháp này là không yêu cầu bất cứ sự xen vào nào của
người dùng trong suốt tiến trình xây dựng và duy trì các hồ sơ người dùng. Cơng trình của
Kelly và Teevan [20] cung cấp một cái nhìn tổng quát về các kĩ thuật phổ biến để thu thập thông tin phản hồi ẩn và các thông tin về người dùng có thể suy diễn từ hành vi của họ.
Theo đó, Gauch và các cộng sự [14] thống kê tóm tắt các cách tiếp cận của kĩ thuật
thu thập thông tin phản hồi ẩn.
1 http://www.lycos.com/
20
Bảng 2. Các kĩ thuật thu thập thông tin ẩn [14].
Kĩ thuật Thông tin thu thập
Bề rộng
thông tin Ưu và Nhược Ví dụ
Browser Cache Lịch sử duyệt web
Bất cứ trang web nào
Ưu: Người dùng khơng cần cài đặt bất cứ
thứ gì.
Nhược: Người dùng phải upload cache
định kì. OBIWAN [24] Proxy Servers Hành vi duyệt web Bất cứ trang web nào
Ưu: Người dùng có thể sử dụng nhiều
trình duyệt.
Nhược: Người dùng phải sử dụng proxy
server. OBIWAN [24] Browser Agents Hành vi duyệt web Bất cứ ứng dụng hướng cá nhân nào Ưu: Các tử có thể thu thập tất cả các hành vi web.
Nhược: Cài đặt và sử dụng ứng dụng mới
khi đang duyệt web.
WebMate [12] Desktop Agents Tất cả hành vi người dùng Bất cứ ứng dụng hướng cá nhân nào
Ưu: Tất cả các tập tin và hành vi của
người dùng.
Nhược: Yêu cầu cài đặt phần mềm.
Google Desktop Web Logs Hành vi duyệt web Các trang web có log
Ưu: Thơng tin về nhiều người dùng. Nhược: Có thể có ít thơng tin vì chỉ từ một
trang web. Mobasher [7] Search Logs Truy vấn và Url được click Các trang tìm kiếm
Ưu: Thu thập và sử dụng thông tin từ
nhiều trang
Nhược:Cookies phải được bật và/hoặc yêu
cầu đăng nhập.
Nhược: Có thể có rất ít thơng tin.
Misearch
Dựa trên nguồn gốc các thơng tin ẩn này, có thể chia các thông tin phản hồi ẩn thành hai loại: thơng tin ẩn phía máy khách (client log) thu được từ bốn cách tiếp cận đầu và thông tin ẩn phía máy chủ (server log) thu được từ hai cách tiếp cận còn lại.
Trong khi các kĩ thuật thu thập thông tin phía máy khách đặt gánh nặng về phía
người dùng để thu thập và chia sẻ log các hành vi của họ. Các kĩ thuật thu thập thông tin
21
tương tác của người dùng và hệ thống. Điều này làm cho các thơng tin có thể thu thập từ
máy chủ ít hơn nhưng có ưu thế hơn về độ phức tạp của dữ liệu thu thập được cũng như
tránh được các nghi ngại về tính riêng tư của người dùng.