3.1.2. Nhận dạng các thực thể trong tài liệu dựa trên từ điển
Đối với một đối tượng văn bản, nội dung của nó liên quan nhiều đến các thực thể
chứa trong văn bản đó. Đối tượng thực thể có thể là tên người, tên một địa điểm hoăc một tổ chức,…Phương pháp nhận dạng các thực thể dựa trên từ điển đơn giản chỉ xem xét đến sự hiện diện của các thực thể thuộc vào một tập từ điển thực thể trong văn bản đang tiến
1 www.vnexpress.net 2 www.wikipedia.org
28
hành phân tích. Thuật tốn đối sánh xâu Aho-Corasick [3] là phương pháp nhận dạng thực thể dựa trên từ điển điển hình. Ý tưởng cơ bản của phương pháp này khá đơn giản này, các thực thể trong từ điển được xem là các mẫu, một ôtômát hữu hạn trạng thái xây dựng từ các mẫu này sẽ được sử dụng để xác định sự hiện diện của các mẫu trong văn bản.
3.2. Phân tích sở thích người dùng
3.2.1. Thông tin trong phiên duyệt web người dùng
Một phiên duyệt web là một chuỗi các pageview của một người dùng đơn trong một
lần duyệt đơn [7]. Trong đó, các pageview là tập hợp các đối tượng web hiển thị tới người dùng. Mỗi pageview có thể được xem như một tập hợp các đối tượng web hay các tài nguyên biểu diễn cho một hành vi người dùng cụ thể như đọc một trang tin tức, xem thông tin một sản phẩm hoặc thêm một sản phẩm vào giỏ hàng,…Mơ hình sử dụng phiên duyệt web là danh sách các url tương ứng với các trang web người dùng truy cập vào hệ thống.
Bảng 4. Thông tin trong phiên duyệt web.
Session ID (Profile ID) Url
1 www.bestnews4u.com?newsid=102 1 www.bestnews4u.com?newsid=82 1 www.bestnews4u.com?newsid=11 1 www.bestnews4u.com?newsid=1021 2 www.bestnews4u.com?newsid=102 2 www.bestnews4u.com?newsid=144
29
3.2.2. Mơ hình sở thích người dùng
Trong mơ hình này, sở thích của người dùng được biểu diễn bởi hai thông tin: Tập các chủ đề ẩn người dùng quan tâm nhất và tập các thực thể liên quan.
Xác định tập chủ đề ẩn người dùng quan tâm được thực hiện qua 3 bước
Bước 1: Từ tập tài liệu mơ tả sở thích người dùng, các chủ đề và phân phối của
chúng vào từng tài liệu được tính tốn.
Ứng với mỗi tài liệu di thuộc vào tập D các tài liệu mô tả mối quan tâm người sử dụng, sử dụng phân tích chủ đề ẩn ta được kết quả là tập các topic của tài liệu di, kí hiệu là các TPj thuộc vào tập các topic TP, với trọng số wtpj.
Topics(di) = {(TPj, wtpj),…}
Bước 2: Xếp hạng chủ đề dựa trên thống kê tính phổ biến
Rank (TPj) = Số lần xuất hiện của TPj trong ma trận D x TP với wtpj lớn hơn một
ngưỡng
Bước 3: Xác định Top N chủ đề ẩn có hạng cao nhất được sử dụng để biểu diễn
mơ hình người dùng.
Các thực thể liên quan Các tin tức
người dùng
quan tâm trong phiên
Các chủ đề ẩn phổ biến