Suy diễn chủ đề sử dụng tập dữ liệu VnExpress- 123docz.net

3.1.2. Nhận dạng các thực thể trong tài liệu dựa trên từ điển

Đối với một đối tượng văn bản, nội dung của nó liên quan nhiều đến các thực thể

chứa trong văn bản đó. Đối tượng thực thể có thể là tên người, tên một địa điểm hoăc một tổ chức,…Phương pháp nhận dạng các thực thể dựa trên từ điển đơn giản chỉ xem xét đến sự hiện diện của các thực thể thuộc vào một tập từ điển thực thể trong văn bản đang tiến

1 www.vnexpress.net 2 www.wikipedia.org

hành phân tích. Thuật tốn đối sánh xâu Aho-Corasick [3] là phương pháp nhận dạng thực thể dựa trên từ điển điển hình. Ý tưởng cơ bản của phương pháp này khá đơn giản này, các thực thể trong từ điển được xem là các mẫu, một ôtômát hữu hạn trạng thái xây dựng từ các mẫu này sẽ được sử dụng để xác định sự hiện diện của các mẫu trong văn bản.

3.2. Phân tích sở thích người dùng

3.2.1. Thông tin trong phiên duyệt web người dùng

Một phiên duyệt web là một chuỗi các pageview của một người dùng đơn trong một

lần duyệt đơn [7]. Trong đó, các pageview là tập hợp các đối tượng web hiển thị tới người dùng. Mỗi pageview có thể được xem như một tập hợp các đối tượng web hay các tài nguyên biểu diễn cho một hành vi người dùng cụ thể như đọc một trang tin tức, xem thông tin một sản phẩm hoặc thêm một sản phẩm vào giỏ hàng,…Mơ hình sử dụng phiên duyệt web là danh sách các url tương ứng với các trang web người dùng truy cập vào hệ thống.

Bảng 4. Thông tin trong phiên duyệt web.

Session ID (Profile ID) Url

1 www.bestnews4u.com?newsid=102 1 www.bestnews4u.com?newsid=82 1 www.bestnews4u.com?newsid=11 1 www.bestnews4u.com?newsid=1021 2 www.bestnews4u.com?newsid=102 2 www.bestnews4u.com?newsid=144

3.2.2. Mơ hình sở thích người dùng

Trong mơ hình này, sở thích của người dùng được biểu diễn bởi hai thông tin: Tập các chủ đề ẩn người dùng quan tâm nhất và tập các thực thể liên quan.

Xác định tập chủ đề ẩn người dùng quan tâm được thực hiện qua 3 bước

 Bước 1: Từ tập tài liệu mơ tả sở thích người dùng, các chủ đề và phân phối của

chúng vào từng tài liệu được tính tốn.

Ứng với mỗi tài liệu di thuộc vào tập D các tài liệu mô tả mối quan tâm người sử dụng, sử dụng phân tích chủ đề ẩn ta được kết quả là tập các topic của tài liệu di, kí hiệu là các TPj thuộc vào tập các topic TP, với trọng số wtpj.

Topics(di) = {(TPj, wtpj),…}

 Bước 2: Xếp hạng chủ đề dựa trên thống kê tính phổ biến

Rank (TPj) = Số lần xuất hiện của TPj trong ma trận D x TP với wtpj lớn hơn một

ngưỡng 

 Bước 3: Xác định Top N chủ đề ẩn có hạng cao nhất được sử dụng để biểu diễn

mơ hình người dùng.

Các thực thể liên quan Các tin tức

người dùng

quan tâm trong phiên

Các chủ đề ẩn phổ biến

Suy diễn chủ đề sử dụng tập dữ liệu VnExpress

Thu thập thông tin về người dùng

Mơ hình pha tư vấn trực tuyến