Tập dữ liệu

Một phần của tài liệu THUẬT TOÁN xếp HẠNG địa điểm TRONG các ỨNG DỤNG DỊCH vụ dựa TRÊN địa điểm (LBS) có CHÚ ý tới đặc điểm RIÊNG NGƯỜI DÙNG (Trang 58 - 60)

Trong luận văn này, tôi sử dụng tập dữ liệu được chia sẻ từ bạn Jie Bao (Microsoft) [11] cho mục đích research. Đây là một Dataset thực tế được trích rút từ dữ liệu mạng xã hội dựa trên địa điểm Foursquare và được sử dụng trong các nghiên cứu của Foursquare và Microsoft.

Thông tin tập dataset [1] [2] bao gồm các thông tin về người dùng, thông tin về các địa điểm (Venues), thông tin về các lời khuyên (Tips), thông tin về bạn bè của người dùng (Friendship), thông tin về thể loại địa điểm (Category).

Trong đó:

 Thông tin về người dùng bao gồm : tên (First name), họ (Last name), ảnh đại điện (Profile picture), giới tính (Gender), thành phố (Home city)

 Thông tin về các vị trí bao gồm: tên (Venue name), vĩ độ (Latitude), kinh độ (Longitude), địa chỉ (Address), thành phố (City), bang (State), số lượng checkin, số lượng người dùng đã tới, thể loại (category)

 Thông tin về Tips: bao gồm các thông tin về người dùng, nội dung lời khuyên, địa điểm được người dùng đánh giá, thời gian tạo, thể loại (Category)

 Thông tin về bạn bè (Friendship): thông tin về kết nối (Connection) bạn bè của người dùng

 Thông tin về thể loại (Category): bao gồm các tên và các thể loại con (sub categories)

59

Thống kê các thông tin trong tập dữ liệu:

City Total Users Total Tips Total Venues Total

Connections

New York City (NYC) 49,062 221,128 206,416 2,767,234 Los Angeles (LA) 31,544 104,478 215,614 1,566,201

Bảng 1: Thống kê thông tin trong tập dữ liệu thực nghiệm

Tên thể loại (Category Name) Số lượng các thể loại con

(sub categories)

Arts & Entertainment 17

College & University 23

Food 78

Great Outdoors 28

Home, Work, Other 15

Nightlife Spot 20

Shop 45

Travel Spot 14

Bảng 2: Thống kê cây thể loại trong tập dữ liệu thực nghiệm

Phương pháp đánh giá:

Trong luận văn này, tôi đánh giá các mô hình dựa trên hai độ đo phổ biến là Precision và Recall. Tôi sử dụng tập dữ liệu đã được mô tả phía trên, lấy ngẫu nhiên một tập người dùng làm mẫu thử nghiệm. Kết quả xếp hạng sau khi sử dụng các mô hình, sẽ so sánh tỷ lệ những vị trí mà người dùng đã thăm và những vị trí mà người dùng được gợi ý từ các mô hình, để đánh giá độ hiệu quả của thuật toán. Bằng cách dựa trên hai độ đo được thể hiện cụ thể bên dưới.

Độ đo đánh giá:

Để đánh giá các mô hình tôi dựa trên hai độ đo là precision và recall.

- Precision: đánh giá có bao nhiêu địa chỉ đã bị xóa (từ lịch sử của người dùng) xuất hiện lại trên số lượng kết quả recommend.

60

- Recall: Tỷ lệ tập địa điểm được khôi phục lại trên tập đã bị xóa (từ tập dữ liệu lịch sử của người dùng)

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑆ố 𝑙ượ𝑛𝑔 𝑣ị 𝑡𝑟í đượ𝑐 𝑘ℎô𝑖 𝑝ℎụ𝑐 (𝑡𝑟𝑜𝑛𝑔 𝑠ố 𝑣ị 𝑡𝑟í 𝑏ị 𝑥ó𝑎)

𝑆ố 𝑙ươ𝑛𝑔 𝑘 𝑣ị 𝑡𝑟í 𝑔ợ𝑖 ý (4.1) 𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑆ố đị𝑎 đ𝑖ể𝑚 đượ𝑐 𝑘ℎô𝑖 𝑝ℎụ𝑐

𝑇ổ𝑛𝑔 𝑠ố 𝑣ị 𝑡𝑟í 𝑏ị 𝑥ó𝑎 (4.2)

Một phần của tài liệu THUẬT TOÁN xếp HẠNG địa điểm TRONG các ỨNG DỤNG DỊCH vụ dựa TRÊN địa điểm (LBS) có CHÚ ý tới đặc điểm RIÊNG NGƯỜI DÙNG (Trang 58 - 60)

Tải bản đầy đủ (PDF)

(74 trang)