Ngoài ra, đề tài còn sử dung mô hình Big Five dé phân tích tính cách của ngườidùng, từ đó cá nhân hóa khuyến nghị các địa điểm du lịch phù hợp với sở thích vàtính cách riêng của từng ngư
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRƯỜNG ĐẠI HỌC CONG NGHỆ THONG TIN
KHOA HỆ THÓNG THÔNG TIN
NGUYEN HỮU LONG - 20521569
PHẠM LÊ DỊU ÁI - 20520368
KHÓA LUẬN TÓT NGHIỆP
HỆ THÓNG GỢI Ý LỊCH TRÌNH DU LỊCH THÔNG QUA CÁC
PHƯƠNG PHÁP HỌC MÁY VÀ TRÍ TUỆ NHÂN TẠO
A TRAVEL ITINERARY RECOMMENDATION SYSTEM THROUGH
MACHINE LEARNING AND ARTIFICIALINTELLIGENCE METHODS
CU NHAN NGANH HE THONG THONG TIN
GIANG VIEN HUONG DAN PGS.TS NGUYEN DINH THUAN
TP HO CHI MINH, 2024
Trang 2LỜI CẢM ƠNLời đầu tiên, chúng em xin được cảm ơn trường Đại học Công nghệ Thông tin —Dai học Quốc gia Thành phố Hồ Chí Minh đã tạo điều kiện tốt nhất dé chúng em có théhọc tập và phát triển Tại đây, chúng em đã được rất nhiều thầy cô, những người bạntuyệt vời, cùng với đó là những cơ hội quý giá dé phát triển bản thân.
Nhóm chúng em xin gửi lời cảm ơn chân thành và lòng biết ơn sâu sắc đến thầyPGS TS Nguyễn Đình Thuân và KS Nguyễn Minh Nhựt, những người đã hết lòng giúp
đỡ chúng em trong con đường nghiên cứu lẫn học tập Những lời động viên, góp ý chân
tình của thầy Nguyễn Đình Thuân là động lực quý báu để nhóm học tập được nhiều kiếnthức bồ ich cũng như vượt qua những khó khăn khi thực hiện khóa luận
Trong thời gian thực hiện khóa luận, nhóm chúng em đã cố gắng vận dụng nhữngkiến thức nền tang đã học dé xây dựng khóa luận tốt nghiệp Tuy nhiên trong quá trìnhthực hiện, do kiến thức và kinh nghiệm còn hạn chế, nên khó tránh khỏi những thiếu sót
Vì vậy, chúng em rất mong nhận được sự góp ý từ thầy cô để nhóm hoàn thành thêmnhững kiến thức và kĩ năng cần thiết
Trang 31.5.2 Phạm vi dÐ sz772z7777: o 0T E0 TTỒ LG LG 0022000 nHnHg ng nen 6
Chương 2: CƠ SỞ LÝ THUYÊTT 2- 2 2 £2SE2EE£E££EE£EE2EEEEEEEEEEEEEEEErrerrrrei 8
2.1 Hé khuyến nghi ccccccscccccssessesssecssecssesssesssessnecssecsscssecsecssecssecssecsseesneesseeseeeseeess 8
2.1.1 Lý thuyết về hệ khuyến nghị ¿- 2 ¿2++2x2zxvzxeerxeerseees 82.1.2 Áp dụng hệ khuyến nghị vào bài toán -¿¿©+©++cx+ecszeex 9
2.2.1 Lý thuyết về Mô hình Big Five - 2 s+Ss+EE+EE+EeEeErrerrerreres 132.2.2 Áp dụng mô hình Big-Five vào bài toán - 2-2 e+cz+czrres 13
2.3 Mô hình CLIP (Contrastive Language-Image Pre-training) 16
2.3.1 Lý thuyết về mô hình CLIP - 2-2 2+£+EE2E++E++EE+EzEzEezrzreres l62.3.2 Áp dụng mô hình CLIP vào bài toán -.2- 2 s22 ++£xezxzrxeres 172.3.2.1 Khuyến nghị dựa trên hình ảnh -2- 2 2 2 2 £+££+E++EzEzzEzrszes 17
2.4 Bài toán Người đi du lịch (Travelling Salesman Problem — TSP) 18
2.4.1 Lý thuyết bài toán Người đi du lich (Travelling Salesman Problem — TSP)
18
2.4.2 Lý thuyết thuật toán Dijksfra ¿c2 + 5z+S£££xc£EvExerxrrreerkrree 192.4.3 Lý thuyết thuật toán Quy hoạch động (Dynamic Programming) 19
Trang 42.4.4 Áp dụng Quy hoạch động (Dynamic Programming) vào bài toán Người
đi du lịch (Travelling Salesman Problem — TSP) - xc+s +2 19
Chương 3: THUC NGHIEM HE THÓNG - 2-22 2£ E+E£+EE+£xzEzzzxezez 23
3.1 _ Dữ liệu sử dụng -.- Ăn ng HH HH HH rệt 23
3.1.1 Dữ liệu về địa điểm, đánh giá - 2 2Sz+E+EE2E2EEEEEErErrerreee 233.1.2 Dữ liệu hình ảnh các địa điểm -¿- - + vSx+EeEvEEeEeErtererxrerreree 24
3.1.3 Bo câu hỏi khảo sát tính cách: - - - << «5+ + * 33+ s.vvveeeeeeeseeee 24
3.2 Thực nghiệm gợi ý địa điểm bang nội dung -.: 2- 5z ©5+25+z55+2 263.3 Thực hiện gợi ý địa điểm bằng điểm đánh giá người dùng 293.4 Thực hiện gợi ý địa điểm thông qua bài khảo sát tính cách 303.5 _ Thực hiện gợi ý địa điểm bằng hình ảnh - 525 <ccc2<cccsseecsssees 313.6 _ Thực hiện gợi ý địa điểm bằng văn bản -. ¿- +©x++x+czxezxxerseee 333.7 Thực hiện tạo đường đi bằng Quy hoạch động - - «<< ++s<+<x++ 34Chương 4: ĐÁNH GIÁ MÔ HÌNH 22 22©522x£+ExSEx2EEerrxerreerreeee 36
4.1 _ Đánh giá mô hình pre-trained CLIP phân loại đặc điỂm c-ccccccscs 36 4.2 _ Đánh giá mô hình pre-trained gợi ý địa điểm dựa theo hình ảnh 37 4.3 Đánh giá mô hình pre-trained CLIP gợi ý địa điểm dựa theo văn bản 38
4.4 Đánh giá thuật toán Quy hoạch động va DIJksfra 5 +5 «5s ++++ 39 4.5 Đánh giá mô hình Collaborative Filtering -+ ++5+<+<+++ 40
5.1 _ Thiết kế thành phần chức năng -2-¿2+2+++2++tztxvezrxrtrrrerrrree 43
S.1.1 Dac tả Se€Case - -GQ TH HS TH ng ng ket 44
5.2 Thiết kế thành phan dữ liệu -. -¿- 2 ¿2+2++£+++E++ezx++rxverxzrxeee 53
5.2.1 Bảng location woo eee cece cee ceecseeeeecseceeesseseseseeeeseseeesseseeeseeeaeeagengs 53 5.2.2 Bảng USEF 0 eceeseescceseeesneeeseecesecescecsnecsseeescecsseceseecsaeceseesseeceaeeeeeesaeenaes 54
5.2.3 Bảng location raf[InE «<< kg rưệt 54
Trang 55.3 Mô tả các màn hình - - - SE E222 1111 19H51 1k reg 5S
5.3.1 Man hình đăng ky Ác nh TH HH TH HH nàn 55
5.3.2 Man hình đăng nhập - - c5 3211 vs site rrke 56
5.3.3 Mam hinh chimh oo 57 5.3.4 Màn hình bài khảo sat ee eeceececeescecceeceeceececeeeeaeceeseeeseeseeeeeeeaees 58 5.3.5 Màn hình thông tin người dùng - -.- 6 5 se sikg 59
5.3.6 Màn hình chỉ tiết địa điểm cccc+ccxvrrrtrtrrrrrrtrrrrrrirrrrrriree 605.3.7 Màn hình đánh giá địa điểm - 2 + ©5222+2EEc2EvExerxrrrrerrrree 61
5.3.8 Màn hình lên lịch trình - -. << 1E 22211 1k vsesssveree 62
5.3.9 Màn hình tổng quan lịch trình du lich - 2-2 sss+sz+szzsz+s2 635.3.10 Màn hình chi tiết lịch trình trong một ngày 2-2-2 25252 645.3.11 Màn hình chi tiết đường đi -¿ ¿+ ©+2+z+£xEtExeerxeerkeerkesree 655.3.12 Màn hình chọn loại khuyến nghị 2-2 2 2 ++£+££+s£+xzzxzzsz 665.3.13 Màn hình gợi ý địa điểm theo hình ảnh - ¿2 2 s2+z+z+z=+2 675.3.14 Màn hình kết quả gợi ý theo hình ảnh 2- 2-2 2 22s++sz+s+zs+ 685.3.15 Màn hình gợi ý dia điểm theo văn bản - - 6-52 sect+Ee£xeEzxerxerx 69Chương 6: KET QUA DAT ĐƯỢC VÀ HƯỚNG PHAT TRIEN 70
6.1 Két QUA dat MUO 2 eee eececscccsseceseeeseeeeseeseeeeeseceseeeseeeseecsseeeeeeceseeeeeeseseeeeeeags 706.2 Hướng phat trien eeeecccccecccscssessessessessessessessessssssssesessessesssseesessessessesseeseesess 70TAI LIEU THAM KHAO 2 cccecccssecesscsscscscsscesscscsvsscassesscessececsrsucassvseserssesansecaneveesers 71
Trang 6DANH MỤC HÌNH ẢNH
Hình 1.1: Giao diện ứng dụng Travel Tour UIde - 5 5 33s ‡*+£++se+eeseerrss 2 Hình 1.2: Giao diện ứng dụng 63StTAV€Ì - G1 3211321139111 11 8111111 11 vn 3 Hình 1.3: Giao diện ứng dung 'TTIDAVISOT- 5G 311313 11 91 1 re 4
Hình 1.4: Giao diện ứng dụng “TTID.COIT G2 2111311 9311311 931 991 1g ng 5
Hình 2.1: Các phân loại trong hệ thống khuyến nghị - 2-52 52 2+£E>Ezz£scred 8 Hình 2.2: Minh họa độ tương đồng Cosine -¿- 2: +¿©+2+++2++£E++rx+erxeerxesree 10 Hình 2.3: Kiến trúc mô hình CLP 2 2£ +£ £+EE£+E£+E££EE££E+£EE+EE£+E+zExrxezrxrrxez 16 Hình 2.4: Minh họa đồ thị 2cccccc22 tri 18
Hình 3.1: Thu mục hình anh được lưu trữ trên Azure Blob Storage - 24
Hình 3.2: Dữ liệu về địa điểm - 222cc+EEttrrhttrrrHHrrrre 27 Hình 3.3: Ma trận độ đo tương đồng Cosine của Content Based Filtering 27
Hình 3.4: Thực hiện khuyến nghị cho địa điểm Nhờ thờ Domaine Die Marie 28
Hình 3.5: Thực hiện khuyến nghị cho địa điểm Thiền Viện Trúc Lâm - 28
Hình 3.6: Thực hiện khuyến nghị với địa điểm Nhà Hàng Thủy Tạ 28
Hình 3.7: Mô tả dữ liệu đánh giá - 2 2c St *E1 3119 E9 1111 1 1 Hit 29 Hình 3.8: Ma trận độ tương đồng Cosine của Collaborative Filtering . 29
Hình 3.9: Thực hiện gợi ý cho 1 người dùng bang Collaborative Filtering 30
Hình 3.10: Điểm tính cách của người dùng 2-2 2 s2 ++££+£E+£E+EzEzEzrezrezes 31 Hình 3.11: Hình ảnh các đặc điểm và kết quả các đặc điểm sau khi phân tích dựa trên AMD 0 ồ 31 Hình 3.12: Hình ảnh lưu thông tin các đặc điểm vào cơ sở dữ liệu -:-s+: 32 Hình 3.13: Kết quả các địa điểm có độ tương đồng cao nhất - 2-2-5252 32 Hình 4.1: Hình ảnh bộ dữ liệu test cho mô hình pre-trained CLIP - 36
Hình 4.2: Kết quả đánh giá mô hình pre-trained CLIP phân loại đặc điểm bằng hình ảnh trên tập dữ liệu f€S( - - - TH Họ TH HH 36 Hình 4.3: Bộ dữ liệu hình ảnh và các địa điểm được ĐỢI Ý Ăn he 37 Hình 4.4: Kết qua AP và mAP khi sử dụng độ tương đồng Cosine 37
Hình 4.5: Kết quả AP và mAP khi sử dụng độ tương đồng Euclid 38
Hình 4.6: Kết quả AP và mAP khi sử dụng độ tương đồng Dot Product 38 Hình 4.7: Bộ dữ liệu test cho mô hình pre-trained CLIP gợi ý dia điểm dựa theo văn bản
Trang 7Hình 4.8: Kết qua AP và mAP khi chạy mô hình pre-trained CLIP - - 39Hình 4.9: Các địa điểm dé đánh giá thuật toán Quy hoạch động và Dijkstra 39
Hình 4.10: Thời gian chạy thuật toán Quy hoạch động 5 -+-«<++s<>+ss+2 40 Hình 4.11: Thời gian chạy thuật toán IDDIJkSra 5 <5 32+*+*vE+sseseeseeerseees 40
Hình 4.12: Kết quả RMSE tương ứng với các K-Fold của mô hình User-User
Hình 5.13: Màn hình đăng ký - + + S2 k*S 9 11 HH TH TH ng nh rệt 55 Hình 5.14: Màn hình đăng nhập - - G222 1321123139113 1181211111 11k HH nh dư 56 linh 20/Pi00ì)i09i): 01110777 57
Hình 5.16: Màn hình bài khảo sat - - 6 6 111v ng ng HH trệt 58
Hình 5.17: Màn hình thông tin người dùng - 5 5c + *s+Esesrirrrrrerrrrrrrrrke 59
Hình 5.18: Man hình thông tin chi tiết địa điểm -2- 2 2 +£2++£Ev£xzzeerxeee 60Hình 5.19: Màn hình đánh giá địa điểm -2¿5¿©5+2E++EE+2EE+SEEESEEeerxrrrxrrrree 61
Hình 5.20: Màn hình lên lịch trìnhh - - - 2+2 ++**+*£+kE+EE#EEeEEererrerrrrrrrrrerrkrrke 62
Hình 5.21: Màn hình tong quan lịch trình du lịch 5-2 s2 2 s2 £+s£z£zz£zzzzzsz 63Hình 5.22: Màn hình chỉ tiết lịch trình trong một ngày -. -2- 2-2225: 64Hình 5.23: Man hình chi tiết đường đi 22-22 S£22+2E+tEEEtEEEtEEEeEErerxrerkesree 65
Hình 5.24: Màn hình chọn loại khuyến TIÏ] G1 1211119111911 11 911111 vn rry 66
Trang 8Hình 5.25: Màn hình Gợi ý địa điểm theo hình ảnhHình 5.26: Màn hình kết quả gợi ý theo hình ảnh Hình 5.27: Màn hình gợi ý địa điểm theo văn bản
Trang 9DANH MỤC BANGBang 2.1: Ví dụ về mô hình không gian VeCOr -2- 2: 2-5252 E2 £E2EEE+2E2EzEzEezes 10Bang 2.2: Ma trận về hành vi tương tác giữa người dùng và địa điểm 11
Bang 2.3: Ma tran Cosine cecccesscessecsssceseecesecesceceeeceseeesceceaeceseeceaeceseeesaeceaeeeseeseaeenaes 11
Bang 2.4: Ma trận thể loại địa điểm và TF-IDF c.ccsccccsseescessessessesseseeseseseseeseeseess 12Bảng 2.5: Bang ma trận tương đồng Cosine giữa các địa điểm theo thể loại 12Bảng 2.6: Bảng ngưỡng điểm phân loại tính cách - -2 ¿ 5¿25z2c+z2z+z2ss+2 14Bang 2.7: Bảng phân loại thé loại địa điểm yêu thích theo từng tính cách 15Bang 2.8: Bang phân loại đặc điểm của địa điỂm 2-52 225z+E+Eczrczrrrres 17Bang 2.9: Bảng khoảng cách của các địa điểm - 2-2 2+S++S++E£EzErrrrerreres 20Bảng 3.1: Bảng mô tả các thuộc tính của dữ liệu về địa điểm - - ccccccccrxeree 23Bảng 3.2: Bang mô tả các thuộc tính về đánh giá -2 2- ¿c++c++2zxzzxcczxez 24Bang 3.3: Bộ câu hỏi để khảo sát tính cách - ¿2-2 25s E+EE+EE+EE2EE£EEzEErErrerreres 26
Bảng 3.4: Bang dữ liệu câu trả 101 của một người dùng - « s«+++s+++s>+s+2 30 Bảng 5.1: Usecase Đăng Ký - c1 v11 HH TH HH HH ng 44 Bảng 5.2: Usecase Đăng nhập - - G6 2c E2119211311 911911 9112 1101 1 nh ng ng Hư 45
Bảng 5.3: Usecase xem địa điểm ¿+ 2-56 ©Sc 22 2EE‡EE2 2112121122171 46Bang 5.4: Usecase nghe thuyết minh địa điỂm - 2-2 2 22 2£ ++££z£z£zzzzzzz 46Bảng 5.5: Usecase xem khuyến nghị 2-52 2 522E2+EE£EE£EEE+EEEEEEEEESEEerkerrrerkere 47Bang 5.6: Usecase tìm kiếm địa điỀm - 2-52 <+SE+EE£EE2EE2EEEEEEEEEEEEErrkrrerrrres 48
Bảng 5.7: Usecase Xem lịch trìnhh - - << + 1112319911 91119 1119 19 ng ng ng ng 48 Bảng 5.8: Usecase làm khảo Sat - - 5 11H TH ng 49
Bảng 5.9: Bang mô tả thông tin địa điỂm - 2-2 525++2xc2E+2EEtEEzEEerxerkrrrrerxeee 54
Bảng 5.10: Bang mô tả thông tin UST - 5 5 5 31633183911 8111111 EEkrrekre 54
Bảng 5.11: Bang mô ta thông tin location_rating -ss+sssssksseeseereees 54
Bảng 5.12: Bang mô tả man hình đăng ky - - Sc 3 S3 ieererrresek 55 Bang 5.13: Bảng mô tả màn hình đăng nhập - 6 6 5+ skEsereerserseske 56
Bang 5.14: Bang mô tả màn hình chính - - - 5 6 S2 E2 E221 E*2E£3 3 tre 57
Bang 5.15: Bảng mô tả màn hình các câu hỏi khảo sát - 5-5 +++<++ss+sss2 58 Bảng 5.16: Bang mô tả man hình thông tin người dùng s5 55 ++< << >+ss+s+ 59
Bảng 5.17: Bảng mô tả màn hình thông tin chỉ tiết địa điểm -: :5¿ 60Bang 5.18: Bảng mô tả màn hình đánh giá địa điỂm - 2-2 2 2+ z+cz+£zzzzez 61
Trang 10Bảng mô ta màn hình lên lịch trình - - «+5 + ++s£++txse+eeeseesseeses 62
Bang mô tả màn hình tổng quan lịch trình du lịch -2- 2-2 5+: 63Bang mô tả màn hình chi tiết lịch trình trong một ngày - 64Bang mô tả màn hình chi tiết đường di ccceccccecesesesesseseeseeseeseeseaees 65Bang mô tả màn hình chọn loại khuyến nghị -2- 2-2 25255: 66 Bang mô tả màn hình gợi ý dia điểm theo hình ảnh : 67Bang mô tả màn hình kết quả gợi ý theo hình anh -. -: 68Bang mô tả màn hình gợi ý địa điểm theo văn bản -5:5¿ 69
Trang 11DANH MỤC TU VIET TAT
Số thứ tự | Thuật ngữ Mô tả
1 AI Artificial Intelligence
2 API Application Programming Interface
3 CLIP Contrastive Language-Image Pre-training
4 TSP Travelling Salesman Problem
5 IPIP International Personality Item Pool
Trang 12TOM TAT KHÓA LUẬN
Đề tài “Hệ thống gợi ý lịch trình du lịch thông qua các phương pháp học máy
và trí tuệ nhân tạo” hướng đến đối tượng là những người có nhu cầu tìm kiếm các địađiểm du lịch tại Đà Lạt có chọn lọc dé giúp người dùng dé dàng tìm kiếm địa điểm
lựa chọn kỹ càng và lập lịch trình phù hợp.
Nghiên cứu này không chỉ áp dụng CLIP để khuyến nghị địa điểm dựa trênhình ảnh và văn ban, mà còn tích hợp thuật toán tối ưu hóa đường đi bằng phươngpháp quy hoạch động Điều này giúp tối ưu hóa lịch trình du lịch bằng cách xác địnhthứ tự di chuyên hiệu quả giữa các địa điểm khác nhau
Ngoài ra, đề tài còn sử dung mô hình Big Five dé phân tích tính cách của ngườidùng, từ đó cá nhân hóa khuyến nghị các địa điểm du lịch phù hợp với sở thích vàtính cách riêng của từng người dùng Điều này giúp cải thiện trải nghiệm người dùngbằng cách đưa ra các đề xuất chính xác và cá nhân hóa hơn
Để tăng cường trải nghiệm người dùng, nhóm nghiên cứu đã tích hợp các thuật
toán và mô hình vào một ứng dụng di động Ngoài ra, nhóm cũng sử dụng các API
mạnh mẽ như như map box và thuyết minh địa điểm dé cung cấp thông tin chỉ tiết vềđịa điểm và tối ưu hóa hành trình di chuyền Kết quả là một hệ thống hoàn chỉnh giúpngười dùng dễ dàng lựa chọn và lập kế hoạch du lịch một cách hiệu quả và đáp ứng
nhu câu đa dạng của từng cá nhân.
Trang 13Chương 1: TONG QUAN DE TÀI
1.1 Dat van đề
Du lich là một trong những ngành công nghiệp lớn đất nước ta Sự bùng nỗ của
du lịch đã kéo theo nhu cầu ngày càng cao về việc lập kế hoạch đi du lịch một cáchhiệu quả và tối ưu Đối với nhiều người, việc lên kế hoạch cho một chuyến đi có thétrở nên phức tạp và tốn thời gian, đòi hỏi phải tìm kiếm thông tin từ nhiều nguồn, sắpxếp lịch trình phù hợp Việc day mạnh hệ khuyến nghị dé gop ý các địa điểm du lichphù hợp với người dùng là điều cần thiết Vì vậy, nhóm quyết định xây dựng một hệ
thống khuyến nghị địa điểm du lịch và lên lịch trình cho người dùng.
Trang 14VN Travel Tour Guide! là ứng dụng cung cấp các thông tin về địa điểm dulịch với giao diện đơn giản cho người dùng Mục đích của hệ thống là giúp ngườidùng tìm kiếm các địa điểm du lịch, ăn uống và cung cấp một số bài viết trải nghiệm
du dịch cho người dùng.
Ứng dụng hỗ trợ tìm kiếm như:
- Noi đến (Tiền Giang, TP Hồ Chí Minh, Nha Trang )
- Danh mục (Danh thắng, giải trí, ăn uống )
- Hang mục (Bảo tàng, Dia điểm tôn giáo, )
Trang 1563stravel? là ứng dụng cung cấp các thông tin về du lịch Việt Nam như các bài
viết, tin tức về các địa điểm du lịch với các chủ đề đa dạng và tự động thuyết minh
đa ngôn ngữ Người dùng có thê sử dụng ứng dụng và quét mã QR Code ở trong cácbảo tàng và có thê nghe được nội dung Ngoài ra ứng dụng còn kết nối với các công
ty du lịch dé cung cap các tour du lịch cho người dùng
Trang 16Tripadvisor cung cấp rất nhiều đánh giá và thông tin chỉ tiết về các điểm dulịch, nhà hàng, khách san, và các hoạt động khác Người dùng có thé dé dàng tìm thaynhững địa điểm và dịch vụ tốt nhất dựa trên đánh giá từ người dùng khác Đồng thời,Tripadvisor cũng cung cấp các lịch trình du lịch dựa theo sở thích của người dùng.
Tour & Trang thai Đổi tac Vé Trip.com
Hoạt Động chuyển bay
fo Hướng Dan Du Lich ay Moments
Tiếp Tục Tim Kiểm ñ
3 Khách Sạn Tại Phan Thiết
sạn, thuê xe và tour du lịch Ngoài ra, ứng dụng còn có hàng triệu khách sạn trên toàn
Trang 17thế giới, từ khách sạn giá rẻ đến các khu nghỉ dưỡng cao cấp, cùng với đánh giá vànhận xét từ khách hang dé hỗ trợ việc lựa chọn chỗ ở phù hợp.
1.3 Nhận xét
Nhìn chung, các ứng dụng về du lịch đều cung cấp các thông tin về địa điểm dulịch và tìm kiếm các địa điểm du lịch Các địa điểm có nhiều sự lựa chọn về loại địađiểm, đáp ứng nhu cầu đầy đủ của người dùng
Tuy nhiên hiện nay ở Việt Nam chưa có nhiều ứng dụng cung cấp cho ngườidùng gợi ý địa điểm bằng hình ảnh và gợi ý địa điểm dựa trên các tính cách khác nhau
theo mô hình Big-Five.
1.4 Muc tiêu của khóa luận
Đề đáp ứng nhu cầu tìm kiếm các địa điểm du lịch phù hợp với người dùng, đềtài xây dựng một hệ thống gợi ý địa điểm, lịch trình du lịch cho người dùng theo các
nhãn dán và theo tính cách của người dùng.
Sau khi đã tìm hiểu, khảo sát và nghiên cứu, nhóm tác giả đã đưa ra thực hiện cho dé
tài khóa luận như sau:
- _ Xây dựng hệ khuyến nghị cho hệ thống là gợi ý các địa điểm liên quan cho
người dùng theo từng tính cách khác nhau.
- _ Gợi ý ra các dia điểm du lịch thông qua hình ảnh
- _ Thuyết minh các địa điểm du lịch
- Tao ra lịch trình với khoảng cách ngắn nhất cho người dùng
1.5 Đối tượng và phạm vi
1.5.1 Đối tượng
Người dùng đi du lịch và có nhu cầu tìm kiếm các địa điểm du lịch
1.5.2 Phạm vi
Do thời gian thực hiện đề tài có giới hạn, cũng như kiến thức của nhóm về các
công nghệ chưa được hoàn thiện, nên trong phạm vi khóa luận này nhóm chỉ sử dụng
một số nội dung cơ bản của công nghệ như sau:
- D6 tương đồng Cosine
- Mô hình Pre-Trained: CLIP (Contrastive Language-Image Pre-Training)
Trang 18Phương pháp gop ý: Content Based Filtering, Collaborative Filtering
Thuật toán Quy hoạch Động (Dynamic Programming)
Ngôn ngữ lập trình: Python, Javascript
Phần mềm hỗ trợ: Visual Studio Code, Github, Azure
Bộ dữ liệu về các địa điểm du lịch: crawl từ website TripAdvisor va GoogleKiến thức xây dung ứng dung điện thoại di động
Trang 19Chương 2: CƠ SỞ LÝ THUYÉT
2.1 Hệ khuyến nghị
2.1.1 Lý thuyết về hệ khuyến nghị
Hệ thống khuyến nghị (Recommendation System) [1] là một ứng dụng thiết yếucủa máy học, có vai trò quan trọng trong việc thúc đầy sự phát triển của các hệ thống
thông tin ngày nay.
Dựa trên sự tương tác của người dùng với hệ thống, hệ thống khuyến nghị cảithiện trải nghiệm người dùng một cách đáng kể bằng cách lọc và đề xuất thông tinphù hợp Ví dụ như gợi ý các sản pham có thể phù hợp với sở thích cá nhân, hay cácvideo đang phổ biến hiện nay Mục đích chủ yếu của hệ thống là dự đoán sự quantâm của người dùng đối với một sản phẩm thông qua các hành vi của ho và các người
khác.
Recommender systems
|
: ¿ |Content based methods Collaborative filtering methods Hybrid methods
Define a model for user-item Mix content based and
interactions where users and/or collaborative filtering
items representations are given approaches.
(explicit features).
Model based Memory based
Define a model for user-item Define no model for user-item
interactions where users interactions and rely on
and items representations similarities between users have to be learned from or items in terms of
interactions matrix observed interactions.
Hình 2.1: Các phân loại trong hệ thong khuyến nghị
Hệ thống chia thành ba nhóm chính [2]:
- Loc dựa trên nội dung (Content-based filtering) [3]: Đây là một phương
pháp dựa trên nội dung của các mục dé đưa ra các đề xuất cho người dùng.Phương pháp này dựa trên việc đánh giá sự tương đồng giữa các mục dựa trêncác đặc tính và thuộc tính của chúng Nó sử dụng thông tin chỉ tiết về nội dungcủa các sản phẩm (như mô tả, từ khóa, thê loại, các thuộc tính khác) để xác
định những sản phâm có sự tương đông cao với những sản phâm mà người
Trang 20Lọc cộng tác (Collaborative Filtering) [4]: Phương pháp gợi ý dựa trên cộng
đồng người dùng để đưa ra các đề xuất Phương pháp này dựa trên việc phântích thông tin về hành vi và sở thích của nhiều người dùng để tìm ra sự tươngđồng giữa các người dùng và đề xuất các mục mà người dùng có sở thích tương
tự đã thích Cụ thể, nó sẽ xem xét các thông tin như lịch sử mua hàng, xếphạng sản pham dé xác định sự tương đồng giữa các người dùng Dựa trên sựtương đồng này, hệ thông có thê đưa ra các đề xuất cho người dùng, ví dụ như
đề xuất sản phâm mà những người dùng có sở thích tương tự đã mua hoặc
đánh giá cao.
Phương pháp lai (hybrid method) [5]: Là phương pháp kết hợp giữa Lọc
dựa trên nội dung (Content-based filtering) và Lọc cộng tác (Collaborative
Filtering)
Ap dụng hệ khuyến nghị vào bài toánTrong đề tài này, nhóm sẽ sử dụng cả hai phương pháp cơ bản là Lọc cộng tác(Collaborative Filtering) và Lọc dựa trên nội dung (Content-based filtering) dé phat
triên hệ thông Hệ thong sẽ đánh giá mức độ quan tâm của một người dùng đôi với
một item (địa điểm) dựa trên sở thích của những người dùng khác có độ tương đồng
cao với người này va đánh giá sự tương đông của các địa diém.
2.1.2.1 Phép đo tương đồng (Similarity Metric)
Phép đo tương đồng (Similarity Metric) biểu thị mức độ tương đồng giữa cácđối tượng Sự tương đồng này có thể được tính toán bằng một trong hai cách: thông
qua “góc” giữa các vector (chăng hạn như hệ sô tương quan Pearson và góc tương
đồng Cosine), hoặc thông qua “khoảng cách” giữa chúng
Trang 212.1.2.1.1 Mô hình không gian vector
Mô hình đại số không gian vector biểu diễn các đối tượng dưới dạng vector.Trong hệ khuyến nghị, dữ liệu của người dùng, mẫu tin và sự tương tác giữa chúng
có thể biểu diễn dưới dạng vector Dưới đây là ví dụ của người u, địa điểm A, B, C
và sự đánh giá của người u lên các địa điểm:
Địa điểm A Địa điểm B Địa điểm C
Người u 3 2 5
Bảng 2.1: Ví dụ về mô hình không gian vector
Vậy tu= (3,2,5)
2.1.2.1.2 Độ tương đồng Cosine (Cosine Similarity)
Độ tương đồng Cosine là thước đo độ tương tự giữa hai vector khác không,
dựa trên góc mà các vector tương ứng g1ữa chúng tạo ra và góc càng nhỏ thi Cosine
càng cao Giá trị của nó đao động trong khoảng -1 đến 1
Trang 22Công thức của độ tương đồng Cosine:
Trong hệ thống cần phải có một bộ hồ sơ (profile) là m cho từng địa điểm
(item) là n Ta sẽ có ma trận hành vi như sau:
location1 location2 location3
ul X X X
u2 X
u3 X X
Bảng 2.2: Ma trận về hành vi tương tác giữa người dùng và địa điểm
Với bảng 2.2, một vector tương ứng với một người dùng, với mỗi chiều là mộtđịa điểm Ta có: u1(1,1,1), u2(1,0,0), u3(1,0,1) Lần lượt tính độ tương đồng Cosinegiữa các cặp u1-u2, ul-u3, u2-u3 ta được kết quả như sau:
cosine (ul, u2) =0.57 cosine (ul, u3) =0.82 cosine (u2, u3) =0.70
Biéu diễn bang ma trận như sau:
ul u2 u3
ul 1 0.57 0.82 u2 0.57 1 0.70
u3 0.82 0.70 1
Bang 2.3: Ma tran Cosine
11
Trang 23Từ bảng 2.3, ta thay ul và u3 có độ Cosine cao nhất tức là sở thích của ul vàu3 gần tương tự nhau Cả hai người đều thích địa điểm 1 và 3.
2.1.2.3. Khuyến nghị bằng lọc nội dung
Ta xây dựng một bộ hô sơ cho các item Gia sử, hệ thông có 8 địa điêm với các sô từ được tách ra từ thê loại như sau:
Địa điểm A B C D
DI 1 1 1 1
D2 1 0 1 0
D3 0 0 0 1 D4 1 0 0 0 D5 0 0 0 0 D6 1 1 1 0
Bang 2.4: Ma trận thé loại dia điểm và TF-IDF
Sau đó, sử dung độ tương đồng Cosine dé tính toán độ tương đồng giữa các
bộ phim Ta được kết quả như sau:
DI D2 D3 D4 D5 D6
DI 1 0.55 0.33 0.23 0.002 0.88 D2 0.55 1 0.12 0.54 0.04 0.86 D3 0.33 0.12 1 0.24 0.34 0.005 D4 0.23 0.54 0.24 1 0.026 0.68 D5 0.002 0.04 0.34 0.026 1 0.12 D6 0.88 0.86 0.005 0 0.12 1
Bang 2.5: Bảng ma trận tương dong Cosine giữa các dia diém theo thé loại
Giữa vào bảng tương đồng trên, chúng ta có thé lay ra được những địa điểmtương đồng nhất với địa điểm được so sánh Ví dụ như địa điểm tương đồng nhất với
D1 là D6 với độ Cosine là 0.88.
12
Trang 242.2 Mô hình Big Five
2.2.1 Ly thuyết về Mô hình Big Five
Mô hình Big Five [6] là tập hợp năm tinh cách lớn là: Agreeableness (Dễ gan),
Conscientiousness (Tận tâm), Extraversion (Hướng ngoại), Openness (Cởi mở),
Neuroticism (Bat an) Nhiều nghiên cứu đã chứng minh rằng các đặc điểm tính cáchlớn ảnh hưởng đến thái độ và hành vi của con người như: Tính cách ảnh hưởng đếnhiệu suất công việc (LePine & Van Dyne, 2001), tình trạng kinh doanh (Zhao &Seibert, 2006), kha năng phục hồi tâm lý (Fayombo, 2010) Trong lĩnh vực du lich,
các nghiên cứu liên quan đến tính cách cũng khá đa dạng Các nghiên cứu trước đây
đã xem xét môi quan hệ giữa năm đặc điểm tính cách này với hành vi tìm kiếm vàchia sẻ thông tin (Tan & Tang, 2013; Jani, 2014), hành vi tham gia lặn biển (Ong &
Musa, 2012), hành vi du lịch thân thiện với môi trường (Kvasova, 2015), sự tham gia
của khách hàng (Wu & Mursid, 2019), sự lựa chọn sử dụng phần mềm du lịch
(Akhrani & Najib, 2020).
2.2.2 Áp dụng mô hình Big-Five vào bài toán
Trong hệ thống, nhóm sử dụng 50 câu hỏi từ IPIP đề người dùng làm bài khảo
sát tính cách.
Ta có công thức tính điểm cho từng tính cách như sau:
E=20+ (1) - (6) +(11) - (16) + (21) - (26) + (31) - (36) + (41) - (46) A=14-(2)+(7)- (12) + (17) - (22) + (27) - (32) + (37) + (42) + (47)
C = 14 + (3) - (8) + (13) - (18) + (23) - (28) + (33) - (38) +(43) + (48)
N = 38 - (4) + (9) - (14) + (19) - (24) - (29) - (34) - (39) - (44) - (49) O=8+(S)- (10) + (15) - (20) + (25) - (30) + (35) + (40) + (45) + (50) Trong đó:
Trang 25Bang 2.6: Bang ngưỡng diém phân loại tính cách
Sau khi ra được danh mục cho từng tính cách ta dựa vào bảng dưới đây đê đê
biết rang theo từng cách sẽ yêu thích thé loại du lich nào
Tính cách Loại tính cách Loại địa điểm
Thấp Gastronomy Event
Trung bình Cultural Heritage
Openness Museum Boat Trips Viewpoints
Cao Adrenaline Activities
Wild Nature Activites
14
Trang 26Thấp Adrenaline Activities
Trung binh Gastronomy Event
Conscientiousness Animal Park
Cao Museum Boat Trips Viewpoints
River and Lake
Thap River and Lake
Extraversion Trung binh Museum Boat Trips Viewpoints
Cao Sport Games
Thap Gastronomy Event
Agreeableness Trung binh Animal Park
Cao River and Lake
Adrenaline Activities
Thap Museum Boat Trips Viewpoints
River and Lake
Trung binh Wild Nature Activites Neurouicien Cultural Heritage
Animal Park Cao Adrenaline Activities
Sport Games
Gastronomy Event
Bang 2.7: Bang phân loại thé loại địa điềm yêu thích theo từng tính cách
Ta có 1 mảng 50 câu trả lời từ bài khảo sát với điểm số từ 1 đến 5 như sau:
Trang 272.3 Mô hình CLIP (Contrastive Language-Image Pre-training)
2.3.1 Lý thuyết về mô hình CLIP
CLIP (Contrastive Language-Image Pre-training) [8] là một mô hình do
OpenAI phát triển, tích hợp hình ảnh và văn bản vào không gian nhúng chung, đượchuấn luyện trên 400 triệu cặp hình ảnh-văn bản theo cách tự giám sát Không gian
nhúng chung này cho phép CLIP ánh xạ hình ảnh và các mô tả văn bản tương ứng
gần nhau Ví dụ, một hình ảnh của một con chó và cụm từ "một hình ảnh của một conchó" sẽ có các nhúng tương tự, làm cho chúng gần nhau trong không gian vector
> tei | 157; [eee Ts | | ety
| mage | „ I IyTy | IạTạ |IạT Ip Ty
đã - Encoder > 4& 3'Tị | D1: [ee] 3 TN
|
“ In Iw'Ti | In'T2 |[INTạ| [INTN
Hình 2.3: Kiến trúc mô hình CLIP4
CLIP học cách tính toán độ tương đông giữa vector đặc trưng của hình anh va vector đặc trưng của văn bản Mô hình cô găng tôi đa hóa độ tương đông cho các cặp
hình ảnh-văn bản đúng và tôi thiêu hóa cho các cặp sai Quá trình học này dựa trên
+ https://towardsdatascience.com/clip-model-and-the-importance-of-multimodal-embeddings-1c8f6b13bf72
16
Trang 28phương pháp học đối lập (contrastive learning), giúp mô hình phân biệt rõ ràng giữa
các cặp hình ảnh-văn bản phù hợp và không phù hợp.
CLIP thường được ứng dung dé giải quyết bài toán tìm kiếm hình ảnh và văn
bản hay phân loại hình ảnh hoặc tạo mô tả hình ảnh.
2.3.2 Áp dụng mô hình CLIP vào bài toán
Trong hệ thống, nhóm đã sử dụng mô hình pre-trained của CLIP cùng với bộ
dữ liệu hình ảnh và địa điểm được thu thập từ trang web Tripadvisor và Google dé
tạo ra hệ khuyến nghị địa điểm dựa trên hình ảnh và hệ khuyến nghị địa điểm dựa
trên văn bản.
2.3.2.1 Khuyến nghị dựa trên hình ảnh
2.3.2.1.1 Phân loại đặc điểm của địa điểm dựa trên hình ảnh
Nhóm đã sử dụng 8 loại đặc điểm của địa điểm [9] để phân loại đặc điểm của
địa điểm, các loại đặc điểm bao gồm:
STT | Tên đặc điểm Tên đặc điểm tiếng Việt
1 Adrenaline Activities Hoạt động cảm giác mạnh
2 Cultural Heritage Di sản van hóa
3 Gastronomy Event Su kién ầm thực
4 Museum Boat Trips Viewpoints | Tham quan bảo tàng
5 Sport Games Trò chơi thể thao
6 River and Lake Sông và hồ
7 Animal Parks Công viên động vật
8 Wild Nature Activities Hoạt động thiên nhiên hoang dã
Bảng 2.8: Bảng phân loại đặc điểm của địa điểm
Mô hình CLIP sẽ phân tích hình ảnh và châm điêm sự tương đông của hình
ảnh đối với mỗi loại đặc điểm, và tong độ tương đồng của các loại đặc điểm so với
hình ảnh bằng 100%, ta có công thức:
» đặc điểm = 100 %
17
Trang 292.3.2.1.2 So sánh các độ tương đồng của các hình ảnh
Nhóm thực hiện phân loại đặc điểm của tất cả các địa điểm trong cơ sở dữ liệu
và lưu các giá trị đã phân loại vào cơ sở dữ liệu Khi người dùng tải một bức ảnh lên
hệ thống, nhóm sẽ so sánh đặc điểm của bức anh vừa tải và những bức anh đã cótrong cơ sở dữ liệu bằng độ tương đồng cosine để đưa ra những địa điểm tương đồngnhất với bức ảnh
2.4 Bài toán Người di du lịch (Travelling Salesman Problem — TSP)
2.4.1 Lý thuyết bài toán Người đi du lịch (Travelling Salesman Problem — TSP)
Bài toán Người ĐI du lịch (Travelling Salesman Problem - TSP) [10] là một
van đề nổi tiếng trong các lĩnh vực nghiên cứu vận hành và khoa học máy tính Mụctiêu của bài toán là tìm ra con đường ngắn nhất có thé dé hoàn thành một chuyến đi,bắt đầu từ một thành phó, đi qua tất cả các thành phố khác chỉ một lần và trở lại thànhphố ban đầu Khi giải quyết TSP, một tập hợp các thành phố và khoảng cách giữamọi cặp thành phố được cho trước
TSP có thé được hiểu như việc tìm kiếm một chu trình Hamilton có trọng sốnhỏ nhất trong đồ thị Ví dụ, xét một đồ thị với bốn thành phố và khoảng cách giữa
Trang 30- Từ thành phó 2 đến thành phố 3: 35 đơn vị
- Từ thành phố 2 đến thành phố 4: 25 đơn vị
- Từ thành phó 3 đến thành phố 4: 30 đơn vịTrong trường hợp này, một chu trình TSP tối ưu có thé được biéu diễn là 1-2-4-3-1, tạo thành một chu trình Hamilton Tổng khoảng cách bao gồm việc cộng tong
các khoảng cách trên đường đi này là: 10 + 25 + 30 + 15 = 80 kilometer.
Để giải quyết bài toán này, nhóm tác giả đã chọn phương pháp Quy hoạch
động (Dynamic Programming).
2.4.2 Ly thuyết thuật toán Dijkstra
Thuật toán Dijkstra là thuật toán phổ biến va được sử dụng rộng rãi trong cácbài toán tìm đường đi ngắn nhất hiện nay Từ 1 địa điểm ta có thé tìm đường di
ngắn nhất tới tất cả các địa điềm còn lại trong một đồ thị có hướng không có cạnh
mang trọng số âm
2.4.3 Lý thuyết thuật toán Quy hoạch động (Dynamic Programming)
Quy hoạch động là một kỹ thuật trong lập trình giúp giảm thiểu việc chia bàitoán lớn thành các bài toán con, mỗi bài toán con này thường có nhiều giải pháp khảthi, mỗi giải pháp có một giá trị đánh giá Kỹ thuật này giải quyết van đề bằng cáchlưu trữ và tái sử dụng các giải pháp cho các bài toán con đã được giải quyết, từ đó tối
ưu hóa quá trình tính toán và giúp tìm ra giải pháp tối ưu cho bài toán gốc
2.4.4 Áp dụng Quy hoạch động (Dynamic Programming) vào bài toán Người di
du lich (Travelling Salesman Problem — TSP)
Công thức của Quy hoạch động cho bai toán TSP:
sj)= mint; + gÚ, s — GD}
Trong đó:
¡ là đỉnh bắt đầu
j là đỉnh hiện tại đang được di duyên đến
Š là tập hợp các đỉnh còn lại cần phải đi qua
C;; là khoảng cách di chuyên từ đỉnh i đến đỉnh j
19
Trang 31Ø0, S — {j}) là khoảng cách tối thiêu dé đi qua tat cả các đỉnh trong S bắt đầu từ đỉnh
Bảng 2.9: Bảng khoảng cách của các địa diém
Từ dữ liệu bảng 2.1, ta có ma trận khoảng cách dưới đây:
Trang 33g(1,{2,3,4,5}) = min = 6100
Vậy đường đi ngắn nhất là 6100
Chọn điểm 1 là điểm xuất phát, vậy các đường đi ngắn nhất là:
I>2>3>4>5>I(A>B>C>D>E>A)
I>2>4>32521(A>B>D>C>E>A)
I>5>3>4>22I(A>E>C>D>B>A)
22
Trang 34Chương 3: THỰC NGHIỆM HỆ THÓNG
3.1 Dữ liệu sử dụng
3.1.1 Dữ liệu về địa điểm, đánh giá
Đề tài sử dụng dữ liệu các địa điểm tại Đà Lạt được thu thập từ các tour dulịch nồi tiếng Dữ liệu địa điểm có 1674 địa điểm và được mô tả cụ thé ở bảng dưới
đây:
Thuộc tính Mô tả
LocationId Mã địa điểmName Tên địa điểmAddress Địa chỉ của địa điểmRating Điểm đánh giá của địa
điểmRatng_ Count Số lượng đánh giá của địa
điểm
Open_ Close Thời gian mở cửa và đóng
cửa cua địa diém
Description Tóm tắt sơ lược về địa
điểmLatitude Vĩ độ của địa điểmLongitude Kinh độ của địa điểmType Loại địa điểm
Genres Danh mục địa điểm
Bảng 3.1: Bảng mô tả các thuộc tính của đữ liệu về địa điểm
Dữ liệu về đánh giá các địa diém của người dùng theo thang điêm 5 Một dòng
là một lượt đánh giá của người dùng với địa điểm và được mô tả trong bảng dưới đây:
Thuộc tính Mô tả
Userld Mã người dùng
LocationId Mã địa điểm
23
Trang 35Rating Điểm đánh giá của người
dùng đôi với địa điêm đó.
Bang 3.2: Bang mô tả các thuộc tính về đánh giá
3.1.2 Dữ liệu hình ảnh các địa điểm
Dữ liệu hình ảnh được tải bằng cách dùng thư viện pygoogle-image - một thưviện chuyên dùng dé tải hình ảnh dựa trên từ khóa tìm kiếm Sau đó tat cả các dữ liệu
hình ảnh được lưu trên Azure Blob Storage.
Hị ^ _ Aecess Tier ‘Access Tier Last Modified Last Modified Blob Type Content
Hình 3.1: Thu mục hình anh được lưu trữ trên Azure Blob Storage
Dữ liệu gồm có 16740 hình ảnh, tương ứng với 1674 địa điểm trong cơ sở dữ liệu
3.1.3 Bộ câu hỏi khảo sát tính cách
Bộ 50 câu hỏi khảo sát về tính cách [11] được lấy từ International PersonalityItem Pool (IPIP) được phát trién boi Lewis R Goldberg và các cộng sự dé kiểm tratính cách của một người dùng, được tính từ thang điểm 1 -> 5 ( với 1 là hoàn toànkhông đồng ý -> 5 là hoàn toàn đồng ý) như sau:
STT Câu hỏi Tính Cách
1 Bạn là điểm nhắn của một budi tiệc Extroversion
2 Bạn không hay quan tâm đến người khác Agreeableness
3 Bạn luôn chuan bị trước moi thứ Conscientiousness
4 Ban dé dang căng thăng Neuroticism
5 Bạn có vốn từ vung phong phú Openness
6 Bạn không hay nói chuyện Extroversion
24
Trang 367 Bạn hứng thú với việc tìm hiểu về người khác Agreeableness
8 Bạn hay dé đồ lung tung Conscientiousness
9 Ban hay trong trang thai thoai mai Neuroticism
10 Ban gặp khó khăn với những ý tưởng mang tinh trừu
tượng Openness
11 Ban cảm thấy thoải mái xung quanh người khác Extroversion
12 Ban xúc phạm người khác Agreeableness
13 Ban chú ý đến chỉ tiết Conscientiousness
14 Ban lo lăng về những thứ khác Neuroticism
15 Bạn có trí tưởng tượng sông động Openness
16 Ban không thích nôi bật Extroversion
17 Bạn thông cảm cho cảm xúc người khác Agreeableness
18 Bạn làm mọi thứ trở nên tồi tệ Conscientiousness
19 Ban hiém khi cam thay buôn Neuroticism
20 Bạn không quan tâm đến ý tưởng trừu tượng Openness
21 Ban hay bắt chuyện người khác Extroversion
22 Ban không quan tâm đến van đề của người khác Agreeableness
23 Ban thực hiện công việc nhỏ nhặt ngay lập tức Conscientiousness
24 Ban dé mất tập trung Neuroticism
25 Ban co những ý tưởng tuyệt vời Openness
26 Bạn không có nhiều điều đề nói Extroversion
27 Bạn dễ bị rung động Agreeableness
28 Bạn hay quên đặt đồ vật về đúng vị trí của chúng Conscientiousness
29 Bạn dé dang cam thay buồn Neuroticism
30 Ban không có trí tưởng tượng tốt Openness
31 Bạn nói chuyện với nhiều người khác nhau trong một
buổi tiệc Extroversion
32 Bạn không quan tâm đến người khác lắm Agreeableness
25
Trang 3733 Bạn thích trật tự Conscientiousness
34 Ban hay thay đồi tâm trạng Neuroticism
35 Ban nhanh hiéu chuyén Openness
36 Ban không thích thu hút sự tập trung về minh Extroversion
37 Bạn dé dành thời gian cho người khác Agreeableness
38 Bạn hay trồn tránh trách nhiệm của minh Conscientiousness
39 Bạn có sự thay đối tâm trạng thường xuyên Neuroticism
40 Bạn sử dung các từ ngữ khó hiểu Openness
41 Bạn không ngại trở thành trung tâm của sự chú ý Extroversion
42 Bạn có thê cảm nhận được cảm xúc của người khác | Agreeableness
43 Bạn tuân thủ theo lịch trình cụ thể Conscientiousness
44 Ban dé dang cau gat Neuroticism
45 Ban danh thời gian suy nghĩ về nhiều thứ Openness
46 Bạn im lặng khi ở gần người lạ Extroversion
47 Bạn làm mọi người cam thay thoải mái Agreeableness
48 Ban đòi hỏi sự chính xác cao trong công việc của bạn | Conscientiousness
49 Bạn hay cảm thay buôn Neuroticism
50 Ban luôn day ý tưởng Openness
Bảng 3.3: Bộ câu hỏi để khảo sát tính cách
3.2 Thực nghiệm gợi ý địa điểm bằng nội dung
Dữ liệu của địa diém với file location.csv như sau:
26
Trang 38Hình 3.2: Dữ liệu về địa điểm
STT Name Address Rating Rating Count Open Close Description Latitude Longitude Type
1
Nha tho ore Nhà thờ màu hồng Tham
1 Domaine de K g6, h 45 6084 07:00-17:30 nổi tiếng, tọalạc 11.949671 108430247
phố Đà Lạt, Lâm quan
Marie 2 trong khun.
1 Đường Triệu ae
° Cung điện rộng lớn
DINH BẢO Việt Vương, : Tham
8 ĐẠI III Phường 4, Thanh 41 7232 07:00-17:30 của vị hoàng đế 11930313 108429577 quan
x cuối cùng t.
phố
73 Noun 1ô Đầu tiên, bạn gửi xe Tham
3 Ga Đà Lạt 9 43 2254 Cảngày tại bãi xecủagaĐà 114941541 108.454256
Thành phố Đà quan
Lạt Lạt, L.
Trại Mát, Thành Ngôi chùa lớn và ấn Tham
4 Chùavechai phố Đà Lạt, Lâm 46 8899 0700-1730 tượng, nổi tiếngvới 11944670 108.499416
5 ChợĐêmĐà Nguyễn Thi Minh 42 11479 Cangay cácquầyhàngbán 11941584 108437279 Ôn
Lạt Khai, Phường 1, " uống
Sau khi nhập dữ liệu vào hệ thống, ta tạo ma trận TF — IDF Ta xây dựng ma
trận với sô dòng tương ứng với sô lượng địa diém va sô cột tương ứng với các từ được
tách ra từ cột Genres Và sau đó, dựa vào độ đo tương đồng Cosine ta xây dựng được
ma trận độ đo tương đông Cosine với các ô dữ liệu là giá trị Cosine giữa các địa điêm.
Cosine Similarity Matrix:
9 9
Hình 3.3: Ma trận độ do tương đông Cosine cua Content Based Filtering
Gia sử như một người dùng nhắn vào xem thông tin địa điểm bat kì, khi thựchiện gợi ý thì ta sẽ gợi ý ra các địa điểm có độ tương đồng Cosine giảm dan
Thực hiện gợi ý ra 5 địa điểm tương đồng với địa điểm “Nhà thờ Domaine
De Marie”.
27
Trang 39Top 5 similar locations to 'Nhà thờ Domaine de Marie':
"Nha Thờ Salédiéng Don Bosco': Similarity = @.9720112900260615
'DINH BẢO ĐẠI III': Similarity = @.7032128484478835
'Tu viện Bát Nha': Similarity = @.6332184810901739
"Dinh Bao Dai I': Similarity = 0.557368283352578 'Thiền Viện Trúc lâm': Similarity = @.5197937883859871
Thực
”
Lâm”.
Hình 3.4: Thực hiện khuyến nghị cho địa điểm Nhờ thờ Domaine Die Marie
hiện gợi ý ra 5 địa điêm tương đông với địa điêm “Thiên Viện Trúc
Top 5 similar locations to 'Thiền Viện Trúc lâm':
'Tu viện Bát Nhã': Similarity = 9.82087589656431
"Chua ve chai': Similarity = 9.6293393758238598
'Chùa Linh An': Similarity = 9.6293393758238598
"Chua Tàu (Thiên Vương Cổ Sát)': Similarity = @.6293393758238598
"Nha Thờ Salédiéng Don Bosco': Similarity = 9.5794436321361532
Thuc Tạ”.
Hình 3.5: Thực hiện khuyến nghị cho địa điểm Thiên Viện Trúc Lâm
hiện gợi ý ra 5 địa điểm tương đồng với địa điểm “Nha Hang Thủy
Top 5 si Location Location Location Location
Location
milar locations to 'Nhà Hàng Thuy Tạ' :
"Cho Đêm Đà Lạt': Similarity = 9.57942692560994987
"Quan cà phê Wonderland’: Similarity = 9.5619463394617124
"KOMBI LAND COFFEE': Similarity = @.5619463394617124
"Cafe Panorama Đà Lat': Similarity = @.5619463394617124
"Ca phê Mê linh': Similarity = 9.5619463394617124
Hình 3.6: Thực hiện khuyến nghị với dia điểm Nha Hang Thủy Ta
28
Trang 403.3 Thuc hiện gợi ý địa điểm bằng điểm đánh giá người dùng
Ta sử dụng tệp data về đánh giá được mô tả ở bảng 3.2 như sau:
UserId LocationId Rating
Hình 3.7: Mô tả dữ liệu đánh giá
Ta cũng thực chuyển đổi thành ma trận dit liệu và tính toán độ tương đồng
Cosine, Ta được ma tran Cosine dưới đây:
1 11
Hình 3.8: Ma trận độ twong dong Cosine cua Collaborative Filtering
29