1. Trang chủ
  2. » Luận Văn - Báo Cáo

đồ án kĩ thuật tư vấn xã hội hướng địa điểm và ứng dụng

53 18 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

f ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Đỗ Thành Long MỘT SỐ KỸ THUẬT TƢ VẤN XÃ HỘI HƢỚNG ĐỊA ĐIỂM VÀ ỨNG DỤNG KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thông tin HÀ NỘI - 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ Đỗ Thành Long MỘT SỐ KỸ THUẬT TƢ VẤN XÃ HỘI HƢỚNG ĐỊA ĐIỂM VÀ ỨNG DỤNG KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin Cán hƣớng dẫn: PGS TS Hà Quang Thụy Cán đồng hƣớng dẫn: ThS Trần Mai Vũ HÀ NỘI - 2016 VIETNAM NATIONAL UNIVERSITY UNIVERSITY OF ENGINEERING AND TECHNOLOGY Do Thanh Long SOME TECHNIQUES OF SOCIAL RECOMMENDATION RELATED TO PLACES AND APPLICATION Major:Information technology Supervisor: Assoc Prof Dr.Sc Hà Quang Thụy Co-Supervisor: M.Sc Trần Mai Vũ HÀ NỘI - 2016 LỜI CẢM ƠN Trước tiên, em xin bày tỏ lòng biết ơn chân thành sâu sắc tới Thầy giáo, PGS-TS Hà Quang Thụy tận tình bảo, hướng dẫn, động viên giúp đỡ em suốt trình thực đề tài Em xin gửi lời cảm ơn sâu sắc tới quý thầy cô giáo Khoa Cơng nghệ thơng tin nói riêng trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội nói chung, truyền đạt kiến thức quý báu cho em năm học đại học Em xin gửi lời cảm ơn tới Ths Trần Mai Vũ, anh chị bạn sinh viên phịng thí nghiệm Cơng nghệ tri thức khoa học liệu KT-Lab giúp em để hoàn thành tốt khóa luận Em muốn gửi lời cảm vơ hạn tới gia đình, người thân u ln bên cạnh động viên em suốt trình thực khóa luận tốt nghiệp Cuối cùng, xin gửi lời cảm ơn tới anh chị bạn, đặc biệt thành viên lớp K57CLC ủng hộ, giúp đỡ suốt q trình tơi học tập giảng đường đại học thực đề tài Tôi xin chân thành cảm ơn! i TĨM TẮT Tóm tắt: Trong năm gần đây, hệ tư vấn trở nên phổ biến ứng dụng nhiều lĩnh vực, ứng dụng mà giúp đưa nội dung, lời khuyên phù hợp cho cá nhân Một vài ứng dụng thực tế phổ biến như: gợi ý kết bạn facebook, tư vấn video Youtube.com, hệ gợi ý sản phẩm Amazon.com … Đặc biệt, theo Jiliang Tang cộng (2014), với bùng nổ phương tiện xã hội nay, tư vấn xã hội hướng địa điểm hình thành phát triển nhanh chóng dựa việc khai thác thông tin đặc trưng bổ sung từ mạng xã hội cho hệ tư vấn Khóa luận tập trung vào toán tư vấn địa điểm dựa phương tiện xã hội hướng giải quyết, dựa vào kết nghiên cứu Mao Ye cộng (2011) Khóa luận đề xuất mơ hình tư vấn địa điểm dựa khai thác ngữ cảnh xã hội từ phương tiện xã hội Brightkite, sử dụng độ tương đồng Cosin sử dụng mối quan hệ tin cậy lọc cộng tác dựa người dùng để đưa đánh giá địa điểm cho 830 người dùng Khóa luận xây chương trình thi hành mơ hình nói Từ khóa: hệ tư vấn, phương tiện xã hội, tư vấn địa điểm ii ABSTRACT Abstract: In the recent years, recommender system has become popular and applied in many fields which recommend reasonable content and advises to each particular Some of popular application sofwares such as: add friend suggestion on facebook, video consulting on youtube, product suggestion system on Amazon.com… Especially, According to Juliang Tang and his partners, when social network has been more popular recently, social consulting will rapidly develop based on exploiting featured information added from social network for recommender system My graduation thesis focuses on consulting place based on social social network and solution for problem based on research of Mao Ye and his partners This thesis recommends type of consulting place based on exploiting social context from social network Brightkite in which Cosin commonality and reliable relationship based on users are applied to give place evaluation to users This thesis will also build programme for implementing this model Keywords: recommender system, social network, location recommendation iii LỜI CAM ĐOAN Tôi xin cam đoan kỹ thuật sử dụng ngữ cảnh xã hội hệ tư vấn phương tiện xã hội trình bày khóa luận tơi thực hướng dẫn PGS.TS Hà Quang Thụy Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo khóa luận Trong khóa luận, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà khơng rõ tài liệu tham khảo Hà Nội, ngày tháng năm 2016 Sinh viên iv Mục lục LỜI CẢM ƠN i TÓM TẮT ii ABSTRACT iii LỜI CAM ĐOAN iv Danh sách thuật ngữ từ viết tắt vii Danh sách bảng ix Danh sách hình vẽ x Mở đầu Chương Tư vấn địa điểm dựa mạng xã hội .3 1.1 Hệ tư vấn 1.1.1 Giới thiệu chung 1.1.2 Phân loại hệ tư vấn .3 1.2 Tư vấn địa điểm dựa mạng xã hội 1.2.1 Đặt vấn đề 1.2.2 Mạng xã hội 1.2.3 Tư vấn địa điểm 11 1.2.4 Tích hợp mạng xã hội vào tư vấn địa điểm 12 1.2.5 Các thách thức hội 13 1.3 Bài toán tư vấn khóa luận 13 Tóm tắt chương 14 Chương Một số phương pháp tư vấn xã hội hướng địa điểm .15 2.1 Tư vấn địa điểm dựa địa lý - xã hội 15 2.2 Tư vấn địa điểm dựa thời gian 19 v 2.3 Tư vấn địa điểm dựa nội dung 21 2.4 Ý tưởng khai thác ngữ cảnh khóa luận 23 Tóm tắt chương 24 Chương Một mô hình tư vấn địa điểm dựa mạng xã hội dựa địa lý xã hội 25 3.1 Giới thiệu 25 3.2 Mơ hình 25 3.2.1 Trích xuất liệu .26 3.2.2 Tính tốn đánh giá ban đầu 27 3.2.3 Đưa đánh giá người dùng .28 Tóm tắt chương 30 Chương Thực nghiệm đánh giá 31 4.1 Môi trường 32 4.2 Dữ liệu xử lý 32 4.3 Kết thực nghiệm 34 4.4 Đánh giá mơ hình 35 Tóm tắt chương 36 Kết luận 37 Kết đạt khóa luận 37 Định hướng tương lai 37 Tài liệu tham khảo 38 Tài liệu tiếng Việt 38 Tài liệu tiếng Anh 38 vi Danh sách thuật ngữ từ viết tắt Tiếng Anh/Từ viết tắt Tiếng Việt/Cụm từ đầy đủ Collaborative Filtering/CF Lọc cộng tác Cold-start Bắt đầu nguội Cosin (độ tương đồng) Chỉ số thể giống phương diện hai người dùng GPS Global Positioning System Item Mục, mặt hàng, địa điểm KNN (k nearest neighbors algorithm) Thuật toán dựa “k” người dùng gần LBSN Location-based social network Matrix factorization/MF Nhân tử hóa ma trận Recommendation System | Recommender System | RS Hệ gợi ý Smart Phone Điện thoại thông minh Social media Phương tiện xã hội Social network Mạng xã hội vii Chƣơng Một mơ hình tƣ vấn địa điểm dựa mạng xã hội dựa địa lý - xã hội Giới thiệu 3.1 Theo phân tích liệu, người bạn cung cấp nhiều thông tin địa điểm người dùng khác[8] Vì vậy, ý tưởng kĩ thuật lọc cộng tác dựa bạn bè (FCF) dựa tính tốn liệu người bạn để đưa đánh giá cho người dùng Kĩ thuật bao gồm bước chính: tính tốn độ tương tự người dùng, chọn k người dùng gần đưa dự đoán đánh giá Do tập liệu ban đầu chứa kiện check-in mà chưa có đánh giá nên việc đưa đánh giá địa điểm ban đầu dựa số lượng check-in người dùng địa điểm Mơ hình 3.2 Mơ hình tư vấn địa điểm dựa mạng xã hội gồm pha chính:  Trích xuất liệu  Tính tốn đánh giá ban đầu  Đưa đánh giá Dữ liệu 1.Trích 2.Đánh 3.Tính xuất giá ban tốn Đưa liệu đầu đánh giá tư vấn Hình 3.1 Các pha mơ hình 25 3.2.1 Trích xuất liệu Tập liệu ban đầu bao gồm hai tệp: Brightkite_edges (chứa kết nối bạn bè người dùng) Brightkite_totalCheckins (chứa liệu check-in người dùng) Do tập liệu ban lớn thưa nên khóa luận tiến hành chọn lọc phần liệu có giá trị cách lựa chọn người dùng có số bạn bè số check- có giá trị Tập liệu đầu vào lưu dạng txt, thành phần ngăn cách nhiều kí tự “ “ (dấu cách) Giá trị thời gian sau nhập chuyển sang dạng liệu “long” Sau trích xuất, id khơng cịn liên tục Để tăng tốc độ xử lí tính tốn, tơi thực việc gán lại id cho người dùng Đầu vào: Tập liệu chứa  Tập người dùng tập kết nối bạn bè  Tập chứa liệu check-in Đầu ra:  Tập người dùng tập kết nối bạn bè chọn lọc  Tập liệu check-in chọn lọc Các bƣớc thực hiện: Đọc dòng liệu ban đầu, ghi liệu sở liệu mongodb để tăng tốc độ tính tốn Cấu trúc hai tệp liệu sau: Bảng 3.1 cấu trúc tệp liệu user-friend Hình 3.2 cấu trúc tệp liệu check-in Thống kê liệu: số bạn/người dùng, số địa điểm/người dùng, số check- in/người dùng 26 Chọn lọc người dùng có giá trị (để tăng hiệu tốc độ tính tốn, tơi loại bớt người dùng có số lượng bạn bè, số lượng địa điểm check-in số lần check-in nhỏ giá trị cho trước) Gán lại id người dùng, ghi liệu trích trọn tệp 3.2.2 Tính tốn đánh giá ban đầu Dữ liệu ban đầu kiện check-in người dùng Nhưng điều cần liệu đánh giá người dùng nằm khoảng [0,5], mức thang đánh giá: - ghét, – khơng thích, – trung lập, – thích, – thích Vì vậy, cần tính tốn đánh giá ban đầu từ liệu check-in người dùng Phương pháp đưa lấy số lượng check-in trung bình người dùng làm giá trị đánh giá giá trị trung lập Đầu vào: tệp liệu check-in chọn lọc Đầu ra: Các đánh giá ban đầu người dùng nằm khoảng [0,5] Các bƣớc thực hiện: Đọc liệu o Đọc dòng liệu, với người dùng, id địa điểm có danh sách ta tăng số lượng check-in địa điểm thêm đơn vị Nếu địa điểm chưa tồn danh sách, ta thêm địa điểm vào danh sách Dự đoán đánh giá ban đầu: o Tính số lượng check-in tương ứng với đánh giá 3.0 người dùng Giả sử người dùng id có 100 check-in với 10 địa điểm ta gán giá trị trung bình 10 check-in tương ứng với đánh giá 3.0, 15 check-in 4.0, 20 check-in 5.0 o Tính tốn đánh giá ban đầu Với địa điểm, ta dự đoán đánh giá cơng thức: ̅ (3.1) Trong đó:  Np số lần check-in địa điểm p 27  ̅ giá trị check-in trung bình người dùng i o Ghi liệu tệp để lưu trữ, tránh trường hợp phải xử lý lại liệu Mỗi dòng bao gồm user_id, place_id rate hình bên Hình 3.3 Một mẫu đánh giá ban đầu 3.2.3 Đƣa đánh giá ngƣời dùng Đây phần cơng việc mơ hình Sau có ma trận người dùng-địa điểm, khóa luận tiến hành dự đốn đánh giá cịn thiếu ma trận Đầu vào: Tập liệu người dùng bao gồm:  Tập người dùng tập kết nối bạn bè  Tập địa điểm với đánh giá ban đầu Đầu ra: Các dự đoán đánh giá người dùng địa điểm Các bƣớc thực hiện: Đọc liệu kết nối bạn bè liệu đánh giá địa điểm người dùng  Với tệp liệu bạn bè, dòng bao gồm hai user_id tạm đặt id1 id2 Ta thêm id2 vào danh sách bạn bè id1 ngược lại kết nối hai chiều  Với tệp liệu đánh giá, ta đọc tương tự liệu check-in thay số lượng check-in liệu đánh giá Tính độ tương đồng người dùng có kết nối bạn bè o Với người dùng, ta duyệt danh sách bạn bè tính độ tương đồng Sau xếp lại danh sách bạn bè theo độ tương đồng để tăng tốc độ xử lý cho trình đánh giá 28 Với người dùng, tạo tập địa điểm Pl mà bạn bè người dùng checkin người dùng chưa check-in Độ lớn Pl phụ thuộc vào số lượng bạn bè người dùng số lượng địa điểm mà họ check-in Có thể dễ dàng thấy tập Pl lớn nhiều so với tập địa điểm người dùng i Dự đoán đánh giá địa điểm dựa người bạn chọn o Duyệt tập Pl Với địa điểm L nằm tập Pl, ta tìm k=20 người dùng nằm danh sách bạn bè có độ tương đồng cao Sau tính tốn đánh giá người dùng i địa điểm L Dựa kĩ thuật lọc cộng tác KNN (k nearest neighbors), việc dự đoán đánh giá tính theo cơng thức: ̂ ∑ (3.2) ∑ Ví dụ: Ta có kết nối bạn bè người dùng id ma trận đánh giá UL sau Hình 3.4 Kết nối bạn bè người dùng id Bảng 3.2 Ma trận user-location Bƣớc 1: tính độ tương đồng người dùng có kết nối Sim(0,1) = √ √ = 0.97 Sim(0,2) = 29 √ √ = 0.9756 Sim(0,4) = √ √ = 0.99 Bƣớc 2: Dự đoán đánh giá dựa k người dùng gần Giả sử ta lấy k = 2, thì: R0, lotte cinema = = 4.5 Vậy kết luận ta đưa dự đoán đánh giá cho địa điểm lotte cinema người dùng id 4.5 Sau có đánh giá người dùng từ ma trận User - Location, khóa luận tiến hành chọn địa điểm có đánh giá cao thuộc nhóm địa điểm người dùng muốn tới để tư vấn cho người dùng Tóm tắt chƣơng Trong chương 3, khóa luận trình bày tư tưởng mơ hình thực tốn tư vấn địa điểm dựa mạng xã hội bao gồm mô tả chi tiết bước thực pha mơ hình Chương tiếp theo, khóa luận tiến hành thực nghiệm mơ hình xây dựng đánh giá kết đạt 30 Chƣơng Thực nghiệm đánh giá Dựa vào mơ hình đề xuất chương 3, khóa luận tiến hành thực nghiệm đưa đánh giá Tập liệu ban đầu gồm kết nối bạn bè check-in Tập liệu không bao gồm đầy đủ thơng tin người dùng địa điểm Vì vậy, kết cuối dùng để đánh giá mơ hình Để tiến hành thực nghiệm pha mơ hình, khóa luận tiến hành xây dựng project java code gồm có package:  Algorithms: thuật toán xử lý liệu  Object: định nghĩa lớp mơ hình  Utilities: kĩ thuật đọc, ghi, tiền xử lý liệu  Main: chạy chương trình, gồm pha mơ hình Hình 4.1 Project thực mơ hình 31 4.1 Môi trƣờng Môi trƣờng thực nghiệm: Laptop HP ProBook 4431s Thành Phần Thông số OS Windows Professional PROCESSOR Intel(R) Core(TM) i3-2350M CPU @ 2.30GHZ 2.30GHZ RAM 6.00 GB HDD 600 GB TOSHIBA Bảng 4.1 Cấu hình hệ thống thực nghiệm Các công cụ, phần mềm ST Tên Tác giả Nguồn Eclipse Luna SR2 win64 Open Source https://www.eclipse.org MongoDB Java Driver Open Source https://www.mongodb.org/ Bson Open Source https://www.mongodb.org/ MyMediaLite Open Source http://www.mymedialite.net/ T Bảng 4.2 công cụ phần mềm sử dụng 4.2 Dữ liệu xử lý Khóa luận tiến hành thực nghiệm với tập liệu từ mạng xã hội địa điểm brightkite cung cấp từ trang https://snap.stanford.edu/data/loc-brightkite.html Đây trang web thành lập dự án “Standford network analysis project” đại học Standford nhằm thu thập phân tích liệu kết nối mạng Internet Tập liệu ban đầu bao gồm có 747 288 lần check-in 58 228 người dùng lưu hai tệp liệu: Brightkite_edges.txt 32 Brightkite_totalCheckins.txt Từ tập liệu này, tơi trích trọn lấy 830 người dùng 138 823 lần check-in có giá trị theo quan điểm cá nhân dựa số trung bình Sau tơi tiến hành gán lại id cho người dùng khoảng liên tục từ tới 829 tương ứng với 830 người dùng để nâng cao hiệu xử lý liệu Số ngƣời dùng 58 228 Số kết nối bạn bè 214 078 Số lần check-in 747 288 Số địa điểm ~ 700 000 Bạn bè / ngƣời dùng Check-in / ngƣời dùng Độ thƣa liệu > 99% Bảng 4.3 Dữ liệu ban đầu Trong chọn lọc, thấy địa điểm có id 0.00 với tọa độ 0.0, 0.0 có số lượng check-in lớn (200 000 lần, chiếm 5%), gấp 10 lần so với vị trí đứng thứ hai (~17 000 lần) thứ ba (~16 500 lần) Kiểm tra lại đồ địa điểm gây nhiễu, khóa luận tiến hành loại bỏ check-in địa điểm Tiếp theo, tiến hành thống kê đánh giá liệu trích trọn Kết cho thấy có khoảng 207 địa điểm với 11 419 đánh giá mơ tả Xét tỉ lệ thưa liệu sau tính tốn khoảng 98% Để kết cuối trực quan hơn, tiến hành giả định đánh giá người dùng để giảm độ thưa liệu xuống thấp 95% Cuối cùng, khóa luận tiến hành xử lý, tính tốn đánh giá cịn thiếu 33 Số ngƣời dùng 830 Số kết nối bạn bè 22 823 Số check-in 138 823 Số địa điểm 207 Bạn bè / ngƣời dùng 27 Check-in / ngƣời dùng 139 Độ thƣa liệu

Ngày đăng: 04/11/2020, 23:40

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w