Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 56 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
56
Dung lượng
3,76 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Mậu Đức Huy KỸ THUẬT TẬP THÔ DỰA TRÊN PHỦ GIẢI QUYẾT VẤN ĐỀ KHỞI ĐẦU NGUỘI VÀ ỨNG DỤNG KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Hệ thống thông tin HÀ NỘI – 2020 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Mậu Đức Huy KỸ THUẬT TẬP THÔ DỰA TRÊN PHỦ GIẢI QUYẾT VẤN ĐỀ KHỞI ĐẦU NGUỘI VÀ ỨNG DỤNG KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Hệ thống thông tin Cán hướng dẫn: PGS TS Hà Quang Thụy Cán đồng hướng dẫn: ThS Nguyễn Thị Cẩm Vân HÀ NỘI – 2020 Lời cảm ơn Lời đầu tiên, xin gửi lời biết ơn chân thành đến thầy giáo PGS TS Hà Quang Thụy ThS Nguyễn Thị Cẩm Vân tận tình bảo, hướng dẫn em suốt trình em thực khóa luận Em xin gửi lời cám ơn chân thành đến tất thầy, cô, anh chị nghiên cứu sinh khoa Công nghệ thông tin, trường Đại học Công Nghệ - ĐHQGHN dạy cho suốt bốn năm học tập Em xin gửi lời cám ơn đến tập thể K61-T trường Đại học Công Nghệ giúp đỡ em nhiều, người bạn ủng hộ tơi suốt q trình học đại học Cuối cùng, em xin gửi lời cám ơn vô hạn đến người thương, gia đình bạn bè, người bên cạnh, tin tưởng động viên suốt trình thực đề tài Xin chân thành cám ơn! Hà Nội, ngày tháng năm 2020 Sinh viên Nguyễn Mậu Đức Huy i Tóm tắt Trong hệ thống tư vấn, khởi đầu nguội xảy người dùng sản phẩm tham gia hệ thống mà chưa có hồ sơ khứ Hệ thống phải tính tốn để gợi ý cho người dùng (sản phẩm) Điều gây ảnh hưởng đến trực tiếp hiệu suất tư vấn hệ tư vấn Giải toán khởi đầu nguội đem lại nhiều hội cho người dùng trải nghiệm sản phẩm mà họ thực thích Nhiều giải pháp đề xuất, chẳng hạn dựa học sâu, ma trận nhân tử, tensor nhân tử, độ tương tự, v.v Lý thuyết tập thô cung cấp phương tiện tốt độ tương tự người dùng việc giải vấn đề khởi đầu nguội Z Zhang cộng áp dụng lý thuyết tập thô phủ (một mở rộng lý thuyết tập thô) không gian người dùng để giải vấn đề người dùng Phủ tối thiểu người dùng đóng vai trị tập láng giềng gần người dùng Khóa luận khảo sát mơ hình tập thơ phủ giải tốn khởi đầu nguội hướng người dùng theo nghiên cứu Z Zhang cộng đề nghị khung thử nghiệm thi hành mơ hình tập thơ phủ Khóa luận xây dựng chương trình thử nghiệm, tiến hành thực nghiệm với liệu Movielens (100.000 đánh giá) cho kết … Từ khóa: Tư vấn xã hội, khởi đầu nguội cho người dùng, lý thuyết tập thô, lọc cộng tác dựa người dùng ii Lời cam đoan Tôi xin cam đoan kỹ thuật sử dụng để giải vấn đề khởi đầu nguội tư vấn xã hội trình bày khóa luận tơi thực hướng dẫn PGS.TS Hà Quang Thụy Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo khóa luận Trong khóa luận, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà khơng rõ tài liệu tham khảo sinh viên Nguyễn Mậu Đức Huy iii Mục lục Lời cảm ơn i Tóm tắt ii Lời cam đoan iii Danh sách thuật ngữ từ viết tắt vi Danh sách bảng vii Danh sách hình vẽ viii Mở đầu Chương 1: Hệ tư vấn xã hội, vấn đề khởi đầu nguội khái niệm liên quan 1.1 Hệ tư vấn hệ tư vấn xã hội 1.1.1 Tổng quan hệ tư vấn 1.1.2 Vấn đề khởi đầu nguội hệ tư vấn 1.2 Các lý thuyết liên quan 10 1.2.1 Lý thuyết tập thô 10 1.2.2 Các độ đo tương tự 11 Chương 2: Giải vấn đề khởi đầu nguội hệ tư vấn dựa kỹ thuật học sâu lý thuyết tập thô phủ 14 2.1 Giải vấn đề khởi đầu nguội dựa kỹ thuật học sâu ma trận nhân tử 14 2.1.1 Mơ hình mạng tin tưởng sâu 14 2.1.2 Kỹ thuật ma trận nhân tử 15 2.2 Phương pháp lọc cộng tác dựa phủ giải vấn đề khởi đầu nguội cho người dùng 17 2.2.1 Lọc cộng tác truyền thống 18 2.2.2 Mơ hình lọc cộng tác dựa phủ 22 2.2.3 Lọc cộng tác dựa phủ cải tiến 25 2.3 Ý tưởng mơ hình giải tốn khóa luận 28 iv Tóm tắt chương 28 Chương 3: Mơ hình giải tốn khóa luận 29 3.1 Mơ hình giải tốn 29 3.2 Các bước mơ hình 30 3.2.1 Tiền xử lý liệu 30 3.2.2 Giảm thiểu phủ 31 3.2.3 Tìm người dùng tương đồng với người dùng khởi đầu nguội 33 3.2.4 Dự đoán đánh giá 34 Tóm tắt chương 35 Chương 4: Thực nghiệm đánh giá kết 35 4.1 Giới thiệu chung 35 4.2 Dữ liệu thực nghiệm 35 4.3 Môi trường cài đặt thực nghiệm 38 4.4 Project thực trình thực nghiệm 39 4.5 Kết thực nghiệm nhận xét 40 Tóm tắt chương 4: 44 Kết luận hướng nghiên cứu 45 Tài liệu tham khảo 46 v Danh sách thuật ngữ từ viết tắt Tiếng Anh Item Tiếng Việt/Cụm từ đầy đủ Mục/mặt hàng/sản phẩm User Người dùng Recommender System Hệ tư vấn/ Hệ gợi ý Gigabytes Từ viết tắt Đơn vị đo không gian lưu Gb trữ ổ cứng Social Recommender Tư vấn xã hội Marketing Tiếp thị Search Engine Optimization SEO Pearson correlation coefficient Tối ưu hóa cơng cụ tìm kiếm Tương quan Pearson Deep Belief Network DBN Mạng lưới niềm tin sâu sắc Restricted Boltzmann Machines RBM Máy tính bị giới hạn Boltzmann Traditional user-based collaborative filtering Lọc cộng tác truyền thống Người dùng đích Người dùng cần tư vấn k nearest neighbors k-NN Phương pháp k láng giềng gần new user Người dùng tham gia hệ thống tư vấn niche items Mục thích hợp Top N N mục có dự đốn cao vi Danh sách bảng Bảng 4.1 Phân bố mục đánh giá tập liệu MovieLens 100K 37 Bảng 4.2 Thiết bị cài đặt thực nghiệm 38 Bảng 4.3 Các công cụ, phần mềm sử dụng 38 Bảng 4.4 Đánh giá mơ hình dựa ngưỡng khác 42 vii Danh sách hình vẽ Hình 1.1 Các pha hệ tư vấn Hình 1.2 Ví dụ tương tác người dùng mục Hình 1.3 Ví dụ ma trận đánh giá người dùng - mục Hình 1.4 Phân loại hệ tư vấn Hình 1.5 Quy trình lọc cộng tác Hình 1.6 Vấn đề khởi đầu nguội hệ tư vấn Hình 1.7 Một phần liệu đầu vào 10 Hình 2.1 Kiến trúc RBM 15 Hình 3.1 Các pha thuật toán ICBCF 30 Hình 4.1 Một phần liệu tập liệu MovieLens 100k 36 Hình 4.2 Phân bố người dùng đánh giá mục 37 Hình 4.3 Project thực trình thực nghiệm 39 Hình 4.4 Một phần tập liệu kiểm thử 40 Hình 4.5 Một phần tập liệu huấn luyện 40 Hình 4.6 Các mục phổ biến bị loại bỏ 41 Hình 4.7 Độ xác mơ hình dựa độ đo MAE 43 Hình 4.8 Độ xác mơ hình dựa độ đo RMSE 43 Hình 4.9 Tỷ lệ giảm thiểu phủ với ngưỡng viii _ℎ ℎ khác 44 Thực loại bỏ mục phổ biến, thu bảng định Sử dụng bảng định tập liệu huấn luyện ta chạy thuật toán giảm thiểu phủ cho tập liệu huấn luyện thu tập người dùng bị giảm thiểu Loại mục không thuộc bảng định người dùng có tập người dùng bị giảm thiểu thu kết đầu Sau xác định tỷ lệ mục phổ biến (từ gọi _ℎ ta tính bảng định cách lấy ℎ _ ℎ ℎ ) bị loại bỏ số mục phổ biến Nói cách khác, ta xác định số lượng đánh giá mục vào loại bỏ − ratio_threshold mục có số lượng người đánh giá nhiều Việc lựa chọn _ℎ ℎ ảnh hưởng trực tiếp đến hiệu bước giảm thiểu phủ bước Nếu _ℎ ℎ nhỏ, kích thước bảng định nhỏ, số tập liệu đánh giá người dùng dễ dàng bao phủ bảng định Trong trường hơp này, Đa số người dùng người dùng dư thừa bị loại bỏ, điều dẫn đến việc giảm thiểu phủ bước sau khơng có ý nghĩa Nếu _ℎ ℎ q lớn, bảng định lớn Trong trường hợp này, có người dùng người dùng dư thừa, dẫn đến hiệu việc giảm thiểu phủ bị giảm đáng kể Sau thu bảng định, ta rút gọn mục nằm tập mục phổ biến tập liệu huấn luyện thực giảm thiểu phủ sử dụng giảm thiểu loại đề cập chương thu tập người dùng bị giảm thiểu 32 Đầu vào: Tập phủ miền: C Đầu ra: Tập phủ giảm thiểu miền: reduct(C) , : Phần tử thuộc tập phủ C set reduct(C) = C; for i = to | | for j = to | | ⊂ if && ≠ then if ∈ reduct(C) then reduct(C) = reduct(C) - {K j }; end if end if end for end for return reduct(C); Thực loại bỏ người dùng có tập người dùng giảm thiểu tập liệu huấn luyện ta thu tập liệu huấn luyện sau giảm thiểu phủ 3.2.3 Tìm người dùng tương đồng với người dùng khởi đầu nguội Đầu vào: Tập liệu huấn luyện sau giảm thiểu phủ Đầu ra: người dùng tương tự với người dùng Các bước tiến hành: Xác định Tính tốn ma trận tương tự Tìm người dùng tương tự người dùng Dự đoán rating mục mà người dùng chưa đánh giá dựa đánh giá người dùng tương tự 33 Xác định số người dùng tương tự với người dùng quan trọng ảnh hưởng trực tiếp đến hiệu suất hệ tư vấn (sẽ thực nghiệm rõ chương 4) Dựa vào tập liệu huấn luyện đầu pha thứ 2, ta sử dụng độ đo đề cập chương để xây dựng tính tốn ma trận tương tự Cụ thể mơ hình khóa luận, khóa luận sử dụng độ đo cosine để xây dựng ma trận tương tự Độ đo cơ-sin có cơng thức là: ∑ ( , )= ∑ × × ∑ Dựa ma trận tương tự vừa tìm ta lấy với người dùng gọi người dùng có độ tương tự cao láng giềng gần Dựa vào thông tin đánh giá k láng giềng gần ta dự đốn mục cịn thiếu người dùng Các chiến lược để dự đốn giá trị cịn thiếu đề xuất là: ME (giá trị trung bình): Tính trung bình rating mục cần dự đốn giềng điền vào giá trị thiếu láng MF (giá trị thường xuyên nhất): Lấy đánh giá xuất nhiều láng giềng điền vào giá trị cịn thiếu Cụ thể, mơ hình khóa luận sử dụng chiến lược ME để dự đốn giá trị cịn thiếu 3.2.4 Dự đoán đánh giá Đầu vào: Dự đốn rating mục cịn thiếu người dùng Đầu ra: Kết gợi ý cho người dùng mới, đánh giá mơ hình Các bước tiến hành: Chọn mục có dự đốn rating cao Tư vấn cho người dùng Đánh giá hiệu mơ hình Từ tập dự đốn đánh giá tính tốn pha trước, chọn mục có kết dự đoán cao gợi ý cho người dùng Đánh giá mơ hình trình bày chi tiết chương 34 Tóm tắt chương Trong chương 3, khóa luận trình bày chi tiết bước thực tư vấn cho người dùng sử dụng ICBCF bao gồm pha Tiền xử lý liệu, Giảm thiểu phủ, Tìm người dùng tương đồng với người dùng khởi đầu nguội dự đoán, đánh giá Chương tiếp theo, khóa luận tiến hành thực nghiệm dựa mơ hình xây dựng chương 3, từ đánh giá kết đạt Chương 4: Thực nghiệm đánh giá kết 4.1 Giới thiệu chung Trong chương 3, khóa luận trình bày chi tiết bước thực mơ hình lọc cộng tác dựa phủ cải tiến để giải vấn đề khởi đầu nguội Chương khóa luận tiến hành thực nghiệm lại mơ hình trên, qua đưa nhận xét, đánh giá mơ hình Q trình thực nghiệm dựa vào dự đốn mơ hình so sánh với liệu thực tập kiểm thử để đưa đánh giá Khóa luận sử dụng Project dựa ngơn ngữ Python để thực nghiệm mơ hình 4.2 Dữ liệu thực nghiệm Khóa luận sử dụng tập liệu phim MovieLens 100k để thực thực nghiệm tính phổ biến tập liệu cộng đồng công nhận Tập liệu bao gồm 100.000 đánh giá 943 người dùng 1650 phim Điểm số đánh giá bao gồm giá trị {1, 2, 3, 4, 5} người dùng có số lượng phim điểm đánh giá khác Hình 4.1 mơ tả phần liệu tập MovieLens 100k 35 Hình 4.1 Một phần liệu tập liệu MovieLens 100k Dữ liệu bao gồm cột theo thứ tự từ trái sang phải thông tin user_id, item_id, rating_score, timestamp Mỗi cột cách dấu tab “\t” dòng đánh giá người dùng phim 36 Hình 4.2 Phân bố người dùng đánh giá mục Số mục Tỷ lệ (%) Số đánh giá Tỷ lệ (%) >300 33 1.96 12899 12.9 100-300 305 18.48 51920 51.92