Nghiên cứu hệ tư vấn cộng tác dựa trên mô hình đô thị

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN ĐẠI HỌC MỞ HÀ NỘI LUẬN VĂN THẠC SỸ NGHIÊN CỨU HỆ TƯ VẤN CỘNG TÁC DỰA TRÊN MƠ HÌNH ĐỒ THỊ LÊ QUANG HỢP CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN MÃ SỐ: 60.48.02.01 NGƯỜI HƯỚNG DẪN KHOA HỌC TS NGUYỄN DUY PHƯƠNG HÀ NỘI – 2015 LUẬN VĂN THẠC SỸ CÔNG NGHỆ THƠNG TIN LỜI CAM ĐOAN Tơi cam đoan đề tài tơi thực hiện, số liệu thu thập kết phân tích đề tài trung thực, đề tài không trùng với đề tài nghiên cứu khoa học Hà Nội, ngày 10 tháng 11 năm 2015 Học viên Lê Quang Hợp Học viên: Lê Quang Hợp LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN LỜI CẢM ƠN Lời em xin gửi lời cảm ơn chân thành tới tất thầy cô giảng dạy Viện Đại học Mở Hà Nội tận tình truyền đạt kinh nghiệm kiến thức quý báu giúp em hoàn thành nhiệm vụ học tập suốt thời gian học viên cao học trường Em xin gửi lời biết ơn sâu sắc đến thầy giáo - tiến sỹ Nguyễn Duy Phương, người tận tình hướng dẫn, bảo cho em suốt trình học tập hoàn thành luận văn Xin gửi lời cảm ơn chân thành đến gia đình ln động viên, ủng hộ, cổ vũ tạo điều kiện tốt thời gian học tập Xin gửi lời cảm ơn đến người bạn, người chia sẻ, động viên, giúp đỡ suốt trình học tập Hà Nội, ngày 10 tháng 11 năm 2015 Học viên Lê Quang Hợp Học viên: Lê Quang Hợp LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN MỤC LỤC MỞ ĐẦU Đặt vấn đề Mục tiêu luận văn 10 Các đóng góp luận văn 10 Bố cục luận văn 11 CHƯƠNG I: TỔNG QUAN VỀ LỌC CỘNG TÁC 12 1.1 Phát biểu toán 12 1.2 Các phương pháp lọc cộng tác 13 1.2.1 Lọc cộng tác dựa vào người dùng (UserBased) 14 1.2.2 Lọc cộng tác dựa vào sản phẩm (ItemBased) 17 1.3 Các thách thức hạn chế lọc cộng tác 20 1.4 Kết luận 23 CHƯƠNG II: PHƯƠNG PHÁP LỌC CỘNG TÁC DỰA TRÊN MÔ HÌNH ĐỒ THỊ 25 2.1 Phương pháp biểu diễn 25 2.1.1 Phương pháp biểu diễn đồ thị Huang 28 2.1.2 Mơ hình đồ thị Huang mở rộng 29 2.2 Phương pháp KNN-UserBased-Graph 32 2.3 Phương pháp KNN-ItemBased-Graph 36 2.4 Phương pháp Unify-Graph 40 2.5 So sánh đánh giá 44 2.6 Kết luận 45 CHƯƠNG III : THỬ NGHIỆM VÀ ĐÁNH GIÁ 46 3.1 Dữ liệu thử nghiệm 46 3.2 Phương pháp thử nghiệm 47 3.2.1 Thử nghiệm sử dụng độ đo trung bình tuyệt đối lỗi MAE 47 3.2.2 Thử nghiệm đánh giá sai số phân loại dựa độ đo Precision, Recall F-Measure 48 3.2.3 3.3 Thử nghiệm thời gian dự đoán 48 Kết thử nghiệm 49 Học viên: Lê Quang Hợp LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN 3.3.1 Thử nghiệm thời gian (tốc độ) dự đoán 49 3.3.2 Thử nghiệm độ đo trung bình tuyệt đối lỗi MAE 52 3.3.3 Thử nghiệm đánh giá sai số phân loại dựa độ đo Precision, Recall F-measure 55 3.4 Đánh giá kiến nghị 59 KẾT LUẬN 60 DANH MỤC TÀI LIỆU THAM KHẢO 61 Học viên: Lê Quang Hợp LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN DANH SÁCH CÁC BẢNG BIỂU Bảng 1.1: Ma trận đánh giá người dùng - sản phẩm 13 Bảng 1.2: Ma trận đánh giá người dùng - sản phẩm 16 Bảng 1.3: Ma trận đánh giá người dùng - sản phẩm 20 Bảng 2.1: So sánh hai phương pháp lọc cộng tác dựa độ tương quan mơ hình đồ thị hai phía 27 Bảng 2.2: Đánh giá so sánh kết hai phương pháp lọc cộng tác dựa độ tương quan mơ hình đồ thị 45 Bảng 3.1: Thời gian thực dự đoán tư vấn tập liệu MovieLen 49 Bảng 3.2: Thời gian thực dự đoán tư vấn tập liệu Vatgia402 50 Bảng 3.3: Thời gian thực dự đoán tư vấn tập liệu Vatgia1114 51 Bảng 3.4: Giá trị MAE thử nghiệm tập liệu MovieLens 52 Bảng 3.5: Giá trị MAE thử nghiệm tập liệu Vatgia402 53 Bảng 3.6: Giá trị MAE thử nghiệm tập liệu Vatgia1114 54 Bảng 3.7: Giá trị P-R-F thử nghiệm tập liệu MovieLens 55 Bảng 3.8: Giá trị P-R-F thử nghiệm tập liệu Vatgia402 57 Bảng 3.9: Giá trị P-R-F thử nghiệm tập liệu Vatgia1114 58 Học viên: Lê Quang Hợp LUẬN VĂN THẠC SỸ CƠNG NGHỆ THƠNG TIN DANH SÁCH HÌNH VẼ Hình 2.1: Đồ thị phía biểu diễn cho lọc cộng tác theo ví dụ 2.1 26 Hình 2.2: Đồ thị phía (Huang) biểu diễn cho lọc cộng tác theo ví dụ 1.2.1 29 Hình 2.3: Đồ thị phía biểu diễn cho lọc cộng tác theo mơ hình Huang mở rộng 31 Hình 2.4: Ma trận trọng số biểu diễn đồ thị hai phía theo mơ hình Huang mở rộng 31 Hình 3.1: Thời gian thực dự đoán tư vấn tập liệu MovieLens 49 Hình 3.2: Thời gian thực dự đoán tư vấn tập liệu Vatgia402 50 Hình 3.3: Thời gian thực dự đốn tư vấn tập liệu Vatgia1114 51 Hình 3.4: Giá trị MAE thử nghiệm tập liệu MovieLens 52 Hình 3.5: Giá trị MAE thử nghiệm tập liệu Vatgia402 53 Hình 3.6: Giá trị MAE thử nghiệm tập liệu Vatgia1114 54 Hình 3.7: Giá trị F-measure thử nghiệm tập liệu MovieLens 56 Hình 3.8: Giá trị F-measure thử nghiệm tập liệu Vatgia402 57 Hình 3.9: Giá trị F-measure thử nghiệm tập liệu Vatgia1114 59 Học viên: Lê Quang Hợp LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN DANH MỤC CÁC CHỮ VIẾT TẮT CF (Collaborative Filtering) : Lọc cộng tác MAE (Mean Absolute Error) : Sai số trung bình tuyệt đối UBP : Phương pháp User-based dựa vào độ tương quan Pearson IBP : Phương pháp Item-based dựa vào độ tương quan Pearson KUBG : Phương pháp KNN-UserBased-Graph KIBG : Phương pháp KNN-ItemBased-Graph UG : Phương pháp Unify-Graph KNN : K Neareast Neighbor (K người láng giếng gần nhất) Học viên: Lê Quang Hợp LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN MỞ ĐẦU Đặt vấn đề Lọc thông tin (Information Filtering) lĩnh vực nghiên cứu q trình lọc bỏ thơng tin khơng thích hợp cung cấp thơng tin thích hợp đến với người dùng Lọc thông tin xem phương pháp hiệu hạn chế tình trạng tải thông tin quan tâm nhiều Các phương pháp lọc thơng tin đóng vai trị quan trọng thống thương mại điện tử, đặc biệt hệ tư vấn (Recommender System) Hệ tư vấn (Recommender System) hệ thống có khả tự động phân tích, phân loại, lựa chọn cung cấp cho người dùng thơng tin, hàng hóa hay dịch vụ mà họ quan tâm Hệ tư vấn xem biến thể điển hình có vai trị quan trọng lọc thông tin Nhiều hệ tư vấn thương mại hóa triển khai thành cơng, tiêu biểu hệ tư vấn hãng Amazon.com, Netflix.com, Procter & Gamble Hệ tư vấn xây dựng dựa hai kỹ thuật lọc thơng tin chính: Lọc theo nội dung (Content-Based Filtering) lọc cộng tác (Collaborative Filtering) Lọc theo nội dung khai thác khía cạnh liên quan đến đặc trưng nội dung thông tin sản phẩm người dùng sử dụng hay truy nhập khứ để tạo nên tư vấn Lọc theo nội dung cho lại kết tốt dạng thông tin biểu diễn đặc trưng nội dung, gặp phải khó khăn dạng thơng tin đa phương tiện (hình ảnh, âm thanh, dịch vụ) Trái lại, lọc cộng tác khai thác khía cạnh liên quan đến thói quen sử dụng sản phẩm cộng đồng người dùng có sở thích để tạo nên tư vấn So với lọc theo nội dung, lọc cộng tác có số ưu điểm đơn giản cài đặt lọc loại thơng tin hay hàng hố mà khơng cần phải biểu diễn dạng văn Lọc cộng tác cho hệ tư vấn tiếp cận theo hai phương pháp chính: Lọc cộng tác dựa vào nhớ (Memory-Based Collaborative Filtering) Lọc cộng tác dựa vào mơ hình (Model-Based Collaborative Filtering) Điểm khác biệt quan trọng hai phương pháp tiếp cận phương pháp xây dựng mơ hình huấn luyện mô Học viên: Lê Quang Hợp LUẬN VĂN THẠC SỸ CƠNG NGHỆ THƠNG TIN hình dự đốn Lọc dựa vào nhớ tiến hành xây dựng đồng thời mơ hình huấn luyện mơ hình dự đốn Ngược lại, lọc dựa vào mơ hình xây dựng mơ hình huấn luyện mơ hình dự đốn độc lập So với lọc cộng tác dựa vào mơ hình, lọc cộng tác dựa vào nhớ áp dụng rộng rãi tính hiệu quả, đơn giản có độ xác cao Lọc cộng tác dựa vào nhớ thực theo hai phương pháp chính: Lọc dựa vào người dùng (User-Based Collaborative Filtering) lọc dựa vào sản phẩm (Item-Based Collaborative Filtering) Hiệu phương pháp lọc dựa vào nhớ phụ thuộc vào độ đo tương tự cặp người dùng sản phẩm Trong trình nghiên cứu ứng dụng, nhiều nghiên cứu đề xuất để cải thiện độ đo tương tự, đặc biệt trường hợp liệu thưa Mặc dù có nhiều nghiên cứu nhắm tới nội dung này, vấn đề nghiên cứu mở, có tính thời thu hút qua tâm cộng đồng nghiên cứu Đề tài “Nghiên cứu hệ tư vấn cộng tác dựa mơ hình đồ thị” thực khuôn khổ luận văn thạc sĩ ngành Công nghệ thơng tin nhằm góp phần giải số vấn đề tồn lọc cộng tác dựa vào nhớ Mục tiêu luận văn Mục tiêu luận văn nghiên cứu áp dụng, cải tiến phương pháp lọc cộng tác dựa nhớ nhằm cải thiện độ xác kết dự đốn cho hệ tư vấn Đặc biệt, nghiên cứu tập trung vào việc nâng cao kết dự đoán nhu cầu người dùng trường hợp liệu thưa Các đóng góp luận văn Đóng góp luận văn giới thiệu phương pháp tính tốn mức độ tương tự cặp người dùng sản phẩm dựa vào đồ thị để nâng cao chất lượng dự đốn cho hệ tư vấn Những đóng góp cụ thể luận văn bao gồm bao gồm: - Mở rộng biểu diễn đồ thị Huang cho hệ thống lọc cộng tác Phương pháp biểu diễn phù hợp với tất liệu cho lọc cộng tác Học viên: Lê Quang Hợp 10 LUẬN VĂN THẠC SỸ CƠNG NGHỆ THƠNG TIN có) khách hàng chia thành hai phần O୳ P୳ O୳ đánh giá biết, P୳ đánh giá cần dự đoán từ liệu huấn luyện O୳ Sai số dự đoán MAE୳ với khách hàng u thuộc tập liệu kiểm tra tính trung bình cộng sai số tuyệt đối hai giá trị dự đoán giá trị thực tất sản phẩm thuộc tập P୳ ଵ ‫ܧܣܯ‬௨ = |௉ | ∑௬∈௉ೠ ห‫̂ݎ‬௬௨ − ‫ݎ‬௬௨ ห ೠ (3.1) [4] Sai số dự đoán tồn tập liệu kiểm tra tính trung bình cộng sai số dự đốn cho khách hàng thuộc U୲ୣୱ୲ ‫= ܧܣܯ‬ ∑ೠ∈ೆ೟೐ೞ೟ ெ஺ாೠ |௎೟೐ೞ೟| (3.2) [4] 3.2.2 Thử nghiệm đánh giá sai số phân loại dựa độ đo Precision, Recall F-Measure Gọi N tổng số đánh giá người dùng tập liệu kiểm tra, Nr tổng số sản phẩm mà phương pháp lọc dự đoán tư vấn cho người dùng, Nrs số sản phẩm mà phương pháp lọc dự đốn xác, độ xác P (Precision) tính theo cơng thức (3.3), độ nhạy R(Recall) tính theo cơng thức (3.4), độ đo F (F-Measure) tính theo cơng thức (3.5) Giá trị P,R,F lớn độ xác phương pháp cao ܲ= ேೝೞ (3.3) [4] ܴ= ேೝೞ (3.4) [4] ‫=ܨ‬ ଶ×௉×ோ (3.5) [4] ேೝ ே ሺ௉ାோሻ 3.2.3 Thử nghiệm thời gian dự đoán Như trình bày phần 2.3 phía luận văn, thuật tốn lọc cộng tác dựa mơ hình đồ thị phía nhằm giải vấn đề tốc độ thực phương pháp lọc đưa dự đoán Phần thử nghiệm thử nghiệm Học viên: Lê Quang Hợp 48 LUẬN VĂN THẠC SỸ CƠNG NGHỆ THƠNG TIN thuật tốn UBP KUBG đại diện cho phương pháp lọc (đã trình bày luận văn) nhằm đưa nhìn cụ thể hiệu (tốc độ) phương pháp 3.3 Kết thử nghiệm Các thử nghiệm kết tính tốn phạm vi luận văn thực hệ thống phần cứng: CPU Intel core i3 M390 2.67Ghz , RAM 2GB; hệ thống phần mềm:Hệ điều hành Windows Ultimate SP1, phần mềm Matlab 2012 3.3.1 Thử nghiệm thời gian (tốc độ) dự đốn • Thử nghiệm 1: Tốc độ thực thuật toán đại diện cho phương pháp lọc thử nghiệm liệu MovieLens, với tập {1,2,5,10,15} đánh giá cho trước tập kiểm tra độ dài đường đồ thị L=50 thể bảng sau (theo giây (s)): Số đánh giá cho trước tập kiểm tra Phương pháp UBP KUBG 10 15 78.1976 77.6380 74.3285 55.9906 44.9932 2.6225 2.9444 2.8260 2.8636 2.4912 Bảng 3.1: Thời gian thực dự đoán tư vấn tập liệu MovieLen (theo s) Runtime (MovieLens) 15 đánh giá 10 đánh giá đánh giá đánh giá đánh giá 10 20 30 40 KUBG 50 60 70 80 90 UBP Hình 3.1: Thời gian thực dự đoán tư vấn tập liệu MovieLens (theo s) Học viên: Lê Quang Hợp 49 LUẬN VĂN THẠC SỸ CƠNG NGHỆ THƠNG TIN • Thử nghiệm 2: Tốc độ thực thuật toán đại diện cho phương pháp lọc thử nghiệm liệu Vatgia402, với tập {1,2,4,6,8} đánh giá cho trước tập kiểm tra độ dài đường đồ thị L=50 thể bảng sau (theo giây (s)): Số đánh giá cho trước tập kiểm tra Phương pháp UBP KUBG 12.3202 10.6316 11.0685 9.9181 10.0981 3.3518 3.1750 3.0901 2.8022 2.8200 Bảng 3.2: Thời gian thực dự đoán tư vấn tập liệu Vatgia402 (theo s) Runtime (Vatgia402) đánh giá đánh giá đánh giá đánh giá đánh giá KUBG 10 12 14 UBP Hình 3.2: Thời gian thực dự đoán tư vấn tập liệu Vatgia402 (theo s) Học viên: Lê Quang Hợp 50 LUẬN VĂN THẠC SỸ CƠNG NGHỆ THƠNG TIN • Thử nghiệm 3: Tốc độ thực thuật toán đại diện cho phương pháp lọc thử nghiệm liệu Vatgia1114, với tập {1,2,5} đánh giá cho trước tập kiểm tra độ dài đường đồ thị L=50 thể bảng sau (theo giây (s)): Số đánh giá cho trước tập kiểm tra Phương pháp UBP KUBG 287.1028 293.9344 300.1630 19.9003 19.9476 20.0277 Bảng 3.3: Thời gian thực dự đoán tư vấn tập liệu Vatgia1114 (theo s) Runtime (Vatgia1114) đánh giá đánh giá đánh giá 50 100 150 KUBG 200 250 300 350 UBP Hình 3.3: Thời gian thực dự đoán tư vấn tập liệu Vatgia1114 (theo s) Kết thử nghiệm thời gian thực dự đoán tập liệu MovieLens, Vatgia402, Vatgia1114 với mức độ thưa thớt khác tính theo giây (s) cho thấy vượt trội hiệu (tốc độ) phương pháp lọc cộng tác dựa mơ hình đồ thị hai phía KUBG Thời gian dự đoán phương pháp KUBG nhỏ so với phương pháp UBP (truyền thống), đặc biệt mật độ thưa thớt tăng lên Học viên: Lê Quang Hợp 51 LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN 3.3.2 Thử nghiệm độ đo trung bình tuyệt đối lỗi MAE • Thử nghiệm 4: thử nghiệm độ đo trung bình tuyệt đối lỗi MAE liệu MovieLens, số lượng đánh giá tập người dùng cho trước 1,2,5,10,15 đánh giá Giá trị độ dài đường đồ thị thử nghiệm với L = 50.Giá trị MAE cho phương pháp lọc thể bảng sau: Số đánh giá cho trước tập kiểm tra Phương pháp 10 15 UBP 0.7156 0.4014 0.2142 0.2265 0.2505 IBP 0.6604 0.6085 0.4718 0.3492 0.2822 KUBG 0.1658 0.1656 0.1651 0.1645 0.1643 KIBG 0.3380 0.2470 0.2059 0.1923 0.1846 Bảng 3.4: Giá trị MAE thử nghiệm tập liệu MovieLens MAE (MovieLens) 0.8 0.7 0.6 0.5 UBP 0.4 IBP 0.3 KUBG KIBG 0.2 0.1 đánh giá đánh giá đánh giá 10 đánh giá 15 đánh giá Hình 3.4: Giá trị MAE thử nghiệm tập liệu MovieLens Học viên: Lê Quang Hợp 52 LUẬN VĂN THẠC SỸ CƠNG NGHỆ THƠNG TIN • Thử nghiệm 5: thử nghiệm độ đo trung bình tuyệt đối lỗi MAE liệu Vatgia402, số lượng đánh giá tập người dùng cho trước 1,2,4,6,8 đánh giá Giá trị độ dài đường đồ thị thử nghiệm với L = 50 Giá trị MAE cho phương pháp lọc thể bảng sau: Số đánh giá cho trước tập kiểm tra Phương pháp UBP 0.8042 0.7224 0.6083 0.5756 0.5838 IBP 0.6726 0.6247 0.6031 0.5999 0.5903 KUBG 0.1607 0.1657 0.1759 0.1944 0.2155 KIBG 0.2225 0.1941 0.1710 0.1522 0.1535 Bảng 3.5: Giá trị MAE thử nghiệm tập liệu Vatgia402 MAE (Vatgia402) 0.9 0.8 0.7 0.6 UBP 0.5 IBP 0.4 KUBG 0.3 KIBG 0.2 0.1 đánh giá đánh giá đánh giá đánh giá đánh giá Hình 3.5: Giá trị MAE thử nghiệm tập liệu Vatgia402 Học viên: Lê Quang Hợp 53 LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN • Thử nghiệm 6: thử nghiệm độ đo trung bình tuyệt đối lỗi MAE liệu Vatgia1114, số lượng đánh giá tập người dùng cho trước 1, 2, đánh giá Giá trị độ dài đường đồ thị thử nghiệm với L = 50 Giá trị MAE cho phương pháp lọc thể bảng sau: Số đánh giá cho trước tập kiểm tra Phương pháp UBP 0.8001 0.7193 0.5817 IBP 0.6636 0.6227 0.5718 KUBG 0.1682 0.1785 0.1923 KIBG 0.2535 0.2186 0.1748 Bảng 3.6: Giá trị MAE thử nghiệm tập liệu Vatgia1114 MAE (Vatgia1114) 0.9 0.8 0.7 0.6 UBP 0.5 IBP 0.4 KUBG 0.3 KIBG 0.2 0.1 đánh giá đánh giá đánh giá Hình 3.6: Giá trị MAE thử nghiệm tập liệu Vatgia1114 Kết thử nghiệm đánh giá sai số MAE ba tập liệu MovieLens, Vatgia402, Vatgia1114 với mức độ thưa thớt khác cho thấy sai số MAE phương pháp KUBG, KIBG mơ hình giới thiệu nhỏ nhiều so với phương pháp lọc cộng tác truyền thống UBP IBP Sai số MAE Học viên: Lê Quang Hợp 54 LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN nhỏ chứng tỏ việc áp dụng phương pháp lọc cộng tác dựa mơ hình đồ thị đem lại chất lượng tư vấn cao so với phương pháp truyền thống 3.3.3 Thử nghiệm đánh giá sai số phân loại dựa độ đo Precision, Recall F-measure • Thử nghiệm 7: thử nghiệm đánh giá sai số phân loại liệu MovieLens, số lượng đánh giá tập người dùng cho trước 1, 2, 5, 10, 15 đánh giá Giá trị độ dài đường đồ thị thử nghiệm với L = 50 Giá trị Precision, Recall, F-measure cho phương pháp lọc thể bảng sau: Số đánh giá cho trước tập kiểm tra Phương pháp UBP IBP KUBG KIBG UG 10 15 P 0.0771 0.0606 0.0571 0.0545 R 0.6177 0.9237 0.8900 0.8362 F N/A 0.1372 0.1137 0.1073 0.1024 P 0.0252 0.0292 0.0368 0.0416 0.0431 R 0.0525 0.1038 0.2514 0.4107 0.4950 F 0.0341 0.0456 0.0642 0.0755 0.0793 P 0.1225 0.1204 0.1189 0.1132 0.1064 R 0.6527 0.6415 0.6303 0.5985 0.5594 F 0.2063 0.2027 0.2001 0.1903 0.1788 P 0.0534 0.0538 0.0533 0.0502 0.0474 R 0.7300 0.8887 0.9366 0.8886 0.8359 F 0.0996 0.1014 0.1009 0.0950 0.0896 P 0.0553 0.0549 0.0530 0.0502 0.0474 R 0.9894 0.9787 0.9468 0.8936 0.8404 F 0.1048 0.1040 0.1003 0.0951 0.0897 Bảng 3.7: Giá trị P-R-F thử nghiệm tập liệu MovieLens Học viên: Lê Quang Hợp 55 LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN F-measure (MovieLens) 0.25 0.2 0.15 UBP IBP 0.1 KUBG KIBG 0.05 đánh giá đánh giá đánh giá 10 đánh giá 15 đánh giá Hình 3.7: Giá trị F-measure thử nghiệm tập liệu MovieLens • Thử nghiệm 8: thử nghiệm đánh giá sai số phân loại liệu Vatgia402, số lượng đánh giá tập người dùng cho trước 1, 2, 4, 6, đánh giá Giá trị độ dài đường đồ thị thử nghiệm với L = 50 Giá trị Precision, Recall, F-measure cho phương pháp lọc thể bảng sau: Số đánh giá cho trước tập kiểm tra Phương pháp UBP IBP P 0.0253 0.0160 0.0102 0.0069 R 0.1113 0.2188 0.2112 0.1637 F N/A 0.0413 0.0298 0.0195 0.0132 P 0.0188 0.0218 0.0172 0.0142 0.0157 R 0.0114 0.0219 0.0257 0.0257 0.0314 F 0.0142 0.0218 0.0206 0.0183 0.0209 Học viên: Lê Quang Hợp 56 LUẬN VĂN THẠC SỸ KUBG KIBG UG CÔNG NGHỆ THÔNG TIN P 0.0205 0.0157 0.0089 0.0052 0.0028 R 0.2063 0.1551 0.0875 0.0466 0.0276 F 0.0373 0.0285 0.0162 0.0087 0.0051 P 0.0041 0.0040 0.0033 0.0027 0.0021 R 0.1180 0.1912 0.1694 0.1389 0.1085 F 0.0079 0.0078 0.0065 0.0053 0.0041 P 0.0035 0.0032 0.0026 0.0020 0.0014 R 0.8887 0.8126 0.6603 0.5100 0.3606 F 0.0069 0.0063 0.0051 0.0040 0.0028 Bảng 3.8: Giá trị P-R-F thử nghiệm tập liệu Vatgia402 F-measure (Vatgia402) 0.045 0.04 0.035 0.03 UBP 0.025 IBP KUBG 0.02 KIBG 0.015 UG 0.01 0.005 đánh giá đánh giá đánh giá đánh giá đánh giá Hình 3.8: Giá trị F-measure thử nghiệm tập liệu Vatgia402 Học viên: Lê Quang Hợp 57 LUẬN VĂN THẠC SỸ CƠNG NGHỆ THƠNG TIN • Thử nghiệm 9: thử nghiệm đánh giá sai số phân loại liệu Vatgia1114, số lượng đánh giá tập người dùng cho trước 1, 2, đánh giá Giá trị độ dài đường đồ thị thử nghiệm với L = 50 Giá trị Precision, Recall, F-measure cho phương pháp lọc thể bảng sau: Số đánh giá cho trước tập kiểm tra Phương pháp UBP IBP KUBG KIBG UG P 0.0134 0.0057 R 0.0962 0.1289 F N/A 0.0235 0.0109 P 0.0216 0.0167 0.0081 R 0.1854 0.2105 0.1394 F 0.0386 0.0309 0.0154 P 0.0092 0.0059 0.0013 R 0.1609 0.1020 0.0222 F 0.0174 0.0111 0.0024 P 0.0017 0.0016 0.0008 R 0.0898 0.1108 0.0682 F 0.0033 0.0031 0.0016 P 0.0015 0.0012 0.0005 R 0.8618 0.7294 0.3294 F 0.0029 0.0025 0.0011 Bảng 3.9: Giá trị P-R-F thử nghiệm tập liệu Vatgia1114 Học viên: Lê Quang Hợp 58 LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN F-measure (Vatgia1114) 0.045 0.04 0.035 0.03 0.025 0.02 0.015 0.01 0.005 UBP IBP KUBG KIBG Category Category Category Hình 3.9: Giá trị F-measure thử nghiệm tập liệu Vatgia1114 Kết thử nghiệm sai số phân loại tập liệu MovieLens, Vatgia402, Vatgia1114 với mức độ thưa thớt khác cho thấy độ nhạy (Recall) phương pháp lọc cộng tác dựa mơ hình đồ thị giới thiệu lớn nhiều lần so với phương pháp truyền thống UBP IBP Nguyên nhân phương pháp KUBG KIBG tìm nhiều sản phẩm phù hợp với người dùng đồng nghĩa với số lượng sản phẩm tập sản phẩm dự đoán tăng lên nhiều, điều làm cho giá trị độ xác (Precision) độ đo F-measure giảm xuống Các phương pháp lọc cộng tác dựa mơ hình giới thiệu giải nhược điểm khơng thể dự đốn tư vấn phương pháp UBP người dùng hay sản phẩm có đánh giá 3.4 Đánh giá kiến nghị Hiệu mơ hình đồ thị hai phía cho phương pháp lọc cộng tác thử nghiệm tập liệu MovieLens Vatgia với các mức độ thưa thớt khác cho thấy cải thiệnđáng kể độ xác, hiệu chi phí việc dựđốnđánh giá người dùng sản phẩm so với phương pháp lọc cộng tác truyền thống Kết thử nghiệm chứng minh cho đắn đầy đủ nghiên cứu lý thuyết Việc áp dụng mơ hình đồ thị hai phía hồn tồn xây dựng triển khai hệ thống tư vấn thực tế cách dễ dàng hiệu Học viên: Lê Quang Hợp 59 LUẬN VĂN THẠC SỸ CÔNG NGHỆ THƠNG TIN KẾT LUẬN Luận văn trình bày số nội dung sau: - Tổng quan lọc cộng tác cho hệ tư vấn: Trình bày khái quát hệ tư vấn phương pháp lọc cộng tác cho hệ tư vấn, tập trung vào hai phương pháp lọc cộng tác truyền thống UserBased ItemBased dựa độ đo tương quan Chỉ khó khăn, thách thức hệ tư vấn thực tế hạn chế tồn phương pháp lọc truyền thống mục tiêu nghiên cứu luận văn - Phương pháp lọc cộng tác dựa mơ hình đồ thị hai phía: Trình bày khái qt mơ hình đồ thị đề xuất Huang, số nhược điểm giới thiệu mơ hình khắc phục hạn chế Trình bày chi tiết bước thuật tốn lan lọc cộng tác mơ hình giới thiệu, đưa ví dụ cụ thể đánh giá so sánh - Thử nghiệm đánh giá: Giới thiệu liệu thử nghiệm cho thuật tốn trình bày luận văn Thử nghiệm cài đặt Matlab cho thuật toán ứng với liệu có mức độ thưa thớt khác Kết thử nghiệm đánh giá theo tiêu chí độ xác, độ nhạy, sai số trung bình thời gian thực tư vấn Học viên: Lê Quang Hợp 60 LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN DANH MỤC TÀI LIỆU THAM KHẢO [1] Nguyễn Duy Phương, Đỗ Thị Liên, Từ Minh Phương, “Xác định độ tương tự cho người dùng sản phẩm lọc cộng tác dựa mơ hình đồ thị”, 2012 [2] Nguyễn Duy Phương, “Phát triển số phương pháp lọc thông tin cho hệ tư vấn”, 2011 [3] Zan Huang, “Graph-Based analysis for e-commerce recommendation”, 2005 [4] Zan Huang, Hsinchun Chen, and Daniel Zeng, “Applying Associative Retrieval Techniques to Alleviate the Sparsity Problem in Collaorative Filtering”, 2004 [5] K Selcuk Candan and Maria Luisa Sapino, “Data management for multimedia retrieval”, 2010 [6] Alexander Troussov, Denis Parra and Peter Brusilovsky, “Spreading activation approach to Tag-aware Recommenders”, 2009 [7] Tim Hussein and Sebasitian Neuhaus, “Explanation of spreading activation based recommendations”, 2010 [8] Badurl sarver, George Karypis, Joseph Konstan and John Riedl, “Item Based Collaborative Filtering Recommendation Algorithms”, 2010 [9] John R Anderson, “A Spreading Activation Theory of Memory”, [10] Djoerd Hiemstra, Dolf Trieschigg, Erik Boertjes and Stephan 1983 Raaijmakers, “Evaluating Recommender System”, 2008 [11] H Chen and T Ng, “An Algorihmic Approach to Concept Exploration in a Large Knowledge Network (Automatic Thesaurus Consultation): Sysmbolic Branch-and-Bound Search vs Connectionist Hopfield Net Activation”, 1995 Học viên: Lê Quang Hợp 61 LUẬN VĂN THẠC SỸ [12] CÔNG NGHỆ THÔNG TIN Aaron J Defazio and Tibério S Caetano, “A Graphical Model Formulation of Collaborative Filtering Neighbourhood Methods with Fast Maximum Entropy Training”, 2012 [13] Zan Huang, Wingyan Chung, Thian-Huat Ong and Hsinchun Chen, “A Graph-based Recommender System”, 2002 Học viên: Lê Quang Hợp 62 ... qua tâm cộng đồng nghiên cứu Đề tài ? ?Nghiên cứu hệ tư vấn cộng tác dựa mô hình đồ thị? ?? thực khn khổ luận văn thạc sĩ ngành Cơng nghệ thơng tin nhằm góp phần giải số vấn đề tồn lọc cộng tác dựa vào... lọc cộng tác dựa vào nhớ Nội dung chương trình bày nghiên cứu lọc cộng tác, phương pháp lọc cộng tác, sâu trình bày phương pháp lọc cộng tác dựa nhớ Trên sở nghiên cứu bản, xác định rõ hướng nghiên. .. bày hai kỹ thuật lọc cộng tác dựa vào nhớ lọc cộng tác dựa vào người dùng lọc cộng tác dựa vào sản phẩm 1.2.1 Lọc cộng tác dựa vào người dùng (UserBased) Kỹ thuật lọc cộng tác dựa vào người dùng

Định dạng
Số trang	62
Dung lượng	1,22 MB