Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 59 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
59
Dung lượng
1,05 MB
Nội dung
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG KHOA CÔNG NGHỆ THÔNG TIN - ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC Đề tài: KẾT HỢP LỌC CỘNG TÁC VÀ MÔ HÌNH ĐÁM MÂY CHO TƯ VẤN LỰA CHỌN Giảng viên hướng dẫn Sinh viên thực Lớp Khóa Hệ : : : : : PGS.TS TRẦN ĐÌNH QUẾ PHẠM VĂN LINH D07CNPM2 10 (2007-2012) Đại học qui Hà Nội, tháng 12/ 2011 HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG KHOA CÔNG NGHỆ THÔNG TIN - ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC Đề tài: KẾT HỢP LỌC CỘNG TÁC VÀ MÔ HÌNH ĐÁM MÂY CHO TƯ VẤN LỰA CHỌN Giảng viên hướng dẫn Sinh viên thực Lớp Khóa Hệ : : : : : PGS.TS TRẦN ĐÌNH QUẾ PHẠM VĂN LINH D07CNPM2 10 (2007-2012) Đại học qui Hà Nội, tháng 12/ 2011 LỜI CẢM ƠN Trước tiên, em xin gửi lời biết ơn sâu sắc tới Thầy giáo PGS.TS Trần Đình Quế, người tận tình bảo, hướng dẫn, nhắc nhở em suốt trình học tập hoàn thành đồ án Em xin gửi lời cảm ơn chân thành tới tất quý Thầy, Cô giảng dạy khoa Công nghệ thông tin toàn thể Thầy, Cô trường Học viện Công Nghệ Bưu Chính Viễn Thông tận tình truyền đạt kiến thức quý báu giúp em hoàn thành nhiệm vụ học tập suốt thời gian sinh viên trường Cho gửi lời cảm ơn chân thành đến bố mẹ, ông bà động viên, ủng hộ, cổ vũ tạo điều kiện cho suốt năm tháng ngồi ghế nhà trường Cho gửi lời cảm ơn đến người bạn tôi, người chia sẻ, động viên, giúp đỡ bên tôi gặp khó khăn trọng học tập đời sống Xin chân thành cảm ơn! Hà Nội, tháng 12 năm 2011 Sinh viên thực Phạm Văn Linh i MỤC LỤC CÁC THUẬT NGỮ VIẾT TẮT v CHƯƠNG 1: TỔNG QUAN HỆ TƯ VẤN 1.1 GIỚI THIỆU TỔNG QUAN VỀ HỆ TƯ VẤN 1.1.1.Chức hệ tư vấn 1.1.2.Ứng dụng hệ tư vấn 10 1.1.3 Các vấn đề hệ tư vấn 11 1.2 CÁC KỸ THUẬT LỌC CỘNG TÁC .12 1.2.1 Các kỹ thuật lọc cộng tác dựa nhớ .16 1.2.2.Các kỹ thuật lọc cộng tác dựa mô hình 22 1.2.3.Các kỹ thuật lọc cộng tác lai ghép 23 1.3 Kết luận 23 CHƯƠNG 2: KẾT HỢP LỌC CỘNG TÁC VÀ MÔ HÌNH ĐÁM MÂY .25 2.1 Kiến trúc hệ thống tư vấn kết hợp lọc cộng tác mô hình đám mây 26 2.2 Thành phần tạo dự đoán dựa lọc cộng tác .27 2.2.1.Xây dựng tập láng giềng 27 2.2.2.Tạo dự đoán 28 2.2.3 Ưu nhược điểm thuật toán lọc cộng tác dựa người dùng 29 2.3 Thành phần tạo dự đoán dựa mô hình đám mây 29 2.3.1.Tạo mô hình đám mây 29 2.3.2.Hình thành tập láng giêng 30 2.3.3.Tính dự đoán .31 2.3.4.Ưu nhược điểm thuật toán lọc cộng tác dựa mô hình đám mây 32 2.4 Tính dự đoán kết hợp 32 2.5 Kết luận 36 CHƯƠNG 3: CÀI ĐẶT VÀ ĐÁNH GIÁ THỬ NGHIỆM 37 3.1 Tập liệu thử nghiệm 38 3.2 Đánh giá thuật toán áp dụng cho hệ tư vấn .39 3.3 Kết thử nghiệm thuật toán 42 3.4 Kết luận 46 KẾT LUẬN .48 TÀI LIỆU THAM KHẢO 50 NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ii ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… ………………………………………………………………………………………… Điểm: …………………….………(bằng chữ: … …………… ….) Hà nội, ngày tháng năm 2011 Giáo viên hướng dẫn (ký, họ tên) iii NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN …………………………………………………………………………………………… ………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… …………………………………………………………………………………………… Điểm: …………………….………(bằng chữ: … …………… ….) Hà nội, ngày tháng năm 2011 Giáo viên phản biện (ký, họ tên) iv CÁC THUẬT NGỮ VIẾT TẮT Từ viết tắt Tiếng Anh Tiếng Việt User_CF Collaborative Filtering Base on User Lọc cộng tác dựa người dùng CM_CF Cloud model Collaborative Filtering Lọc cộng tác dựa mô hình đám mây Hybrid_CF Hybrid algorithm based on Collaborative Filtering and Cloud Model Thuật toán kết hợp lọc cộng tác dự người dùng mô hình đám mây MAE Mean absolute error Trung bình sai số tuyệt đối ACMSIGIR Special Interest Group on Information Retrieval Nhóm quan tâm đặc biệt tới trích xuất thông tin SIGMOD ACM’s Special Interest Group Nhóm quan tâm đặc biệt tới quản on Management Of Data lý liệu SVD Singular Value Decomposition Phân tích giá trị đơn v DANH MỤC CÁC HÌNH Hình 1.1: Hệ thống tư vấn MovieLens Hình 1.2: Website amazon.com Hình 1.3: Quá trình lọc cộng tác .14 Hình 1.4: Ma trận người dùng sản phẩm 15 Hình 2.1 Kiến trúc hệ thống kết hợp lọc cộng tác mô hình đám mây 26 Hình 3.1: biểu đồ so sánh giá trị MAE thuật toán thay đổi kích thước tập láng giềng 43 Hình 3.2: biểu đồ so sánh giá trị MAE thuật toán thay đổi kích thước tập láng giềng độ đo tương tự 44 Hình 3.3: Biểu đồ so sánh giá trị MAE thuật toán thay đổi mức độ thưa thớt tập liệu 46 DANH MỤC CÁC BẢNG vi Bảng 2.1: ví dụ xếp hạng sản phẩm 33 Bảng 3.1: bảng giá trị kích thước tập láng giềng K giá trị MAE tương ứng 43 Bảng 3.2: bảng giá trị kích thước tập láng giềng K giá trị MAE tương ứng với từng độ đo tương tự 44 Bảng 3.3: bảng giá trị mức độ thưa thớt tập liệu giá trị MAE tương ứng với từng thuật toán 45 vii MỞ ĐẦU Sự phát triển nhanh chóng công nghệ thông tin Internet tạo nên lượng liệu khổng lồ mạng, ngày nhiều thông tin tạo truy cập internet, dẫn tới vấn đề tải thông tin việc tìm kiếm thông tin người dùng trở lên khó khăn đặc biệt quan tâm người dùng tới nguồn thông tin khác cần có công cụ, hệ thống có khả hỗ trợ người dùng tìm kiếm đưa thông tin phù hợp với quan tâm thời người dùng Các hệ tư vấn giải vấn đề tải thông tin cách giúp người dùng khám phá đánh giá sản phẩm quan tâm Lọc cộng tác kỹ thuật phổ biến hiệu sử dụng hệ tư vấn Các thuật toán lọc cộng tác sử dụng thông tin lịch sử người dùng để xác định tập láng giềng người dùng để đưa hành vi tương tự dự đoán sản phẩm người dùng tập láng giềng Các thuật toán lọc cộng tác áp dụng thành công nhiều ứng dụng khác Nhưng tất kỹ thuật,thuật toán áp dụng cho hệ tư vấn có điểm mạnh điểm yếu riêng, gặp phải vấn đề đặc trưng hệ tư vấn như: vấn đề thưa thớt liệu, điểm khởi đầu yếu (cold-start), khả mở rộng… Vấn đề thưa thớt liệu xảy liệu xếp hạng có sẵn không đủ để xác định độ tương tự láng giềng, đặc biệt hệ thống đưa vào sử dụng Vấn đề thưa thớt liệu lý ảnh hưởng tới chất lượng dự đoán Đã có nhiều phương pháp đề xuất để giải vấn đề thưa thớt liệu, ví dụ, Billsus Pazzani [1] sử dụng thuật toán phân tích giá trị kỳ dị để giảm kích thước liệu xếp hạng cách loại bỏ người dùng sản phẩm không quan tâm Để đạt hiệu tư vấn cao, yêu cầu thuật toán phải giải vấn đề đặc trưng hệ tư vấn Các hệ thống tư vấn dựa lọc cộng tác phải đưa tư vấn thời gian thực Tuy nhiên, thuật toán lọc cộng tác đòi hỏi tính toán tốn phát triển phi tuyến với số lượng người dùng sản phẩm Khả mở rộng thuật toán lọc cộng tác làm cho hiểu cho việc thực thi thời gian thực có nhiều nỗ lực thực nhằm giải vấn đề khả mở rộng Những năm gần đây, nhiều nhà nghiên cứu khẳng định hiệu việc kết hợp mô hình đám mây vào trình lọc cộng tác [11] Phương pháp tiếp cận lọc cộng tác dựa mô hình đám mây nhằm giải vấn đề thưa thớt liệu khả mở rộng thông qua xây dựng sở thích toàn cục người dùng thể vector đặc trưng đám mây Phương pháp làm giảm số chiều liệu tránh kết hợp chặt chẽ thuộc tính tính độ tương tự Tuy nhiên, việc sử dụng sở thích Đồ án tốt nghiệp Đại học Chương 2: Kết hợp lọc cộng tác mô hình đám mây Tạo dự đoán kết hợp lọc cộng tác dựa người dùng lọc cộng tác dựa mô hình đám mây: Pu ,i = N uCF ,i N CF u ,i +N CM u ,i ×P CF u ,i + N uCM ,i N CF u ,i +N CM u ,i × PuCM = × 2.34 + × 4.67 = 3.12 ,i 3 Vậy dự đoán xếp hạng người dùng U1 sản phẩm I2 sử dụng thuật toán kết hợp 3.12 2.5 Kết luận Trong chương này, đồ án trình bày chi tiết thuật toán lọc cộng tác dựa người dung lọc cộng tác dựa mô hình đám mây, ưu nhược điểm hai phương pháp áp dụng hệ tư vấn đồ án đưa thuật toán kết hợp từ thuật toán lọc công tác dựa người dùng lọc cộng tác dựa mô hình đám mây kiến trúc hệ thống tạo dự đoán dựa thuật toán kết hợp Thuật toán kết hợp lọc cộng tác mô hình đám mây khắc phục vấn đề thưa thớt liệu khả mở rộng hệ tư vấn sử dụng kỹ thuật truyền thống Trong chương đồ án thực cài đặt đánh giá thuật toán kết hợp lọc cộng tác mô hình đám mây để thấy ưu điểm thuật toán 36 Đồ án tốt nghiệp Đại học Chương 3: Cài đặt đánh giá thuật toán CHƯƠNG 3: CÀI ĐẶT VÀ ĐÁNH GIÁ THỬ NGHIỆM • Mô tả tập liệu thử nghiệm • Các phương pháp đánh giá thuật toán • Kết thử nghiệm thuật toán • Nhận xét đánh giá thuật toán Chương này, đồ án trình bày kết đánh giá thử nghiệm thuật toán kết hợp lọc cộng tác dựa người dùng thuật toán lọc cộng tác dựa mô hình đám mây, đưa nhận xét, đánh giá thuật toán dựa kết thực nghiệm 37 Đồ án tốt nghiệp Đại học 3.1 Chương 3: Cài đặt đánh giá thuật toán Tập liệu thử nghiệm Chương trình sử dụng tập liệu MovieLen thu thập dự án nghiên cứu GroupLens đại học Minesota (link download: http://www.grouplens.org/node/73 ) 100.000 xếp hạng (1-5) Tập liệu gồm: - 100,000 xếp hạng từ đến - 943 người dùng, thông tin cá nhân người dùng: tuổi, giới tính, nghề nghiệp, mã vùng - 1682 sản phẩm - Mỗi người dùng đánh giá 20 sản phẩm (Movies) Dữ liệu thu thập từ website MovieLens vòng tháng từ ngày 19/9/1997 đến 22/4/1998 Tập liệu làm cách loại bỏ người dùng có tổng số xếp hạng nhỏ 20 thông tin cá nhân không đầy đủ Mô tả chi tiết File liệu [14] u.data: tập liệu đầy đủ gồm 100,000 xếp hạng 943 người dùng 1682 sản phẩm Mỗi người dùng xếp hạng 20 sản phẩm, người dùng sản phẩm đánh số liên tục từ Dữ liệu xếp đặt ngẫu nhiên Các hàng có cấu trúc: user id | item id | rating | timestamp u.info: File lưu số lượng người dùng, số lượng sản phẩm, số lượng xếp hạng tập liệu u.item: File lưu thông tin sản phẩm (Movies), hàng có cấu trúc chung: IMDb URL | unknown | Action | Adventure | Animation | Children's | Comedy | Crime | Documentary | Drama | Fantasy | Film-Noir | Horror | Musical | Mystery | Romance | Sci-Fi | Thriller | War | Western Movie id sử dụng tập liệu u.data u.genre: File lưu danh sách thể loại phim u.user: File lưu thông tin người dùng Các hàng có cấu trúc chung : user id | age | gender | occupation | zip code User id sử dụng tập liệu u.data u.occupation: File lưu danh sách nghề nghiệp Tập liệu u.data chia thành Training dataset Test dataset theo tỷ lệ 80% / 20% Trong training dataset sử dụng trọng chương trình tạo dự đoán, test dataset dùng để đánh giá dự đoán tạo từ chương trình Tập Trainning gồm 38 Đồ án tốt nghiệp Đại học Chương 3: Cài đặt đánh giá thuật toán file u1.base, u2.base, u3.base, u4.base, u5.base, tương ứng tập test gồm file u1.test, u2.test, u3.test, u4.test, u5.test (chúng ta thử nghiệm với từng cặp training test sau tính trung bình kết quả) Trong chương trình sử dụng tập u1.base u1.test để đánh giá thuật toán Mức độ thưa thớt tập liệu: 1− 100, 000 = 0.937 943 × 1682 3.2 Đánh giá thuật toán áp dụng cho hệ tư vấn Có nhiều phương pháp đánh giá hệ tư vấn đề xuất, sử dụng nhiều chuẩn đo khác Chúng ta xem xét số chuẩn đo phổ biến sử dụng rộng rãi, xác định độ mạnh, yếu từng chuẩn Chúng ta phân loại chuẩn đo độ xác tư vấn thành lớp: chuẩn đo độ xác dự đoán, chuẩn đo độ xác phân lớp, chuẩn đo độ xác xếp hạng Các chuẩn đo độ xác dự đoán Các chuẩn đo độ xác dự đoán đo độ lệch dự đoán xếp hạng hệ thống tạo với xếp hạng thực tế người dùng Các chuẩn đo độ xác dự đoán đặc biệt quan trọng nhiện vụ đánh giá dự đoán xếp hạng đưa cho người dùng Ví dụ, hệ tư vấn MovieLen , dự đoán số “sao” mà người dùng đưa phim hiển thị dự đoán cho người dùng Các chuẩn đo độ xác dự đoán đánh giá độ lệch dự đoán đưa hệ thống MovieLen dự đoán thực tế người dùng với từng phim Ngay hệ thống có khả thể xếp hạng xác đề xuất phim cho người dùng hệ thống bị lỗi xếp hạng không hiển thị xác cho người dùng Vì giá trị xếp hạng dự đoán tạo thứ tự item, độ xác dự đoán sử dụng để đo khả hệ tư vấn xếp hạng item có liên quan tới sở thích người dùng Mặc khác, phương pháp đánh giá mong muốn đo độ xác dự đoán giới hạn cần thiết để chuẩn tính độ lệch xếp hạng dự đoán xếp hạng thực tế, chẳng hạn trung bình sai số tuyệt đối [10] 3.2.1 Trung bình sai số tuyệt đối chuẩn liên quan Trung bình sai số tuyệt đối: Phương pháp đề xuất Breese năm 1998,Herlocker năm 1999, Shardanand năm 1995 Trung bình sai số tuyệt đối đo trung bình độ lệch tuyệt đối xếp hạng dự đoán xếp hạng thực tế người dùng 39 Đồ án tốt nghiệp Đại học Chương 3: Cài đặt đánh giá thuật toán Trung bình sai số tuyệt đối sử dụng để đánh giá hệ tư vấn nhiều trường hợp [13] N p ∑ E = i= i − ri N Trong đó: ( cặp giá trị đánh giá thực đánh giá dự đoán sai số tuyệt đối giữ cặp giá trị N số cặp đánh giá dự đoán đánh giá Trung bình sai số tuyệt đối MAE nhỏ dự đoán xác.Phương pháp phù hợp áp dụng với thuật toán, hệ thống có nhiệm vụ tìm sản phẩm tốt mà kết xếp hạng trả cho người dùng, người mà xem item xếp hạng Trong trường hợp này, người dùng quan tâm tới sai sót item xếp hạng cao cần xếp hạng cao, người dùng không quan tâm tới mức độ xác dự đoán sản phẩm hệ thống đưa Phương pháp phù hợp thông tin chi tiết sở thích người dùng hạn chế( ít), gây ảnh hưởng đến kết dự đoán hệ thống Ví dụ hệ thống đưa dự đoán xếp hạng sản phẩm người dùng 3.5, ngưỡng tốt (4-5) kém(1,2,3) Thì việc định tính chất tốt xếp hạng ảnh hưởng tới đầu hệ thống 3.2.2 Các chuẩn đo độ xác phân loại Các chuẩn phân loại đo tần suất mà hệ tư vấn đưa định xác không xác item Các chuẩn phân lớp thường phù hợp với chức tìm sản phẩm tốt mà liệu sở thích người dùng dạng nhị phân( thích không thích) Khi áp dụng với liệu chưa tổng hợp thí nghiệm offline, chuẩn đo độ xác phân loại gặp phải vấn đề liệu thưa thớt Vấn đề xuất hệ thống lọc cộng tác đánh giá tạo danh sách item tư vấn hàng đầu Khi chất lượng danh sách đánh giá, tư vấn chưa xếp hạng Có thể dẫn đến chênh lệch định item đưa đánh giá Một phương pháp đánh giá với tập liệu thưa thớt bỏ qua tư vấn item chưa xếp hạng Danh sách tư vấn loại item chưa xếp hạng Chức tư vấn thay “dự đoán tư vấn hàng đầu 40 Đồ án tốt nghiệp Đại học Chương 3: Cài đặt đánh giá thuật toán xếp hạng” Với chức người dùng xem vài tư vấn hàng đầu Điều dẫn tới đánh giá không xác hệ thống tư vấn chức người dùng Vấn đề chất lượng item mà người dùng thấy đo Ví dụ: có người dùng tập liệu xếp hạng item I, dự đoán item I cho tất người dùng khác với xếp hạng người dùng Nếu người dùng xếp hạng item I 5(xếp hạng cao nhất), thuật toán dự đoán xếp hạng cho tất người dùng khác Như item I đặt phía danh sách đề nghị tất người dùng, thiết liệu xác nhận Tuy nhiên, người dùng khác xếp hạng item này, tư vấn bỏ qua chuẩn đánh giá, mà hoàn toàn bỏ lỡ thiết sót thuật toán Một phương pháp khác để đánh giá tập liệu thưa thớt đưa xếp hạng mặc định, nhược điểm phương pháp xếp hạng mặc định khác với xếp hạng xác cho item Các chuẩn đo độ xác phân loại không nhằm để đo trực tiếp khả thuật toán đưa dự đoán xếp hạng xác Chênh lệch với xếp hạng thực tế phạm vi chấp nhận được, miễn chúng không dẫn đến sai sót phân loại Các chuẩn đo cụ thể Precision Recall [10] 3.2.3 Các chuẩn đo độ xác xếp hạng Các chuẩn đo độ xác xếp hạng tính toán khả thuật toán tư vấn việc đưa thứ tự sản phẩm dự đoán danh sách khớp với thực tế người dùng đưa định thứ tự sản phẩm Các chuẩn đo độ xác xếp hạng độ đo sử dụng để đánh giá độ xác thuật toán tư vấn mà thuật toán cố gắng đưa dự đoán thứ tự lựa chọn sản phẩm người dùng để xem liệu thứ tự đưa thuật toán có khớp với thứ tự lựa chọn sản phẩm mà người dùng thực thực tế không giống độ đo phân lớp, độ đo xếp hạng thích hợp để đánh giá thuật toán sử dụng để xuất gợi ý cho người dùng theo dạng danh sách, miền mà gợi ý đc đưa không dạng nhị phân (tốt xấu) Các chuẩn đo độ xác xếp hạng nhạy cảm với miền mà người dùng quan tâm đến gợi ý dàng nhị phân (chỉ tốt xấu) trường hợp này, người dùng không quan tâm đến thứ tự sản phẩm sau phân loại tốt hay xấu Ví dụ, cho dụ top 10 sản phẩm tốt đưa hệ thống có liên quan đến nhau, nhiên sản phẩm tốt bị xếp vị trí thứ 10 Các chuẩn đo độ xác xếp hạng phân biệt xếp hạng “tốt nhất” “tốt”, 41 Đồ án tốt nghiệp Đại học Chương 3: Cài đặt đánh giá thuật toán độ đo thích hợp với miền mà việc phân biệt mức độ xếp hạng quan trọng Các độ đo xếp hạng dạng độ đo để đo lường độ xác dự đoán mà hệ thống đưa cho sản phẩm hệ tư vấn thiết kế để đưa giá trị dự đoán, cần thiết phải sử dụng phương pháp đánh giá hệ thống sử dụng chuẩn đo độ xác dự đoán Trong đồ án thực đánh giá thuật toán phương pháp MAE ưu điểm phương pháp [13]: • Thứ : phương pháp tính toán đơn giản dễ hiểu • Thứ hai: phương pháp xem xét tới tính chất thống kê mà hỗ trợ để kiểm thử khác trung bình sai số tuyệt đối hai hệ thống 3.3 Kết thử nghiệm thuật toán Các thuật toán áp dụng để tính toán dự đoán xếp hạng: • Thuật toán lọc cộng tác dựa người dùng Ký hiệu User_CF • Thuật toán lọc cộng tác dựa mô hình đám mây Ký hiệu CM_CF • Thuật toán kết hợp lọc cộng tác dự người dùng mô hình đám mây Ký hiệu Hybrid_CF Các trường hợp đánh giá: • Trường hợp 1: đánh giá thuật toán sử dụng độ đo tương tự (Pearson) • Trường hợp 2: đánh giá thuật toán Hybrid_CF với độ đo tương tự : Pearson, Cosine,AdjustedCosine • Trường hợp 3: đánh giá thuật toán với mức độ thưa thớt liệu Kết thử nghiệm: Trường hợp 1: đánh giá thuật toán sử dụng độ đo tương tự (Pearson) K 20 40 60 80 100 0.9000 0.8989 0.8905 0.8912 0.8644 0.8508 0.8840 0.8440 0.8271 0.8680 0.8277 0.8111 0.8523 0.8186 0.8020 Thuật toán User_CF CM_CF Hybrid_CF 42 Đồ án tốt nghiệp Đại học Chương 3: Cài đặt đánh giá thuật toán Bảng 3.1: bảng giá trị kích thước tập láng giềng K giá trị MAE tương ứng Hình 3.1: biểu đồ so sánh giá trị MAE của thuật toán thay đổi kích thước tập láng giềng Hình 3.1: biểu diễn giá trị MAE thuật toán sử dụng độ đo tương tự Pearson Trục tung biểu diễn giá trị MAE, trục hoành biểu diễn thay đổi kích thước tập láng giềng Đường MAE thuật toán Hybrid_CF vị trí thấp chứng tỏ tư vấn đưa thuật toán Hybrid_CF xác tư vấn đưa thuật toán User_CF CM_CF Trường hợp 2: đánh giá thuật toán Hybrid_CF với độ đo tương tự: Pearson, Cosine, Adjusted Cosine 43 Đồ án tốt nghiệp Đại học Chương 3: Cài đặt đánh giá thuật toán K Thuật toán Pearson_Sim Cosine_Sim AdjCosine_Sim 20 40 60 80 100 0.8904 0.8167 0.8000 0.8509 0.7943 0.7810 0.8271 0.7854 0.7730 0.8111 0.7813 0.7697 0.8020 0.7787 0.7677 Bảng 3.2: bảng giá trị kích thước tập láng giềng K giá trị MAE tương ứng với từng độ đo tương tự Hình 3.2: biểu đồ so sánh giá trị MAE của thuật toán thay đổi kích thước tập láng giềng độ đo tương tự Hình 3.2: biểu diễn giá trị MAE thuật toán Hybrid_CF với độ đo tương tự: Pearson, Cosine, Adjusted Cosine Trục tung biểu diễn giá trị MAE, trục hoành biểu diễn thay đổi kích thước tập láng giềng Từ hình 3.2 cho thấy thuật toán sử dụng độ đo tương tự Pearson, Cosine, Adjusted Cosine tạo dự đoán tốt kích thước tập láng giềng tăng Trong 44 Đồ án tốt nghiệp Đại học Chương 3: Cài đặt đánh giá thuật toán đường MAE thuật toán kết hợp lọc cộng tác dự người dùng mô hình đám mây sử dụng độ đo tương tự Adjusted Cosine vị trí thấp chứng tỏ tư vấn đưa thuật toán kết hợp lọc cộng tác dự người dùng mô hình đám mây sử dụng độ đo tương tự Adjusted Cosine xác tư vấn đưa thuật toán kết hợp lọc cộng tác dự người dùng mô hình đám mây sử dụng độ đo tương tự Pearson Cosine Trường hợp 3: đánh giá thuật toán Hybrid_CF với mức độ thưa thớt liệu Sparse level 0.95 0.953 0.955 0.958 0.961 0.963 0.7637 0.8186 0.7676 0.7681 0.8288 0.7761 0.81 0.8787 0.8213 0.9041 1.0279 0.9136 0.9679 1.0506 0.968 1.0366 1.1165 1.0367 Thuật toán User_CF CM_CF Hybrid_CF Bảng 3.3: bảng giá trị mức độ thưa thớt của tập dữ liệu giá trị MAE tương ứng với từng thuật toán 45 Đồ án tốt nghiệp Đại học Chương 3: Cài đặt đánh giá thuật toán Hình 3.3: Biểu đồ so sánh giá trị MAE của thuật toán thay đổi mức độ thưa thớt của tập dữ liệu Trong thực nghiệm này, để đánh giá hiệu phương pháp tiếp cận khác nhau, cố định kích thước tập láng giềng 100 thực đánh giá với mức độ thưa thớt liệu khác Mức độ thưa thớt liệu đo tỷ lệ số phần tử tổng số phần tử ma trận xếp hạng mức độ thưa thớt tập liệu training sử dụng thử nghiệm 95% Chúng ta loại bỏ xếp hạng người dùng tập liệu training để làm tăng mức độ thưa thớt liệu H3 cho thấy thay đổi giá trị MAE mức độ thư thớt khác từ biểu đồ, thấy tác động tập liệu thưa thớt độ xác dự đoán Trong tất phương pháp tiếp cận, tính xác dự đoán giảm mức độ thưa thớt tập liệu tăng Phương pháp tiếp cận kết hợp thúc đẩy kết phương pháp riêng lẻ thực tốt hầu hết trường hợp Nhận xét: • Trường hợp 1: kết thử nghiệm, đường biểu diễn MAE thuật toán kết hợp lọc cộng tác mô hình đám mây vị trí thấp hơn, thể chất lượng tư vấn kết hợp lọc cộng tác mô hình đám mây tốt lọc cộng tác dựa người dùng • Trường hợp 2: thử nghiệm ba độ đo tương tự cho thuật toán kết hợp lọc cộng tác mô hình đám mây Kết thử nghiệm, đường biểu diễn MAE độ đo tương tự Adjusted Cosine thấp so với đường MAE biểu diễn độ đo tương tự Pearson Cosine, thể thuật toán kết hợp lọc cộng tác mô hình đám mây sử dụng độ đo tương tự Adjusted Cosine tốt sử dụng độ đo tương tự Pearson, Cosine • Trường hợp 3: thử nghiệm ba thuật toán với mức độ thưa thớt liệu khác nhau, kết thử nghiệm thể tính xác dự đoán giảm mức độ thưa thớt liệu tăng 3.4 Kết luận Chương trình bày đánh giá thử nghiệm sử dụng tập liệu MovieLen ngôn ngữ lập trình java Thông qua chương trình cài đặt cho thấy việc kết hợp thuật toán lọc cộng tác dựa người dùng đám mây có ưu điểm so với phương pháp truyền thống khắc phục vấn đề thưa thớt liệu đối tăng độ xác dự đoán Thuật toán kết hợp lọc cộng tác mô hình đám mây kết hợp thúc đẩy ưu điểm thuật toán lọc cộng tác dựa người dùng lọc cộng tác dựa mô hình đám mây 46 Đồ án tốt nghiệp Đại học Chương 3: Cài đặt đánh giá thuật toán 47 Đồ án tốt nghiệp Đại học Kết luận KẾT LUẬN Đồ án trình bày nội dung sau: • Tổng quan hệ tư vấn: trình bày tổng quan hệ tư vấn, chức hệ tư vấn người sử dụng nhà cung cấp dịch vụ vấn đề hệ tư vấn Đồng thời giới thiệu kỹ thuật lọc cộng tác áp dụng cho hệ tư vấn đồ án trình bày chi tiết quy trình tạo dự đoán kỹ thuật lọc cộng tác dựa nhớ, kỹ thuật áp dụng phổ biến thành công cho hệ tư vấn lựa chọn nhờ ưu điểm dễ xây dựng sử dung, liệu (người dùng mới, sản phẩm mới) thêm vào cách dễ dàng, không xem xét đến nội dung sản phẩm tư vấn Tuy nhiên kỹ thuật có nhược điểm phụ thuộc vào tập liệu xếp hạng sản phẩm người dùng hiệu thấp liệu xếp hạng thưa thớt • Kết hợp lọc cộng tác mô hình đám mây: Đồ án trình bày phương pháp tiếp cận cho hệ tư vấn lựa chọn, kết hợp thuật toán lọc cộng tác dựa người dùng lọc cộng tác dựa mô hình đám mây Phương pháp tiếp cận tận dụng ưu điểm lọc cộng tác dựa mô hình đám mây.là khắc phục vấn đề thưa thớt liệu vấn đề mở rộng cách xây dựng sở thích toàn cục người dùng sử dụng vector đặc trưng người dùng để hạn chế nhược điểm kỹ thuật lọc cộng tác dựa nhớ Thuật toán kết hợp thuật toán lọc cộng tác dựa người dùng lọc cộng tác dựa mô hình đám mây khắc phục vấn đề thưa thớt liệu cải thiện chất lượng dự đoán • Đánh giá thuật toán: thực cài đặt thuật toán ngôn ngữ lập trình Java với tập liệu MovieLens, kết đánh giá thuật toán kết hợp lọc cộng tác mô hình đám mây với kết thuật toán truyền thống cho thấy thuật toán kết hợp lọc cộng tác mô hình đám mây có hiệu cao thuật toán truyền thống trường hợp liệu thưa thớt, chất lượng tư vấn tốt Hướng phát triển đồ án: • Do thời gian có hạn nên đồ án đánh giá thuật toán kết hợp lọc cộng tác mô hình đám mây với hai thuật toán là: thuật toán lọc cộng tác dựa người dùng lọc cộng tác dựa mô hình đám mây sử dụng tập liệu MovieLen Hướng phát triển đồ án đánh giá thuật lọc kết hợp lọc cộng tác mô hình đám mây với số thuật toán lọc cộng tác khác áp dụng phổ biến cho hệ tư vấn lựa chọn sử dụng nhiều tập liệu khác 48 Đồ án tốt nghiệp Đại học Kết luận • Xây dựng ứng dụng áp dụng thuật toán kết hợp lọc cộng tác mô hình đám mây 49 TÀI LIỆU THAM KHẢO [1] Francesco Ricci , Lior Rokach , BrachaShapira,Paul Bkantor ; Recommender Systems Handbook ,Pages 31-75, Springer New York Dordrecht Heidelberg London 2010 [2] Ankit, Khera, Online Recommendation System, San Jose State University, January, 1, 2008 [3] Zheng Wen, Recommendation System Based on Collaborative Filtering, December, 12, 2008 [4] Daniar Asanov, Algorithms and Methods in Recommender Systems, Berlin Institute of Technology, 2010 [5] Xiaoyuan Su and Taghi M.Khoshgoftaar, A Survey of Collaborative Filtering Techniques, Department of Computer Scienceand Engineering, Florida Atlantic University, August,3,2009 [6] Emmanouil Vozalis, Konstantinos G.Margaritis, Analysis of Recommender Systems’ Algorithms, 2003 [7] Mukund Deshpande and George Karypis, Item-Based Top-N Recommendation Algorithms, ACM Transactionson Information Systems, January 2004 [8] Maddali Surendra Prasad Babu and Boddu Raja Sarath Kumar, An Implementation of the User-based Collaborative Filtering Algorithm, International Journal of Computer Science and Information Technologies, 2011 [9] Deguang Wang and Zhigang Zhou; Application of a Collaborative Filtering Recommendation Algorithm Based on Cloud Model in Intrusion Detection, JOURNAL OF NETWORKS, VOL 6, NO 2, FEBRUARY 2011 [10] Francesco Ricci, Lior Rokach, BrachaShapira, Paul Bkantor; Recommender Systems Handbook, Pages 107-185, Springer New York Dordrecht Heidelberg London 2010 [11] Chein-Shung Hwang and Ruei-Siang Fong, A Hybrid Recommender System based on Collaborative Filtering and Cloud Model, World Academy of Science, Engineering and Technology 2011 [12] WANG Shuliang, XIE Yuan, FANG Meng,A Collaborative Filtering Recommendation Algorithm Based on Item and Cloud Model, Wuhan University Journal Of Natural Sciences, 2011 [13] Jonathan L Herlocker, Joser A Konstan, Loren G Terveen, And John T Riedl, Evaluating Collaborative Filtering Recommender Systems, September 2003 [14] http://www.grouplens.org/node/73 [15] http://www.movielens.org/main 50 [...]... toán lọc cộng tác dựa trên mô hình đám mây và tạo dự đoán kết hợp lọc cộng tác và mô hình đám mây 25 Đồ án tốt nghiệp Đại học 2.1 Chương 2: Kết hợp lọc cộng tác và mô hình đám mây Kiến trúc hệ thống tư vấn kết hợp lọc cộng tác và mô hình đám mây Hình 2.1 Kiến trúc hệ thống kết hợp lọc cộng tác và mô hình đám mây Mô hình kiên trúc hệ thống tư vấn kết hợp lọc cộng tác và mô hình đám mây Đầu vào... Chương 2: Kết hợp lọc cộng tác và mô hình đám mây CHƯƠNG 2: KẾT HỢP LỌC CỘNG TÁC VÀ MÔ HÌNH ĐÁM MÂY • Trình bày kiến trúc hệ thống tư vấn kết hợp lọc cộng tác và mô hình đám mây • Trình bày thuật toán lọc cộng tác dựa trên người dùng • Trình bày thuật toán lọc cộng tác dựa trên mô hình đám mây • Tạo dự đoán từ kết hợp lọc cộng tác và mô hình đám mây Chương này trình bày thuật toán lọc cộng tác dựa trên... thuật toán lọc cộng tác, nó có thể làm giảm độ chính xác dự đoán Mục đích đồ án là tìm hiểu kỹ thuật lọc cộng tác áp dụng cho hệ tư vấn lựa chọn Giới thiệu và đánh giá thử nghiệm thuật toán kết hợp lọc cộng tác và mô hình đám mây cho hệ tư vấn, nhằm cải thiện chất lựợng tư vấn và khắc phục vấn đề thưa thớt dữ liệu Nội dung của đồ án gồm có: • Tìm hiểu hệ tư vấn và lọc cộng tác cho hệ tư vấn lựa chọn •... tổng quát về kỹ thuật lọc cộng tác, một kỹ thuật áp dụng phổ biến và thành công đối với hệ tư vấn Chương 2: Kết hợp lọc cộng tác và mô hình đám mây Chương này trình bày kiến trúc hệ thống kết hợp lọc cộng tác và mô hình đám mây và chi tiết thuật toán lọc cộng tác dựa trên người dùng và lọc cộng tác dựa trên mô hình đám mây cùng với ưu nhược điểm của mỗi thuật toán Chương 3: Cài đặt và đánh giá thử nghiệm... thuật toán kết hợp lọc cộng tác và mô hình đám mây cho hệ tư vấn lựa chọn • Cài đặt và đánh giá thử nghiệm thuật toán kết hợp lọc cộng tác và mô hình đám mây với các thuật toán lọc cộng tác truyền thống sử dụng tập dữ liệu MovieLen Cấu trúc đồ án gồm có: Chương 1: Tổng quan hệ tư vấn Chương này, đồ án giới thiệu về hệ tư vấn, các vấn đề và các thách thức đối với các thuật toán áp dụng cho hệ tư vấn. Đưa... Kết luận Chương này đã đưa ra một cái nhìn khái quát, chức năng và các vấn đề cơ bản về hệ tư vấn Trong chương này cũng tìm hiểu phương pháp lọc cộng tác áp dụng cho các hệ tư vấn, các phương pháp lọc cộng tác đã được tìm hiểu là 3 phương pháp chính của lọc cộng tác đó là lọc cộng tác dựa trên bộ nhớ, lọc cộng tác dựa trên mô hình và lọc cộng tác lai ghép giữa lọc cộng tác dựa trên mô hình và lọc cộng. .. với các đối tư ng mà chúng tư vấn, trong khi lọc cộng tác có thể tạo các tư vấn không cần mô tả dữ liệu Các hệ tư vấn khác gồm các hệ tư vấn dựa trên nhân thân, sử dụng thông tin hồ sơ người dùng như tuổi, giới tính, mã bưu điện, nghề nghiệp Các hệ tư vấn lọc cộng tác lai ghép được kết hợp bởi thêm các đặc trưng của hệ tư vấn dựa trên nội dung tới các mô hình lọc cộng tác, kết hợp lọc cộng tác với dựa... nghiệm thuật toán kết hợp lọc cộng tác và mô hình đám mây với tập dữ liệu MovieLen và so sánh kết quả của thuật toán với các thuật toán truyền thống 2 Đồ án tốt nghiệp Đại học Chương 1: Tổng quan hệ tư vấn CHƯƠNG 1: TỔNG QUAN HỆ TƯ VẤN • Trình bày tổng quan hệ tư vấn • Chức năng của hệ tư vấn • Các kỹ thuật lọc cộng tác áp dụng cho hệ tư vấn Nội dung chương này trình bày tổng quan về hệ tư vấn, các chức... và lọc cộng tác dựa trên bộ nhớ Mỗi kỹ thuật đó đều có những ưu điểm và các hạn chế riêng Trong chương tiếp theo của đồ án sẽ trình bày một thuật toán được kết hợp tư thuật toán lọc công tác dựa trên người dùng 23 Đồ án tốt nghiệp Đại học Chương 1: Tổng quan hệ tư vấn và lọc cộng tác dựa trên mô hình đám mây nhằm khắc phục các hạn chế của lọc cộng tác đồng thời cải thiện chất lượng tư vấn 24 Đồ án... phức tạp dựa trên dữ liệu training, và sau đó tạo ra các dự đoán thông minh cho các tác vụ lọc cộng tác đối với dữ liệu test hoặc dữ liệu thực, dựa trên các mô hình được học Các thuật toán lọc cộng tác dựa trên mô hình, như là các mô hình Bayesian, các mô hình phân cụm, và các mạng phụ thuộc đã được nghiên cứu để giải quyết các thiếu sót của các thuật toán lọc cộng tác dựa trên bộ nhớ Thông thường, các