1. Trang chủ
  2. » Luận Văn - Báo Cáo

tìm hiểu phương pháp lọc cộng tác dựa trên item

60 3K 34

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 60
Dung lượng 2,64 MB

Nội dung

i LỜI CAM ĐOAN Tôi xin cam đoan những kết quả được trình bày trong luận văn này là của riêng tôi, không sao chép từ bất kỳ một công trình nào khác. Nếu có điều gì không trung thực, tôi xin chịu hoàn toàn trách nhiệm. Học viên Hoàng Thịnh ii Lời Cảm Ơn Lời đầu tiên, cho phép tôi gửi lời cảm ơn đến TS Võ Viết Minh Nhật, mặc dù rất bận rộn trong công việc nhưng thầy đã luôn quan tâm giúp đỡ, hướng dẫn, chỉ bảo tận tình giúp tôi hoàn thành luận văn này. Tôi xin chân thành cảm ơn Quý Thầy Cô trong Khoa Công nghệ thông tin trường Đại Học Khoa học Huế vì những kiến thức mà quý Thầy Cô truyền đạt cho tôi trong suốt quá trình học tập tại trường. Xin chân thành cảm ơn các anh chị em lớp cao học Khoa học máy tính khoá 2011-2013 và các bạn đồng nghiệp đã luôn bên cạnh, động viên, khuyến khích tôi trong suốt thời gian học tập và thực hiện đề tài. Cuối cùng, tôi xin gửi đến gia đình, chính từ sự hỗ trợ và động viên từ phía gia đình mà tôi yên tâm học tập tốt và hoàn thành luận văn. Xin chân thành cảm ơn! Người thực hiện Hoàng Thịnh iii MỤC LỤC Trang LỜI CAM ĐOAN i Lời Cảm Ơn ii MỤC LỤC iii DANH MỤC CÁC BẢNG v DANH MỤC CÁC HÌNH VẼ vi MỞ ĐẦU 1 Chương 1 4 TỔNG QUAN VỀ HỆ THỐNG TƯ VẤN 4 1.1 Hệ thống tư vấn 4 1.1.1 Giới thiệu chung 4 1.1.2 Ứng dụng của hệ thống tư vấn 5 1.2. Bài toán tư vấn 6 1.3. Phân loại hệ thống tư vấn 7 1.3.1. Phương pháp tư vấn dự trên nội dung ( Content based algorithms) 8 1.3.2. Phương pháp tư vấn dự trên lọc cộng tác 13 1.3.3. Tư vấn dựa trên cách tiếp cận kết hợp 19 1.4. Kết luận chương 1 20 Chương 2 21 HỆ THỐNG LỌC CÔNG TÁC DỰA TRÊN SẢN PHẨM 21 2.1. Lọc cộng tác dựa trên sản phẩm (Item-based Collaborative Filtering) 21 2.2 Các thuật toán tính độ tương tự 23 2.2.1 Độ tương tự Cosine (Cosine-based Similarity) 24 2.2.2 Độ tương tự dựa theo khoảng cách Euclidean điều chỉnh (Adjusted Euclidean Distance similarity) 25 2.2.3 Độ tương tự tương quan (correlation-based similarity) 27 2.2.4 Độ tương tự cosine điều chỉnh (Adjusted Cosine similarity) 28 2.3. Tính toán dự đoán và tư vấn 30 2.3.1 Công thức dự doán dựa trên trung bình đánh giá sản phẩm lân cận 30 2.3.2 Công thức dự đoán dựa trên tổng trọng số (Weighted Sum) 31 iv 2.3.3 Công thức dự đoán dựa trên tổng trọng số với đánh giá trung bình của người dùng 32 2.3.4 Công thức dự đoán dựa trên tổng trọng số với trung bình đánh giá lên sản phẩm 33 2.4 Đánh giá các yếu tố ảnh hưởng đến độ chính xác kết quả tư vấn 35 2.4.1 Đánh giá chất lượng của hệ thống tư vấn 35 2.4.2 Các yếu tố ảnh hưởng đến độ chính xác tư vấn 36 2.5 Kết luận chương 2 38 Chương 3 39 MÔ PHỎNG VÀ ĐÁNH GIÁ CÁC THUẬT TOÁN TƯ VẤN 39 3.1 Dữ liệu thử nghiệm và phương pháp đánh giá 39 3.1.1 Mô tả dữ liệu 39 3.1.2 Phương pháp đánh giá chất lượng của hệ thống tư vấn 39 3.1.3 Môi trường và công cụ 40 3.2. Cài đặt thuật toán 40 3.2.1 Cài đặt thuật toán tính độ tương tự 40 3.2.2 Cài đặt thuật toán dự đoán tư vấn 42 3.3 Kết quả thử nghiệm 46 3.3.1 Thử nghiệm tư vấn với số lượng lân cận khác nhau: 46 3.3.2 Thử nghiệm với tư vấn với các độ tương tự khác nhau 47 3.3.3 Thử nghiệm tư vấn với các công thức dự đoán: 49 3.4 Kết luận chương 3 50 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 51 TÀI LIỆU THAM KHẢO 52 v CÁC THUẬT NGỮ SỬ DỤNG TRONG TÀI LIỆU STT Tên tiếng anh Tên tiếng việt Giải thích 1 User Người dùng, người sử dụng Chỉ những người dùng hệ thống để tìm kiếm lựa chọn sản phẩm 2 Item Sản phẩm, mục Chỉ những sản phẩm trên hệ thống như: sản phẩm, phim, ảnh, bản nhạc, trang web, đoạn văn bản,… 3 Rating Đánh giá Chỉ mức độ thích của một người dùng với sản phẩm. Rating có thể có nhiều biểu hiện: như đánh giá thích hoặc không thích, hay đánh già theo mức độ từ 1-5 đại diện từ không thích đến rất thích. DANH MỤC CÁC BẢNG vi Số hiệu bảng Tên bảng Trang 1.1 Minh họa đánh giá của người dùng về 1 số bộ phim đã xem 7 2.1 Bảng đánh giá người dùng với các sản phẩm 22 2.2 Bảng tính độ tương tự theo công thức Cosine 25 2.3 Ví dụ một phần một mà trận đánh giá trong hệ thống tư vấn 26 2.4 Bảng tính độ tương tự theo công thức Euclidean Điều Chỉnh 28 2.5 Bảng tính độ tương tự theo công thức tương quan 29 2.6 Bảng tính độ tương tự theo công thức cosine điều chỉnh 31 2.7 Bảng dự đoán và tư vấn theo phương pháp tính trung bình 33 2.8 Bảng dự đoán và tư vấn theo phương pháp Weigth Sum 34 2.9 Bảng dự đoán và tư vấn theo phương pháp tổng trọng số TBND 35 2.10 Bảng dự đoán và tư vấn theo phương pháp tổng trọng số TBSP 36 3.1 Bảng sai số MAE với số lượng lân cận 47 3.2 Độ sai số MAE với các thuật toán tính độ tương tự 49 3.3 Độ sai số MAE với các thuật toán dự đoán 50 DANH MỤC CÁC HÌNH VẼ vii Số hiệu hình vẽ Tên hình vẽ Trang 1.1 Minh họa hệ thống tư vấn sách cho người đọc 5 1.2 Minh họa phương pháp tư vấn dựa trên lọc nội dung 8 1.3 Minh họa phương pháp tư vấn dựa trên lọc cộng tác 13 1.4 Quy trình của hệ thông tư vấn dựa trên lọc cộng tác 14 2.1 Tách các sản phẩm được đánh giá và tính toán độ tương tự 24 2.2 Giải thuật lọc cộng tác dựa trên sản phẩm 32 2.3 Mô hình hệ thống lọc cộng tác dựa trên sản phẩm 37 3.1 Biểu đồ sai số lỗi tuyệt đối của hệ thống tư vấn với các lân cận 48 3.2 Biểu đồ sai số tuyệt đối của hệ thống tư vấn với các thuật toán tính độ tương tự 49 3.3 Biểu đồ độ chính xác của hệ thống tư vấn với các thuật toán dự đoán 49 3.4 Biểu đồ sai số lỗi tuyệt đối của hệ thống tư vấn với các thuật toán dự đoán 50 3.5 Biểu đồ độ chính xác của hệ thống tư vấn với các thuật toán dự đoán 51 1 MỞ ĐẦU • Lý do chọn đề tài Sự phát triển của Internet đã mở ra cho con người rất nhiều cơ hội mới, nhưng cũng đầy thách thức. Với Internet, con người có cơ hội được tiếp cận với nguồn thông tin gần như vô hạn và vẫn đang tăng lên một cách nhanh chóng mỗi ngày. Tuy nhiên, việc chọn được đúng thông tin cần thiết từ nguồn tin khổng lồ đó không hề đơn giản. Con người càng ngày càng mất nhiều thời gian vào việc tìm kiếm và chọn lọc thông tin. Vấn đề được đặt ra là người dùng cần có những tư vấn để có thể tìm được thông tin như mong đợi một cách nhanh chóng. Từ khi thương mại điện tử ra đời, nó đang ngày càng phát triển mạnh mẽ, hầu hết tất cả các mặt hàng đều được trao đổi mua bán trên Internet. Điều này khá thuận lợi cho khách hàng lựa chọn, tuy nhiên đó cũng tạo ra những khó khăn. Với mỗi từ khóa được tìm kiếm, khách hàng vẫn phải lựa chọn trong danh sách hàng trăm thậm chí hàng nghìn sản phẩm có vẻ phù hợp. Do đó khách hàng cần có một sự trợ giúp nào đó để có thể tìm kiếm được sản phẩm phù hợp với mình nhất, do đó hệ thống tư vấn ra đời. Ngày nay, hệ thống tư vấn không chỉ phát triển trong thương mại, nó còn được nghiên cứu và áp dụng trong lĩnh vực như tư vấn phim, tư vấn âm nhạc, tư vấn sách…. Tư vấn lựa chọn là một trong những phương pháp lọc thông tin được quan tâm nhiều nhất. Hệ thống tư vấn lựa chọn là những hệ thống có thể “hiểu” được người dùng và có thể đưa ra được những gợi ý cho người dùng. Đầu những năm 90 của thế kỷ XX, một hướng nghiên cứu mới cho các hệ thống tư vấn lựa chọn, đó là lọc cộng tác. Ngay từ khi ra đời, các hệ thống tư vấn dựa trên lọc cộng tác đã thể hiện được những ưu điểm cùng tính kinh tế của mình. Nó nhanh chóng thu hút được sự quan tâm nghiên cứu và đã được ứng dụng thành công trong khá nhiều hệ thống thương mại như www.amazon.com, www.ebay.com, Do nhu cầu cao như vậy nên các phương pháp xây dựng giải thuật tư vấn nhận được nhiều sự quan tâm trong giới nghiên cứu. 2 Trong phạm vi luận văn cao học, tôi chọn đề tài “Tìm hiểu phương pháp lọc cộng tác dựa trên Item”. • Mục đích nghiên cứu Mục tiêu đặt ra của luận văn trong đề tài này là: Tìm hiểu tổng quan về hệ thống tư vấn, các phương pháp được sử dụng trong hệ thống tư vấn, quy trình thực hiện tư vấn, ứnng dụng của hệ thống tư vấn trong thực tiễn. Mục tiêu cụ thể là tìm hiểu phương pháp lọc cộng tác dựa trên sản phẩm, tìm hiểu các thuật toán tính độ tương tự và dự đoán, đánh giá và so sánh chất lượng tư vấn của các thuật toán. • Đối tượng và phạm vi nghiên cứu Nghiên cứu các phương pháp tính độ tương tự, và dự đoán trong hệ thống tư vấn lọc cộng tác dựa trên sản phẩm (item) với các tập dữ liệu phim trên hệ thống Group Lens • Phương pháp nghiên cứu Nghiên cứu lý thuyết, phân tích quá trình thực hiện, mô phỏng, cài đặt thuật toán, so sánh đánh giá và rút ra kết luận từ các kết quả thu được. • Ý nghĩa khoa học và thực tiễn của đề tài Hệ thống tư vấn là những công cụ cung cấp các gợi ý về các sản phẩm cho người dùng. Một vấn đề quan trọng và phổ biến trong kỹ thuật tư vấn là sử dụng các phương pháp tư vấn nhằm tăng chất lượng tư vấn và thời gian tính toán để áp dụng trong các lĩnh vực: kinh doanh thương mại, dịch vụ … Phương pháp lọc cộng tác dựa trên sản phẩm sử dụng các giải thuật tính toán độ tương tự các sản phẩm để đưa ra các tư vấn cho người dùng. Đề tài nghiên cứu các bước trong quá trình tư vấn, các giải pháp khắc phục các yếu tố ảnh hưởng đến chất lượng, nhằm cải thiện được kết quả tư vấn sản phẩm phù hợp với yêu cầu thực tế của người dùng. Với mục tiêu trên, luận văn được chia làm ba chương: Chương 1: Các kiến thức tổng quan Chương này trình bày tổng quan về hệ thống tư vấn, các phương pháp tư vấn 3 Chương 2: Phương pháp tư vấn lọc cộng tác dựa trên sản phẩm Chương này trình bày về mô hình lọc cộng tác dựa trên sản phẩm, các thuật toán tính toán độ tương tự, các giải thuật dự đoán. Chương 3: Mô phỏng và cài đặt thuật toán tư vấn Chương này trình bày mô phỏng và cài đặt thuật toán tư vấn lọc cộng tác dựa trên sản phẩm. [...]... và dựa trên cộng tác một cách tách biệt cùng với đó là kết hợp những dự đoán của chúng - Kết hợp một vài đặc tính dựa trên nội dung vào trong phương pháp dựa trên cộng tác - Kết hợp một vài đặc tính dựa trên cộng tác vào trong phương pháp dựa trên nội dung - Xây dựng một số mô hình hợp nhất tổng quát kết hợp những đặc tính dựa trên nội dung và dựa trên cộng tác Tất cả những phương pháp tiếp cận trên. .. Tư vấn dựa trên cách tiếp cận kết hợp Một vài hệ thống tư vấn sử dụng phương pháp kết hợp phương pháp dựa trên cộng tác và dựa trên nội dung nhằm tránh những hạn chế của những hệ thống tư vấn dựa trên cộng tác và dựa trên nội dung Cách thức nhằm kết hợp phương pháp dựa trên cộng tác và dựa trên nội dung thành hệ thống tư vấn kết hợp có thể phân loại như sau: - Thực thi những phương thức dựa trên nội... dùng dựa trên đánh giá mối liên hệ giữa các sản phẩm 21 Chương 2 HỆ THỐNG LỌC CÔNG TÁC DỰA TRÊN SẢN PHẨM Như ta đã biết, trong hệ thống tư vấn dựa trên lọc cộng tác, kết quả tư vấn dựa trên dựa đoán của người dùng với những người dùng lân cận, tuy nhiên điều này rất khó khăn vì tính thiếu ổn định của người dùng trong hệ thống Vì vậy chương này sẽ tìm hiểu mô hình lọc cộng tác dựa trên sản phẩm (Item- Based),... cũng như tìm hiểu một số giải thuật tính độ tương tự của sản phẩm và giải thuật dự đoán 2.1 Lọc cộng tác dựa trên sản phẩm (Item- based Collaborative Filtering) Giải thuật tư vấn dựa trên sản phẩm nhằm đưa ra các dự đoán cho người dùng khác với giải thuật lọc cộng tác dựa trên người dùng trong chương 1 bởi đối tượng được xét ở đây là sản phẩm Quá trình tư vấn bằng phương pháp lọc cộng tác dựa trên sản... các sản phẩm như vậy 1.3.2 Phương pháp tư vấn dự trên lọc cộng tác Mục đích của giải thuật lọc cộng tác là gợi ý những sản phẩm mới hoặc dự đoán một sản phẩm hợp lý cho người dùng, dựa trên những sở thích trước đây và lựa chọn từ những sở thích của những người dùng khác 14 Hình 1.3: Minh họa phương pháp tư vấn dựa trên lọc cộng tác Trong kịch bản điển hình của lọc cộng tác, có một danh sách m người... ứng dụng, phương pháp dựa trên mô hình thực hiện tốt hơn phương pháp dựa trên bộ nhớ tính theo mức độ chính xác của những tư 18 vấn Tuy nhiên, việc so sánh cả hai trường hợp này hoàn toàn đều do kinh nghiệm mà không có học thuyết nào chứng minh khẳng định này Sự khác biệt chính giữa kỹ thuật dựa trên mô hình cộng tác và những phương pháp tiếp cận dựa trên hàm heuristic là những kỹ thuật dựa trên mô hình... không dựa trên những luật về heuristic mà thay vì đó, dựa trên mô hình được biết đến từ những dữ liệu nằm bên dưới bằng cách sử dụng kỹ thuật học máy và thống kê Một phương pháp kết hợp cả phương pháp tiếp cận dựa trên bộ nhớ và dựa trên mô hình đã được đề xuất, ở đó nó được phân tích dựa vào kinh nghiệm và cách sử dụng những phương pháp phối hợp này có thể cung cấp tư vấn tốt hơn những phương pháp cộng. .. những thời gian rảnh rỗi Phương pháp lọc cộng tác có thể được giải quyết bằng phương pháp học máy khác nhau (như mạng nơ-ron nhân tạo) kết hợp với kỹ thuật phân tách đặc trưng (như sự phân tích giá trị đơn lẻ - một kỹ thuật đại số làm giảm chiều của những ma trận) có thể được sử dụng Các tác giả đã đi so sánh phương pháp dựa trên mô hình tương ứng của chúng với phương pháp dựa trên bộ nhớ chuẩn và sau... tại một thời điểm để sử dụng chúng tốt hơn dựa vào tiêu chuẩn “chất lượng” tư vấn - Thêm những đặc tính dựa trên nội dung vào mô hình cộng tác: Một vài hệ thống tư vấn kết hợp sử dụng phương pháp cộng tác thông qua nội dung” được mô tả dựa trên những kỹ thuật cộng tác truyền thống và lưu trữ hồ sơ cá nhân dựa trên nội dung của mỗi người dùng Hồ sơ cá nhân dựa trên nội dung này không có những sản phẩm... toán lọc cộng tác dựa trên mô hình là tăng lên Những kỹ thuật lựa chọn đầu ra được đề xuất có thể giúp những thuật toán dựa trên mô hình chỉ rõ vấn đề cần nhận biết từ cơ sở dữ liệu rộng lớn Hơn nữa, giữa những sự phát triển gần đây nhất, đề xuất ra phương pháp thống kê cho lọc cộng tác tạo ra các cách thức khác nhau để so sánh những kỹ thuật dựa trên bộ nhớ và dựa trên mô hình Cụ thể, việc sử dụng phương . 5 1.2 Minh họa phương pháp tư vấn dựa trên lọc nội dung 8 1.3 Minh họa phương pháp tư vấn dựa trên lọc cộng tác 13 1.4 Quy trình của hệ thông tư vấn dựa trên lọc cộng tác 14 2.1 Tách các sản phẩm. tổng quan về hệ thống tư vấn, các phương pháp tư vấn 3 Chương 2: Phương pháp tư vấn lọc cộng tác dựa trên sản phẩm Chương này trình bày về mô hình lọc cộng tác dựa trên sản phẩm, các thuật toán. kết hợp: Kết hợp hai phương pháp tiếp cận dựa trên nội dung và cộng tác. 8 1.3.1. Phương pháp tư vấn dự trên nội dung ( Content based algorithms) Với phương pháp tư vấn dựa trên nội dung, độ phù

Ngày đăng: 04/12/2014, 15:35

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Badrul Sarwar, George Karypis, Joseph Konstan, and John Riedl (2001), “Item-Based Collaborative Filtering Recommendation”, WWW10, pp. 285-295 Sách, tạp chí
Tiêu đề: Item-Based Collaborative Filtering Recommendation”, "WWW10
Tác giả: Badrul Sarwar, George Karypis, Joseph Konstan, and John Riedl
Năm: 2001
2. Dietmar Jannach, Markus Zanker, Alexander Felfernig, Gerhard Friedrich (2011), Recommender Systems, Cambridge University Press, pp. 185-195 Sách, tạp chí
Tiêu đề: Recommender Systems
Tác giả: Dietmar Jannach, Markus Zanker, Alexander Felfernig, Gerhard Friedrich
Năm: 2011
3. FaQing Wu, Liang He, Lei Ren, WeiWei Xia, “An Effective Similarity Measure for Collaborative Filtering” (2008), Granular Computing, pp. 659 - 664 Sách, tạp chí
Tiêu đề: An Effective Similarity Measure for Collaborative Filtering
Tác giả: FaQing Wu, Liang He, Lei Ren, WeiWei Xia, “An Effective Similarity Measure for Collaborative Filtering”
Năm: 2008
4. Francesco Ricci, Lior Rokach and Bracha Shapira (2011), Recommender Systems Handbook, Ben-Gurion University of the Negev, pp. 566-618 Sách, tạp chí
Tiêu đề: Recommender Systems Handbook
Tác giả: Francesco Ricci, Lior Rokach and Bracha Shapira
Năm: 2011
5. Gediminas Adomavicius, Alexander Tuzhilin (2005), “Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions”. IEEE Transactions On Knowledge And Data Engineering, Vol. 17, No. 6, (June 2005), pp. 734-749 Sách, tạp chí
Tiêu đề: Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions”". IEEE Transactions On Knowledge And Data Engineering
Tác giả: Gediminas Adomavicius, Alexander Tuzhilin
Năm: 2005
6. Greg Linden, Brent Smith, and Jeremy York (2003), “Item-to-Item Collaborative Filtering”, IEEE Internet Computing , 7(1), pp. 76-80 Sách, tạp chí
Tiêu đề: Item-to-Item Collaborative Filtering”, "IEEE Internet Computing
Tác giả: Greg Linden, Brent Smith, and Jeremy York
Năm: 2003
7. Huifeng Sun, Yong Peng, Junliang Chen, Chuanchang Liu, Yuzhuo Sun (2011), “A New Similarity Measure Based on Adjusted Euclidean Distance for Memory-based Collaborative Filtering”, JSW , 6 (6), pp. 993-1000 Sách, tạp chí
Tiêu đề: A New Similarity Measure Based on Adjusted Euclidean Distance for Memory-based Collaborative Filtering”, "JSW
Tác giả: Huifeng Sun, Yong Peng, Junliang Chen, Chuanchang Liu, Yuzhuo Sun
Năm: 2011
8. Jun Wang , Arjen P. de Vries, Marcel J.T. Reinders (2006), “Unifying User- based and Item-based Collaborative Filtering Approaches by Similarity Fusion”, Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 501-508 Sách, tạp chí
Tiêu đề: Unifying User-based and Item-based Collaborative Filtering Approaches by Similarity Fusion”, P"roceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval
Tác giả: Jun Wang , Arjen P. de Vries, Marcel J.T. Reinders
Năm: 2006
9. Mohammad Khabbaz, Laks V.S. Lakshmanan (2011),”Top-k Algorithms for Item-based Collaborative Filtering”,14th International Conference on Extending Database Technology , pp. 213-224 Sách, tạp chí
Tiêu đề: ”,14th International Conference on Extending Database Technology
Tác giả: Mohammad Khabbaz, Laks V.S. Lakshmanan
Năm: 2011

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w