Xây dựng hệ tư vấn dựa và phương pháp lai (tóm tắt luận văn (tóm tắt luận văn ngành khoa học máy tính)

26 7 0
Xây dựng hệ tư vấn dựa và phương pháp lai (tóm tắt luận văn (tóm tắt luận văn ngành khoa học máy tính)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Lê Thành Đạo XÂY DỰNG HỆ TƯ VẤN DỰA VÀO PHƯƠNG PHÁP LAI Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2013 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: Tiến sỹ Nguyễn Duy Phương Phản biện 1………………………………………………………… Phản biện 2: ………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng I MỞ ĐẦU Lý chọn đề tài Hệ tư vấn (Recommender System) hệ thống có khả tự động phân tích, phân loại, lựa chọn cung cấp cho người dùng thơng tin, hàng hóa hay dịch vụ mà họ quan tâm Hệ tư vấn xây dựng dựa hai kỹ thuật lọc thơng tin chính: Hệ tư vấn dựa vào phương pháp lọc theo nội dung (ContentBased Filtering Recommendation) hệ tư vấn dựa vào phương pháp lọc cộng tác (Collaborative Filtering Recommendation) Phương pháp tư vấn theo nội dung khai thác khía cạnh liên quan đến nội dung thông tin sản phẩm mà người dùng sử dụng hay truy nhập khứ để tạo nên tư vấn Phương pháp thực tốt dạng thông tin biểu diễn thông qua đặc trưng nội dung gặp nhiều khó khăn dạng thơng tin đa phương tiện (hình ảnh, âm thanh, ) Phương pháp tư vấn cộng tác khai thác khía cạnh liên quan đến thói quen sử dụng sản phẩm cộng đồng người dùng có sở thích để tạo nên tư vấn Phương pháp tư vấn cộng tác thực tốt tất dạng thông tin gặp phải vấn đề người dùng mới, sản phẩm liệu thưa thớt Chính vậy, vấn đề kết hợp phương pháp tư vấn theo nội dung tư vấn cộng tác nhằm tận dụng lợi phương pháp quan tâm nghiên cứu Đề tài “Xây dựng hệ tư vấn dựa vào phương pháp lai” thực khuôn khổ luận văn thạc sĩ chuyên ngành Khoa học máy tính với mục tiêu, đối tượng phương pháp nghiên cứu cụ thể sau: Mục đích nghiên cứu Mục đích luận văn nghiên cứu phương pháp tư vấn kết hợp lọc cộng tác lọc nội dung Để thực mục tiêu này, luận văn cần nghiên cứu cụ thể phương pháp tư vấn theo nội dung, phương pháp tư vấn cộng tác phương pháp kết hợp hai phương pháp Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu phương pháp tư vấn theo nội dung, người sử dụng với thói quen, hành vi sử dụng sản phẩm họ Phạm vi đề tài tập trung nghiên cứu vào: phương pháp lọc thông tin dựa vào nội dung, phương pháp phân loại dựa vào đánh giá người dùng kết hợp hai phương pháp Phương pháp nghiên cứu Dựa việc thu thập, nghiên cứu tìm hiểu kết nghiên cứu học máy công bố tạp chí ngồi nước, đặc biệt trọng đến nghiên cứu học chuyển giao cho lọc cộng tác Tham dự Seminar lĩnh vực liên quan Trao đổi, chía sẻ, thảo luận với giáo viên hướng dẫn đồng nghiệp kết nghiên cứu Bố cục luận văn Nội dung luận văn xây dựng thành chương, đó: Chương 1: Nội dung chương trình bày kết nghiên cứu phương pháp tư vấn theo nội dung: phát biểu toán tư vấn theo nội dung, phương pháp biểu diễn đặc trưng nội dung, phương pháp xây dựng hồ sơ người dùng, phương pháp dự đoán Chương 2: Nội dung chương trình bày kết nghiên cứu phương pháp tư vấn cộng tác, bao gồm: phát biểu toán tư vấn cộng tác, phương pháp tư vấn dựa vào nhớ, phương pháp tư vấn dựa vào mơ hình, phương pháp dự đoán Chương 3: Nội dung chương trình bày kết nghiên cứu phương pháp kết hợp kiểu tư vấn, bao gồm: phát biểu toán tư vấn kết hợp, phương pháp kết hợp lọc nội dung lọc cộng tác Chương 4:Nội dung chương tập trung vào xây dựng ứng dụng phương pháp học chuyển giao CHƯƠNG I: PHƯƠNG PHÁP TƯ VẤN THEO NỘI DUNG Phương pháp tư vấn theo nội dung khai thác khía cạnh liên quan đến nội dung thông tin sản phẩm người dùng sử dụng hay truy nhập khứ để tạo nên tư vấn Các phương pháp tiếp cận cho lọc theo nội dung có nguồn gốc từ lĩnh vực truy vấn thơng tin, sản phẩm biểu diễn hồ sơ sản phẩm, người dùng biểu diễn hồ sơ người dùng Về mặt tổng quát hệ thống lọc dựa nội dung khác khác chi tiết nhìn chung hệ thống phải tạo hồ sơ người dùng thực so sánh sản phẩm với hồ sơ người dùng để thực tư vấn Hình 1.1: Mơ hình tổng qt hệ thống lọc theo nội dung 1.1 Phát biểu toán tư vấn theo nội dung Bài toán lọc theo nội dung phát biểu sau: Cho P= {p1, p2, , pn} tập gồm N sản phẩm Nội dung sản phẩm p∈P ký hiệu Content(p) biểu diễn thông qua tập K đặc trưng nội dung P Tập đặc trưng sản phẩm P xây dựng kỹ thuật truy vấn thông tin để thực mục đích dự đốn sản phẩm khác tương tự với p Cho U = {u1, u2, ,um} tập gồm M người dùng Với người dùng u∈U, gọi ContentBasedProfỉle(u) hồ sơ người dùng u Hồ sơ người dùng u thực chất lịch sử truy cập đánh giá người sản phẩm ContentBasedProflle(u) xây dựng cách phân tích nội dung sản phẩm mà người dùng u truy nhập đánh giá dựa kỹ thuật truy vấn thơng tin Bài tốn lọc theo nội dung dự đốn sản phẩm có nội dung thích hợp với người dùng dựa tập hồ sơ sản phẩm Content(p) hồ sơ người dùng ContendBasedProflle(u) 1.2 Phương pháp trích chọn đặc trưng(Limited content analysis): Phương pháp trích chọn đặc trưng hay cịn gọi biểu diễn hồ sơ sản phẩm.Để có tập đặc trưng đầy đủ, nội dung tài liệu phải biểu diễn dạng phù hợp để máy tính tự động phân tích, tính tốn trọng số đặc trưng nội dung phải thực bán tự động Phương pháp ước lượng trọng số đặc trưng thông dụng thường sử dụng phép đo tần suất kết hợp với tần suất xuất ngược TF-IDF (Term Frequency / Inverse Document Frequency) 1.3 Phương pháp biểu diễn hồ sơ người dùng Mỗi hồ sơ người dùng ContentBasedProfile(u) biểu diễn véc tơ trọng số đặc trưng nội dung (w1,u, w2,u, ,wK,u), wk,u biểu thị mức độ quan trọng đặc trưng nội dung k người dùng u Véc tơ trọng số (w1,u, w2,u, ,wK,u) tính tốn kỹ thuật khác từ véc tơ hồ sơ sản phẩm người dùng thường xuyên truy cập đánh giá Balabanovic tính tốn véctơ trọng số hồ sơ người dùng ContentBasedProflle(u) cách lấy trung bình cộng véc tơ trọng số Content(pj) tài liệu pj∈P mà người dùng truy cập đánh giá 1.4 Phương pháp dự đoán Với cách biểu trên, véctơ trọng số đặc trưng nội dung sản phẩm ContentBasedProfile(u) Content(p) có số chiều ước lượng theo phương pháp (trong trường hợp TF-IDF) Việc xác định mức độ thích hợp sản phẩm p  P cho người dùng u xem xét theo mức độ giống véc tơ hồ sơ người dùng u U véctơ hồ sơ sản phẩm p P 1.5 Ví dụ minh họa 1.6 Kết luận chương Phương pháp lọc theo nội dung làm việc hiệu với tài liệu văn có nhiều ứng dụng thực tế hệ thống lọc email, thư rác… phương pháp nhiều hệ thống tư vấn sử dụng tính dễ cài đặt, hiệu xử lý liệu văn T phương pháp tồn số vấn đề: - Vấn đề trích chọn đặc trưng (Limited content analysis) - Vấn đề người dùng (new user propblem) - Vấn đề đánh giá, phản hồi người dùng CHƯƠNG II:PHƯƠNG PHÁP TƯ VẤN CỘNG TÁC Không giống nhưphương pháp lọc theo nội dung, phương pháp lọc cộng tác khai thác khía cạnh liên quan đến thói quen sở thích người sử dụng sản phẩm để đưa dự đoán sản phẩm cho người dùng Chính vậy, lọc cộng tác lọc hiệu nhiều dạng sản phẩm khác hàng hóa, phim, ảnh, tài liệu, Cùng hệ tư vấn, người dùng tư vấn nhiều loại mặt hàng khác cho dù mặt hàng biểu diễn khơng gian đặc trưng nội dung khác Hình 2.1: Mơ hình kiến trúc hệ tư vấn dựa cộng tác 2.1 Phát biểu toán tư vấn cộng tác Bài toán lọc cộng tác phát biểu sau: Ký hiệu u = {u1, u2,…, uN} tập gồm N người dùng, P = {p1, p2, , pM} tập gồm M sản phẩm mà người dùng lựa chọn Mỗi sản phẩm pj∈P hàng hóa, phim, ảnh, tạp chí, tài liệu, sách, báo, dịch vụ dạng thông tin mà người dùng cần đến Tiếp theo, ký hiệu R={ rij }, i = N, j = M ma trận đánh giá, người dùng ui U đưa đánh giá cho số sản phẩm pj  P số rij Giá trị rij phản ánh mức độ ưa thích người dùng ui sản phẩm pj Giá trị rij thu thập trực tiếp cách hỏi ý kiến người dùng thu thập gián tiếp thông qua chế phản hồi người dùng Giá trị rij =  trường hợp người dùng ui chưa đánh giá chưa biết đến sản phẩm pj Với người dùng cần tư vấn ua (được gọi người dùng thời, người dùng cần tư vấn, hay người dùng tích cực), toán lọc cộng tác toán dự đoán đánh giá ua mặt hàng mà ua chưa đánh giá (raj =  ), sở tư vấn cho ua sản phẩm đánh giá cao 2.2 Phương pháp tư vấn dựa nhớ Các thuật toán dựa kinh nghiệm dự đoán hạng sản phẩm dựa toàn sản phẩm đánh giá trước người dùng.Nghĩa là, hạng sản phẩm p với người dùng u (ru,p) tổng hợp từ đánh giá người dùng khác p (thường N người có sở thích tương đồng với u) Phương pháp thực theo hai bước: Tính tốn mức độ tương tự bước tạo nên dự đốn: + Tính tốn mức độ tương tựsim(x, ỵ): Mô tả khoảng cách, liên quan, hay trọng số hai người dùng x vày (hoặc hai sản phẩm X vày) + Dự đoán: Đưa dự đoán cho người dùng cần tư vấn cách xác định tập láng giềng người dùng Tập láng giềng người dùng cần tư vấn xác định dựa mức độ tương tự cặp người dùng sản phẩm 2.3 Phương pháp tư vấn dựa mơ hình Khác với phương pháp dựa nhớ, phương pháp dựa mơ hình (model-based) sử dụng kĩ thuật thống kê học máy liệu (các đánh giá biết) để xây dựng nên mơ hình Mơ hình sau dùng để dự đốn hạng sản phẩm chưa đánh giá Mơ hình đề xuất bao gồm việc phân nhóm người dùng sử dụng kỹ thuật phân cụm (clustering) sau việc dự đốn đánh giá người dùng tài nguyên sử dụng đánh giá người dùng thuộc nhóm 2.4 Ví dụ minh họa 2.5 Kết luận Hệ thống tư vấn cộng tác khắc phục nhiều nhược điểm hệ thống dựa nội dung Một điểm quan trọng xử lý loại liệu gợi ý loại sản phẩm, kể sản phẩm mới, nhờ vào tham khảo ý kiến người dùng sản phẩm, hiệu sản phẩm khơng có mơ tả rõ đặc trưng nôi dung Tuy khắc phục nhiều nhược điểm hệ thống lọc dựa nội dung hệ thống tư vấn cộng tác gặp số vấn đề: Vẩn đề người dùng (New User Problem) Vẩn đề sản phẩm (New Item Problem) Vẩn đề liệu thưa (Sparsity Data Problem) Do hai phương pháp lọc dựa vào nội dung lọc cộng tác gặp phải khác nhiều nhược điểm, có số phần bù trừ cho tạo xác cho việc lọc thơng tin nên chương tìm hiểu phương pháp lai 10 3.2 Kết hợp đặc trưng nội dung với đánh giá người dùng Phương pháp xem xét đánh giá người dùng lọc cộng tác thành phần hồ sơ người dùng Phương pháp dự đoán thực theo lọc nội dung túy so sánh với kết dựa biểu diễn hồ sơ người dùng mở rộng Phương pháp phổ biến thực theo mơ hình sử dụng kỹ thuật giảm số chiều cho hồ sơ người dùng trước kết hợp với đánh giá người dùng 3.3 Kết hợp đánh giá người dùng với đặc trưng nội dung Phương pháp dựa kỹ thuật lọc cộng tác túy trì hồ sơ người dùng ContentBasedProfile(u) tham biến tham khảo tính tốn tương tự cặp người dùng Phương pháp phát sản phẩm tương tự với hồ sơ người dùng không tương tự với hồ sơ người dùng Trong trường hợp liệu thưa người dùng mới, mức độ tương tự hồ sơ người dùng sản phẩm đến tạo nên dự đốn 3.4 Mơ hình hợp đánh giá người dùng đặc trưng nội dung Trong phần này, luận văn tìm hiểu phương pháp xây dựng liên kết người dùng với nội dung sản phẩm sở cá nhân hóa liên kết gọi “Unifying Models” Unifying Models phương pháp biểu diễn đặc trưng nội dung đánh giá người dùng mơ hình Tiến hành chuyển đổi thành ma trận toán học, ta thu ma trận mở rộng chứa tất mối quan hệ người dùng, sản phẩm, đặc trưng người dùng đặc trưng sản phẩm bảng 3.4: Bảng 3.5: Ma trận kết hợp người dùng - sản phẩm với đặc trưng Sản phẩm Người u1 Nghề nghiệp ĐT người dùng XY p1 p2 … pn o1 o2 … oy UF1 UF2 … UFz r11 r12 … r1n 0 … 1 … 11 dùng Thể loại ĐT sản phẩm XY u2 r21 ? … r2n 1 … 1 … … … … … … … … … … … … … … um rm1 rm2 … rmn … 1 … t1 … t2 1 … … … … … … tk 1 … IF1 0 … IF2 1 … … … … … … IFq 1 … Sau chuyển đổi liệu thành dạng ma trận bảng 3.4, sử dụng kỹ thuật lọc cộng tác để tiến hành dự đoán giá trị cho sản phẩm chưa đánh giá Dựa vào ma trận gốc với đặc trưng nội dung luận văn kỳ vọng kỹ thuật cho dự đánh giá xác Luận văn tính tốn ma trận dựa vào phương pháp phân rã giá trị riêng (Singular Value Decomposition - SVD) 3.4.1 Vấn đề thưa thớt liệu Đã có nhiều cố gắng giải vấn đề thưa thớt liệu Một phương pháp đưa với số thành cơng phương pháp nhằm làm giảm chiều ma trận số người dùng – sản phẩm 3.4.2 Phương pháp phân rã giá trị riêng(SVD) Bài toán phân rã giá trị riêng phát biểu sau: Với ma trận A kích thước M × Nnào có số M ≥ N, viết dạng tích ma trận U trực giao theo cột có kích thước M × N, ma trận chéo W có kích thước N× Nvới số đường chéo không âm, ma trận chuyển vị ma trận trực giao Vcó kích thước N× N: 12 [ ]=[ ]×[ ]× [ ]=[ ]× … × [ ] (3.3) Đường chéo khởi tạo r S(s1,s2, ,sr) có đặc trưng si>0 s1≥s2≥ …≥ sr.Trong đó, r cột U vector riêng AAT đại diện cho vector riêng trái A không gian mở rộng cột.r cột V vector riêng ATA đại diện cho cácvector riêng phải A không gian mở rộng hàng Nếu tập trung vào r giá trị riêng khác khơng, kích thước hiệu SVD ma trận U, S V trở thành M × r, r × r vàr × N tương ứng Một thuộc tính quan trọng SVD, đặc biệt hữu ích hệ tư vấn cung cấp giá trị xấp xỉ thấp Bằng cách giữ lại k

Ngày đăng: 02/06/2021, 22:18

Từ khóa liên quan

Mục lục

  • 2.Tomtat_bia

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan