1. Trang chủ
  2. » Luận Văn - Báo Cáo

Lọc cộng tác dựa trên mô hình đồ thị hai phía (tóm tắt luận văn ngành truyền dữ liệu mạng máy tính)

18 19 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - MAI THỊ NHƯ ĐỀ TÀI: LỌC CỘNG TÁC DỰA TRÊN MƠ HÌNH ĐỒ THỊ HAI PHÍA CHUYÊN NGÀNH: TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH MÃ SỐ: 60.48.15 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2012 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học.: TS Nguyễn Duy Phương Phản biện 1: ………………………………………………………………… Phản biện 2: ………………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm …… Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng PHẦN MỞ ĐẦU Tính cấp thiết đề tài nghiên cứu Vấn đề tải thông tin (Information Overload) J.Denning nêu lần vào năm 1982 Với lý lẽ chứng thuyết phục, Denning khẳng định khả lựa chọn thông tin hữu ích người dùng máy tính gặp khó khăn nghiêm trọng gia tăng không ngừng lượng thông tin khổng lồ đến từ hàng trăm kênh truyền hình, hàng triệu băng hình, sách, báo, tạp chí, tài liệu thông qua hệ thống giao dịch điện tử Vấn đề Denning công bố cộng đồng nhà khoa học máy tính nhiệt tình hưởng ứng tập trung nghiên cứu phương pháp hạn chế ảnh hưởng vấn đề tải thông tin người dùng, thúc đẩy lĩnh vực nghiên cứu lọc thơng tin Lọc thơng tin (Information Filtering) lĩnh vực nghiên cứu trình lọc bỏ thơng tin khơng thích hợp cung cấp thơng tin thích hợp đến với người dùng Lọc thông tin xem phương pháp hiệu hạn chế tình trạng q tải thơng tin quan tâm nhiều Hệ tư vấn (Recommender System) hệ thống có khả tự động phân tích, phân loại, lựa chọn cung cấp cho người dùng thơng tin, hàng hóa hay dịch vụ mà họ quan tâm Hệ tư vấn xem biến thể điển hình có vai trị quan trọng lọc thơng tin Nhiều hệ tư vấn thương mại hóa triển khai thành công, tiêu biểu hệ tư vấn hãng Amazon.com, Netflix.com, Procter & Gamble Hệ tư vấn xây dựng dựa hai kỹ thuật lọc thơng tin chính: Lọc theo nội dung (Content-Based Filtering) lọc cộng tác (Collaborative Filtering) Lọc theo nội dung khai thác khía cạnh liên quan đến nội dung thông tin sản phẩm người dùng sử dụng hay truy nhập khứ để tạo nên tư vấn Trái lại, lọc cộng tác khai thác khía cạnh liên quan đến thói quen sở thích người sử dụng sản phẩm để đưa dự đoán sản phẩm cho người dùng Lọc cộng tác tiếp cận theo hai xu hướng chính: Lọc cộng tác dựa vào nhớ (Memory Based Collaborative Filtering) Lọc cộng tác dựa mơ hình (Model Based Collborative Filtering) So với lọc cộng tác dựa vào nhớ, lọc cộng tác dựa mơ hình cho lại kết tốt Chính vậy, em lựa chọn đề tài “Lọc cộng tác dựa mơ hình đồ thị hai phía” để thực khn khổ luận văn thạc sĩ chuyên ngành truyền số liệu mạng máy tính Mục tiêu luận văn Mục tiêu luận án nghiên cứu áp dụng, cải tiến phương pháp lọc cộng tác dựa mơ hình, cụ thể mơ hình đồ thị hai phía nhằm cải thiện độ xác lọc thơng tin hệ tư vấn Đặc biệt, nghiên cứu tập trung vào việc nâng cao kết dự đoán nhu cầu người dùng trường hợp liệu thưa Các kết đạt luận văn Luận văn thực đầy đủ nội dung theo đề cương phê duyệt Những kết đạt luận văn bao gồm: Nghiên cứu tổng hợp vấn đề tổng quan lọc cộng tác, bao gồm: - Kiến trúc tổng quát hệ thống lọc thông tin, phân biệt hệ thống lọc thông tinh với hệ thống khác hệ thống truy vấn thông tin (Information Retrieval) hệ thống tách thông tin (Information Extraction); - Phát biểu toán lọc cộng tác tổng quát vấn đề liên quan - Nghiên cứu tổng hợp lại phương pháp lọc cộng tác tổng quát: Lọc cộng tác dựa nhớ (MBCF), lọc cộng tác dựa mơ hình (MDBCF) Phân tích rõ lợi thể hạn chế phương pháp để xác định mục tiêu nghiên cứu cụ thể đề tài Nghiên cứu mở rộng mơ hình đồ thị hai phía cho lọc cộng tác, bao gồm: - Nghiên cứu mở rộng phương pháp biểu diễn đồ thị hai phía cho lọc cộng tác Trong đó, phương pháp biểu diễn mở rộng trực tiếp mơ hình Huang - Nghiên cứu mở rộng phương pháp dự đoán cho lọc cộng tác cách xem xét tốn lọc cộng tác tốn tìm kiếm đồ thị - Thử nghiệm, so sánh đánh giá kết mơ hình so với phương pháp khác Kết cho kiểm nghiệm cho thấy, mơ hình cải thiện đáng kể chất lượng dự đoán cho lọc cộng tác Đặc biệt, mơ hình hạn chế vấn đề liệu thưa lọc cộng tác Xây dựng hệ thống tư vấn lựa chọn phim dựa mơ hình đồ thị hai phía Mơ hình phản ánh đầy đủ chức hệ thống lọc cho lại kết tư vấn tốt trường hợp liệu thưa Bố cục luận văn Nội dung luận văn xây dựng thành ba chương, đó: Chương giới thiệu tổng quan lọc cộng tác Trình bày nghiên cứu lọc cộng tác, phương pháp lọc cộng tác vấn đề cần tiếp tục nghiên cứu phương pháp Trên nghiên cứu bản, xác định rõ hướng nghiên cứu cụ thể đề tài Chương trình bày phương pháp biểu diễn, phương pháp dự đốn cho lọc cộng tác mơ hình đồ thị hai phía Đây kết nghiên cứu đề tài Chương Trình bày thiết kế xây dựng ứng dụng hệ tư vấn lưạ chọn phim Ứng dụng thiết kế cài đặt theo phương pháp lọc cộng tác trình bày chương Cuối phần kết luận CHƯƠNG 1: TỔNG QUAN VỀ LỌC CỘNG TÁC Mục tiêu chương trình bày vấn đề tổng quan lọc cộng tác, phương pháp lọc cộng tác, phân tích rõ hạn chế tồn phương pháp để từ xác định rõ hướng nghiên cứu cụ thể đề tài Những kết nghiên cứu đề tài trình bày chương luận văn 1.1 Tổng quan lọc thông tin 1.1.1 Kiến trúc tổng quát hệ thống lọc thông tin Một hệ thống lọc thông tin tổng quát bao gồm bốn thành phần Thành phần phân tích liệu (Data Analyser Component), thành phần mơ hình người dùng (User Model Component), thành phần học (Learning Component) thành phần lọc ( Filtering Component) Hinh 1.1 Kiến trúc tổng quát hệ thống lọc thông tin 1.1.2 Lọc thông tin truy vấn thông tin 1.1.3 Lọc thông tin hệ tư vấn 1.2 Phát biểu toán lọc cộng tác Cho tập hợp hữu hạn U = {u1, u2,…, uN} tập gồm N người dùng, P = {p1, p2, , pM} tập gồm M sản phẩm Mỗi sản phẩm pxP hàng hóa, phim, ảnh, tạp chí, tài liệu, sách, báo, dịch vụ dạng thông tin mà người dùng cần đến Để thuận tiện trình bày, ta viết pxP ngắn gọn thành xP; uiU iU Mối quan hệ tập người dùng U tập sản phẩm P biểu diễn thông qua ma trận đánh giá R={ rix }, i = N, x = M Mỗi giá trị rix thể đánh giá người dùng iU cho số sản phẩm xP Giá trị rix thu thập trực tiếp cách hỏi ý kiến người dùng thu thập gián tiếp thông qua chế phản hồi người dùng Giá trị rix =  hiểu người dùng i chưa đánh giá chưa biết đến sản phẩm x Tiếp đến ta ký hiệu, Pi P tập sản phẩm đánh giá người dùng iU UxU tập người dùng đánh giá sản phẩm xP Với người dùng cần tư vấn aU (được gọi người dùng thời, người dùng cần tư vấn, hay người dùng tích cực), tốn lọc cộng tác dự đoán đánh giá a mặt hàng x (P \ Pa), sở tư vấn cho người dùng a sản phẩm đánh giá cao Ma trận đánh giá R = (rix) đầu vào phương pháp lọc cộng tác Dựa ma trận đầu vào, phương pháp lọc cộng tác thực mô tả Hình 1.2 Hinh 1.2 Các thành phần hệ thống lọc cộng tác Có nhiều phương pháp đề xuất khác để giải toán lọc cộng tác Tuy ta phân loại phương pháp thành hai cách tiếp cận chính: Lọc cộng tác dựa vào nhớ lọc cộng tác dựa vào mơ hình Nội dung cụ thể hai phương pháp trình bày mục 1.3 Phương pháp lọc cộng tác dựa nhớ Lọc cộng tác dựa độ nhớ tiếp cận theo hai phương pháp chính: Phương pháp lọc dựa vào người dùng (UserBased) lọc dựa vào sản phẩm (ItemBased) Mỗi phương pháp có ưu điểm riêng khai thác khía cạnh liên quan đến người dùng sản phẩm Đặc điểm chung hai phương pháp sử dụng toàn tập liệu đánh giá để dự đoán quan điểm người dùng cần tư vấn sản phẩm mà họ chưa biết đến 1.3.1 Phương pháp UserBased ItemBased 1.3.2 Ví dụ minh họa 1.3.3 Hạn chế phương pháp User-Based Item-Based 1.4 Phương pháp dựa mơ hình Việc thiết kế phát triển mơ hình (như thuật tốn học máy, khai phá liệu) cho phép hệ thống học cách nhận biết mẫu phức tạp dựa liệu huấn luyện, sau đưa dự đốn thơng minh cho nhiệm vụ lọc cộng tác cho liệu kiểm thử hay liệu thực, dựa mơ hình học Các thuật tốn CF dựa mơ hình, mơ hình Bayesian, mơ hình phân cụm mạng phụ thuộc nghiên cứu để giải hạn chế thuật toán CF dựa nhớ 1.4.1 Các thuật toán CF mạng bayes tin cậy 1.4.2 Các thuật toán CF phân cụm 1.4.3 Những vấn đề hạn chế 1.5 Mục tiêu nghiên cứu đề tài Mục tiêu nghiên cứu đề tài là:  Đưa phương pháp biểu diễn đồ thị phù hợp với liệu Phương pháp xây dựng dựa mô hình đồ thị hai phía gồm đỉnh người dùng đỉnh sản phẩm Các đỉnh người dùng đỉnh sản phẩm liên kết với dựa liệu đánh giá người dùng với sản phẩm  Xây dựng đưa phương pháp huấn luyện dự đốn dựa mơ hình đồ thị trọng số  Thử nghiệm đánh giá dựa tập liệu thực nay, từ rút kết để so sánh với nghiên cứu trước để thấy hiệu phương pháp CHƯƠNG 2:LỌC CỘNG TÁC DỰA TRÊN MƠ HÌNH ĐỒ THỊ HAI PHÍA Nội dung chương trình bày mơ hình lọc cộng tác dựa đồ thị hai phía Phương pháp biểu diễn phù hợp với tất liệu lọc cộng tác Phương pháp dự đốn đưa tốn tìm kiếm đồ thị cho phép ta sử kế thừa thuật toán hiệu đồ thị Kết thử nghiệm liệu thực phim cho thấy mơ hình đề xuất cải thiện đáng kể chất lượng dự đoán cho lọc cộng tác 2.1 Giới thiệu đồ thị hai phía Định nghĩa Đồ thị vơ hướng G= , T tập đỉnh, E tập cặp tập cạnh gọi đồ thị hai phía (Đồ thị lưỡng phân, đồ thị phân đôi, đồ thị đối sánh) T chia thành hai tập U, V (T = UV) cho với cạnh e =(s,t)E sU tV Hinh 2.1 Ví dụ đồ thị hai phía 2.2 Một số nghiên cứu liên quan 2.3 Mở rộng mơ hình đồ thị hai phía 2.3.1 Phương pháp biểu diễn đồ thị Khơng hạn chế tính tổng qt tốn, ta giả sử rix = +v người dùng i “thích” sản phẩm x mức độ v, rix = -v người dùng i “khơng thích” sản phẩm x mức độ -v, v[-1,1] v   rix      v Nếu người dùng i thích sản phẩm x mức độ v Nếu người dùng i chưa biết đến sản phẩm x (2.3) Nếu người dùng i khơng thích sản phẩm x mức độ -v Đối với tập liệu thử nghiệm cho lọc cộng tác, ta dễ dàng chuyển đổi biểu diễn thành ma trận đánh giá theo công thức (2.3) cách chọn giá trị ngưỡng  Những giá trị rix> dịch chuyển thành giá trị dương, ngược lại chuyển đổi thành giá trị âm 2.3.2 Phương pháp dự đốn 2.3.3 Ví dụ minh họa 2.4 Thử nghiệm đánh giá 2.4.1 Dữ liệu kiểm nghiệm 2.4.2 Phương pháp thử nghiệm 2.5 Kết kiểm nghiệm Bang 2.1 Kết kiểm nghiệm tập MovieLens Số đánh giá biết trước tập kiểm tra Phương pháp UserBased ItemBased Huang-Graph Bipart-Graph Độ đo 10 15 20 Độ nhạy 0.144 0.157 0.162 0.279 Độ xác 0.174 0.186 0.198 0.218 F-Measure 0.158 0.170 0.178 0.245 Độ nhạy 0.098 0.118 0.144 0.259 Độ xác 0.211 0.211 0.174 0.144 F-Measure 0.134 0.151 0.157 0.185 Độ nhạy 0.142 0.165 0.234 0.381 Độ xác 0.175 0.234 0.292 0.339 F-Measure 0.157 0.194 0.299 0.359 Độ nhạy 0.198 0.215 0.312 0.397 Độ xác 0.211 0.284 0.325 0.377 F-Measure 0.204 0.245 0.318 0.387 Bang 2.2 Kết kiểm nghiệm tập BookCrossing Số đánh giá biết trước tập kiểm tra Phương pháp UserBased Độ đo 10 15 20 Độ nhạy 0.102 0.121 0.142 0.149 Độ xác 0.174 0.194 0.214 0.265 F-Measure 0.129 0.149 0.171 0.191 ItemBased Huang-Graph Bipart-Graph Độ nhạy 0.092 0.114 0.124 0.152 Độ xác 0.147 0.163 0.211 0.259 F-Measure 0.113 0.134 0.156 0.192 Độ nhạy 0.113 0.129 0.134 0.156 Độ xác 0.248 0.286 0.310 0.326 F-Measure 0.155 0.178 0.187 0.211 Độ nhạy 0.125 0.138 0.157 0.185 Độ xác 0.287 0.256 0.234 0.473 F-Measure 0.174 0.179 0.188 0.266 2.6 Kết luận Kết kiểm nghiệm liệu thực sách phim có nhiều mức đánh giá khác cho thấy mơ hình đề xuất cho lại độ xác, độ nhạy tỷ lệ F cao hẳn phương pháp ItemBased, UserBased Huang-Graph Điều khẳng định, phương pháp biểu diễn dự đoán mơ hình đồ thị hai phía có trọng số đề xuất cải thiện đáng kể chất lượng dự đoán cho lọc cộng tác Ưu điểm bật mô hình so với mơ hình trước thỏa mãn biểu diễn có tất tập liệu lọc cộng tác Phương pháp dự đoán đưa tốn tìm kiếm đồ thị có trọng số cho phép ta phân biệt mức độ quan trọng loại đường cách sử dụng thuật toán hiệu áp dụng thành công cho nhiều ứng dụng khác đồ thị Chất lượng dự đoán cải thiện cách mở rộng đường từ đỉnh người dùng đến đỉnh sản phẩm Điều ày cho phép ta tận dụng mối liên hệ gián tiếp người dùng sản phẩm vào q trình dự đốn CHƯƠNG 3:XÂY DỰNG HỆ THỐNG TƯ VẤN LỰA CHỌN PHIM DỰA TRÊN MƠ HÌNH ĐỒ THỊ HAI PHÍA Hệ thống tư vấn lựa chọn phim (Film Recommendation System) xây dựng dựa vào mơ hình đồ thị hai phía trình bày Chương2 Hệ thống cho phép người dùng xem phim, tra cứu nội dung phim, đánh giá phim, tìm kiếm nội dung phim, tư vấn phim số chức cập nhật thông tin phim thơng tin người dùng Tồn hệ thống xây dựng dựa công nghệ JSP với giao diện Web thân thiện, đẹp dễ sử dụng 3.1 Kiến trúc tổng quát hệ thống 3.1.1 Tầng trình bày 3.1.2 Tầng Logic 3.1.3 Tầng liệu 3.2 Mơ hình lớp sở 3.3 Các chức hệ thống 3.3.1 Giao diện trang chủ FRS 3.3.2 Mô tả chi tiết phim 3.3.3 Giao diện tìm kiếm thơng tin phim 3.3.4 Hiển thị phim theo thể loại 3.3.5 Tư vấn phim cho người dùng 3.4 Kết luận Hệ thống tư vấn lựa chọn phim xây dựng dựa vào mơ hình đồ thị hai phía mơ tả đầy đủ chức hệ thống lọc thông tin, bao gồm: chức học, chức lọc, chức phân tích liệu, chức người dùng Ứng dụng cho lại kết tư vấn tốt trường hợp người dùng có liệu đánh giá KẾT LUẬN Lọc cộng tác lọc nội dung hai phương pháp tiếp cận áp dụng cho hệ thống lọc thông tin Lọc nội dung thực tốt đối tượng liệu biểu diễn dạng đặc trưng nội dung lại khó thực dạng thơng tin đa phương tiện Lọc cộng tác lọc loại thơng tin gặp phải khó khăn người dùng liệu đánh giá thưa thớt, người dùng chưa có đánh giá sản phẩm, sản phẩm chưa người dùng đánh giá Dựa vào nghiên cứu này, luận văn tập trung xây dựng mơ hình đồ thị hai phía cho lọc cộng tác để giải vấn đề liệu thưa vấn đề nâng cao kết dự đoán Đối với vấn đề liệu thưa lọc cộng tác, luận văn sử dụng biểu diễn mơ hình đồ thị hai phía Trong đó, phía tập người dùng, phía cịn lại tập sản phẩm hệ thống cần cung cấp cho người dùng Mối liên hệ tập người dùng tập sản phẩm cạnh đánh giá người dùng sản phẩm Để khắc phục hạn chế trước đây, mơ hình sử dụng phương pháp ước lượng trọng số cho cạnh đồ thị Phương pháp ước lượng trọng số cho phép ta thực biểu diễn đồ thị phù hợp với tất liệu thực lọc cộng tác Đối với vấn đề kết nâng cao kết dự đoán cho lọc cộng tác, luận văn đề xuất phương pháp xem xét toán lọc cộng tác toán tìm kiếm đồ thị Phương pháp dự đốn qui việc xem xét đường có độ dài L đỉnh người dùng đỉnh sản phẩm Việc biểu diễn quan hệ Người dùng- Sản phẩm đồ thị hai phía cho phép ta giảm thiểu khơng gian biểu diễn liệu ma trận đánh giá R có liệu đánh giá Dựa biểu diễn đồ thị này, hệ thống tư vấn triển khai dễ dàng theo tất khía cạnh: Phân bổ thơng tin thích hợp gỡ bỏ thơng tin khơng thích hợp cho người dùng Để phân bổ thông tin phù hợp loại bỏ thông tin không phù hợp cho người dùng, đồ thị tổng quát thực tách thành hai đồ thị con: Đồ thị G+ biểu diễn đánh giá thích hợp đồ thị G- biểu diễn đánh giá khơng thích hợp Q trình suy diễn đồ thị G+ phản ánh mức độ phù hợp sản phẩm tương ứng cho người dùng Quá trình suy diễn đồ thị G- phản ánh mức độ không phù hợp sản phẩm tương ứng cho người dùng Cuối cùng, kết dự đoán tổ hợp lại làm kết dự đoán chung cho mơ hình Trong trường hợp liệu thưa, mơ hình cho phép mở rộng độ đường từ đỉnh người dùng đến đỉnh sản phẩm để tận dụng thông tin gián tiếp người dùng sản phẩm Cuối cùng, phương pháp lọc mơ hình đồ thị hai phía sử dụng để xây dựng hệ tư vấn lựa chọn phim Hệ thống phản ánh đầy đủ chức hệ thống lọc thơng tin, bao gồm thành phần phân tích thơng tin, thành phần mơ hình người dùng, thành phần học thành phần lọc Hệ thống cho lại kết tư vấn tốt liệu MovieLens gồm 3900 phim 6040 người dùng Hướng nghiên cứu đề tài tập trung vào việc kết hợp lọc cộng tác lọc nội dung Đây chủ đề mang tính thời cao cộng đồng nghiên cứu lọc thông tin ... dựng mơ hình đồ thị hai phía cho lọc cộng tác để giải vấn đề liệu thưa vấn đề nâng cao kết dự đoán Đối với vấn đề liệu thưa lọc cộng tác, luận văn sử dụng biểu diễn mơ hình đồ thị hai phía Trong... đồ thị hai phía? ?? để thực khuôn khổ luận văn thạc sĩ chuyên ngành truyền số liệu mạng máy tính Mục tiêu luận văn Mục tiêu luận án nghiên cứu áp dụng, cải tiến phương pháp lọc cộng tác dựa mơ hình, ... cận chính: Lọc cộng tác dựa vào nhớ lọc cộng tác dựa vào mơ hình Nội dung cụ thể hai phương pháp trình bày mục 1.3 Phương pháp lọc cộng tác dựa nhớ Lọc cộng tác dựa độ nhớ tiếp cận theo hai phương

Ngày đăng: 02/06/2021, 22:17

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w