Nghiên cứu phát triển phương pháp lọc cộng tác dựa vào bộ nhớ (tt)

24 5 0
Nghiên cứu phát triển phương pháp lọc cộng tác dựa vào bộ nhớ (tt)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - ĐỖ THỊ LIÊN NGHIÊN CỨU, PHÁT TRIỂN PHƯƠNG PHÁP LỌC CỘNG TÁC DỰA VÀO BỘ NHỚ Chuyên ngành: Hệ thống thông tin Mã số: 60.48.01.04 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2013 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS Nguyễn Duy Phương Phản biện 1: …………………………………………………………………………… Phản biện 2: ………………………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Đặt vấn đề Lọc thông tin (Information Filtering lĩnh v c nghi n c u trình lọc b nh ng thơng tin khơng thích hợ cung cấ thơng tin thích hợ đ n với m i người d ng Lọc thông tin xem hương há hiệu uả hạn ch tình trạng uá tải thông tin quan tâm nhiều Các hương há lọc thơng tin đóng vai trò uan trọng thống thương mại điện tử, đặc biệt hệ tư vấn (Recommender System Hệ tư vấn (Recommender System hệ thống có khả t động hân tích, hân loại, l a chọn cung cấ cho người d ng nh ng thông tin, hàng hóa hay dịch vụ mà họ uan tâm Hệ tư vấn xem bi n thể điển hình có vai trị uan trọng lọc thơng tin Nhiều hệ tư vấn thương mại hóa triển khai thành công, ti u biểu hệ tư vấn hãng Amazon.com, Netflix.com, Procter & Gamble Hệ tư vấn xây d ng d a tr n hai kỹ thuật lọc thơng tin chính: Lọc theo nội dung (Content-Based Filtering lọc cộng tác (Collaborative Filtering Lọc theo nội dung khai thác nh ng khía cạnh li n uan đ n đặc trưng nội dung thông tin sản hẩm người d ng sử dụng hay truy nhậ uá kh để tạo n n tư vấn Lọc theo nội dung cho lại k t uả tốt tr n dạng thông tin biểu diễn đặc trưng nội dung, gặ hải khó khăn tr n dạng thơng tin đa hương tiện (hình ảnh, âm thanh, dịch vụ Trái lại, lọc cộng tác khai thác nh ng khía cạnh li n uan đ n thói uen sử dụng sản hẩm cộng đồng người d ng có c ng sở thích để tạo n n tư vấn So với lọc theo nội dung, lọc cộng tác có số ưu điểm đơn giản cài đặt lọc loại thơng tin hay hàng hố mà khơng cần hải biểu diễn dạng văn Lọc cộng tác cho hệ tư vấn ti cận theo hai hương há chính: Lọc cộng tác d a vào nhớ (Memory-Based Collaborative Filtering) lọc cộng tác d a vào mơ hình (Model-Based Collaborative Filtering Điểm khác biệt uan trọng hai hương há ti cận hương há xây d ng mơ hình huấn luyện mơ hình d đốn Lọc d a vào nhớ ti n hành xây d ng đồng thời mơ hình huấn luyện mơ hình d đốn Ngược lại, lọc d a vào mơ hình xây d ng mơ hình huấn luyện mơ hình d đốn độc lậ So với lọc cộng tác d a vào mơ hình, lọc cộng tác d a vào nhớ dụng rộng rãi tính hiệu uả, đơn giản có độ xác cao 2 Lọc cộng tác d a vào nhớ th c theo hai hương há chính: Lọc d a vào người d ng (User-Based Collaborative Filtering lọc d a vào sản hẩm (ItemBased Collaborative Filtering Hiệu uả hương há lọc d a vào nhớ hụ thuộc vào độ đo tương t gi a cặ người d ng sản hẩm Trong uá trình nghi n c u ng dụng, nhiều nghi n c u đề xuất để cải thiện độ đo tương t , đặc biệt trường hợ d liệu thưa Mặc d có nhiều nghi n c u nhắm tới nội dung này, nh ng vấn đề nghi n c u mở, có tính thời s thu hút s ua tâm cộng đồng nghi n c u Đề tài “Nghiên cứu, phát triển phương pháp lọc cộng tác dựa vào nhớ” th c khuôn khổ luận văn thạc sĩ chuy n ngành “Truyền d liệu mạng máy tính” nhằm gó hần giải uy t số vấn đề tồn lọc cộng tác d a vào nhớ Mục tiêu luận văn Mục ti u luận văn nghi n c u dụng, cải ti n hương há lọc cộng tác d a tr n nhớ nhằm cải thiện độ xác k t uả d đốn cho hệ tư vấn Đặc biệt, nghi n c u tậ trung vào việc nâng cao k t uả d đoán nhu cầu người d ng trường hợ d liệu thưa Các đóng góp luận văn Đóng gó luận văn đề xuất hương há tính tốn m c độ tương t gi a cặ người d ng sản hẩm d a vào đồ thị để nâng cao chất lượng d đoán cho hệ tư vấn Nh ng đóng gó cụ thể luận văn bao gồm bao gồm: - Mở rộng biểu diễn đồ thị Huang [23] cho hệ thống lọc cộng tác Phương há biểu diễn h hợ với tất d liệu cho lọc cộng tác - Đề xuất hương há tính toán m c độ tương t gi a cặ người d ng d a vào hương há ước lượng trọng số đường từ đỉnh người d ng đ n đỉnh người d ng Đề xuất dụng cho hương há UserBased đạt k t uả tốt tr n d liệu thử nghiệm khác - Đề xuất hương há tính tốn m c độ tương t gi a cặ sản hẩm d a vào hương há ước lượng trọng số đường từ đỉnh sản hẩm đ n đỉnh sản hẩm Đề xuất dụng cho hương há ItemBased đạt k t uả tốt tr n d liệu thử nghiệm khác 3 - Xây d ng d liệu thử nghiệm cho lọc cộng tác với 7682 người d ng 3000 sản hẩm di động khác - Xây d ng hệ tư vấn sản hẩm điện thoại di động Hệ thống cho xem, đánh giá, gợi ý nh ng sản hẩm hợ với sở thích m i người d ng Bố cục luận văn Luận văn tổ ch c thành ba chương, : Chương : Giới thiệu tổng uan lọc cộng tác d a vào nhớ Nội dung chương trình bày nh ng nghi n c u lọc cộng tác, hương há lọc cộng tác, sâu trình bày hương há lọc cộng tác d a tr n nhớ Tr n sở nh ng nghi n c u bản, xác định rõ hướng nghi n c u đề tài Chương : Trình bày hương há lọc cộng tác d a tr n mơ hình đồ thị, bao gồm : Phương há lọc d a tr n người d ng, hương há lọc d a tr n sản hẩm Nội dung trình bày chương tổng hợ từ k t uả nghi n c u trình bày hội nghị Quốc Gia lần th “Nghi n c u ng dụng công nghệ thông tin” tổ tr c Hu ngày 20-21/6/2013 [1] Chương : Trình bày thi t k xây d ng hệ tư vấn sản hẩm điện thoại di động sử dụng hương há lọc cộng tác d a tr n mơ hình đồ thị đề xuất chương 4 CHƯƠNG 1: LỌC CỘNG TÁC DỰA VÀO BỘ NHỚ Mục ti u chương trình bày nh ng vấn đề tổng uan lọc cộng tác, hương há lọc cộng tác, hân tích rõ nh ng hạn ch tồn m i hương há để từ xác định rõ hướng nghi n c u cụ thể đề tài Nh ng k t uả nghi n c u đề tài trình bày chương ti 1.1 theo luận văn Phát biểu toán lọc cộng tác Cho tậ hợ h u hạn U = {u1, u2,…, uN} tậ gồm N người d ng, P = {p1, p2, , pM} tậ gồm M sản hẩm M i sản hẩm pxP hàng hóa, him, ảnh, tạ chí, tài liệu, sách, báo, dịch vụ dạng thông tin mà người d ng cần đ n Để thuận tiện trình bày, ta vi t pxP ngắn gọn thành xP, uiU iU Mối uan hệ gi a tậ người d ng U tậ sản hẩm P biểu diễn thông ua ma trận đánh giá R ={ rix , i = N, x = M} M i giá trị rix thể đánh giá người dùng uiU sản hẩm pxP Giá trị rix thu thậ tr c ti h i ý ki n người d ng thu thậ gián ti thông ua ch cách hản hồi người d ng Giá trị rix =  hiểu người d ng ui chưa đánh giá chưa bi t đ n sản hẩm px Nhiệm vụ lọc cộng tác d đoán uan điểm người d ng uaU nh ng mặt hàng px P, tr n sở tư vấn cho người d ng ua nh ng sản hẩm đánh giá cao [7] Bảng ví dụ ma trận đánh giá cho hệ lọc cộng tác gồm người d ng U ={ u1, u2, u3} sản hẩm P = {p1, p2, p3, p4} Các giá trị đánh giá biểu diễn có giá trị rix {, 1, 2, 3, 4, 5} Nh ng giá trị rix= hiểu người d ng iU chưa bi t đ n sản hẩm xP Ô điền ký t “?” giá trị cần điền vào hương há lọc cộng tác Bảng 1-1 Ma trận đánh giá lọc cộng tác p1 p2 p3 p4 u1   u2   u3 ? ? Ma trận đánh giá R = (rix) thông tin đầu vào hương há lọc cộng tác D a tr n ma trận đầu vào, hương há lọc cộng tác th c mơ tả Hình 1.1 Hình 1-1 Các thành phần hệ thống lọc cộng tác D a tr n ma trận đánh giá, hương há lọc cộng tác th c hai tác vụ: D đoán uan điểm người d ng thời (Active User sản hẩm mà họ chưa đánh giá, đồng thời đưa danh sách sản hẩm có đánh giá cao hân bổ cho người d ng thời Có nhiều hương há đề xuất khác để giải uy t toán lọc cộng tác Tuy ta hân loại hương há thành hai cách ti cận chính: Lọc cộng tác d a vào nhớ lọc cộng tác d a vào mô hình Trong hai hương há này, hương há lọc cộng tác d a vào nhớ sử dụng rộng dãi cho hệ thống lọc thông tin th c t cài đặt đơn giản, độ xác cao, chi hí tính tốn thấ Chính vậy, hướng ti cận luận văn tậ trung nghi n c u hát triển hương há lọc cộng tác d a vào nhớ Lọc cộng tác d a tr n nhớ ti cận theo hai hương há chính: Phương pháp lọc d a vào người d ng (UserBased lọc d a vào sản hẩm (ItemBased Nội dung cụ thể hai hương há trình bày nh ng mục ti theo 6 1.2 Phương pháp lọc cộng tác dựa sản phẩm 1.2.1 Thuật toán lọc cộng tác dựa sản phẩm Thuật toán lọc cộng tác d a vào sản hẩm xây d ng cho sản hẩm tậ láng giềng có đánh giá tương t ma trận người d ng – sản hẩm Các đánh giá nh ng sản hẩm láng giềng sau sử dụng để đưa d đoán Thuật toán lọc cộng tác d a tr n sản hẩm (Item-Based) th c thơng ua bước: Bước 1: Tính tốn độ tương t sản hẩm Bước 2: Xác định tậ láng giềng cho sản hẩm cần tư vấn Bước 3: Tính tốn đưa lời d đốn 1.2.2 Ví dụ lọc cộng tác dựa sản phẩm 1.2.3 Hạn chế phương pháp lọc cộng tác dựa sản phẩm  Vấn đề d liệu thưa (S arsity Data Problem  Vấn đề người d ng (New User Problem  Vấn đề sản hẩm (New Item Problem 1.3 Phương pháp lọc cộng tác dựa người dùng 1.3.1 Thuật toán lọc cộng tác dựa người dùng Thuật toán lọc cộng tác d a vào người d ng xây d ng cho m i người d ng tậ láng giềng có đánh giá tương t ma trận người d ng – sản hẩm Các đánh giá từ nh ng người d ng sau sử dụng để đưa d đốn Kĩ thuật lọc cộng tác d a người d ng (User-Based) th c thông ua bước: Bước Tính tốn m c độ tương t gi a cặ người d ng Bước 2: Xác định tậ láng giềng cho người d ng cần tư vấn Bước 3: Tính tốn đưa d đốn 1.3.2 Ví dụ lọc cộng tác dựa người dùng 1.3.3 Hạn chế phương pháp lọc cộng tác dựa người dùng  Vấn đề d liệu thưa (S arsity Data Problem  Vấn đề người d ng (New User Problem  Vấn đề sản hẩm (New Item Problem 1.4 Mục tiêu nghiên cứu luận văn Như trình bày lọc cộng tác hân chia thành hai hướng ti cận: lọc cộng tác d a vào nhớ lọc cộng tác d a vào mơ hình Trong hai hương há này, hương há lọc cộng tác d a vào nhớ sử dụng rộng dãi cho hệ thống lọc thông tin th c t cài đặt đơn giản, độ xác cao, chi hí tính tốn thấ Tuy nhi n với việc sử dụng dộ đo tương uan, độ đo tương t hệ thống lọc thông tin khai thác mối uan hệ tr c ti nhiều mối uan hệ gián ti gi a đối tượng, b ua gi a đối tượng hệ thống Chính vậy, hướng ti cận luận văn tậ trung nghi n c u hát triển hương pháp lọc cộng tác d a vào nhớ với mục ti u cụ thể sau:  Nghi n c u đề xuất hương há hạn ch ảnh hưởng tình trạng d liệu thưa lọc cộng tác d a tr n mô hình đồ thị Phương há đề xuất trình bày Chương  Xây d ng ng dụng d a tr n hương há đề xuất K t uả hân tích thi t k xây d ng ng dụng trình bày Chương 1.5 Kết luận chương Nội dung chương trình bày tổng uan lọc cộng tác, hương há lọc cộng tác d a vào nhớ Qua hân tích rõ nh ng hạn ch tồn m i hương há để xác định rõ hướng cụ thể đề tài nghi n c u hát triển hương há lọc cộng tác d a vào nhớ 8 CHƯƠNG 2: PHƯƠNG PHÁP USER-BASED VÀ ITEM-BASED DỰA TRÊN MƠ HÌNH ĐỒ THỊ Mục ti u chương trình bày k t uả nghi n c u luận văn hát triển hương há lọc cộng tác d a vào nhớ tr n mô hình đồ thị Sử dụng biểu diễn đồ thị cho tận dụng mối uan hệ gián ti gi a đối tượng người d ng sản hẩm vào trình d đốn tư vấn Khác với cách ti cận [23, 29], hương há d đoán luận văn th d a tr n việc xây d ng độ đo tương t gi a cặ người d ng sản hẩm D a tr n độ đo tương t này, ta xác định tậ láng giềng tốt so với hương há lọc d a vào nhớ sử dụng độ đo tương uan Để thuận tiện cho việc trình bày: Mục (2.1 trình bày hương há biểu diễn đồ thị hai hía cho lọc cộng tác Mục (2.2 trình bày hương há lọc d a tr n người d ng tr n mơ hình đồ thị Mục (2.3 trình bày hương há lọc d a tr n sản hẩm tr n mơ hình đồ thị Mục (2.4 trình bày điều kiện cần đủ để hệ thống lọc cộng tác dụng tất hương há tr n mơ hình đồ thị Mục (2.5 trình bày k t uả thử nghiệm, so sánh đánh giá với hương há lọc khác Mục cuối c ng (2.6) k t luận hướng nghi n c u ti theo Nội dung trình bày chương tổng hợ từ k t uả nghi n c u [1] 2.1 Biểu diễn đồ thị hai phía cho lọc cộng tác Giả sử ta có hệ lọc cộng tác gồm N người d ng U M sản hẩm P với ma trận đánh giá R=(rij: i=1, 2, N; j =1, 2, ,M Không hạn ch tính tổng t tốn, ta giả sử rix= +v n u người d ng iU đánh giá sản hẩm xP m c độ v, v[0, 1] v rix    Nếu người dùng i thích sản phẩm x mức độ v Nếu người dùng i chưa biết đến sản phẩm x (2.1) Biểu diễn ma trận đánh giá theo (2.1 không ảnh hưởng đ n hệ thống lọc cộng tác sử dụng đánh giá nhị hân (0,1 có nhiều m c đánh giá khoảng [0,1] Đối với d liệu có giá trị đánh giá rix{1, 2, , V}, ta cần th c bi n đổi đơn giản chuyển rix  rix Phé bi n đổi bảo toàn m c độ đánh giá theo V th t khác hệ lọc cộng tác Đây biểu diễn mở rộng Huang th c [22] Ví dụ với hệ lọc cộng tác cho Bảng 1, chuyển đổi biểu diễn theo (2.1 thành Bảng 2.1 Muc đích việc chuyển đổi rix[0,1] để sử dụng hương há tính tốn m c độ tương t gi a cặ người d ng sản hẩm Nội dung trình bày chi ti t mục ti theo Bảng 2-1 Ma trận đánh giá chuyển đổi p1 p2 p3 p4 u1 1.0  0.8  u2  0.6 0.8  u3 ? 0.6 ? 0.4 Hệ lọc cộng tác với ma trận đánh giá xác định theo (2.1 hình thành n n đồ thị hai hía, hía tậ người d ng, hía cịn lại tậ sản hẩm, ký hiệu đồ thị G = Tậ đỉnh V đồ thị chia thành hai tậ : tậ người d ng tậ sản hẩm (V=UP Tậ cạnh E đồ thị xác định theo công th c (2.2 M i cạnh eE có dạng e = (i, x , iU xP Khơng tồn cạnh nối gi a hai đỉnh người d ng cạnh nối gi a hai đỉnh sản hẩm Trọng số m i cạnh xác định theo (2.3) E  e  (i, x) : i U  x  P | rix   (2.2) rix if (i, x)  E wix   0 otherwise (2.3) Gọi C=(cij ma trận trọng số biểu diễn đồ thị G (i =1, 2, , N+M; j = 1, 2, , N+M Khi đó, ma trận vng C chia thành bốn hần theo công th c (2.4) Trong đó, ma trận vng U(NN biểu diễn mối uan hệ gi a người d ng người d ng, P(MM biểu diễn mối uan hệ gi a sản hẩm với sản hẩm, W(NM xác định theo (2.3 biểu diễn mối uan hệ gi a người d ng sản hẩm, WT(MN chuyển vị W(NM biểu diễn mối uan hệ gi a sản hẩm người d ng Các hần tử ma trận U(NN), P(MM ban đầu có giá trị U N  N  C   T W M  N  W N  M   PM  M   (2.4) 10 Ví dụ, với hệ lọc cộng tác cho Bảng 2.1, đồ thị hai hía biểu diễn cho lọc cộng tác thể Hình 2.1, thành hần ma trận trọng số thể Hình 2.2 p1 p2 1.0 0.8 p3 0.6 u1 0.8 p4 0.6 u2 0.4 u3 Hình 2-1 Đồ thị hai phía biểu diễn cho lọc cộng tác U(NN) C= W(NM) 0.0 0.0 0.0 1.0 0.0 0.8 0.0 0.0 0.0 0.0 0.0 0.6 0.8 0.0 0.0 0.0 0.0 0.0 0.6 0.0 0.4 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.6 0.6 0.0 0.0 0.0 0.0 0.8 0.8 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.4 0.0 0.0 0.0 0.0 WT(MN) P(MM) Hình 2-2 Ma trận trọng số biểu diễn đồ thị hai phía Cho đồ thị G = biểu diễn dạng ma trận trọng số C xác định theo (2.4) Khi đó, lọc cộng tác xem xét tốn tìm ki m tr n đồ thị Trong đó, mức độ tương tự cặp người dùng tính tốn dựa vào trọng số đường từ đỉnh người dùng đến đỉnh người dùng, mức độ tương tự cặp sản phẩm tính tốn dựa vào trọng số đường từ đỉnh sản phẩm đến đến đỉnh sản phẩm, mức độ phù hợp người dùng sản phẩm tính tốn dựa vào trọng số đường từ đỉnh người dùng đến đỉnh sản phẩm M c độ tương t gi a cặ người d ng điền giá trị vào ma trận U(NN , m c độ tương t gi a cặ sản hẩm điền giá trị vào ma trận P(MM , m c độ h hợ người d ng sản hẩm điền giá trị vào ma trận W(NM) WT(MN Trong đó,U(NN), P(MM), W(NM), WT(MN xác định theo (2.4) Nội dung cụ thể m i hương há ti trình bày mục ti theo cận 11 2.2 Phương pháp user-based dựa mơ hình đồ thị hai phía Thuật tốn UserBased-Graph: Đầu vào:  Ma trận trọng số C biểu diễn đồ thị G = cho lọc cộng tác  iU người dùng cần tư vấn  K số lượng người dùng tập láng giềng Đầu ra:  Dự đoán x: rix | xP\Pi.( quan điểm người dùng i sản phẩm xP) Các bước tiến hành: Bước Tính tốn mức độ tương tự cặp người dùng: L 2;//Thi t lậ độ dài đường ban đầu Repeat W N  M *W T M  N  U L N  N    W N  M *W T M  N *U L  N  N  if L2 if L  4,6,8, (2.5) L  L + 2; //Tăng độ dài đường Until ( u ijL  với j(U \ i) ); Bước Xác định tậ láng giềng cho người d ng iU  Sắ x u ijL  theo th t giảm dần (ij)  Chọn K người d ng jU đầu ti n làm tậ láng giềng người d ng i (Ký hiệu tậ láng giềng người d ng iU Ki) Bước D đoán uan điểm người d ng i sản hẩm xP\Pi rix  Ki r jx ; jK i Bước4 Chọn K sản hẩm có m c độ tương t cao tư vấn cho người d ng i Hình 2-3 Thuật tốn UserBased-Graph M c độ tương t gi a cặ người d ng xác định theo (2.5) hụ thuộc vào độ dài đường L từ đỉnh người d ng đ n đỉnh người d ng tr n đồ thị Do vậy, vấn đề đặt với m i người d ng iU giá trị L lấy bao nhi u cho tốt Ngược lại đồ thị G= hải có tính chất để ta xác định L cho m c độ tương t gi a cặ người d ng uij0 Định lý cho ta cách xác định L trường hợ đồ thị biểu diễn lọc cộng tác G = liên thông 12 Định lý N u đồ thị biểu diễn cho hệ lọc cộng tác G= liên thơng ln ln tồn số t nhi n chẵn L để u ijL  với i, jU Trong đó, u ijL xác định theo công th c bước Phương pháp item-based dựa mơ hình đồ thị hai phía 2.3 Thuật toán ItemBased-Graph: Đầu vào:  Ma trận trọng số C biểu diễn đồ thị G = cho lọc cộng tác  xP sản phẩm cần dự đoán  K số lượng sản phẩm tập láng giềng Đầu ra:  Dự đoán x: rix | iU\Ux.( quan điểm người dùng i phẩm xP) Các bước tiến hành: Bước Tính tốn mức độ tương tự cặp sản phẩm L 2;//Thi t lậ độ dài đường ban đầu Repeat W T M  N *W N  M  P L M  M    W T M  N *W N  M * P L  M  M  if L2 if L  4,6,8, (2.6) L  L + 2; //Tăng độ dài đường Until ( p xyL  với y(P \ x) ); Bước Xác định tậ láng giềng cho sản hẩm xP  Sắ x L p xy theo th t giảm dần (xy)  Chọn K sản hẩm yP đầu ti n làm tậ láng giềng sản hẩm x (Ký hiệu tậ láng giềng sản hẩm xP Kx) Bước D đoán uan điểm người d ng i sản hẩm xP\Pi rix  Kx r ix ; xKx Bước4 Chọn K sản hẩm có m c độ tương t cao tư vấn cho người d ng i Hình 2-4 Thuật tốn ItemBased-Graph M c độ tương t gi a cặ sản hẩm xác định theo (2.6) hụ thuộc vào độ dài đường L từ đỉnh sản hẩm đ n đỉnh sản hẩm tr n đồ thị Do vậy, với m i sản hẩm xP ta cần xác định giá trị L để th c tính tốn Định lý cho ta cách xác định L trường hợ đồ thị biểu diễn lọc cộng tác G = liên thông 13 Định lý N u đồ thị biểu diễn cho hệ lọc cộng tác G= liên thơng ln ln tồn số t nhi n chẵn L để p xyL  với x, yP Trong đó, PxyL xác định theo công th c bước 2.4 Điều kiện cần đủ để hệ thống lọc cộng tác áp dụng tất phương pháp mơ hình đồ thị Định lý Điều kiện cần đủ để U L N  N  xác định theo (2.5), P L M  M  xác định theo (2.6) điền đầy đủ giá trị khác đồ thị biểu diễn cho hệ lọc cộng tác G= li n thông 2.5 Kiểm nghiệm đánh giá 2.5.1 Dữ liệu thử nghiệm Ti n hành kiểm thử tr n tậ d liệu : MovieLens, vật giá (1) Bộ d liệu MovieLens [24] gồm 1682 người d ng, 943 him với tr n 100000 đánh giá, m c đánh giá thi t lậ từ đ n 5, m c độ thưa thớt d liệu đánh giá 98,7% Các m c đánh giá 1, 2, 3, 4, chuyển đổi thành 0.2, 0.4, 0.6, 0.8, 1.0 Chọn ngẫu nhi n : (80% 754 người d ng làm tậ huấn luyện (Training , (20% 189 người d ng cịn lại làm tậ kiểm tra (Test hình 2.6 Hình 2-5 Mơ tập liệu Movilens (2) Bộ d liệu vật giá [28] gồm 402 người d ng tr n 10 đánh giá, 3441 sản hẩm với 8885 đánh giá, m c đánh giá thi t lậ từ đ n Các m c đánh giá 1, 2, 3, 4, chuyển đổi thành 0.2, 0.4, 0.6, 0.8, 1.0 14 Chọn ngẫu nhi n (80% 322 người d ng tậ huấn luyện, (20%) 80 người d ng tậ kiểm tra (3) Bộ d liệu vật giá [28] gồm 1114 người dùng tr n đánh giá, 4418 sản hẩm với 13476 đánh giá, m c đánh giá thi t lậ từ đ n Các m c đánh giá 1, 2, 3, 4, chuyển đổi thành 0.2, 0.4, 0.6, 0.8, 1.0 Chọn ngẫu nhi n (80% 892 người d ng tậ huấn luyện, (20%) 222 người dùng tậ kiểm tra 2.5.2 Phương pháp thử nghiệm Trước ti n, toàn tậ người d ng chia thành hai hần, hần Utr sử dụng làm d liệu huấn luyện, hần lại Ute sử dụng để kiểm tra Tậ d liệu huấn luyện d ng để xây d ng mơ hình theo thuật toán lọc sử dụng Với m i người dùng u Ute, đánh giá ru,p≠  chia thành hai hần Ou Pu Ou coi bi t, Pu đánh giá cần d đoán từ d liệu huấn luyện Ou (hình 2.6) Giả sử hương há lọc đưa d đoán cho người d ng tậ Pu P’u Khi đó, sai số d đốn th c cách so sánh đánh giá hai tậ Pu P’u Có nhiều hương há đánh giá sai số hân loại khác đề xuất Một số hương há hổ bi n sử dụng lọc cộng tác đánh giá sai số hân loại thông ua độ đo trung bình giá trị tuyệt đối l i MAE Sai số d đoán với m i khách hàng u thuộc tậ d liệu kiểm tra tính trung bình cộng sai số tuyệt đối gi a hai giá trị d đoán giá trị th c tất sản hẩm thuộc tậ | | ∑ | ̂ | (2.7) Sai số d đoán tr n tồn tậ d liệu kiểm tra tính trung bình cộng sai số d đốn cho m i khách hàng thuộc ∑ | Giá trị MAE nh ch ng t 2.5.3 Kết thử nghiệm 2.5.3.1 Với liệu Movielens | (2.8) hương há đề xuất cho k t uả xác 15 Bảng 2-2 Độ đo MAE với đánh giá biết trước tập liệu Movielens Số đánh giá bi t trước tậ kiểm tra Phương há 10 15 20 Top-N-ItemBased 0.4347 0.38 0.4536 0.4576 0.4128 0.3869 KNN-UserBased 0.7171 0.5519 0.4894 0.5554 0.6 0.6334 ItemBased-Graph 0.3819 0.3021 0.3269 0.2253 0.2024 0.1755 UserBased-Graph 0.3657 0.3584 0.3486 0.3475 0.3465 0.3336 2.5.3.2 Với liệu vật giá 402 người dùng Bảng 2-3 Độ đo MAE với đánh giá biết trước tập liệu vật giá 402 người dùng Phương há 2.5.3.3 Số đánh giá bi t trước tậ kiểm tra Top-N-ItemBased 0.7877 0.77215 0.7412 KNN-UserBased 0.8046 0.7978 0.7804 ItemBased-Graph 0.7503 0.7576 0.5788 UserBased-Graph 0.6549 0.6428 0.6596 Với liệu vật giá 1114 người dùng Bảng 2-4 Độ đo MAE với đánh giá biết trước tập liệu vật giá 1114 người dùng Phương há Số đánh giá bi t trước tậ kiểm tra Top-N-ItemBased 0.7804 0.7638 0.7327 KNN-UserBased 0.8042 0.798 0.7722 ItemBased-Graph 0.7444 0.7032 0.3248 UserBased-Graph 0.6593 0.6574 0.4891 K t uả kiểm nghiệm cho thấy, hương há đề xuất d a tr n đồ thị cho lại sai số trung bình tuyệt đối l i MAE nh với hương hương há lọc ItemBased UserBased d a tr n độ tương uan Pearson Điều khẳng định, hương há d đốn d a tr n mơ hình đồ thị tích hợ nhiều thơng tin gián ti gi a người 16 d ng sản hẩm vào uá trình huấn luyện Lý n hai hương há đề xuất cho lại k t uả tốt hương há d đoán d a vào tậ láng giềng cộng đồng người d ng có chung sở thích Nói cách khác hương há đề xuất xác định tậ láng giềng xác so với hương há 2.6 Kết luận chương Nội dung chương trình bày k t uả nghi n c u luận văn hát triển hương há lọc cộng tác d a vào nhớ tr n mơ hình đồ thị Phương há biểu diễn đồ thị cho tận dụng mối uan hệ gián ti gi a đối tượng người d ng sản hẩm vào trình d đốn tư vấn Phương há d đốn đưa tốn tìm ki m tr n đồ thị cho ta sử dụng biểu diễn đồ thị ma trận thưa để giảm thiểu khơng gian biểu diễn d liệu, đồng thời sử dụng thuật toán hiệu uả tr n đồ thị Phương há d đoán tr n tất đánh giá, cho ta giảm thiểu l i xảy trình d đốn hân bổ thông tin (Một sản hẩm người d ng “khơng thích” có mặt danh sách sản hẩm cần tư vấn Một sản hẩm người d ng “thích” có mặt danh sách sản hẩm cần loại b M c độ tương t gi a cặ người d ng tính tốn d a vào trọng số đường từ đỉnh người d ng đ n đỉnh người d ng, m c độ tương t gi a cặ sản hẩm tính tốn d a vào trọng số đường từ đỉnh sản hẩm đ n đ n đỉnh sản hẩm Đây điểm khác biệt uan trọng mơ hình đề xuất so với mơ hình trước K t uả kiểm nghiệm tr n d liệu MovieLens, vật giá cho thấy, mô hình đề xuất cho lại k t uả tốt hương há lọc cộng tác d a tr n độ tương uan túy 17 CHƯƠNG 3: XÂY DỰNG HỆ TƯ VẤN SẢN PHẨM ĐIỆN THOẠI DI ĐỘNG Mục ti u chương trình bày thi t k xây d ng hệ tư vấn sản hẩm điện thoại di động sử dụng hương há lọc cộng tác d a tr n mơ hình đồ thị đề xuất chương Hệ thống cho người d ng xem sản hẩm, đánh giá sản hẩm, tìm ki m sản hẩm, tư vấn sản hẩm đ n người d ng Song song xây d ng thành công ng dụng tr n điện thoại thông minh chạy hệ điều hành Windows Phone sử dụng dịch vụ cung cấ hệ tư vấn xây d ng 3.1 Yêu cầu hoạt động hệ thống Người d ng ng dụng tr n điện thoại thông minh chạy hệ điều hành Windows Phone đăng nhậ vào hệ thống tài khoản mình, ti n hành đánh giá nh ng sản hẩm Hệ thống ghi nhận nh ng đánh giá để làm sở khuy n nghị Hệ thống d a vào nh ng đánh giá người d ng để gợi ý cho người d ng nh ng sản hẩm h hợ , trả điện thoại người d ng 3.2 Mơ hình tổng qt hệ thống Ki n trúc hệ thống mơ tả Hình 3.1 thi t k gồm hần sau: Phần 1: ng dụng máy khách vi t tr n tảng hệ điều hành Windows Phone h trợ người sử dụng ch c như: xem / tìm ki m thông tin sản hẩm điện thoại di động, xem gợi ý sản hẩm di động h hợ với người d ng, đánh giá m c độ thích người d ng với sản hẩm xem Phần 2: ng dụng máy chủ bao gồm: - Dịch vụ web hụ trách việc truyền nhận thông tin gi a máy khách máy chủ - Hệ thống khuy n nghị người d ng Hệ thống có ch c : ch c huấn luyện ch c tư vấn  Ch c huấn luyện (th c học offline hía Back-end : có nhiệm vụ xây d ng mơ hình d a tr n d liệu đánh giá sản hẩm người d ng xây d ng theo mơ hình đồ thị trình bày chương  Ch c tư vấn (th c online cung cấ thơng ua dịch vụ webservice : Khi có y u cầu tư vấn từ người d ng gửi từ ng dụng máy khách thông ua webservice tới hệ thống tư vấn, ch c sử dụng 18 d liệu xây d ng từ học offline để lấy To -N sản hẩm có đánh giá d đoán cao để tư vấn cho khách hàng 3.3 Phân tích thiết kế hệ thống 3.3.1 Phân tích hệ thống 3.3.1.1 Xây dựng biểu đồ use case scenario use case 3.3.1.2 Xây dựng biểu đồ lớp phân tích 3.3.2 Thiết kế hệ thống 3.3.2.1 Xây dựng biểu đồ 3.3.2.2 Xây dựng biểu đồ lớp thiết kế 3.4 Mơ hình liệu hệ thống 3.4.1 Mô tả liệu Nguồn thông tin sản hẩm điện thoại tr n thị trường trích xuất từ trang web vật giá [28], gồm : 7682 người d ng, 3000 sản hẩm với 16110 đánh giá, m c đánh giá thi t lậ từ đ n 3.4.2 Mơ hình liệu hệ thống Hình 3-1 Mơ hình liệu hệ thống tư vấn sản phẩm điện thoại 3.5 Kết luận chương Nội dung chương trình bày thi t k xây d ng hệ tư vấn sản hẩm điện thoại di động sử dụng hương há lọc cộng tác d a tr n mơ hình đồ thị đề xuất chương Song song xây d ng thành công ng dụng tr n điện thoại thông minh chạy hệ điều hành Windows Phone sử dụng dịch vụ cung cấ hệ tư vấn xây d ng 19 KẾT LUẬN Kết đạt :  Đề tài hướng tới chủ đề có ý nghĩa lý thuy t th c tiễn khoa học máy tính cộng đồng nghi n c u quan tâm Về lý thuy t, đề tài d a tr n nh ng ki n th c tảng học máy (Machine Learning Về th c tiễn, k t uả đề tài dụng cho hệ thống lọc k t uả tìm ki m, lọc thơng tin cho cổng điện tử, lọc dịch vụ truy cậ , lọc trang Web đen Đặc biệt, k t uả đề tài dụng để nâng cao k t uả tư vấn hệ thống thương mại điện tử  Các hương há userbased-graph itembased-graph cho lọc cộng tác d a vào nhớ chọn đề tài cho ta xem xét vấn đề lọc cộng tác đa chiều xác hương há trước  Phương há biểu diễn d đốn mơ hình đề xuất th a mãn tất d liệu thử nghiệm cho lọc cộng tác, điều làm gia tăng khả ng dụng đề tài  Á dụng mô hình đề xuất vào xây d ng thành cơng hệ thống tư vấn sản hẩm điện thoại di động, đồng thời xây d ng thành công ng dụng tr n điện thoại thông minh chạy hệ điều hành windows hone sử dụng dịch vụ cung cấ hệ tư vấn xây d ng Hướng phát triển :  Phát triển nâng cấ ng dụng hía client : gia tăng tính cho ng dụng, tư vấn nhiều loại d liệu khác tới người d ng  Mở rộng k t hợ mơ hình đề xuất cho lọc cộng tác d a tr n nhớ với lọc theo nội dung, kiểm nghiệm hiệu uả 20 TÀI LIỆU THAM KHẢO [1] Nguyễn Duy Phương, Đ Thị Li n, Từ Minh Phương (2013 , “Xác định độ tương t cho người d ng sản hẩm lọc cộng tác d a tr n mơ hình đồ thị”, Fair Hu 2013 [2] N.J Belkin and B Croft (1992 , “Information Filtering and Information Retrieval” Comm ACM, vol 35, No 12, pp 29-37 [3] U Hanani, B Sha ira, P Shoval (2001 , “Information Filtering: Overview of Issues, Research and Systems”, User Modeling and User-Adapted Interaction, vol 11, No.3, pp.203-209 [4] J Li and O.R Zaınane (2004 , “Combining Usage, Content, and Structure Data to Im rove Web Site Recommendation”, Proc Fifth Int’l Conf Electronic Commerce and Web Technologies (EC-Web ’04 , 305-315 [5] J.B Schafer, J.A Konstan, and J Riedl (2001 , “E-Commerce Recommendation A lications,” Data Mining and Knowledge Discovery, vol 5, 115-153 [6] A Ansari, S Essegaier, R Kohli (2000 , “Internet Recommendations Systems” J Marketing Research, pp 363-375 [7] X Su, T M Khoshgoftaar (2009 , “A Survey of Collaborative Filtering Techni ues” Advances in Artificial Intelligence, vol 2009, pp.1-20 [8] K Yu, A Schwaighofer, V Tresp, X Xu, and H.-P Kriegel (2004 , “Probabilistic Memory-Based Collaborative Filtering”, IEEE Trans Knowledge and Data Eng., vol 16, No 1, pp 56-69 [9] K Yu, X Xu, J Tao, M Ester, and H.-P Kriegel (2002 , “Instance Selection Techniques for Memory-Based Collaborative Filtering”, Proc Second SIAM Int’l Conf Data Mining (SDM ’02 [10] M.Balabanovic and Y Shoham (1997 , “Fab: Content-Based, Collaborative Recommendation”, Comm ACM, vol 40, No 3, pp 66-72 [11] R Baeza-Yates and B Ribeiro-Neto (1999 , “Modern Information Retrieval” Addison-Wesley [12] J.L.Herlocker, J.A Konstan, L.G Terveen, and J.T Riedl (2004 , “Evaluating Collaborative Filtering Recommender Systems, vol 22, No 1, pp 5-53 Systems”, ACM Trans Information 21 [13] G.Adomavicius, A Tuzhilin Recommender (2005 , “Toward the Next Generation Systems: A Survey of the State-of-the-Art and of Possible Extensions”, IEEE Transactions On Knowledge And Data Engineering , vol 17, N o 6, 2005 [14] A Lazanas, N Karacapilidis (2010 , “On the integration of hybrid recommendation techniques into an agent-based transportation transactions management latform”, International Journal of Information and Decision Sciences 2010, Vol 2, No.2 pp 170 – 187 [15] B Sarwar, G Kary is, J Konstan, and J Riedl, “Item-Based Collaborative Filtering Recommendation Algorithms”, WWW 2001: 285-295 (2001) [16] M Desh ande, G Kary is,“Item-Based Top-N Recommendation Algorithms”, ACM Transactions on Information Systems Volume 22, Issue 1, pp 143 - 177 (2004) [17] J S Breese, D Heckerman, and C Kadie, “Em irical analysis of Predictive Algorithms for Collaborative Filtering”, In Proc of 14th Conf on Uncertainty in Artificial Intelligence, pp 43-52 (1998) [18] T Hofmann, “Latent Semantic Models for Collaborative Filtering”, ACM Trans Information Systems, vol 22, No 1, pp 89-115 (2004) [19] C.C.Aggarwal, J.L Wolf, K.L Wu, and P.S.Yu, “Horting Hatches an Egg: A New Graph-Theoretic Approach to Collaborative Filtering”, Proc Fifth ACM SIGKDD Int’l Conf Knowledge Discovery and Data Mining (1999 [20] R Jin, L Si, and C Zhai, “Preference-Based Graphic Models for Collaborative Filtering”, Proc 19th Conf Uncertainty in Artificial Intelligence (UAI 2003) [21] J.Wang, A.P de Vries, M.J.T Reinders (2006 , “Unifying user-based and itembased collaborative filtering a roaches by similarity fusion”, Proc of SIGIR’06 [22] Z.Huang, D Zeng, H Chen, “Analyzing Consumer-product Graphs: Empirical Findings and A lications in Recommender Systems”, Management Science, 53(7 , 1146-1164 (2007) 22 [23] Z Huang, H Chen, D Zeng, “A lying Associative Retrieval Techni ues to Alleviate the S arsity Problem in Collaborative Filtering”, ACM Transactions on Information Systems, vol 22(1) pp 116–142 (2004) [24] GroupLens, http://www.grouplens.org/ [25] B.Sarwar, G Kary is, J Konstan, and J Riedl (2000 , “A lication of Dimensionality Reduction in Recommender Systems—A Case Study”, Proc ACM WebKDD Workshop [26] C.C Peddy and D Armentrout (2003 , “BuildingSolutions with Microsoft Commerce Server 2002”, Microsoft Press [27] U Hanani, B Sha ira, P Shoval (2001 , “Information Filtering: Overview of Issues, Research and Systems”, User Modeling and User-Adapted Interaction, vol 11, No.3, pp.203-209 [28] http://www.vatgia.com/home/quicksearch.php?&keyword=%C4%91i%E1%BB%87 n+tho%E1%BA%A1i [29] Mai Thị Như, “Lọc cộng tác d a tr n mơ hình đồ thị hai hía”, luận văn cao học, Học Viện Cơng Nghệ Bưu Viễn thơng ... tiêu nghiên cứu luận văn Như trình bày lọc cộng tác hân chia thành hai hướng ti cận: lọc cộng tác d a vào nhớ lọc cộng tác d a vào mơ hình Trong hai hương há này, hương há lọc cộng tác d a vào nhớ. .. uy t tốn lọc cộng tác Tuy ta hân loại hương há thành hai cách ti cận chính: Lọc cộng tác d a vào nhớ lọc cộng tác d a vào mơ hình Trong hai hương há này, hương há lọc cộng tác d a vào nhớ sử dụng... hương há lọc cộng tác d a tr n mơ hình đồ thị đề xuất chương 4 CHƯƠNG 1: LỌC CỘNG TÁC DỰA VÀO BỘ NHỚ Mục ti u chương trình bày nh ng vấn đề tổng uan lọc cộng tác, hương há lọc cộng tác, hân

Ngày đăng: 19/03/2021, 18:02

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan