Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 36 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
36
Dung lượng
566,03 KB
Nội dung
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG BÁO CÁO THỰC TẬP TỐT NGHIỆP Đề tài: NGHIÊN CỨU HỆ GỢI Ý VÀ ỨNG DỤNG TRONG WEBSITE GỢI Ý PHIM Giảng viên hướng dẫn : PGS.TS Lê Thanh Hương Sinh viên thực : Trần Đức Việt MSSV : 20083159 Lớp : HTTT-K53 TTTN-2013-Trần Đức Việt-BKHN Mục Lục TTTN-2013-Trần Đức Việt-BKHN CHƯƠNG I : TỔNG QUAN VỀ ĐỀ TÀI 1. Đặt vấn đề Người sử dụng hệ thống thông tin, đặc biệt trang thương mại điện tử, thường gặp khó khăn việc tìm kiếm lựa chọn thông tin cần thiết phủ hợp để giải vấn đề định, việc chọn mua máy ảnh kỹ thuật số phù hợp, việc lập kế hoạch cho chuyến du lịch; người sử dụng có nhiều lựa chọn, đủ thời gian tri thức để tự đánh giá lựa chọn đưa định hợp lý. Bạn chọn mua sách hàng triệu đầu sách Amazon cung cấp, hay xem video số hàng trăm triệu video tải lên Youtube. Bạn tìm trợ giúp với công cụ tìm kiếm với từ khóa cụ thể. Nhưng với trường hợp, bạn rõ ưu tiên mình, công cụ tìm kiếm khó phát huy tác dụng, lúc bạn cần đến giúp đỡ hệ gợi ý. Các hệ thống gợi ý (Recommender System) công cụ hỗ trợ định, nhằm mục đích cung cấp cho người sử dụng gợi ý thông tin, sản phẩm, dịch vụ phù hợp với yêu cầu sở thích riêng người tình yêu cầu cụ thể. Với trợ giúp hệ gợi ý, bạn tìm hiểu sở thích chia sẻ cho cộng đồng. Nếu bạn fan hâm mộ ban nhạc The Beatles, đề xuất đưa ra: bạn khó bỏ qua giai điệu nhóm nhạc người Anh khác Radiohead. Radiohead tiếng ngành công nghiệp âm nhạc, đặc biệt Anh khoảng thập niên 90 với ca khúc bất hủ “Creep”, Pablo Honey, hay The Bends… Khác với The Beatles, Radiohead không chơi thể loại nhạc pop làm nên tên tuổi The Beatles, mà thay vào dòng nhạc rock, hay punk rock. Vậy lí mà người hâm mộ Beatles, yêu thích Radiohead. Minh chứng cho điều thể qua thông tin thu thập hành vi trực tuyến người dùng trang web Last.fm. Last.fm trang cộng đòng âm nhạc, tập hợp thông tin âm nhạc mà thành viên lắng nghe, sau tổng hợp đưa kết mang tính thống kê, giúp tìm hiểu thị hiếu âm nhạc chia sẻ cho người. Trang web giúp người dùng cách gợi ý nghệ sĩ, dòng nhạc đáng quan tâm. Cụ thể đây, người nghe Beatles, hát nghệ sĩ khác đáng để thưởng thức tiếp theo. Một danh sách nghệ sĩ Last.fm đưa ra, đứng đầu danh sách Bob Dylan – nghệ sĩ tiếng thời với The Beatles, danh sách Radio head. Theo Last.fm, người hâm mộ Beatles nghe nhiều Radiohead, ngược lại. Để đưa gợi ý đó, Last.fm sử dụng ứng dụng hệ gợi ý. Hệ thống tổng hợp hành vi trực tuyến nhiều người để tìm xu hướng, đưa Gợi ý dựa thông tin ngày. Hoạt động hệ gợi ý hiểu đơn giản trình tìm kiếm hoạt động người dùng tương tự nghe nhạc, đánh giá phim, hay đọc tin tức. Những đề xuất hệ gợi ý đưa giúp người dùng lựa chọn nội dung đáng TTTN-2013-Trần Đức Việt-BKHN quan tâm tiếp theo, kết đề xuất gây bất ngờ ví dụ việc gợi ý cho fan hâm mộ Beatles thưởng thức giai điệu Radio head. Ngoài Last.fm, cửa hàng âm nhạc iTunes Apples cung cấp dịch vụ giúp Gợi ý hát album. Amazon.com cung cấp tính gợi ý tất mặt hàng cung cấp: sách, âm nhạc, game…. Netflix.com nhà cung cấp dịch vụ bán lẻ đưa hệ thống đề xuất chương trình tivi, hay phim nên xem. Youtube, Yahoo, IMDB, Rotten Romatoes, Metacritic áp dụng dịch vụ gợi ý tương tự. Vai trò quan trọng hệ gợi ý ngày thể rõ, trở thành công cụ hữu hiệu đối phó với vấn đề tải thông tin, minh chứng cụ thể: - - - - Hệ gợi ý đóng vai trò quan trọng trang web tiếng Amazon.com, Youtube, Netflix, Yahoo, TripAdvisor, IMDB… Thêm vào đó, nhiều công ty truyền thông phát triển triển khai hệ thống gợi ý phần dịch vụ cung cấp cho thuê bao. Một minh chứng cho hoạt động đó: Netflix, nhà cung cấp dịch vụ cho thuê phim trực tuyến, trao giải thưởng triệu dollar cho đội xuất sắc cải thiện đáng kể hiệu suất hoạt động hệ gợi ý hang. Có nhiều hội nghị, hội thảo chuyên biệt liên quan đến lĩnh vực hệ gợi ý, đề cập tới ACM Recommender System (RecSyss), thành lập năm 2007 kiện hàng đáng ý hàng năm lĩnh vực nghiên cứu ứng dụng hệ gợi ý. Bên cạnh đó, buổi họp dành riêng cho vấn đề hệ gợi ý tổ chức hội nghị lĩnh vực sở liệu, hệ thống thông tin… Trong số hội nghị đó, phải đề cập đến ACM SIGIR Special Interst Group on Information Retrieval (SIGIR), User Modeling, Adapation and Personalization (UMAP), ACM’s Special Interest Group on Management of Data (SIGMOD). Hiện tổ chức giáo dục bậc đại học sau đại học giới, khóa học hệ gợi ý, hướng dẫn hệ gợi ý phổ biến, đặc biệt chuyên ngành khoa học máy tính. Rất nhiều sách giới thiệu hệ gợi ý xuất gần đây. Các tạp chí khoa học xuất số đặc biệt dành nói việc nghiên cứu, phát triển trogn lĩnh vực hệ gợi ý. Trong số này, tạp chí dành riêng cho vần đề hệ gợi ý : AI Communication (2008), IEEE Intelligent Systems (2007), International Journal of Electronic Commerce (2006), International Journal of Computer Science and Applications (2006), ACM Transactions on Computer-Human Interaction (2005), ACM Transactions of Information Systems (2004). 2. Giới thiệu đề tài Nghiên cứu ứng dụng hệ gợi ý giúp nâng cao tính thông minh ứng dụng web, cụ thể xây dựng hệ gợi ý phim (movie recommender system) giải câu hỏi cách khai phá liệu, xử lí đưa thông tin cho người dùng cách TTTN-2013-Trần Đức Việt-BKHN hiệu trường hợp có hàng ngàn phim, cá nhân người dùng cụ thể phải lựa chọn định xem phim nào. Để trả lời câu hỏi đưa ra, yêu cầu đặt phải xây dựng phương pháp phân loại, tìm kiếm, trích rút đưa gợi ý phim cho người dùng. Yêu cầu đặt : xây dựng hệ thống gợi ý giúp đưa gợi ý phim nên xem với người dùng cụ thể cách hiêu với yêu cầu thời gian (thời gian đáp ứng yêu cầu người dùng), không gian (với số lượng lớn liệu người dùng phim). Để làm rõ yêu cầu đặt ra, thu hẹp phạm vi nghiên cứu việc trả lời câu hỏi: - Hệ gợi ý dựa phương pháp lọc nào?, cách đưa gợi ý phim nên xem với cá nhân cụ thể? Trong trường hợp, có thêm phim người dùng mới, hệ thống có đưa gợi ý hợp lí không? Bằng cách sử dụng thông tin đặc tính phim kết hợp với phương pháp lọc? Hiệu hệ thống gợi ý đánh giá dựa tiêu chí nào? 2.1 Mục tiêu đề tài Nghiên cứu hệ thống gợi ý: cách thức hoạt động, mô hình, phương pháp, tầm quan trọng hệ gợi ý Lựa chọn, nghiên cứu, cài đặt phương pháp gợi ý phù hợp cho toán đặt ra: xây dựng hệ gợi ý giúp người dùng lựa chọn phim đáng ý, phù hợp với sở thích nhân. Xây dựng triển khai website với chức hệ gợi ý, giúp cung cấp cho người dùng đề xuất phim nên xem 2.2 Phạm vi đề tài Đề tài nghiên cứu hệ gợi ý ứng dụng triển khai website gợi ý phim cung cấp chức gợi ý phim cho người dùng. Đối tượng gợi ý: Các tựa phim sở liệu. Đối tượng gợi ý: - Người dùng có tài khoản hệ thống có hành vi lưu lại hệ thống. Người dùng khách tài khoản hệ thống, ghé thăm hệ thống để tìm kiếm tựa phim. Nội dung gợi ý: tập tựa phim hệ thống cho phù hợp với người dùng ngữ cảnh xác định. TTTN-2013-Trần Đức Việt-BKHN 2.3 Kịch dự kiến Với ứng dụng cụ thể website phim em xin đưa kịch sau: - - Kịch 1: Người dùng kích vào phim, hệ thống đưa gợi ý phim có nội dung tương tự. Ví dụ thể loại (hành động, tình cảm .), diễn viên chính, đạo diễn . Kịch 2: Người dùng kích vào phim, hệ thống đưa gợi ý để xem phim bạn nên xem phim trước (vd: phần trước phim này). Kịch 3: Người dùng tìm kiếm phim mà sở liệu, hệ thống đưa gợi ý phim mà người dùng mong muốn tìm mà có sở liệu. 2.4 Phương pháp tiếp cận Trong hệ thống này, ta tiếp cận phương pháp lọc cộng tác. Bộ liệu mẫu sử dụng phòng thí nghiệm Grouplens thuộc môn khoa học máy tính trường đại học Minnesota cung cấp, truy cập từ địa website http://www.grouplens.org/node/73#attachments. Dữ liệu mẫu bao gồm 1682 phim, 943 người dùng, đánh giá. TTTN-2013-Trần Đức Việt-BKHN CHƯƠNG II : HỆ THỐNG GỢI Ý 1. Hệ thống gợi ý Trong sống hàng ngày, nhiều trường hợp, người ta đưa lựa chọn dựa ý kiến hay lời khuyên người xung quanh, qua lời nói, đánh giá sản phẩm, khảo sát thị trường, thư giới thiệu …v v. Nhưng kỉ nguyên thông tin, hàng triệu thông tin đưa lên internet ngày, điều dẫn tới yêu cầu phải có phương pháp tự động thu thập thông tin đưa lời khuyên để hỗ trợ cho phương pháp truyến thống . Hệ tư vấn (recommender system) giải pháp vậy. Hệ thống đưa gợi ý dựa người dùng làm khứ, dựa tổng hợp ý kiến người dùng khác. Hệ tư vấn trở thành ứng dụng quan trọng thu hút quan tâm lớn nhà nghiên cứu doanh nghiệp. Một vài hệ tư vấn tiếng: - Phim / TV/ âm nhạc: MovieLens, EachMovie, Morse, Firefly, Flycasting, Ringo… - Tin tức / báo chí: Tapestry, GroupLens, Lotus Notes, Anatagonomy… Sách / Tài liệu: Amazon.com, Foxtrot, InfoFinder… Web: Phoaks, Gab, Fab, IfWeb, Let's Browse … Nhà hàng: Adaptive Place Advisor, Polylens, Pocket restaurent finder… Du lịch: Dietorecs, LifestyleFinder … 1.1 Khái niệm Hệ thống gợi ý kỹ thuật cung cấp gợi ý cho nhu cầu sản phẩm, dịch vụ Internet cho người sử dụng. Những gợi ý cung cấp nhằm mục đích hỗ trợ người sử dụng trình định lựa chọn sản phẩm, dịch vụ, chẳng hạn sách người dùng muốn mua, hát người dùng thích nghe, tin tức người dùng muốn đọc. Một vài ứng dụng tiếng hệ thống Gợi ý như: Gợi ý sản phầm Amazon.com [paper amazon], hệ tư vấn phim NetFlix…[paper Netflix] Hệ thống gợi ý chứng minh ý nghĩa to lớn: giúp cho người sử dụng trực tuyến đối phó với tình trạng tải thông tin. Hệ gợi ý trở thành công cụ mạnh mẽ phổ biến thương mại điện tử. Theo Adomavicius Tuzhilin, hầu hết trường hợp, toán tư vấn coi toán ước lượng trước hạng (rating) sản phẩm (phim, cd, nhà TTTN-2013-Trần Đức Việt-BKHN hàng …) chưa người dùng xem xét. Việc ước lượng thường dựa đánh giá có người dùng người dùng khác. Những sản phẩm có hạng cao dùng để tư vấn. Một cách hình thức, toán tư vấn mô tả sau: Gọi U tập tất người dùng; I tập tất sản phẩm tư vấn. Tập I lớn, từ hàng tram ngàn (sách, phim, cd…) đến hàng triệu (website…). Tập U lên tới hàng triệu. Hàm r(u,i) đo độ phù hợp hay hạng sản phẩm i với người dùng r: u: U×I R với R tập thứ tự. Với người dùng u ϵ U, cần tìm sản phẩm i’ϵ I cho hàm r(u,i’) đạt giá trị lớn nhất: u ϵ U, i’u = argmaxi’ ϵ I r(u,i) Trong hệ thống gợi ý, độ phù hợp sản phẩm thường đo điểm, ví dụ người dùng A đánh giá phim “Star war 3” 7/10 điểm. Tuy nhiên, độ phù hợp hàm phụ thuộc vào ứng dụng cụ thể. Giá trị hàm u xác định người dùng tính toàn công thức đó. Mỗi người dùng không gian U xác định hồ sơ (profile). Hồ sơ bao gồm nhiều loại thông tin: tuổi, giới tính, thu nhập… gồm trường mã số người dùng ( user id). Tương tự sản phẩm s không gian I xác định tập đặc trưng. Ví dụ hệ thống gợi ý phim, đặc trưng : tên phim, thể loại, đạo diễn, năm sản xuất, diễn viên chính… Vấn đề hệ thống gợi ý hàm r không xác định toàn không gian U×I mà xác định miền nhỏ không gian này. Điều dẫn tới hàm r phải ngoại suy không gian U×I. Thông thường, độ phù hợp thể điểm xác định tập sản phẩm người dùng đánh giá từ trước ( thường nhỏ). Như ví dụ bảng đánh giá số người dụng với phim mà họ xem (thang điểm từ 0-10, Ø nghĩa phim chưa người dùng cho điểm). Từ thông tin đó, hệ thống gợi ý phải dự đoán (ngoại suy) điểm cho phim chưa người dùng đánh giá, từ đưa gợi ý phù hợp nhất. Harry potter Star trek Xmen Transformer A ∅ B ∅ C ∅ D ∅ ∅ TTTN-2013-Trần Đức Việt-BKHN Đánh giá người dùng số phim xem 1.2 Cách thức hoạt động hệ thống gợi ý Nếu thấy trình gợi ý hộp đen, thể hình 2, xác định hai nguồn thông tin cần thiết: user profile – thông tin người dùng, item data – thông tin sản phẩm đầu vào cho trình gợi ý. Các thông tin lưu trữ theo liệu có cấu trúc, rút từ nguồn liệu phi cấu trúc: website liên quan, hành vi mua sắm… Thông tin sản phẩm, dịch vụ nhiều dạng khác nhau: siêu liệu (metadata), thông tin đặc tính sản phẩm, sản phẩm với trường hợp liệu điện tử. Trong trường hợp sản phẩm âm (audio), video, thông tin mà hệ gợi ý cần lưu trữ thực có kích thước lớn, với nhiều chiều. Kết đầu hệ gợi ý thể hình đây, tập gợi ý cho người sử dụng. Các đề xuất phụ thuộc vào phương pháp hệ gợi ý, cụ thể tập danh sách sản phẩm, thông tin vắn tắt, hình chụp… Quá trình hoạt động thể chi tiết hình 3, bao gồm bước sau: tập hợp thông tin, lựa chọn, chuyển đổi, cấu trúc hóa thông tin, biểu diễn thông tin. Tất bước trình bày hình mô tả cụ thể bước: - Tập hợp thông tin (Information Recollection): thông tin lưu trữ không thực hệ gợi ý, đóng vai trò quang trọng. Nó bao gồm thông tin cá nhân người sử dụng, lịch sử giao dịch, thông tin ưu tiên người dùng (user preference), thông tin sản phẩm metadata, đặc tính sản phẩm. Bước đóng vai trò quan trọng, sở cho toàn trình hệ gợi ý thực dự đoán đưa gợi ý cho người dùng. Nếu thông tin thu thập không đầy đủ, hay mâu TTTN-2013-Trần Đức Việt-BKHN thuẩn; hệ thống gợi ý thực chức dự đoán, đưa đề xuất. Vì lí này, cần đặc biệt lưu ý trình thu thập thông tin phản ánh sở thích người dung, thông tin sản phẩm, dịch vụ. - Lựa chọn thông tin (Selection): Bước lựa chọn bao gồm việc xác định thông tin liên quan trực tiếp đến trình xử lí, dự đoán. Cách lựa chọn tập thông tin phu thuộc chặt chẽ phương pháp tiếp cận hệ thống. Từ tập thông tin lựa chọn, giúp xác định độ tương quan hai sản phẩm bất kì, hai người dùng. - Chuyển đổi thông tin (Transformation): mục tiêu bước chuyển dổi thực biến đổi thong tin, xây dựng mô hình, hàm từ liệu xử lí hai bước đầu, biểu diễn thông tin dạng quy định hệ gợi ý, thực dự đoán. - Cấu trúc thông tin (Structuring): Cấu trúc thông tin có liên quan đến việc cấu trúc, tổ chức thông tin mà người dùng duyệt qua thông tin đề xuất đưa ra. Bước bao gồm hoạt động nhóm nhóm sản phẩm, xếp hạng sản phẩm, phân loại, liên kết sản phẩm có quan hệ với nhau… - Trình bày thông tin (Presentation): Bước cuối trình gời ý đưa thông tin gợi ý cho người dùng theo tiêu chuẩn: bố trí, định dạng tài liệu, màu sắc, phông chữ…Đây bước cuối trình gợi ý, đưa thông tin đầu cho người dùng cụ thể. - Thông tin phản hồi: Thu nhận thông tin phản hồi bước thêm vào, tùy theo hệ thống gợi ý. Mặc dù bước tùy chọn, giúp ích nhiều việc cải thiện hoạt động, nâng cao kết hệ gợi. Phản hồi người dùng hệ thống ghi nhận với hai dạng tiềm ẩn(implicit), rõ ràng (explicit). Với phản hồi rõ ràng (explicit feedback), người sử dụng cung cấp thông tin thể mức độ ưu tiên với sản phẩm liên quan. Các phản hồi tiềm ẩn (implicit feedback) có cách thu thập, phân tích hành vi người dùng: lịch sử duyệt sản phẩm, số lần viếng thăm, thời gian lưu lại… 10 TTTN-2013-Trần Đức Việt-BKHN Dưới hình thể tiến trình hệ lọc cộng tác: item cần dự doán i1 i1 i2 ii…. in Dự đoán (Prediction (dự ) đoán item j cho người dùng thực a) Tư Vấn (Recommendation) (danh sách items cho người dùng thực sự) Thuật toán CF N user Output (Các kết trên) Input (bảng trọng số đánh giá) Thuật toán CF biểu diễn toàn liệu ma trận m n (user - item) ma trận trọng số đánh giá A. Mỗi thực thể aij A thể điểm thể mối quan tâm (hay trọng số đánh giá) người dùng thứ i sản phẩm thứ j. Các đánh giá đặt khoảng quy định trước người dùng chưa biết đến sản phẩm đó. Thuật toán hệ tư vấn cộng tác chia thành hai loại sau: • Lọc cộng tác dựa nhớ (memory – based hay heuristic – based): Nó thao tác toàn sở liệu người dùng để đưa dự đoán. • Ngược lại, lọc cộng tác dựa mô hình ( model – based): Nó sử dụng sở liệu người dùng để đánh giá học mô hình, sau sử dụng cho dự đoán. Những hệ lọc cộng tác thường phân biệt thông qua hoạt động lựa chọn tường minh hay không tường mình. 21 TTTN-2013-Trần Đức Việt-BKHN Lựa chọn tường minh ám việc người dùng chủ động bày tỏ sở thích chủ đề thường thường có tỷ lệ hệ số riêng biệt. Chẳng hạn, hệ GroupLens Resnick et al. [1994] sử dụng hệ số từ 1(tồi) đến (tốt) cho người dùng để đánh giá báo Netnews, người dùng đánh giá rõ ràng báo sau đọc nó. Lựa chọn không tường minh ám việc làm sáng tỏ thái độ hay lựa chọn người dùng để từ đưa ứng cử sở thích phù hợp. Những lựa chọn không tường minh dựa liệu trình duyệt (chẳng hạn ứng dụng Web), lịch sử xuất (chẳng hạn trực tuyến hay lưu trữ truyền thống), hay mẫu truy cập thông tin khác. 2.2 Lọc cộng tác dựa nhớ Phương pháp lọc cộng tác dựa nhớ có đặc trưng thường sử dụng toàn liệu có để dự đoán đánh giá người dùng sản phẩm mới. Nhờ lợi có khả đưa trực tiếp liệu vào bảng liệu, đạt nhiều thành công áp dụng vào ứng dụng thực tế. Cũng mà kỹ thuật thường đưa dự đoán xác hệ trực tuyến – nơi mà có liệu cập nhật. Tuy nhiên, nhận thấy hệ thống thường gặp phải vấn đề thưa thớt liệu. Thông thường, có hai cách tiếp cận dựa nhớ: hệ dựa người dùng – tức dự đoán dựa tương tự người dùng hệ dựa sản phẩm – dự đoán dựa tương tự sản phẩm. Hệ dựa người dùng xác định tương tự hai người dùng thông qua việc so sánh đánh giá họ sản phẩm, sau dự đoán đánh giá sản phẩm j người dùng i, đánh giá trung bình người dùng tương tự với người dùng i. Vì vậy, sở liệu người dùng bao gồm tập ứng cử vij, tương ứng với lựa chọn người dùng i sản phẩm j. Nếu Ii tập sản phẩm mà người dùng i đánh giá, xác định đánh giá (giá trị đánh giá tring bình) cho người dùng i sau: 22 TTTN-2013-Trần Đức Việt-BKHN Trong thuật toán lọc cộng tác dựa nhớ, dự đoán lựa chọn người dùng thực (được với số a phía dưới) dựa vài thông tin không hoàn chỉnh người dùng tập trọng số tính toán từ sở liệu người dùng. Giả thiết lựa chọn người dùng thực với item j dự đoán, pa,j tổng lựa chọn đánh trọng số (mức quan trọng_weight) người dùng khác nhau: (1) Trong đó, n số lượng người dùng sở liệu lọc cộng tác với trọng số (weight) khác không. Những trọng số w (i,a) tương ứng với khoảng cách, độ tương quan, mức tương tự người dùng i với người dùng thực sự. K hệ số chuẩn hóa, thí dụ giá trị tuyệt đối tổng trọng số mặt tiện ích. 2.2.1 Độ tương quan Pearson Công thức chung kỹ thuật lọc cộng tác theo phương pháp thống kê xuất dự án Group Lens, hệ số tương quan Pearson xác định sở đánh giá [Resnick et al., 1994]. Độ tương quan hai người dùng a i là: (2) w(a, i) = Trong đó: va,j trọng số đánh giá người dùng a sản phẩm j. trọng số đánh giá trung bình người dùng a tất sản phẩm. vi,j trọng số đánh giá người dùng i sản phẩm j. trọng số đánh giá trung bình người dùng i tất sản phẩm. 23 TTTN-2013-Trần Đức Việt-BKHN phép tổng item cho người dùng a i với lựa chọn ghi nhận. 2.2.2 Độ tương tự Vector Trong lĩnh vực việc truy vấn thông tin, độ tương tự hai tài liệu thường đo việc xem xét tài liệu môt vector tần suất xuất từ tính cosin hai vector suất [Salton McGill, 1983]. Chúng ta thông qua dạng thức để thực kỹ thuật lọc cộng tác, người dùng trích role tài liệu, chữ để trích role từ, lựa chọn trích role tần số xuất từ. Chú ý dùng thuật toán này, lựa chọn quan sát phải đưa sở thích rõ ràng, role cho lựa chọn mập mờ, item không ý nhận giá trị lựa chọn 0. Mối quan hệ trọng số là: (3) Trong đó: va,j trọng số đánh giá người dùng a sản phẩm j. vi,j trọng số đánh giá người dùng i sản phẩm j. Những số hạng bình phương mẫu số cung cấp lựa chọn chuẩn. 2.3 Lọc cộng tác dựa mô hình Ngược lại với phương pháp dựa nhớ, phương pháp tiếp cận dựa mô hình không sử dụng tất liệu có để đưa dự đoán. Thay vào đó, chúng nắm bắt thông tin bước giống thỏa thuận mô hình sở thích người dùng. Những phương pháp có nhiều thuận lợi việc cung cấp nhanh có dự đoán xác, giảm thiểu tính nhạy cảm trường hợp liệu. 24 TTTN-2013-Trần Đức Việt-BKHN Tuy nhiên, chúng thường yêu cầu nhiều thời gian để nắm bắt mô hình, làm giảm hiệu việc cài đặt ứng dụng trực tuyến – nơi mà liệu thường xuyên thêm vào. Từ quan điểm xác suất, nhiệm vụ lọc cộng tác nhìn lại việc tính toán giá trị đánh giá mong chờ, chúng đưa mà muốn biết người dùng. Đối với người dùng thực sự, mong muốn đoán trước đánh giá item mới. Nếu giả thuyết lựa chọn số nguyên khoảng từ 0m, ta có: (4) Trong đó, biểu thức xác suất đưa giá trị đánh giá mặt xác suất người dùng thực cho item j quan sát trước đó. Trong tài liệu này, khảo sát hai mô hình xác suất khác cho lọc cộng tác mô hình Cluster mạng Bayes. Trong mô hình Cluster, người dùng có sở thích giống tập hợp lại thành class. Trong class người dùng, đánh giá xem độc lập với nhau, nghĩa cấu trúc mô hình giống mô hình Bayes thô sơ ban đầu. Số lượng class thông số mô hình biết từ liệu. Và thuật toán lựa chọn sử dụng mô hình thuật toán K- Mean Clustering. Với mô hình Bayes biểu diễn item node mạng này, trạng thái node tương ứng với giá trị trọng số item nhận biết được. Cả cấu trúc mạng xác suất điều kiện nhận biết từ liệu. Vì giới hạn phương pháp người dùng tập hợp lại thành nhóm (cluster) đơn lẻ, vài ứng dụng tư vấn lợi từ khả hợp người dùng thành vài nhóm lúc. Chẳng hạn, tư vấn sách, người dùng quan tâm đến chủ đề (ví dụ: lập trình) với mục đích công việc hoàn toàn quan tâm đến chủ đề khác vào thời gian rảnh rỗi. 2.3.1 Hệ phân loại Naïve Bayes Hệ phân loại naïve Bayes biểu diễn thành mạng Bayes hình 25 TTTN-2013-Trần Đức Việt-BKHN C X1 X2 . Xm Hệ phân loại NaïveBayes Mạng Bayes phương pháp cổ điển để tìm xác suất kiện kiện khác xảy ra. Đây mô hình xác suất phổ biến sử dụng lọc cộng tác. Mỗi người dùng mô tả mạng Bayes, node ứng với sản phẩm (item). Trạng thái node thể giá trị đánh giá người dùng sản phẩm tương ứng. Để xây dựng mô hình phải thực giải thuật học mạng Bayes tập liệu huấn luyện đánh giá người dùng toàn sản phẩm. Không xác suất điều kiện mà cấu trúc mạng phải học từ liệu. Tiêu chuẩn đánh giá cho mô hình độ phục thuộc sản phẩm. Mạng xây dựng phải đảm bảo tiêu chuẩn node phải có tập node cha node dự đoán tốt cho giá trị node đó. Mỗi node có bảng xác suất điều kiện thể toàn xác suất có điều kiện node biểu diễn định. Với phương pháp ta phải tính toàn xác suất có điều kiện để sản phẩm nhận đánh giá với mức độ ta biết mức độ đánh giá sản phẩm khác sở thống kê đánh giá toàn hệ thống (xác suất để node trạng thái 26 TTTN-2013-Trần Đức Việt-BKHN xác định biết trạng thái node khác). Sau tiến hành lọc để sinh mạng Bayes cho người dùng dựa sản phẩm người dùng đáng giá cho node đánh giá node cha cho node chưa đánh giá. Các node đại diện giá trị ngẫu nhiên lớp C, thành phần vector đầu vào X1….XM. Mạng Bayes hình 4.1 biểu diễn mô hình biểu diễn mạng Bayes: Thuộc tính đầu vào Xj độc lập với giá trị lớp nhãn C. Gọi tắt naïve Bayes assumption (Giả định Naïve Bayes) từ tên classifier (hệ phân loại) đời. Để huấn luyện cho hệ phân loại Bayes cần yêu cầu tính toán giá trị P(C=c) xác suất để lớp nhãn C nhận giá trị c; P(X j=x|C=c) xác suất giá trị đầu vào X j nhận giá trị x giá trị lớp nhãn C = c. Những giá trị ước lượng cách sử dụng tính toán dựa tần số xuất từ liệu huấn luyện công thức 4.10 4.11. Cho đầu vào mẫu x q, phân loại thông qua luật công thức 4.12. Khi áp dụng hệ phân loại vào miền ứng dụng với thuộc tính không rõ chất lượng, tính lựa chọn thường dùng để chọn lọc từ tập thuộc tính tập dùng cho việc phân loại. Lọc chọn thuộc tính thường sử dụng hệ phân loại Bayes dựa kinh nghiệm trao đổi thông tin biến lớp biến thuộc tính. Điểm kinh nghiệm trao đổi thông tin tính toán với thuộc tính, thuộc tính xếp theo điểm số giảm dần. K thuộc tính với số điểm cao giữ lại đặc tính. Trong trường hợp tất biến độc lập, kinh nghiệm thông tin qua lại dễ dàng tính toán dựa phân phối tìm 27 TTTN-2013-Trần Đức Việt-BKHN thấy học hệ phân loại. Công thức tính đưa đẳng thức 4.13. Thông tin qua lại tính toán suốt trình học. Một vấn đề sử dụng thông tin qua lại làm tính chọn lọc chọn thuộc tính dư thừa. Ví dụ, mô hình chứa nhiều giá trị thuộc tính, giá trị thuộc tính có giá trị lớn liên hệ với giá trị lớp, chọn lọc dựa thông tin qua lại chọn thuộc tính. Khi chọn lọc số lượng nhỏ thuộc tính, điều có lẽ vấn đề. Dự đoán đánh giá theo mạng Bayes. Để áp dụng hệ phân loại Bayes vào dự đoán đánh giá học độc lập hệ phân loại cho sản phẩm y. Chúng ta huấn luyện hệ phân loại cho sản phẩm y sử dụng tất người dùng u đánh giá cho y tập liệu. Vector đầu vào sử dụng để xây dựng hệ phân loại cho sản phẩm y bao gồm đánh giá tất sản phẩm khác y. Chúng ta gọi y lớp sản phẩm sản phẩm lại sản phẩm thuộc tính. Chúng ta biểu diễn hệ phân loại Bayes cho sản phẩm y mạng Bayes hình 4.2 28 TTTN-2013-Trần Đức Việt-BKHN Để tìm hiểm hệ dự đoán đánh giá Bayes phải ước lượng P(R y=v) P(Rj=w|Ry=v). Các luật học Bayes công thức 4.10 4.11 áp dụng mà không cần chỉnh sửa gì, làm mịn xác suất cách cộng thêm giá trị để tránh xác suất 0. Luật huấn luyện sau làm mịn biểu diễn công thức 4.14 4.15. Thủ tục học đầy đủ đưa thuật toán 4.2 . 29 TTTN-2013-Trần Đức Việt-BKHN Để dự đoán giá trị cho hồ sơ người dùng thực a áp dụng sửa đổi nhỏ luật dự đoán để xử lý giá trị lỗi. Các luật dự đoán công thức 4.16. Một kỹ thuật dự đoán hoàn chỉnh thuật toán 4.3. Áp dụng kỹ thuật chọn thuộc tính miêu tả mục 4.2 có vài hữu ích. Thứ nhất, giảm số lượng biến cần lưu trữ từ xuống . Thứ hai, việc ước lượng thuộc tính phù hợp giảm lỗi dự đoán. Lựa chọn thuộc tính dựa kinh nghiệm thông tin trao đối ứng cử viên xác suất cần thiết cho tính toán điểm tìm ước lượng biến cho hệ phân loại. Tuy nhiên, tính toán điểm kinh nghiệm thông tin qua lại cho thuộc tính khác sản phẩm dựa số đối tượng đánh giá có đánh giá. Rõ ràng tin tưởng việc tính toán ước lượng thông tin qua lại sử dụng nhiều số lượng đánh giá tính toán trường hợp số lượng đánh giá. Một điểm số heuristic đơn giản đạt cách cân giá trị thông tin trao đổi thuộc tính sản phẩm thông qua số lượng ví dụ sử dụng để tính toán. Zafalon Hutter đưa nguyên lý, sử dụng Bayes để giải vấn đề dựa ước lượng phân phối thông tin trao đổi. 2.3.2 K – Means Clustering Thuật toán K – Means phát triển J.MacQueen (1967) sau J.A. Hartigan M.A.Wong đưa vào năm 1975. Giống tên gọi thuật toán nhằm phân loại nhóm đối tượng lại với dựa thuộc tính/đặc trưng thành K nhóm. K số nguyên dương. Thông qua việc cực tiểu hóa tổng bình phương 30 TTTN-2013-Trần Đức Việt-BKHN khoảng cách liệu nhóm tạo thành tương ứng. Vì mục đích K – Means clustering để phân loại liệu. Ví dụ: Giả thuyết có đối tượng, đối tượng có thuộc tính điểm tương ứng sau: Khởi tạo Giả Đối tượng Thuộc tính Thuộc tính A B C rằng, giá trị nhóm: thuyết sử dụng Bc1: D A, B nhóm ban đầu. Đặt c1 c2 biểu thị nhóm tương ứng, c1 = (1,1) c2 = (2,1). Bc2: Khoảng cách nhóm – đối tượng: Chúng ta tính toán khoảng cách nhóm cụm với đối được. Ở để đơn giản, sử dụng khoảng cách Eudidean. Tại bước lặp 0, đưa ma trận khoảng cách sau: c1 = (1,1) c2 = (2,1) 31 TTTN-2013-Trần Đức Việt-BKHN X Y Mỗi cột ma trận khoảng cách tính sau: Cột ma trận khoảng cách tương ứng với khoảng cách đối tượng với nhóm đầu tiên; cột thứ khoảng cách mối dối tượng với nhóm thứ 2. Ví dụ: Khoảng cách từ C = (4,3) tới nhóm c = (1,1) , khoảng cách tới nhóm ứ c2 = (2,1) , Bc3: Nhóm đối tượng: Chúng gán đối tượng dựa khoảng cách cực tiểu. Vì vậy, A gán nhóm 1, B nhóm 2, C nhóm D nhóm 2. Mỗi phần tử ma trận nhóm đối tượng gán nhóm đó: nhóm nhóm A B C D Bc4: Bước lặp 1, xác định nhóm: Chúng ta biết thành phần nhóm, tính toán nhóm cho nhóm dựa thành phần 32 TTTN-2013-Trần Đức Việt-BKHN này. Nhóm có phần tử, nên giữ lại nhóm c = (1, 1). Nhóm có ba thành phần, nhóm xác định trung bình tương ứng thành phần đó: c2 = ( ) =( ) Bc5: Tính toán tương tự bc2, có ma trận sau: c1 = (1,1) c2 = ( nhóm ) nhóm X Y Bc6: Nhóm đối tượng: Làm tương tự bước 3, gán đối tượng dựa khoảng cách cực tiểu. Vì vậy, A, B gán nhóm 1, C nhóm D nhóm 2. Mỗi phần tử ma trận nhóm đối tượng gán nhóm đó: 33 TTTN-2013-Trần Đức Việt-BKHN nhóm nhóm A B C D Bc7: Lặp lại bước 4. Ta thấy nhóm nhóm có thành phần có điểm xuất phát c1 = ( ) =( c2 = ( ) =( ) ) Bc8: Lặp lại bước lần nữa, tính ma trận khoảng cách sau: c1 = (1,1) c2 = ( ) nhóm 34 TTTN-2013-Trần Đức Việt-BKHN nhóm X Y Bc9: Chúng ta kết sau: nhóm nhóm A Nhận xét: = B C D . Vì mà đưa kết sau Đối tượng Thuộc tính Thuộc tính Nhóm kết A B C D 3. Áp dụng vào toán 35 TTTN-2013-Trần Đức Việt-BKHN Tài liệu tham khảo: 1. Recommender Systems Handbook - Paul B. Kantor. 2. A Collaborative Filtering Based Web Service Recommender System – Zibin Zheng HK 3. Đồ án 2011 Nguyễn Tiến Duy “Nghiên cứu xây dựng hệ gợi ý phim” ĐH Bách Khoa Hà Nội. 4. Khóa luận Nguyễn Song Hà “Hệ thống tư vấn website cho máy tìm kiếm dựa khai phá query” - ĐH Công Nghệ - ĐHQG HN. Em xin chân thành cảm ơn cô Lê Thanh Hương thầy Ngô Văn Linh hướng dẫn giúp đỡ em trình thực tập này! 36 TTTN-2013-Trần Đức Việt-BKHN [...]... system) đưa ra các gợi ý về sản phẩm trong một lĩnh vực cụ thể, dựa trên việc xem xét các đặc tính của sản phẩm, nhu cầu và sở thích người dung, đánh giá dụng ích của sản phầm 15 TTTN-2013-Trần Đức Việt-BKHN 1.5 Đánh giá các phương pháp Các phương pháp học trong hệ gợi ý đều có điểm mạnh và điểm yếu Một số vấn đề cần giải quyết trong hệ gợi ý: Người dùng mới: Vì hệ thống đưa ra gợi ý dựa trên kết quả... Việt-BKHN 1 Có thể đưa ra gợi ý không cần trải qua quá trình học 2 Yêu cầu kiến thức chuyên gia người dùng và sản phẩm 18 TTTN-2013-Trần Đức Việt-BKHN CHƯƠNG III : HỆ THỐNG GỢI Ý PHIM 1 Mô tả bài toán Xây dựng hệ thống gợi ý phim Hệ thống có người dùng, và bộ phim Xác định danh sách các bộ phim mà người dùng chưa xem và theo dự đoán người dùng mức độ ưu tiên cao cho các bộ phim này Phát biểu bài toán... hệ thống Gợi ý Hầu hết các hệ thống thương mại đều có các mặt hàng hết sức là đa dạng Khi nắm bắt được nhu cầu của người dùng, hệ thống Gợi ý dễ dàng mang đến sự đa dạng trong sự lụa chọn hàng hóa Tăng sự hài lòng người dùng: Vai trò chủ đạo của hệ thống Gợi ý là hiểu nhu cầu của người dùng, gợi ý cho họ những thứ họ cần Chính vì vậy hệ thống Gợi ý tăng sự hài lòng của người dùng trên hệ thống Tăng... đánh giá Hệ thống Gợi ý dựa trên các đánh giá này mà xếp hạng các sản phẩm và gợi ý cho người dùng Trong ví dụ này, hệ thống Gợi ý phải đưa ra dự toán, người dùng 1 đánh giá sản phẩm 2 là bao nhiêu Người dùng 3 đánh giá sản phẩm 1, 2, 3 là bao nhiêu Hệ thống Gợi ý lọc cộng tác dự đoán độ phù hợp u (c,s) của một sản phẩm s với người dùng c dựa trên độ phù hợp u (c,s) giữa người dùng ci và c, trong đó... Các chức năng của hệ thống gợi ý Hệ thống Gợi ý là công cụ phần mềm với các đề xuất cho người dùng những sản phầm, dịch vụ mà họ có thể muốn sử dụng Dưới đây là một số chức năng của hệ thống: Tăng số lượng các mặt hàng bán ra cho các hệ thống thương mại điện tử: Đây có lẽ là chức năng quan trọng nhất của hệ thống Gợi ý Thay vì người dùng chỉ mua một sản phẩm mà họ cần, họ được Gợi ý mua những sản phẩm... ra Hệ thống Gợi ý tìm ra những ‘mối quan tâm ẩn’ Bằng cách đó, hệ thống Gợi ý làm gia tăng nhu cầu của người dùng và gia tăng số lượng mặt hàng bán ra.Tương tự đối với các hệ thống phi thương mại (như các trang báo), hệ thống Gợi ý sẽ giúp người dùng tiếp cận với nhiều đối tượng hơn Bán các mặt hàng đa dạng hơn trên các hệ thống thương mại điện tử: Đây là chức năng quan trọng thứ hai của hệ thống Gợi. .. dùng trong hệ thống tập bộ phim trong hệ thống một người dùng một bộ phim đánh giá của người dùng cho bộ phim nhận giá trị trong tập Giá trị đánh giá có thể là giá trị nhị phân , hoặc giá trị số nguyên Hệ gợi ý sẽ dự đoán đánh giá của người dùng u cho tập các bộ phim: Dựa trên kết quả tính toán, đưa ra bộ phim với mà người dùng chưa xem, mà theo dự đoán mức độ ưu tiên của người dùng cho các bộ phim. .. thuộc tập gợi ý là cao nhất Dựa trên các dữ liệu thu thập là đánh giá của người dùng với các bộ phim trong hệ thống (explicit data), áp dụng các mô hình tính toán, dự đoán đánh giá của một người dùng xác định với các bộ phim mà họ chưa xem Dựa trên dữ liệu thu thập về đánh giá của cộng đồng về các bộ phim trong hệ thống, thông tin cá nhân, và các thuộc tính mỗi bộ phim, từ đó xếp hạng các bộ phim ứng theo... (user profile) trước khi hệ thống có thể đưa các gợi ý Mức độ thưa của dữ liệu (sparsity): trong các hệ gợi ý, số lượng đánh giá của người dùng được thu thập thường rất nhỏ so với số lượng người dùng nhân với số lượng sản phẩm Vì vậy yêu cầu đặt ra là một phương pháp dự đoán hoạt động hiệu quả trong cả trường hợp dữ liệu thu thập không lớn Quy mô hệ thống (Scalability): hệ gợi ý cần được thiết kế để... người dùng: Một khi hệ thống gợi ý cho người dùng những lựa chọn và họ hài lòng vể những gợi ý đó thì lòng tin của họ đối với hệ thống (nơi mà giúp họ tìm ra những thứ họ thực sự quan tâm) được nâng lên một cách đáng kể Đây thật sự là một điều thích thú và thu hút người dùng Có một điểm quan trọng là hệ thống Gợi ý hoạt động dựa trên những xếp hạng thật từ chính bản thân người dùng trong quá khứ Do đó,