Nghiên cứu và ứng dụng khai phá dữ liệu để xây dựng hệ tư vấn cho diễn đàn trực tuyến

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ PHƯỢNG NGHIÊN CỨU VÀ ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ XÂY DỰNG HỆ TƯ VẤN CHO DIỄN ĐÀN TRỰC TUYẾN LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2013 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ PHƯỢNG NGHIÊN CỨU VÀ ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ XÂY DỰNG HỆ TƯ VẤN CHO DIỄN ĐÀN TRỰC TUYẾN Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Hà Nam Hà Nội - 2013 Mục Lục Lời cảm ơn Lời cam đoan Danh mục hình vẽ Danh mục bảng biểu Danh mục từ viết tắt Lời mở đầu Chương Giới thiệu toán 1.1.Đặt vấn đề 1.2.Mục tiêu đề tài 1.3.Phương pháp nghiên cứu 1.4.Bố cục luận văn Chương Tổng quan hệ tư 2.1.Lý thuyết hệ tư vấn 2.2.Phân loại hệ tư vấn 2.2.1 Hệ tư vấn dựa nội dung 2.2.2 Hệ thống lọc cộng tác 2.3.Nghiên cứu số hệ thống gợi ý tin tức 2.3.1 Trang web Amazon.com 2.3.2 Trang web baomoi.com 2.3.3 Hệ thống gợi ý tin Việt xenoNews Chương Kỹ thuật lọc cộng tác hệ tư vấn nghiên cứu liên quan 3.1 Các độ đo tương tự vận dụng lọc cộng tác 3.1.1 Phép đo khoảng cách Minkowski 3.1.2 Khoảng cách Hamming 3.1.3 Độ tương quan Pearson 3.1.4 Độ tương đồng dựa Cosine 3.1.5 Độ tương đồng Jaccard 3.2.Các kỹ thuật lọc cộng tác 3.2.1 Lọc cộng tác dựa kinh nghiệm 3.2.1.1 Lọc cộng tác dựa vào người dùng 3.2.1.2 Lọc cộng tác dựa vào tài nguyên 3.2.2 Lọc cộng tác dựa mô hình 3.3.Kỹ thuật chọn tốp N gợi ý lọc cộng tác 3.4 Một số nghiên cứu khắc phục hạn chế lọc cộng tác Chương Xây dựng mơ hình thực nghiệm 4.1.Hệ thống lọc tin cho diễn đàn 4.2.Quá trình xử lý lọc tin cho diễn đàn 4.2.1 Tính điểm, tạo ma trận rate 4.2.2 Xây dựng nhóm người dùng tương tự 4.2.3 Tạo tốp N gợi ý 4.2.4 Kiểm tra điều kiện 4.3 Ví dụ minh họa trình xử lý lọc 4.4 Môi trường thực nghiệm lọc 4.5 Mô tả chuyển đổi liệu diễn đàn 4.6 Thực nghiệm đánh giá kết 4.6.1 Độ đo đánh giá lọc tin diễn đàn 4.6.2 Thực nghiệm phân tích kết Kết luận Tài liệu tham khảo Lời cảm ơn Trước tiên, xin gửi lời cảm ơn sâu sắc tới PGS.TS Nguyễn Hà Nam, Đại học Công nghệ, Đại học Quốc Gia Hà Nội tận tình hướng dẫn tơi suốt q trình thực luận văn tốt nghiệp Tôi xin bày tỏ lời cảm ơn chân thành tới trường Đại học Công Nghệ thầy cô giáo giảng dạy, truyền thụ kiến thức thời gian học tập trường Cuối cùng, tơi xin cảm ơn tất gia đình, bạn bè, người thân yêu ủng hộ, động viên, giúp đỡ, tạo điều kiện cho tơi hồn thành luận văn Do thời gian có hạn nên luận văn khơng thể tránh khỏi thiếu sót Rất mong nhận đóng góp ý kiến thầy, giáo, bạn bè, quý vị quan tâm tới đề tài để luận văn hoàn thiện Học viên Vũ Thị Phượng Lời cam đoan Tôi xin cam đoan kết đạt luận văn sản phẩm riêng cá nhân Tất tham khảo từ nghiên cứu liên quan nêu nguồn gốc cách rõ ràng trích dẫn hợp pháp Trong luận văn, khơng có việc chép tài liệu, cơng trình nghiên cứu người khác mà khơng rõ tài liệu tham khảo Học viên Vũ Thị Phượng Danh mục hình vẽ Hình 2.1 Tư vấn dựa nội dung Hình 2.2 Tư vấn dựa cộng tác Hình 2.3 Hệ thống tư vấn lai Fab Hình 2.4 Hệ thống tích hợp gợi ý sách Amazon.com Hình 2.5 Giao diện gợi ý sản phẩm đánh giá Amazon Hình 2.6 Giao diện tạo chuyên mục trang web baomoi.com Hình 2.7 Giao diện gợi ý tin khơng xếp baomoi.com Hình 3.1 Đồ thị ví dụ so sánh đánh giá người dùng lân cận Hình 3.2 Sơ đồ thể quy trình CF Hình 3.3 Mơ tả CF dựa vào người dùng Hình 3.4 Minh họa phương pháp user - based Hình 3.5 Minh họa vấn đề chọn k hàng xóm Hình 3.6 Minh họa phương pháp item - based Hình 4.1 Quá trình xử lý lọc Hình 4.2 Quá trình chuyển đổi liệu lọc Hình 4.3 So sánh độ đo F1 dùng hàm tương quan Cosine Euclidean Danh mục bảng biểu Bảng 2.1 Tổng hợp ba phương pháp tư vấn kỹ thuật hỗ trợ [1] Bảng 3.1 Ví dụ đánh giá người dùng Bảng 3.2 Giá trị khoảng cách dùng độ đo Manhattan Bảng 3.3 Giá trị khoảng cách dùng độ đo Euclidean Bảng 3.5 Ma trận ví dụ minh họa độ tương đồng Cosine Bảng 3.6 Ma trận mơ tả trung bình giá trị ma trận user-item Bảng 3.7 Bảng minh họa mơ hình cộng đồng đa tiêu chí Bảng 4.1 Ma trận rate đầu vào cho thuật toán CF Bảng 4.2 Ma trận rate phản ánh k người dùng gần Bảng 4.3 Bảng ma trận giá trị ví dụ trình xử lý lọc Bảng 4.4 Bảng ma trận ví dụ minh họa kỹ thuật tốp N Bảng 4.5 Bảng mô tả thành phần độ đo đánh giá Bảng 4.6 Bảng ma trận giá trị ví dụ đánh giá lọc Bảng 4.7 Thống kê độ xác với k hàng xóm khác Bảng 4.8 Thống kê chi tiết kết đánh giá dùng độ đo Cosine CSDL RS CF CB Lời mở đầu Ngày với tốc độ phát triển mạnh mẽ Internet mang đến cho người nhiều tiện ích, dịch vụ khác Đặc biệt với tham gia thương mại điện tử, trang mạng cá nhân, diễn đàn điện tử, blog… số lượng thông tin trao đổi Internet tăng theo cấp số nhân Người dùng dễ bị ngập lụt nhiều nguồn, nhiều loại thông tin mà làm để tiếp cận thơng tin muốn cách nhanh nhất, đơi cịn rơi vào tình trạng vơ phương hướng khơng nhận thơng tin, sản phẩm quan trọng phù hợp với Mặc dù có số cơng cụ tìm kiếm với từ khóa google, yahoo bing giúp tìm kiếm thông tin cần thiết Tuy vậy, với lượng thông tin tăng lên nhanh chóng cơng cụ dần tỏ khơng hồn tồn đáp ứng nhu cầu người Người dùng phải bỏ nhiều thời gian để lọc thông tin từ kết tìm kiếm máy tìm kiếm Vậy nhu cầu đặt cần có hệ thống tư vấn để định hướng người dùng đến thông tin quan trọng phù hợp với nhiều nhu cầu khác họ Các hệ tư vấn tính tốn dự đốn khả người dùng thích sản phẩm hay thơng tin đó, từ đưa gợi ý phù hợp với người dùng Trong giới Internet có nhiều trang web cần đến hệ tư vấn như: trang kinh doanh sản phẩm, người dùng cần nên tư vấn sản phẩm phổ dụng, đại phù hợp với sở thích mục đích sinh hoạt họ; trang tin tức tổng hợp, người dùng không muốn nhiều thời gian tản mạn kết nối khác hay trang xem phim người dùng đắm chìm biển vơ số phim ngồi nước mà khơng biết phim thực hứng thú Đặc biệt xuất nhiều diễn đàn điện tử (forum) cá nhân, nhóm cá nhân hay tổ chức Vấn đề tơi muốn đề cập luận văn cần thiết hệ gợi ý tin diễn đàn điện tử Luận văn định hướng nghiên cứu tổng quan hệ tư vấn trọng tâm hệ thống gợi ý tin tức dựa vào cộng tác định hướng người dùng theo phương pháp láng giềng gần (user- based - nearest neigbor collaborating fillter), sử dụng kỹ thuật tốp N gợi ý vận dụng vào hệ thống diễn đàn điện tử Tuệ Tĩnh B1 Tạo bảng liệu bảng user_read chứa user_id (mã user), thread_id (mã tin), post_count (số lần comment), thread_read_date (ngày đọc) trích lọc từ hai bảng xf_thread_read xf_thread_user_post 59 Bảng user_read lấy tất tin bảng xf_thread_read có mã thread_id; user_id với bảng xf_thread_user_post khơng mã lấy giá trị bảng xfthread_read bảng xf_ thread_read chứa xf_thread_user_post ngược lại Tức người dùng comment tin mà khơng đọc đọc mà khơng comment đọc comment Do tồn giá trị NULL kết trả lại B2 Tạo bảng liệu user_rate chứa user_id (mã người dùng), thread_id (mã tin), rate Giá trị rate tạo theo quy luật vừa mô tả Rate tổng điểm thu hai loại tương tác đọc comment Vậy với đặc điểm liệu tác giả xây dựng bảng rate hình 4.2 Trong đó, dịng thể rate cặp user-item phản ánh điểm người dùng dành cho mục tin Qua ta thấy người dùng tương tác với tin, với hệ thống tính tốn điểm đánh giá Đây bảng quan trọng truy vấn từ liệu gốc diễn đàn Tuệ Tĩnh để từ việc dùng code ta chuyển giá trị thread_id thành hàng giá trị cột rate giao hàng user cột thread_id thu ma trận rate cuối bảng 4.1 đầu vào thuật toán CF mà luận văn nghiên cứu 4.6 Thực nghiệm đánh giá kết 4.6.1 Độ đo đánh giá lọc tin diễn đàn Có nhiều độ đo đánh giá sử dụng để đánh giá thuật toán hệ tư vấn như: MAE (Mean Absolute Error), coverage, EU (Expected Utility) độ xác (Precision) độ hồi tưởng (recall) độ đo phổ biến tìm kiếm thông tin kế tục nghiên cứu Sarwar Billsus Pazzani [21,23] Độ đo phù hợp để đánh giá toán tốp N gợi ý việc xem xét điểm đánh giá mục tin Theo Herlicker phải xem xét: Một lượng lớn mục tin thường xuyên đánh giá người dùng nhỏ mục tin có sẵn tập liệu Số mục tin có liên quan tập test nhỏ nhiều so với tồn liệu Vì vậy, giá trị độ xác độ hồi tưởng phụ thuộc nhiều vào số lượng mục tin đánh giá người dùng, giá trị họ khơng nên hiểu biện pháp tuyệt đối Vấn đề tư vấn lấy tốp N (top-N) mục tin cho người dùng, đầu hệ thống danh sách mục tin mà người dùng hài lòng Điểm quan trọng chủ yếu việc đánh giá hệ thống muốn tìm hiểu xem người sử dụng quan tâm đánh giá số tất mục tin danh sách tốp N mục tin Từ nhiều nghiên cứu chất lượng lọc cộng tác lấy tốp N gợi ý thể 60 qua tiêu chí: độ xác, độ hồi tưởng tiêu chuẩn đánh giá (F1) tổng hợp từ độ xác độ hồi tưởng [21,23,25] Độ xác tỉ lệ mục tin hệ thống đánh giá “có liên quan” (gợi ý cho người dùng) người dùng phản hồi gợi ý xác tổng số mục tin mà hệ tư vấn cho tốt Còn độ hồi tưởng phần trăm mục tin người dùng cho “có liên quan” (đến sở thích, đặc điểm đọc họ) đồng thời hệ thống đưa vào kết gợi ý cho người dùng tổng số mục tin mà người dùng đọc Để hiểu rõ vận dụng độ đánh giá vào lọc ta gọi: + Nr: tổng số mục tin người dùng quan tâm thực (người dùng cho tốt với họ) toàn liệu + Ns: Số mục tin mà hệ thống gợi ý cho người dùng (bộ lọc đánh giá tốt) + Nrs: Số mục tin mà lọc gợi ý người dùng cho phù hợp với họ Bảng 4.5 Bảng mô tả thành phần độ đo đánh giá Trong liệu diễn đàn, xét người dùng ta coi mục tin có rate > rate trung bình tất mục tin thuộc vào lớp Relevant (quan tâm) đối chiếu với bảng Nr, lại mục tin thuộc vào lớp irrelevant (khơng quan tâm ) tức tập Ni Để tính recall, precision ta cần chia tập mục tin thành tập mục tin lọc tư vấn (Ns) tập không tư vấn (Nn) Việc lấy tốp N mục tin tư vấn: số có tổng điểm (xét người dùng tương đồng) > trung bình tổng rate (xét người dùng tương đồng) Chú ý rằng: tập Ns tập tốp N mà ta bàn thuật toán Từ ta có cơng thức tính độ đo sau: Pr ecision  Re call  Để hiểu rõ chất hai độ đo này, ta xét lại ví dụ mục 4.3 xét liệu lớn gồm n=6 người dùng, m=13 mục tin bảng 4.6 ua người dùng tập thực nghiệm lấy để thực nghiệm Trước tiên ta chia tập mục tin thành phần, phần chiếm 2/3 mục tin (13*2/3) làm liệu học 61 (giả sử từ s1 đến s9) phần chiếm 1/3 mục tin (13*1/3) làm liệu kiểm tra (giả sử từ s10 đến s13) Ta dùng liệu học để tìm người hàng xóm tin cậy ua Bảng 4.6 Bảng ma trận giá trị ví dụ đánh giá lọc s1 ua u1 u2 u3 u4 u5 u6 Giả sử dùng độ đo Cosine để tính độ tương tự ta có kết sau: Similary(ua,u1) = Similary(ua,u4) = Xét số hàng xóm k=3 ta chọn hàng xóm tin cậy ua {u1,u4,u6} có độ đo Cosine với ua lớn Tiếp theo ta xét liệu kiểm tra từ s 10 đến s13, dùng kỹ thuật lấy tốp N gợi ý phân tích mục 4.2.3 ta có tốp N mục tin tư vấn cho ua {s11, s12,s13} có tổng rate 4; 4; (lớn trung bình tổng rate 3.8) => Ns=3 Xét người dùng thực nghiệm ua ta tính avgua=(1+0+1+1)/4=0.75 Như mục tin có rate>0.75 mục tin mà ua xem quan  tâm thực Đó mục tin {s10,s12,s13} có rate 1; 1; Nr=3; Từ ta tính Nrs =2 (vì lọc giới thiệu mục tin trùng với mục tin ua quan tâm thực tin s12,s13) Precision=Nrs/Ns=2/3=66.7% Recall=Nrs/Nr=2/3=66.7% Một phân lớp hữu ích cho mục đích gợi ý cần phải đưa nhiều mục tin thông tin thực phù hợp cho người dùng (tối ưu độ hồi tưởng), với độ xác cao (tối ưu độ xác) Để hợp hai giá trị này, Lewis cộng Gale đề xuất độ đo F-measure (F1), giá trị kết hợp có trọng số precision recall, khoảng giá trị từ đến Các kết báo cáo luận văn coi độ xác độ hồi tưởng có tầm quan trọng Từ đó, ta có cơng thức F1 định nghĩa sau: F1  Vậy với mẫu liệu 4.3 ta tính được: F1=2*precision*recall/(precision+recall)=2*66.7*66.7/(66.7+66.7)=66.7% F1 nên tính tốn người dùng riêng lẻ sau tính trung bình độ đánh giá tất người dùng tập thử nghiệm T [13] Cách đánh giá áp dụng vào đánh giá chất lượng tư vấn lọc tin diễn đàn Tuệ Tĩnh luận văn 4.6.2 Thực nghiệm phân tích kết Trong luận văn q trình thực nghiệm nhằm kiểm tra môđun lọc cộng tác liệu diễn đàn Tuệ Tĩnh xem độ đo Euclidean hay Cosine cho chất lượng lọc cao Việc chọn số lượng người dùng lân cận k (số người dùng tương đồng) định chất lượng tư vấn Do lọc test giá trị k khoảng [5 20] chứng minh độ xác lọc mức phát triển để vận dụng thực tiễn Ngồi luận văn cịn thực nghiệm gợi ý tin, nhập mã người dùng lọc hiển thị nhóm người dùng tương đồng với họ hiển thị danh sách tin gợi ý cho người Bộ lọc cộng tác thực nghiệm dành cho diễn đàn Tuệ Tĩnh chọn liệu có 1628 cặp tương tác user – item, có khoảng 245 người dùng khác gần 300 mục tin (mã tin) Mỗi người có tương tác với 10 tin Để có kết đánh giá, ta chia liệu thành hai phần Phần chiếm 2/3 liệu tin ban đầu tập người dùng cố định (245 người) coi tập học Phần hai chiếm 1/3 liệu tin ban đầu tập người dùng cố định (245 người) coi tập kiểm tra Quá trình thực nghiệm chọn ngẫu nhiên 10 người dùng gọi tập người dùng thử nghiệm Các độ đánh giá tính tốn người dùng riêng lẻ sau tính trung bình độ đánh giá tất người dùng tập thử nghiệm T Với người dùng thử nghiệm ta tìm cộng đồng người dùng tương tự cách sử dụng độ đo Cosine (hoặc Euclidean) Sau tìm cộng đồng người dùng tương tự lọc áp dụng kỹ thuật lấy tốp N mục tin (xét tập liệu kiểm tra) lấy tin tập kiểm tra cần tư vấn cho người dùng thử nghiệm Bộ lọc đối chiếu với kết thực tế mà người dùng thử nghiệm đánh giá tin tập kiểm tra Từ trùng lặp tin người dùng đọc thực với tin lọc gợi ý ta tính độ xác (precision) độ hồi tưởng (recall) phân tích mục 4.6.1 Q trình thực nghiệm với phép thử giá trị người dùng lân cận (k) khác ta có kết thống kê độ xác (precision) bảng 4.7 Quan sát bảng 5.2 ta thấy với user_id = 1305 ứng với việc chọn k hàng xóm tin cậy khác cho độ xác khác nhau, k=5 độ xác 59.5 tương tự ta thấy k=9,11,13,15… 40 Kết thử nghiệm cho thấy k=11 cho độ xác ổn định cao Bảng 4.7 Thống kê độ xác với k hàng xóm khác user_id 683 1305 3539 9701 …… Trung bình - Quá trình thử nghiệm hai độ đo tương tự Cosine Euclidean, xét người dùng tập thử nghiệm kết độ đo F1 tổng hợp từ hai độ đo precision recall thống kê hình 4.3 Kết thực nghiệm cho biết dùng độ đo Cosine lọc tin diễn đàn sử dụng kỹ thuật lọc cộng tác cho kết tư vấn cao dùng độ đo Euclidean Hình 4.3 So sánh độ đo F1 dùng hàm tương quan Cosine Euclidean - Chi tiết số kết tập người dùng thử nghiệm dùng độ đo Cosine thể bảng 4.8 Qua kết thống kê với user_id=345 số tin mà lọc gợi ý ý người dùng (người dùng quan tâm thực sự) Trong lọc gợi ý cho người 12 Từ ta tìm độ xác cho người dùng 75% (9*100/12) Số mà người quan tâm thực 15, từ ta tính độ hồi tưởng 60% (9*100/15) Với kết bảng 4.8 nhận thấy số tin người dùng quan tâm thực số tin mà lọc (dựa vào cộng đồng tương tự người này) gợi ý cho họ chênh lệch không nhiều Bộ lọc cho kết đồng người 64 dùng thực nghiệm chứng tỏ việc tìm cộng đồng tương tự liệu diễn đàn phù hợp khả quan Với liệu diễn đàn độ hồi tưởng cao độ xác số lượng quan tâm người khác khác nhau, có người quan tâm bài, có người quan tâm nhiều Do cộng đồng người tương đồng với họ quan tâm số lượng lớn họ, dẫn đến số lọc tin gợi ý cho họ lớn số họ quan tâm thực Bảng 4.8 Thống kê chi tiết kết đánh giá dùng độ đo Cosine Tiêu ch đánh gi User_id 64 197 345 683 1305 2749 2803 3539 9701 11309 Trung bình Nhận xét: Qua thực nghiệm tơi tăng, giảm lượng người dùng tin 10%, 20% độ xác tăng giảm khơng đáng kể Mà độ xác phụ thuộc vào số lượng đánh giá (tức số lượng tương tác) mà người dùng dành cho tin Với người dùng có q tương tác với tin việc tìm cộng đồng tương tự thường khơng thực tế dẫn đến độ xác khơng cao có chênh lệch lượng người dùng quan tâm lượng hệ thống tư vấn Người dùng có nhiều tương tác với nhiều mục tin (xét tin tập học) độ xác mà hệ thống tư vấn cho cao Do đó, với diễn đàn thành viên hoạt động tích cực chất lượng tư vấn dành cho họ cao Vậy qua kết thực nghiệm ta thấy, dùng độ tương tự Cosine cho kết độ xác cao hơn, số người dùng tương tự nên chọn k=11 Độ xác 67.1 % chứng tỏ lọc tạo đạt mức yêu cầu để làm ứng dụng gợi ý cho người dùng duyệt tin KẾT LUẬN 65 Ngày khai phá liệu lĩnh vực rộng nghiên cứu ứng dụng thực tế Trong đó, hệ tư vấn quan tâm ứng dụng nhiều với mong muốn đáp ứng nhu cầu ngày cao người dùng Một số kết tác giả làm luận văn: Tìm hiểu thực trạng nhu cầu tìm kiếm thơng tin người dùng diễn đàn nghiên cứu liệu diễn đàn tuetinhonline.edu.vn để vận dụng lọc cộng tác vào thực nghiệm tư vấn tin cho diễn đàn Tìm hiểu tổng quan hệ tư vấn nghiên cứu kỹ thuật hệ tư vấn lọc cộng tác Cụ thể phương pháp láng giềng gần kết hợp lấy tốp N tin, vận dụng phương pháp vào diễn đàn Trích lọc xử lý liệu gốc diễn đàn để tạo ma trận đánh giá user-item làm đầu vào cho thuật toán CF Việc khai thác tri thức tiềm ẩn liệu gốc tương tác người dùng diễn đàn Từ lấy đánh giá khách quan người dùng tin Khía cạnh mà luận văn áp dụng vận dụng cho tất hệ thống tồn tương tác người dùng hệ thống, tương tác lưu lại theo cách thức trang mua bán trực tuyến, trang tin tức tổng hợp… Thực nghiệm đưa gợi ý tin cho người dùng riêng lẻ họ cung cấp mã, thực nghiệm đánh giá chất lượng lọc để so sánh hai độ đo Cosine Euclidean xem độ đo cho kết gợi ý xác hơn, đồng thời thử nghiệm giá trị k hàng xóm để chọn tham số phù hợp Qua thông số đánh giá lọc khẳng định chất lượng lọc khá, vận dụng vào thực tiến  Hướng nghiên cứu Tích hợp mơ đun lọc cộng tác thành chức Tuệ Tĩnh Từ xây dựng giao diện hợp lý, sáng tạo cho gợi ý: tạo hội thoại online nhóm cộng đồng hàng xóm mà hệ tư vấn xử lý backend - Cải thiện tốc độ xử lý lọc lượng người dùng tăng lên Sử dụng độ đo tương tự hỗn hợp khai thác thuộc tính cá nhân người dùng việc tạo cộng đồng hàng xóm tin cậy để tăng chất lượng gợi ý tin, đồng thời việc khắc phục số hạn chế hạn chế người dùng Kết hợp với phương pháp lọc dựa nội dung để khắc phục hạn chế lọc 66 Tài liệu tham khảo Tiếng Anh [1] Adomavicius, G., & Tuzhilin, A.(2005), Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions Knowledge and Data Engineering, IEEE Transactions on, 17(6), 734-749 [2] William W Cohen, Center for Automated Learning and Discovery Carnegie Mellon Uninversity, “Collaborative Filtering: Atutorial” [3] J.S Breese, d.Heckerman, and C Kadie, “Emprical analysis of predictive algorithms for collaborative filtering,”Communications of the ACM, vol.40, no.3, pp.66-72,197 [4] M Balabanovic and Y Shoham, (1997), “Fab: Content-based, Collaborative Recommendation,” Communications of the ACM, vol 40, no 3, pp 66–72 [5]M Pazzani and D Billsus, (1997), “Learning and Revising User Profiles : The Identification of Interesting Web Sites,” Machine Learning 27, pp 313–331 [6] P Resnick, N Iacovou, and M Suchak, (1994), “GroupLens: an open architecture for collaborative filtering of netnews,” Proceedings of the Computer Supported Cooperative Work Conf [7] Billsus, D and M Pazzani (1998), Learning collaborative information filters In International Conference on Machine Learning, Morgan Kaufmann Publishers [8] Soboroff, I and C Nicholas, (August 1999), Combining content and collaboration in text filtering In IJCAI'99 Workshop: Machine Learning for Information Filtering [10] Linden, G., Smith, B., & York, J (2003), Amazon com recommendations: itemto-item tượng collaborative filtering Internet Computing, IEEE, 7(1), 76-80 [11] Cremonesi, P., Koren, Y., & Turrin, R (2010, September), Performance of recommender algorithms on topn recommendation tasks In Proceedings of the fourth ACM conference on Recommender systems (pp 39-46) ACM [12] D Billsus and M Pazzani, (2000), “User modeling for adaptive news access,” User modeling and user-adapted interaction, pp 147–180 [13] Vozalis, E., & Margaritis, K G (2003, September) Analysis of recommender systems algorithms In Proceedings of the 6th Hellenic European Conference on Computer Mathematics and its Applications (HERCMA-2003), Athens, Greece [14] M Claypool, A Gokhale, and T Miranda, “Combining content-based and collaborative filters in an online newspaper,” Proceedings of ACM CHI’95, 1999 [15] M Pazzani, (1999), “A framework for collaborative, content-based and demographic filtering,” Artificial Intelligence Review, pp 1–16 [16] Han, J., Kamber, M., & Pei, J (2006), Data mining: concepts and techniques Morgan kaufmann, chapter 11 67 [17] Breese, J S., Heckerman, D., & Kadie, C (1998, July), Empirical analysis of predictive algorithms for collaborative filtering In Proceedings of the Fourteenth conference on Uncertainty in artificial intelligence (pp 43-52) Morgan Kaufmann Publishers Inc [18] Benjamin Marlin,(2003), “collaborative filtering: A Machine Learning Perspective” [19] Gjoka, M., & Soldo, F (2008), Exploring collaborative filters: Neighborhood-based approach working paper, Department of MSIS, University of Texas, Austin [20] Wang, J., De Vries, A P., & Reinders, M J (2006, August), Unifying user-based and item-based collaborative filtering approaches by similarity fusion In Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval (pp 501-508) ACM [21]McLaughlin, M R., & Herlocker, J L (2004, July), A collaborative filtering algorithm and evaluation metric that accurately model the user experience In Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval (pp 329-336) ACM [22] Herlocker, J L., Konstan, J A., Riedl, J., (2002), “An Empirical Analysis of Design Choices in Neighborhood-based Collaborative Filtering Algorithms” Information Retrieval, 287-310 [23] Herlocker, J L., Konstan, J A., Terveen, L G., & Riedl, J T (2004), Evaluating collaborative filtering recommender systems ACM Transactions on Information Systems (TOIS), 22(1), 5-53 [24] Cremonesi, P., Koren, Y., & Turrin, R (2010, September), Performance of recommender algorithms on top-n recommendation tasks In Proceedings of the fourth ACM conference on Recommender systems (pp 39-46) ACM [25] Hernández del Olmo, F., & Gaudioso, E (2008), Evaluation of recommender systems: A new approach Expert Systems with Applications, 35(3), 790-804 [26] Ron Zacharski, “A programer’s guide to data Mining”, ebook [27] Sarwar, B., Karypis, G., Konstan, J., & Riedl, J (2001, April), item-based collaborative filtering recommendation algorithms In Proceedings of the 10th international conference on World Wide Web (pp 285-295) ACM [28] Linacre, J M (2010), Predicting responses from Rasch measures Journal of applied measurement, 11(1), [29] Harper, F M., Konstan, J A., Li, X., & Chen, Y (2005, September), User motivations and incentive structures in an online recommender system In Proceedings of Group 2005 Workshop on Sustaining Community: The role and design of incentive mechanisms in online systems [30] HB.Deng Introduction to Recommendation System, China University of Hongkong 68 seminar, 2006 Tiếng Việt [31] Nguyễn Thạc Huy (2013), Chọn lọc thông tin dựa nội dung ứng dụng xây dựng hệ thống gợi ý tin tức theo nhu cầu người dùng, Luận văn Thạc sĩ, Trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội [32] Nguyễn Duy Phương, Luận án Tiến sĩ, (2011), “Phát triển số phương pháp lọc thông tin cho hệ tư vấn” Trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội ... NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ PHƯỢNG NGHIÊN CỨU VÀ ỨNG DỤNG KHAI PHÁ DỮ LIỆU ĐỂ XÂY DỰNG HỆ TƯ VẤN CHO DIỄN ĐÀN TRỰC TUYẾN Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số:... giá số hệ thống tư vấn giới Việt Nam, từ phân tích khác biệt mơ hình tư vấn tin diễn đàn với hệ thống Chương Kỹ thuật lọc cộng tác hệ tư vấn nghiên cứu liên quan Tìm hiểu hệ tư vấn dựa vào cộng... nghiên cứu ta thấy cần thiết phải xây dựng, tích hợp mơ đun tư vấn trang tin, diễn đàn dựa nguồn liệu ln thường trực vấn đề nên làm Đó cách để khai thác kho liệu im lìm hệ thống Những nguồn liệu

Định dạng
Số trang	89
Dung lượng	1,08 MB