MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT iii DANH SÁCH CÁC BẢNG iv DANH SÁCH CÁC HÌNH VẼ v LỜI MỞ ĐẦU 1 1.1 Tổng quan về forum 3 1.1.1 Forum và những đặc điểm của nó 3 1.1.2 Một số thành phần cơ bản của forum 4 1.1.3 Mối quan hệ giữa các thành phần trong forum 5 1.2 Hệ thống tư vấn bài viết trên forum 6 1.2.1 Tổng quan về một hệ tư vấn 6 1.2.2 Một số phương pháp tư vấn thông dụng 7 1.2.3 Phương pháp tư vấn bài viết dựa trên nội dung 9 CHƯƠNG 2: PHƯƠNG PHÁP TƯ VẤN DỰA TRÊN NỘI DUNG 11 2.1 Nguyên tắc chung 11 2.1.1 Bài toán tư vấn bài viết dựa trên nội dung 11 2.1.2 Hướng giải quyết 12 2.2 Phương pháp biểu diễn văn bản thành dạng vector (Vector Space Model VSM) 13 2.2.1 Tổng quan về phương pháp biểu diễn văn bản thành dạng vector (Vector Space Model VSM) 13 2.2.2 Một số định nghĩa 13 2.2.3 Một ứng dụng quan trọng của VSM Xếp hạng mức độ liên quan (Relevance Ranking) 14 2.2.4 TFIDF 16 2.2.5 Ưu điểm và nhược điểm của VSM 17 2.3 Mô hình Latent Dirichlet Allocation (LDA) 18 2.3.1 Sự phát triển của LDA 19 2.3.2 Tổng quan về mô hình sinh trong LDA 20 2.3.3 Khả năng Likelihood 24 2.3.4 Ước lượng các tham số (Parameter estimate) và suy luận(Inferences) 25 2.3.5 Ứng dụng 28 2.4 Phương pháp so sánh vector 29 2.4.1 Bộ phân loại Rocchio 29 2.4.2 Phân loại Bayessian 30 2.4.3 Cosine Similarity 31 2.4.4 Mô hình phân loại Kláng giềng gần nhất 31 2.5 Sử dụng phương pháp biểu diễn văn bản thành vector để tư vấn bài viết 32 2.5.1 Vấn đề tư vấn bài viết và cách giải quyết 32 2.5.2 Biểu diễn bài viết bằng TFIDF 34 2.5.3 Biểu diễn bài viết bằng Topic Distribution 35 2.6 Kết luận 35 3.1 Thu thập dữ liệu 37 3.1.1 Lựa chọn forum thực nghiệm 37 3.1.2 Thu thập thông tin 40 3.1.3 Tiền xử lý dữ liệu 45 3.1.4 Biểu diễn nội dung các bài viết thành dạng vector 50 3.2 Tư vấn bài viết và đánh giá kết quả 53 3.2.1 Phân chia bộ dữ liệu huấn luyện và bộ dữ liệu kiểm nghiệm 53 3.2.2 Lựa chọn tập người dùng để tư vấn và biểu diễn sự quan tâm của người dùng 54 3.2.3 Tư vấn bài viết 56 3.2.4 Đánh giá kết quả 57 3.3 Ứng dụng tư vấn chọn bài viết từ forum trên window 63 KẾT LUẬN 68 TÀI LIỆU THAM KHẢO 70
TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN XÂY DỰNG HỆ THỐNG TƯ VẤN BÀI VIẾT TRÊN FORUM CHO NGƯỜI DÙNG TRÊN CƠ SỞ CÔNG NGHỆ WEB HÀ NỘI – 2016 TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN NGUYỄN THỊ KIỀU TRANG XÂY DỰNG HỆ THỐNG TƯ VẤN BÀI VIẾT TRÊN FORUM CHO NGƯỜI DÙNG TRÊN CƠ SỞ CÔNG NGHỆ WEB Chuyên ngành : Công nghệ thông tin Mã ngành : D480201 NGƯỜI HƯỚNG DẪN: TS Hà Mạnh Đào HÀ NỘI - 2016 LỜI CAM ĐOAN Tôi xin cam đoan sản phẩm nghiên cứu thân, xuất phát từ yêu cầu toán phát sinh công việc để hình thành hướng nghiên cứu thực hướng dẫn giáo viên hướng dẫn TS.Hà Mạnh Đào Mọi tham khảo sử dụng đồ án trích dẫn nguồn tài liệu báo cáo danh mục tài liệu tham khảo Các chép không hợp lệ, vi phạm quy chế nhà trường, xin hoàn toàn chịu trách nhiệm Hà Nội, tháng năm 2016 Người cam đoan LỜI CẢM ƠN Để hoàn thành đồ án này, em xin chân thành cảm ơn thầy cô khoa Công nghệ thông tin – Trường Đại học Tài nguyên Môi trường Hà Nội dạy dỗ em suốt bốn năm học vừa qua Em xin gửi lời cảm ơn chân thành tời thầy TS.Hà Mạnh Đào người trực tiếp hướng dẫn bảo tận tình em trình làm đồ án Em đặc biệt cảm ơn thầy truyền đạt cho em nhiều kiến thức kinh nghiệm qua trình làm đồ án Em xin cảm ơn thầy tạo cho em điều kiện làm đồ án tốt Cuối cùng, em vô cảm ơn tất thành viên gia đình, tất bạn bè; người cho em sư động viên nhiệt tình trình làm đồ án Hà Nội, tháng 06 năm 2016 Nguyễn Thị Kiều Trang MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Từ đầy đủ CF Collaborative Filtering CBF Content-Based Filtering CBR Conten-Based Recommandation LDA Latent Dirichlet Allocation LSA Latent Semantic Analysis MAP Mean Average Precision pLSA Probabilistic Latent Semantic Analysis SVM Support Vector Machine TF-IDF VSM Term Frequently – Invert Document Frequently Vector Space Model DANH SÁCH CÁC BẢNG DANH SÁCH CÁC HÌNH VẼ LỜI MỞ ĐẦU Ngày nay, với phổ biến mạng Internet máy tính cá nhân, hệ thống trang web trở thành công cụ hữu hiệu để thu thập thông tin Có nhiều nguồn thông tin hệ thống trang web như: website, blog, mạng xã hội, forum… Sự kiện quan trọng qua trình phát triển hệ thống web đời hệ thống web2.0 Đây hệ thống web mà nội dung tạo người dùng điểm đặc sắc Tuy nhiên, bùng nổ nguồn thông tin tạo người dùng đặt thách thức với việc tìm kiếm thu thập thông tin có ích hệ thống Web Bởi có hàng tỷ người dùng sử dụng internet ngày, lượng thông tin mà họ tạo vô lớn từ đoạn status, tweet mạng xã hội, hình ảnh, đoạn video trang chia sẻ ảnh, video, đến viết forum Ngày với sử phổ biến mạng mays tính cá nhân hệ thống trang trở thành công cụ hữu hiệu để thu thập thong tin có nhiều nguồn thống tin hệ thống nhừn trang kiên quan trong trình phát trienr hệ thống nhiên bùng nổ nguồn thong tin tạo có hang tử người đùng sư dung Một tác vụ quan trọng việc tìm kiếm thu thập thông tin việc tư vấn nội dung cần thiết cho người dùng internet Nhiệm vụ việc tư vấn đưa cho người dùng danh sách đối tượng mà người dùng quan tâm từ tập hợp đối tượng hỗn độn có từ trang web Đã có nhiều nghiên cứu thực để tìm phương pháp tư vấn hiệu Một số phương pháp tìm cho kết tốt như: phương pháp lọc cộng tác, phương pháp lọc theo nội dung, phương pháp lọc dựa tri thức phương pháp lai phương pháp Hiện chưa có nghiên cứu cụ thể cho vấn đề tư vấn viết cho người dung forum, forum trước nguồn thông tin quan trọng phổ biến hệ thống website Ứng dụng kết trên, Đồ án xây dựng phương pháp tư vấn viết cho người dùng forum dựa nội dung, bên cạnh viết ứng dụng tư vấn viết cho người dùng forum Mốt tác vụ quan việc tìm kiếm th thập thong tin tư vấn nội dung cần thiết cho người dung nhiệm vụ việc tự vấn đưa nuy Do đó, nhiệm vụ cụ thể đồ án xây dựng phương pháp tư vấn viết cho người dùng forum: phân tích toán để hiểu việc cần làm, sau lựa chọn phương pháp tư vấn thích hợp cho hệ tư vấn cho viết, tiếp đến thu thập thông tin huấn luyện liệu, cuối tính toán đánh giá độ xác phương pháp tư vấn Kết đồ án xây dựng hệ thống tư vấn viết cho người dùng triển khai hệ thống thành ứng dụng cụ thể web application window application Nội dung đồ án gồm chương: hai chương đầu tìm phương pháp tư vấn cho hệ thống xây dựng chương 3, chương cuối đưa kết luận cuối Bố cục chi tiết bao gồm: Chương – Tổng quan forum hệ thống tư vấn viết forum: nội dung chương đưa nhìn sơ qua thành phần forum, từ xây dựng nên ý tưởng hệ tư vấn viết forum lựa chọn phương pháp tư vấn sử dụng cho hệ thống Chương – Phương pháp tư vấn dựa nội dung: chương tìm hiểu cách rõ ràng, cụ thể phương pháp tư vấn lựa chọn chương phương pháp tư vấn theo nội dung Sau chương ứng dụng phương pháp để xây dựng nên hệ thống tư vấn viết theo nội dung mặt lý thuyết Chương – Thực nghiệm kết quả: nhiệm vụ chương tiến hành hành áp dụng hệ thống tư vấn viết theo nội dung xây dựng chương vào thực tế đánh giá kết phương pháp Kết luận: chương tổng kết lại đạt đồ án đưa số hướng phát triển từ nội dung đồ án 10 luận lại với Cuối vector LDA người dùng cúng vector có số chiều với số chủ đề cho, hiểu độ quan tâm người dùng với chủ đề Vector kết hợp: vector kết hợp người dùng xây dựng tương tự vector kết hợp viết, Tức kết hợp hai vector TF-IDF LDA tương ứng người dùng lại Sau phân chia viết thành hai phần huấn luyện kiểm nghiệm, sử dụng phần huấn luyện để xây dựng nên mối quan tâm người dùng; công việc sử dụng liệu kiểm nghiệm để đưa tư vấn cho người dùng đánh giá độ xác phương pháp tư vấn Những phần trình bày nội dung 3.2.3 Tư vấn viết Nhiệm vụ tư vấn viết giúp cho người dùng lựa chọn viết để bình luận từ viết với người dùng Hay nói cách khác từ tập viết không xếp, hệ thống dựa thông tin có để xếp lại viết theo thứ tự khả người dùng bình luận vào cao Để xếp viết theo thứ tự khả người dùng bình luận, cần phải tính toán độ tương đồng nội dung viết với quan tâm người dùng cần tư vấn, từ xếp tương đồng để đưa tư vấn Mặt khác, tình bày suốt nội dung đồ án, viết biểu diễn vector đặc trưng, người dùng có vector biểu diễn mối quan tâm người dùng Từ đó, việc tính toán đô tương đồng chuyển sang việc tính toán khoảng cách hai vector từ xếp Việc tính toán tương đồng vector sử dụng thuật toán trình bày phần 2.4 Cụ thể đồ án em sử dụng phương pháp Cosine Similarity Phương pháp tương đối doan giản dễ áp dụng Độ tương đồng hai vector quy thành góc chúng theo công thức Trong đó: hai vector cần so sánh độ tương đồng, hai vector có số chiều n giá trị tương ứng với chiều thứ i hai vector 62 Như nói trên, tập liệu kiểm nghiệm xây dựng cho người dùng để tiến hành đưa tư vấn cho người dùng Tập liệu bao gồm viết mà người dùng có bình luận viết mà người dùng không bình luận Những viết viết với người dùng, chúng cần xếp theo thứ tự giảm dần độ tương đồng với quan điểm người dùng, từ đưa tư vấn Thứ tự viết đưa sau xếp đánh giá thông qua số phương pháp đánh giá sử dụng rộng rãi vấn đề xấp hạng, để từ rút nhận xét phương pháp Nội dung phần nói số cách đánh giá kết kết đánh giá cho phương pháp tư vấn viết theo nội dung 3.2.4 Đánh giá kết 3.2.4.1 Phương pháp đánh giá Đánh giá kết việc làm quan trọng việc đánh giá tính hiệu thuật toán tư vấn Có nhiều loại số liệu để đánh giá hiệu thuật toán lĩnh vực thu thập thông tin có Precision, Recall, P@K(Độ xác vị trí thứ K) MeanAveragePrecision (MAP) dùng để đánh giá chất lượng thuật toán Nội dung phần trình bày số số liệu để đánh giá hiệu thuật toán kể a) Precision (Độ xác) Trong lĩnh vực thu thập thông tin, Precision tỷ lệ số văn thu thập liên quan đến yêu cầu tìm kiếm tìm số văn thu thập Giá trị precision chạy từ đến Theo đó, để tính giá trị precision cần lấy tất văn có liên quan đến yêu cầu tìm kiếm câu truy vấn khoảng định từ tập văn tìm kiếm Khoảng lấy văn có liên quan toàn tập văn tìm được, phần văn phần tập văn Với hệ tư vấn viết theo nội dung, hiểu precision tỷ lệ viết mà người dùng bình luận số viết đưa từ vấn sau thực thuật toán tư vấn tập kiểm nghiệm b) Recall (Độ thu hồi) 63 Trong lĩnh vực thu thập thông tin, Recall tỷ lệ văn có liên quan tới yêu cầu tìm kiếm tìm tổng số văn có liên quan Giá trị recall chạy từ đến Trong phân loại nhị phân, recall gọi độ nhạy phân loại, xác suất văn có liên quan tới yêu cầu tìm kiếm phát Tuy nhiên, để đạt xác suất 100% recall đơn giản cách trả tập tất văn có cho truy vấn Nhưng làm độ xác phương pháp không cao, giá trị recall phải kèm với giá trị có liên quan tới văn không liên quan tới yêu cầu tìm kiếm precision để đảm bảo độ xác cho phương pháp Với hệ tư vấn viết theo nội dung, giá trị recall tính tỷ lệ số viết mà người dùng bình luận đem tư vấn tổng số viết mà người dùng bình luận đem kiểm nghiệm c) F-Measure( hay F-Score) Vì số recall đứng không đảm bảo độ xác phương pháp tư vấn, phải kèm với số đảm bảo độ xác khác Precision Để kết hợp hai số lại với người ta sử dụng số gọi F-Measure Chỉ số gộp hai số lại làm đưa số để sử dụng hệ thống Công thức tính giá trị F-Measure sau: Với hệ thống tư vấn viết theo nội dung, sau tính hai giá trị precision recall, áp dụng công thức để tính giá trị F-Measure tương ứng d) P@K (Độ xác vị trí K) Như trình bày phần Precision, số precision tính toán nhiều vị trí tập văn thu thập Tại vị trí ta ngắt viết vị trí tập văn thu thập trở lên trên, sau giá trị precision tính văn lấy Giá trị precision thu vị trí K gọi độ xác vi trí K hay P@K Giá trị P@K tính theo công thức: 64 Trong đó: + K vị trí lấy văn tập văn băn thu thập + R tập văn lấy từ K vị trí tập văn đưa tư vấn + C tập văn có liên quan đến yêu cầu tìm kiếm Với hệ thống tư vấn viết theo nội dung, tập R tập K viết đưa tư vấn cho người dùng, tập C tập viết mà người dùng bình luận e) MAP (Mean Average Precision) MAP số đánh giá hiệu thuật toán dựa số Precision P@K Phương pháp đánh giá ổn định phân biệt tốt MAP xây dựng cách lấy trung bình giá trị Precision số điểm Nếu phương pháp AP (Average Precision) lấy giá trị trung bình tất giá trị Precision tất kiểm phạm vi K, MAP lại lấy trung bình giá trị precision điểm có nghĩa phạm vi K Cụm từ “có nghĩa” hiểu có giá trị Precision số điểm, mà văn điểm có liên quan đến câu truy vấn, chọn để tính trung bình giá trị Precision khác bị loại bỏ Công thức tính giá trị MAP sau: Trong đó: + K số văn thu thập + P@k giá trị precision điểm K + C tập văn có liên quan đến truy vấn + rel(k) ý nghĩa vị trí K rel(k) = văn thu vị trí K không nằm tập C, ngược lại rel(k) = Với hệ tư vấn viết theo nội dung đồ án này, C tập tất viết người dùng bình luận tập viết kiểm nghiệm người dùng, K số viết đem tư vấn tập bìa viết kiểm nghiệm Trong phạm vi đồ án em sử dụng hai số liệu P@K MAP để đánh giá hiệu thuật toán Phần trình bày giá trị 65 P@K MAP lấy trung bình cho tất người dùng sử dụng để test, với vị trí K = 10 3.2.4.2 Kết đánh giá Với phạm vi đồ án này, em áp dụng phương pháp tư vấn theo nội dung với ba thuật toán khác là: TF-IDF, phân phối theo chủ đề kết hợp hai phương pháp Để đánh giá hiệu phương pháp em sử dụng hai phương pháp đánh giá P@K MAP để so sánh ba phương pháp Bên cạnh đó, để đánh giá hiệu tư vấn so với không tư vấn, em xây dựng giá trị đánh giá cho việc lựa chọn ngẫu nhiên viết 66 Bảng 3.6: Kết đánh giá thực nghiệm hai liệu Phương pháp Điểm báo - VOZ Webtretho P@10 MAP P@10 MAP Ngẫu nhiên 0.21085 0.24491 0.6078 0.63789 TF-IDF 0.2205 0.2513 0.56 0.6126 Phân phối chủ để 0.255 0.2664 0.628 0.6427 TF-IDF + Phân phối chủ đề 0.246 0.2615 0.622 0.6407 a So sánh phương pháp TF-IDF phương pháp phân phối chủ đề Bảng 3.5 phương pháp tư vấn dựa theo phân phối chủ dề cho kết tư vấn tốt phương pháp tư vấn dựa theo phân phối TF-IDF Cụ thể, vói forum Điểm báo – VOZ, số P@10 phương pháp tư vấn theo phân phối chủ đề 0.255, số MAP 0.2664, hai giá trị tương ứng phường pháp tư vấn theo phân phối TF-IDF 0.2205 0.2513 Với forum Webtretho, số P@10 phương pháp tư vấn theo phân phối chủ đề 0.628 số MAP 0.6427 Trong đó, 0.56 0.6126 hai giá trị tương ứng phương pháp tư vấn theo mô hình TF-IDF với forum webtretho Ngoài hệ thống sử dụng phương pháp kết hợp hai phương pháp để đưa tư vấn, kết phương pháp tư vấn cho giá trị nằm khoảng chênh lệch hai phương pháp Cụ thể là, phương pháp kết hợp có số P@10 0.246 số MAP 0.2615 tư vấn cho forum VOZ, với forum webtretho hai giá trị tương ứng 0.622 0.6407 Có thể thấy phương pháp kết hợp cho kết cao gần với phương pháp tư vấn theo phân phối chủ đề, đố chênh lệch hai phương pháp không lớn từ 0.002 đến 0.01 67 (a) Điểm báo VOZ (b) Webtretho Hình 3.20: Biểu đồ so sánh hiệu tư vấn TF-IDF, mô hình LDA kết hợp hai phương pháp Mặt khác, ba phương pháp tư vấn dựa theo nội dung cho hiệu tư vấn tốt so với phương pháp lựa chọn ngẫu nhiên viết để tư vấn Điều chứng tỏ phương pháp tư vấn áp dụng vào thực tế để tư vấn cho người dùng b So sánh diễn đàn Điểm báo – VOZ diễn đàn Webtretho Tất phương pháp tư vấn áp dụng cho hệ thống cho hiệu tư vấn forum webtretho cao forum Điểm báo – VOZ Phương pháp cho hiệu cao với hai forum phương pháp tư vấn dựa theo nội dung Với forum webtretho, số P@K 0.628 chì số MAP 0.6427 Trong đó, với forum Điểm báo _ VOZ, hai giá trị tương ứng 0.255 0.2664 (a) P@K (b)MAP Hình 3.21: Biểu đồ so sánh hiệu tư vấn hai forum Điểm báo – VOZ Webtretho 68 Có chênh lệch lớn hiệu phương pháp tư vấn áp dụng vào hai diễn đàn Sự chênh lệch hiểu số lượng người dùng đưa để tư vấn (user test set) forum Điểm báo – VOZ 200, lớn nhiều so với kích thước tập người dùng tư vấn forum Webtretho 50 Vì chênh lệch giá trị trung bình MAP P@K forum Điểm báo – VOZ bị đập bẹp nhiều so với forum Webtretho Một lý khác giải thích cho vấn đề người dùng forum Điểm báo – VOZ người dùng hoạt động nhiều forum, họ có tần suất bình luận post nhiều liên quan đến nhiều lĩnh vực Do việc đưa tư vấn cho người dùng khác khó khăn Sau thực kiểm nghiệm phương pháp tư vấn áp dụng vào forum cho hiệu tốt Việc em tiến hành xây dựng ứng dụng tư vấn viết cho người dùng cho forum Điểm báo – VOZ Phần cuối chương giới thiệu ứng dụng 3.3 Ứng dụng tư vấn chọn viết từ forum window Ứng dụng tư vấn lựa chọn viết forum em xây dựng cho forum Điểm báo – VOZ Ứng dụng viết ngôn ngữ java, chương trình kiểu Window Application Ứng dụng cung cấp ba chế độ tư vấn cho người dùng là: TF-IDF, Topic Combine tương ứng với ba phương pháp tư vấn: TF-IDF, phân phối chủ đề kết hợp hai phương pháp Hình 3.22: Giao diện ứng dụng tư vấn viết theo nội dung 69 Để có viết nhất, người dùng cần phải nhập URL forum Điểm báo – VOZ vào ô “URL” Sau người dùng nhấn nút “Fetch” để hệ thống thu thập thông tin số viết forum Để thực việc tư vấn, người dùng chọn tên người dùng mục “User” để chọn người dùng cần tư vấn, sau nhấn nút “Recommend” để thực việc tư vấn cho người dùng Kết qua tư vấn thi hình dạng bảng chứa số thông tin viết như: tiêu đề, tên người đăng, số lượt xem, số bình luận, URL, giá trị độ tương đồng theo phương pháp tư vấn (a) phương pháp phân phối chủ đề 70 (b) phương pháp TF-IDF 71 (c) phương pháp kết hợp Hình 3.23: Giao diện kết tư vấn theo phương pháp Người sử dụng xem danh sách người bình luận vào viết cách nháy chuột vào ô chứa thông tin số bình luận viết Bên cạnh người dùng mở đường URL viết để đọc trực tiếp viết trình duyệt mặc định máy tính cách nháy đúp chuột vào hàng chứa thông tin viết 72 Hình 3.24: Danh sách người dùng bình luận vào viết 73 KẾT LUẬN Nguồn thông tin từ forum nguồn thông tin vô dồi có ích cho người dùng forum nói riêng người dùng internet nói chung Việc hệ thống với số lượng lớn forum tồn suốt thời gian dài, bất chấp đời phát triển số nguồn thông tin khác, thấy tầm quan trọng forum Tuy nhiên số lượng viết lớn nên việc tìm đọc viết theo ý muốn khó khăn cho người dùng sử dụng forum Đôi người dùng tốn nhiều thời gian để tìm viết cần đọc lúc tìm viết giá trị viết không lúc đăng Từ cần phải có hệ thống giúp người dùng dễ dàng tìm viết muốn tìm kiếm thời gian ngắn Tuy nhiên chưa có nghiên cứu thực tìm hiểu vấn đề Do đồ án xây dựng phương pháp tư vấn viết cho người dùng dựa nội dung viết mà người dùng bình luận, từ xây dựng nên ứng dụng tư vấn viết theo nội dung cho người dùng forum Trong phạm vi đồ án này, em thực việc nghiên cứu hệ tư vấn cá nhân dành cho người dùng forum Một số phương pháp tư vấn cách lọc theo nội dung tìm hiểu so sánh đồ án Những phương pháp tư vấn cách lọc theo nội dung sử dụng nội dung viết để đưa bình luận cho người dùng thích hợp Yêu cầu phi chức với hệ thống tư vấn cần đáp ứng đơn giản nhanh nhạy để đáp ứng với biến đổi liên tục forum Hiệu phương pháp tư vấn đánh giá hai forum lớn Việt Nam VOZ webtretho Kết đánh giá cho thấy: 1) Phương pháp tư vấn theo nội dung cho hiệu tốt việc lựa chọn ngẫu nhiên viết để tư vấn; 2) Trong số phương pháp tư vấn theo nội dung phương pháp tư vấn viết theo phân phối cho hiệu cao Có số hướng phát triển cho nội dung đồ án là: 1) Nội dung bình luận người dùng nguồn thông tin quan trọng để xác đinh mối quan tâm tới chủ đề người dùng 74 2) Phương pháp lọc cộng tác phương pháp tư vấn hiệu phương pháp dựa thông tin hoạt động người dùng mối quan hệ người dùng người dùng khác forum 3) Một số thông tin khác mà số diễn đàn có cung cấp cho người dùng mà sử dụng để tư vấn mức độ đánh giá (rating) người dùng đến viết 75 TÀI LIỆU THAM KHẢO [1] Jilin Chen, Rowan Nairn, Les Nelson, Michael Bernstein, Ed H Chi, Short and Tweet: Experiments on Recommending Content from Information Streams, 2010 [2] Blei, D.M., Ng, A.Y and Jornal, M.I., “Latent Dirichlet Allocation”,Journal of Machine Learning Research 3, pp.993-1022, 2003 [3] István Bíró, PhDthesis: Document Classification with Latent Dirichlet Allocation, 2009 [4] Nguyen Cam Tu, MasterThesis: Hidden topic discovery toward classification and clustering in Vietnamese web documents, 2008 [5] Lê Hồng Phương, vnSentDetector - Vietnamese sentences Detection , http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnSentDetector, 2010 [6] Lê Hồng Phương, vnTokenizer - Vietnamese words segmentation , http://mim.hus.vnu.edu.vn/phuonglh/softwares/vnTokenizer, 2010 [7] Phan Xuan Hieu, “GibbsLDA++: A C/C++ and Gibbs Sampling based Implementation of Latent Dirichlet Allocation (LDA)”, http://gibbslda.sourceforge.net/, 2007 [8] LDA-C, http://www.cs.princeton.edu/~blei/lda-c/ [9] JSOUP, http://jsoup.org/ [10] HTMLCleaner, http://htmlcleaner.sourceforge.net/ [11] Java Regular Expression, http://www.vogella.com/ [12] Wikipedia, http://en.wikipedia.org/wiki/ 76 ... video trang chia sẻ ảnh, video, đến viết forum Ngày với sử phổ biến mạng mays tính cá nhân hệ thống trang trở thành công cụ hữu hiệu để thu thập thong tin có nhiều nguồn thống tin hệ thống nhừn trang. .. phổ biến mạng Internet máy tính cá nhân, hệ thống trang web trở thành công cụ hữu hiệu để thu thập thông tin Có nhiều nguồn thông tin hệ thống trang web như: website, blog, mạng xã hội, forum…... điện tử: hai trang web chứa danh sách thảo luận người dùng, nhiên hòm thư điện tử tự động gửi phản hồi tới người tham gia thảo luận Trong đó, forum yêu cầu người dùng phải truy cập vào trang forum