Phát triển giải thuật so trùng hồ sơ cá nhân trong cộng đồng nghiên cứu khoa học

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA THÁI THỊ THU THỦY PHÁT TRIỂN GIẢI THUẬT SO TRÙNG HỒ SƠ CÁ NHÂN TRONG CỘNG ĐỒNG NGHIÊN CỨU KHOA HỌC Chuyên ngành: Khoa học Máy tính LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 12 năm 2010 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học : TS Phạm Trần Vũ Cán chấm nhận xét : Cán chấm nhận xét : Luận văn thạc sĩ bảo vệ HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày tháng năm 2010 TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA KHOA HỌC MÁY TÍNH CỘNG HỒ XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc Lập - Tự Do - Hạnh Phúc Tp HCM, ngày tháng năm 2010 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Thái Thị Thu Thủy Phái: Ngày, tháng, năm sinh: 24-09-1983 Nữ Nơi sinh: Huế Chuyên ngành: Khoa học Máy tính MSHV: 00707188 1- TÊN ĐỀ TÀI: PHÁT TRIỂN GIẢI THUẬT SO TRÙNG HỒ SƠ CÁ NHÂN TRONG CỘNG ĐỒNG NGHIÊN CỨU KHOA HỌC 2- NHIỆM VỤ LUẬN VĂN: 3- NGÀY GIAO NHIỆM VỤ : 4- NGÀY HOÀN THÀNH NHIỆM VỤ : 5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: TS Phạm Trần Vũ Nội dung đề cương Luận văn thạc sĩ Hội Đồng Chuyên Ngành thông qua CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN (Họ tên chữ ký) QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) KHOA QL CHUYÊN NGÀNH (Họ tên chữ ký) LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, công việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Ngày 06 tháng 12 năm 2010 Thái Thị Thu Thủy ii LỜI CẢM ƠN Tôi xin gởi lời cảm ơn chân thành sâu sắc đến TS Phạm Trần Vũ Cám ơn Thầy tận tình bảo, hướng dẫn, định hướng cho suốt thời gian thực Luận văn Cám ơn Thầy chia sẻ cho kinh nghiệm quý báu nghiên cứu khoa học Điều giúp nhiều việc thực Luận văn công việc giảng dạy, nghiên cứu sau Tôi xin cảm ơn gia đình động viên tạo điều kiện tốt để tơi tiếp tục theo đuổi việc học tập nghiên cứu Con xin cám ơn Cha Mẹ, nhờ công lao dưỡng dục Người mà có thành ngày hơm Con xin hứa tiếp tục cố gắng phấn đấu để vươn cao Cám ơn anh Huỳnh Văn Quốc Phương, chồng tơi, động viên hỗ trợ cho suốt thời gian qua Thái Thị Thu Thủy iii TÓM TẮT ĐỀ TÀI Trong đời sống sinh hoạt thường ngày công việc, học tập; chia sẻ, tham vấn thông tin từ Internet nhu cầu thiết yếu Người mua hàng muốn biết thông tin sản phẩm, ý kiến khách hàng khác mua sử dụng sản phẩm để hỗ trợ cho việc định mua hay không mua; người bán hàng cung cấp thông tin sản phẩm, thông tin khách hàng mua sản phẩm, gợi ý sản phẩm kèm; bạn bè muốn kết nối để chia sẻ thông tin, hình ảnh… nhau… Lĩnh vực nghiên cứu khoa học Trong lĩnh vực này, nhà nghiên cứu ln có nhu cầu chia sẻ chia sẻ thông tin với Người làm nghiên cứu mong muốn chia sẻ nghiên cứu họ, đồng thời muốn có thơng tin hướng nghiên cứu mà họ quan tâm từ nhà nghiên cứu khác Việc tìm nhà nghiên cứu có mối quan tâm, giới thiệu họ với vấn đề đáng quan tâm Đề tài mong muốn tìm phương pháp đơn giản hiệu việc tìm người dùng (cụ thể nhà nghiên cứu khoa học) có mối quan tâm nghiên cứu Kết sử dụng việc xây dựng mạng (tương tự mạng xã hội) gồm nhà nghiên cứu, tìm người có mối quan tâm (có độ tương tự lớn nhất) để giới thiệu họ với iv ABSTRACT In everyday life, sharing and getting information from Internet is an essential need Customers want to know about product information, comments about the products that other customers have bought and used; providers provide information of products and that of customers whose have bought and used, recommend accompanied products; friends want to connect to share each other information, pictures… It is the same for research field In this area, researchers always have the need to share information They hope to share their research and at the same time want to have information about current research directions of others The task of finding researchers that have similar interest and introduce them is a noticeable issue This work will try to find a simpe but efficient method to find out users (researchers specifically) with similar research interest The result will be used in the project of buiding a researcher network (something like social network) that can find researchers with similar interest and recommend them to each others v MỤC LỤC Chương 1: GIỚI THIỆU 1.1 Phát biểu vấn đề 1.2 Tên đề tài 1.3 Phạm vi đề tài .2 1.4 Mục tiêu đề tài 1.5 Phương pháp thực Chương 2: TỔNG QUAN VỀ THU THẬP THÔNG TIN VÀ MƠ HÌNH NGƯỜI DÙNG 2.1 Thu thập thông tin (Information Retrieval – IR) .4 2.2 Mơ hình người dùng (User Modeling) hệ thống IR 2.2.1 Tạo, biểu diễn, trì profile 2.2.2 So sánh profile 16 Chương 3: LATENT SEMANTIC ANALYSIS (LSA) 25 3.1 Hoạt động LSA .25 3.2 Ưu nhược điểm ứng dụng LSA 32 Chương 4: HƯỚNG TIẾP CẬN ĐỀ TÀI VÀ GIẢI PHÁP .34 4.1 Hướng tiếp cận đề tài 34 4.2 Giải pháp .35 4.2.1 Xây dựng profile .35 4.2.2 So sánh profile 38 Chương 5: CHƯƠNG TRÌNH HIỆN THỰC VÀ ĐÁNH GIÁ 41 5.1 Chương trình thực .41 5.2 Kết đánh giá 42 Chương 6: TỔNG KẾT 75 6.1 Tổng kết công việc làm 75 6.2 Đóng góp đề tài 76 6.3 Hướng phát triển đề tài .76 TÀI LIỆU THAM KHẢO .77 vi Chương 1: Giới thiệu Chương 1: GIỚI THIỆU 1.1 Phát biểu vấn đề Ngày với phát triển rộng khắp mạng tồn cầu Internet, người có hội kết nối nhu cầu chia sẻ thông tin với nhiều Lĩnh vực chuyên gia Khi nhà khoa học tiến hành nghiên cứu hay cần tìm hiểu thêm kiến thức lĩnh vực mà họ quan tâm, họ mong muốn biết có mối quan tâm giống để chia sẻ thơng tin Việc xây dựng mạng bao gồm chuyên gia thuộc nhiều lĩnh vực, dựa thơng tin có người để xây dựng nên hồ sơ (profile) người đó, so sánh profile để tìm người dùng tương tự (nghĩa có mối quan tâm giống nhau) để giới thiệu họ với vấn đề đáng quan tâm Vấn đề nêu có nhiều điểm tương đồng với mạng xã hội Hàng triệu người sử dụng mạng xã hội để kết nối, gặp gỡ chia sẻ thông tin Người dùng mạng xã hội MySpace.com, Facebook.com, … thuộc lứa tuổi, ngành nghề sở thích khác Đa số người dùng sử dụng mạng xã hội công cụ để giữ liên lạc với bạn bè Mỗi người dùng mạng xã hội có mơ tả/tiểu sử sơ lược thân, gọi profile người dùng (user profile) Thơng tin chứa profile họ tên, ngày tháng năm sinh, tình trạng nhân, trường học, sách đọc, phim xem số thông tin khác liên quan đến người dùng thường người dùng khai báo, cập nhật Các thông tin profile so sánh để đưa gợi ý (kết bạn, tham gia hội, nhóm …) Các profile người dùng khai báo thay đổi người dùng cập nhật gọi profile tĩnh (static user profile) Có thể nói việc khai thác thông tin profile vấn đề mấu chốt lĩnh vực thu thập thông tin (IR – Information Retrieval) mà chúng Phát triển giải thuật so trùng hồ sơ cá nhân cộng đồng nghiên cứu khoa học Chương 1: Giới thiệu sử dụng để hỗ trợ cho ứng dụng tìm kiếm, gợi ý (recommendation applications) ứng dụng tìm kiếm chuyên gia (expert finding applications) Profile người dùng chứa tri thức người dùng cụ thể Profile khai thác để thao tác tìm kiếm hệ thống IR cá nhân hóa (personalized) Các hệ thống tận dụng thông tin hướng người dùng cụ thể (user-specific) có profile để thu thập tài liệu thỏa mãn truy vấn tương ứng với cá nhân người dùng Profile dùng để xếp hạng lại tài liệu theo sở thích cá nhân người dùng Trong ứng dụng tìm kiếm chuyên gia [8, 9, 10, 13], profile so sánh, xếp hạng để tìm kiếm người dùng có mối quan tâm Tuy nhiên, việc sử dụng profile tĩnh thao tác xử lý có xác hay khơng? Profile tĩnh phản ánh thơng tin thay đổi người dùng họ tên, tuổi, sở thích bền vững… mà không đủ linh động để phản ánh thay đổi theo thời gian người dùng (ví dụ mối quan tâm xuất hiện) Do ứng dụng địi hỏi việc tạo trì cách tự động profile Nói tóm lại, việc tạo, trì tự động profile người dùng [2] dựa thông tin người dùng dự án tham gia, dự án thực hiện, wiki …; so sánh profile người dùng để tìm người dùng có mức độ tương tự lớn (nghĩa người dùng có mối quan tâm), giới thiệu họ với vấn đề đặt cho mạng cộng tác chuyên gia 1.2 Tên đề tài Phát triển giải thuật so trùng hồ sơ cá nhân cộng đồng nghiên cứu khoa học 1.3 Phạm vi đề tài Đã có nhiều nghiên cứu tập trung vào việc tìm tương tự người dùng Vấn đề then chốt toán thuộc lớp so sánh tương tự mặt ngữ nghĩa từ Có thể chia cách giải nghiên cứu thành nhóm chính: (i) nhóm tính độ tương tự dựa ontology xây dựng (ii) Phát triển giải thuật so trùng hồ sơ cá nhân cộng đồng nghiên cứu khoa học Chương 5: Chương trình thực đánh giá User Global chosing Maximum similarity: 1.78664500721911 User1 User2 5 12 16 17 5 14 5 13 15 10 11 User similarity 1.536823 1.490031 1.355794 1.324872 1.249747 1.239029 1.180959 1.146814 1.136993 1.119785 1.051938 0.71546 0.626561 0.555011 0.534361 0.42961 rate 0.860173 0.833983 0.758849 0.741542 0.699493 0.693495 0.660993 0.641882 0.636384 0.626753 0.588778 0.400449 0.350691 0.310644 0.299086 0.240456 * * * * * * * * * * * Global chosing Maximum similarity: 1.78664500721911 User1 User2 15 17 6 14 16 6 12 6 6 13 11 10 similarity 1.53081 1.475793 1.474144 1.438151 1.297371 1.249747 1.169232 1.047205 1.036305 0.958028 0.8054 0.708333 0.688212 0.551867 0.54281 0.428838 rate 0.856807 0.826014 0.82509 0.804945 0.72615 0.699493 0.654429 0.586129 0.580028 0.536216 0.450789 0.39646 0.385198 0.308884 0.303815 0.240024 * * * * * * * * * * Phát triển giải thuật so trùng hồ sơ cá nhân cộng đồng nghiên cứu khoa học 66 Chương 5: Chương trình thực đánh giá User Global chosing Maximum similarity: 1.78664500721911 User1 User2 17 16 7 14 12 11 7 7 13 15 7 10 User similarity 0.900033 0.877058 0.764401 0.646523 0.61416 0.604538 0.600336 0.596337 0.555011 0.554262 0.517012 0.47798 0.468554 0.428838 0.304654 rate 0.503756 * 0.490897 0.427842 0.361864 0.343751 0.338365 0.336013 0.333775 0.310644 0.310225 0.289376 0.267529 0.262254 0.240024 0.170517 Global chosing Maximum similarity: 1.78664500721911 User1 User2 8 12 8 15 8 8 16 14 8 17 11 13 10 similarity 0.955925 0.910605 0.837069 0.644068 0.631239 0.626561 0.604538 0.587427 0.586217 0.575 0.551867 0.492492 0.435062 0.432264 0.350381 rate 0.535039 * 0.509673 * 0.468514 0.36049 0.35331 0.350691 0.338365 0.328788 0.328111 0.321832 0.308884 0.275652 0.243508 0.241942 0.196111 Phát triển giải thuật so trùng hồ sơ cá nhân cộng đồng nghiên cứu khoa học 67 Chương 5: Chương trình thực đánh giá User No global chosing Maximum partial similarity: 0.8720120121771988 User1 User2 16 13 17 9 9 12 9 11 9 15 9 9 14 10 User 10 similarity 0.872012 0.711694 0.708239 0.680295 0.679733 0.646523 0.617359 0.566184 0.561596 0.54281 0.535127 0.534361 0.511187 0.492492 0.477337 rate * 0.816152 0.81219 0.780144 0.7795 0.741415 0.70797 0.649285 0.644023 0.62248 0.613669 0.61279 0.586215 0.564776 0.547398 Global chosing Maximum similarity: 1.78664500721911 User1 User2 10 15 10 14 10 10 16 10 17 10 13 10 10 10 12 10 10 10 10 10 10 10 11 similarity 0.912871 0.871802 0.764496 0.758459 0.750092 0.737865 0.717718 0.71546 0.69556 0.688212 0.635001 0.62153 0 0 rate 0.510941 * 0.487955 0.427894 0.424516 0.419832 0.412989 0.401713 0.400449 0.389311 0.385198 0.355415 0.347875 0 0 Phát triển giải thuật so trùng hồ sơ cá nhân cộng đồng nghiên cứu khoa học 68 Chương 5: Chương trình thực đánh giá User 11 No global chosing Maximum partial similarity: 0.8160261132534429 User1 User2 11 16 11 14 11 11 11 11 11 11 17 11 11 13 11 11 11 11 12 11 15 11 10 User 12 similarity 0.816026 0.73447 0.708333 0.649923 0.596337 0.592432 0.561596 0.560873 0.476828 0.459059 0.448522 0.432264 0.42961 0.382481 0.361602 rate * 0.900056 * 0.868028 * 0.796449 0.730782 0.725997 0.688208 0.687322 0.584329 0.562554 0.549641 0.529718 0.526466 0.468712 0.443126 Global chosing Maximum similarity: 1.78664500721911 User1 User2 12 13 12 12 16 12 14 12 12 12 12 17 12 12 12 15 12 12 10 12 12 12 11 similarity 1.500135 1.490031 1.4762 1.431233 1.412424 1.392015 1.354207 1.282806 1.176041 1.169232 1.033611 0.910605 0.69556 0.617359 0.600336 0.382481 rate 0.839638 0.833983 0.826241 0.801073 0.790546 0.779122 0.757961 0.717997 0.65824 0.654429 0.578521 0.509673 0.389311 0.345541 0.336013 0.214078 * * * * * * * * * * * * Phát triển giải thuật so trùng hồ sơ cá nhân cộng đồng nghiên cứu khoa học 69 Chương 5: Chương trình thực đánh giá User 13 Global chosing Maximum similarity: 1.78664500721911 User1 User2 13 16 13 12 13 17 13 15 13 13 14 13 13 13 13 13 13 10 13 13 13 11 13 User 14 similarity 1.505133 1.500135 1.418103 1.27233 1.269444 1.222622 1.134909 1.129461 1.119785 1.04155 0.8054 0.737865 0.711694 0.47798 0.459059 0.350381 rate 0.842435 0.839638 0.793724 0.712134 0.710518 0.684312 0.635218 0.632168 0.626753 0.582964 0.450789 0.412989 0.398341 0.267529 0.256939 0.196111 * * * * * * * * * * Global chosing Maximum similarity: 1.78664500721911 User1 User2 14 15 14 16 14 14 14 14 12 14 17 14 14 14 13 14 14 10 14 11 14 14 14 similarity 1.706936 1.478951 1.473281 1.460634 1.438151 1.431233 1.420659 1.313258 1.237399 1.222622 1.180959 0.871802 0.73447 0.61416 0.586217 0.477337 rate 0.955386 0.827781 0.824608 0.817529 0.804945 0.801073 0.795155 0.735041 0.692583 0.684312 0.660993 0.487955 0.411089 0.343751 0.328111 0.26717 * * * * * * * * * * * Phát triển giải thuật so trùng hồ sơ cá nhân cộng đồng nghiên cứu khoa học 70 Chương 5: Chương trình thực đánh giá User 15 Global chosing Maximum similarity: 1.78664500721911 User1 User2 15 16 15 14 15 15 15 15 15 15 13 15 17 15 15 12 15 10 15 15 15 15 11 User 16 similarity 1.786645 1.706936 1.53081 1.414128 1.369985 1.32334 1.273746 1.27233 1.134765 1.051938 1.033611 0.912871 0.644068 0.535127 0.468554 0.361602 rate 0.955386 0.856807 0.791499 0.766792 0.740684 0.712926 0.712134 0.635137 0.588778 0.578521 0.510941 0.36049 0.299515 0.262254 0.202392 * * * * * * * * * * * * Global chosing Maximum similarity: 1.78664500721911 User1 User2 16 15 16 13 16 14 16 12 16 16 17 16 16 16 16 16 16 16 16 11 16 10 16 similarity 1.786645 1.505133 1.478951 1.4762 1.474288 1.40914 1.383202 1.355794 1.316164 1.299737 1.297371 0.877058 0.872012 0.816026 0.758459 0.587427 rate 0.842435 0.827781 0.826241 0.825171 0.788707 0.77419 0.758849 0.736668 0.727474 0.72615 0.490897 0.488072 0.456737 0.424516 0.328788 * * * * * * * * * * * Phát triển giải thuật so trùng hồ sơ cá nhân cộng đồng nghiên cứu khoa học 71 Chương 5: Chương trình thực đánh giá User 17 Global chosing Maximum similarity: 1.78664500721911 User1 User2 17 17 14 17 13 17 17 16 17 17 12 17 17 15 17 17 17 17 10 17 17 11 17 similarity 1.475793 1.420659 1.418103 1.414128 1.40914 1.324872 1.282806 1.262208 1.134765 1.067235 0.912359 0.900033 0.750092 0.708239 0.560873 0.435062 rate 0.826014 0.795155 0.793724 0.791499 0.788707 0.741542 0.717997 0.706468 0.635137 0.59734 0.510655 0.503756 0.419832 0.396407 0.313925 0.243508 * * * * * * * * * * * * Trong nhóm 17 user trên, user 7, 8, user thuộc lĩnh vực tốn học; user cịn lại thuộc lĩnh vực công nghệ thông tin Các kết có phản ánh số quan sát thực tế sau: - Trong thực tế, nhóm user (3, 4, 6); (2, 5, 14, 16); (12, 17); (1, 11, 13, 15) thuộc môn khác khoa công nghệ thông tin Kết cho thấy ln tìm phần lớn user thuộc nhóm số user chọn giới thiệu với (có dấu *) - Thực tế user có chung nhiều báo Kết chương trình cho thấy mức độ tương tự user phương pháp ln có kết cao (xấp xỉ giá trị 1) - User 16 13 thực tế thuộc môn khác lại có mối quan tâm nghiên cứu lĩnh vực tốn ứng dụng, kết tính tốn cho thấy user có độ tương tự cao Phát triển giải thuật so trùng hồ sơ cá nhân cộng đồng nghiên cứu khoa học 72 Chương 5: Chương trình thực đánh giá - Các user nhóm ngành có xu hướng liên quan với cao so với user thuộc nhóm khác Tuy nhiên, kết chạy thử nghiệm cho thấy số user không thực có mối quan tâm nghiên cứu nằm nhóm chọn giới thiệu với Sở dĩ vấn đề sau: - Độ tương tự cosine cho từ giống profile ln đóng góp lượng lớn kết tính độ tương tự, điều chưa thật xác số từ phổ biến chun ngành (hầu hết báo có) khơng thể mối quan tâm nghiên cứu người (ví dụ từ project, experiment, application ), với cách tính chọn để tính độ tương tự cosine - Phần tính độ tương tự ngữ nghĩa chưa quan tâm đến vấn đề ngữ nghĩa mà phương pháp TF-IDF giải Đề tài thử thực phương pháp TF-IDF cho phần tính độ tương tự ngữ nghĩa (phần tính độ tương tự cosine giữ nguyên) Kết không thay đổi nhiều có số thay đổi khả quan sau: User1 User2 14 17 15 12 16 13 10 11 similarity 1.515712 1.455517 1.415697 1.395117 1.356533 1.306947 1.202893 1.19851 1.175772 1.17182 1.099772 0.672027 0.663252 0.587218 0.526118 0.525928 rate 0.828656 0.795747 0.773977 0.762726 0.741632 0.714522 0.657635 0.655238 0.642808 0.640647 0.601257 0.367405 0.362607 0.321038 0.287635 0.287531 * * * * * * * * * * * Phát triển giải thuật so trùng hồ sơ cá nhân cộng đồng nghiên cứu khoa học 73 Chương 5: Chương trình thực đánh giá Có thể dễ dàng nhận thấy so với kết (phần Global) vị trí user 13 có tráo đổi lẫn Điều xem dấu hiệu tốt thực tế user 13 thuộc môn User1 User2 15 16 15 14 15 15 15 15 15 13 15 15 17 15 15 12 15 10 15 15 15 15 11 similarity 1.82912 1.741032 1.569835 1.448935 1.415697 1.34789 1.306432 1.304287 1.174609 1.078653 1.061369 0.947338 0.65345 0.546663 0.475513 0.37127 rate 0.951841 0.858246 0.792149 0.773977 0.736906 0.714241 0.713068 0.642172 0.589712 0.580262 0.51792 0.357248 0.298867 0.259968 0.202977 * * * * * * * * * * * * Vị trí user 13 so sánh với user 15 có tráo đổi so với kết trước thực tế user 15 13 thuộc môn Kết có sử dụng phương pháp TF-IDF cho phần tính độ tương tự ngữ nghĩa so với kết khơng sử dụng TF-IDF có thay đổi không nhiều vấn đề nêu phần tính độ tương tự cosine Đề tài tiếp tục cải tiến phần tính độ tương tự cosine để thu kết tốt Phát triển giải thuật so trùng hồ sơ cá nhân cộng đồng nghiên cứu khoa học 74 Chương 6: Tổng kết Chương 6: TỔNG KẾT 6.1 Tổng kết công việc làm Rất nhiều nhà nghiên cứu (đặc biệt người nghiên cứu khoa học Việt Nam) mong muốn có mơi trường nhằm chia sẻ, học hỏi, tìm hiểu mối quan tâm thực công việc nghiên cứu khoa học Trước yêu cầu thiết đó, có dự án triển khai xây dựng mạng cộng đồng chuyên gia Đề tài không nhắm vào việc xây dựng mạng hoàn chỉnh mà vào việc tìm hiểu, nghiên cứu giải thuật so trùng profile người dùng có hiệu để triển khai dự án Giải thuật triển khai giúp tìm người dùng có mối quan tâm tương tự nhau, từ gợi ý, giới thiệu họ cho Đề tài nghiên cứu, tìm hiểu nhiều phương pháp so trùng profile có, qua lựa chọn sử dụng kết hợp phương pháp cosine phương pháp thống kê LSA Đề tài đưa thêm yếu tố thời gian xem xét việc so trùng profile với mục đích đánh trọng số ưu tiên cho mối quan tâm gần với hơn, xét thêm trọng số cho hành vi người dùng mạng (ví dụ thao tác upload báo (là tác giả), đọc báo, tag) Giải thuật thực chạy thực nghiệm tập người dùng để so sánh, đánh giá xác giải thuật Tuy nhiên chưa thể triển khai thực tế môi trường mạng chuyên gia nên số thông tin tag không sử dụng kiểm thử Các trọng số thời gian trọng số cho hành vi (được gọi mối quan hệ chương trước) người dùng xem xét, thay đổi trình chạy thực nghiệm chương trình để thấy khác biệt nhằm tìm giá trị trọng số tốt Phát triển giải thuật so trùng hồ sơ cá nhân cộng đồng nghiên cứu khoa học 75 Chương 6: Tổng kết 6.2 Đóng góp đề tài Đề tài đưa giải thuật so trùng profile người dùng dựa vào thông tin profile động (profile rút trích tự động từ thông tin người dùng) Profile động phản ánh mối quan tâm người dùng Đề tài xem xét yếu tố thời gian với mong muốn tìm xác mối quan tâm người dùng Sự kết hợp phương pháp cosine LSA đề tài giúp cho việc tính tốn độ tương tự từ profile phát huy ưu điểm phương pháp Thực nghiệm cho thấy kết tính tốn giải thuật cho kết chấp nhận Tuy nhiên cần có triển khai thực tế để có liệu đầy đủ hơn, nhiều để kết đánh giá xác 6.3 Hướng phát triển đề tài Triển khai thực tế để lấy đầy đủ thơng tin (ví dụ thông tin liên quan đến tag), nhiều thông tin (số lượng người dùng nhiều thuộc nhiều lĩnh vực hơn) để có đánh giá xác Từ xem xét, cải tiến giải thuật để có kết tốt Đồng thời bổ sung thêm số vấn đề cần quan tâm giải thuật như: phân tích sâu cấu trúc báo khoa học; đưa chế đánh giá phương pháp đề xuất tốt hơn; đưa chế tự động điều chỉnh trọng số, cải thiện tham số giải thuật … Các phương pháp chưa xem xét đến vấn đề: từ phổ biến nhiều lĩnh vực nghiên cứu số khác xuất với tần số lại phản ánh lĩnh vực nghiên cứu cách xác Với từ phổ biến ta thêm vào danh sách stopword Với từ xuất có giá trị phản ánh cao ta xem xét việc xây dựng tập từ cho lĩnh vực chuyên ngành Một tài nguyên có từ nằm tập từ chuyên ngành từ đánh trọng số cao nhằm phản ánh xác mối quan tâm người dùng Phát triển giải thuật so trùng hồ sơ cá nhân cộng đồng nghiên cứu khoa học 76 Tài liệu tham khảo TÀI LIỆU THAM KHẢO [1] C.D Manning, P Raghavan and H Schütze An introduction to Information Retrieval Cambridge University Press Online Edition, 2009 [2] K Sugiyama, K Hatano and M Yoshikawa Adaptive Web Search Based on User Profile Constructed without Any Effort from Users WWW2004, New York, USA, May 17–22, 2004 [3] J B Schafer, D Frankowski, J Herlocker, and S Sen Collaborative Filtering Recommender Systems The Adaptive Web, LNCS 4321, pages 291 – 324, 2007 [4] E Gabrilovich and S Markovitch Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis IJCAI’07, 2007 [5] R Thiagarajan, G Manjunath, and M Stumptner Computing Semantic Similarity Using Ontologies HP Labs Technical Report HPL-2008-87, 2008 [6] H Kwak and H Y Shin and J I Yoon and S Moon Connecting Users with Similar Interests Across MultipleWeb Services Association for the Advancement of Artificial Intelligence (www.aaai.org), 2009 [7] B Markines, C Cattuto, F Menczer, D Benz, A Hotho and G Stumme Evaluating Similarity Measures for Emergent Semantics of Social Tagging World Wide Web, 2009 [8] H Jung, M Lee, I Kang, S.W Lee and W K Sung Finding Topic-centric Identified Experts based on Full Text Analysis 2nd International ExpertFinder Workshop, 2007 [9] R Thiagarajan, G Manjunath, and M Stumptner Finding Experts By Semantic Matching of User Profiles Technical Reports, HP Laboratories, 2008 [10] G Demartini Finding Experts Using Wikipedia 2nd International ExpertFinder Workshop, 2007 Phát triển giải thuật so trùng hồ sơ cá nhân cộng đồng nghiên cứu khoa học 77 Tài liệu tham khảo [11] G Amato and U Straccia User Profile Modeling and Applications to Digital Libraries Proceedings of the Third European Conference on Research and Advanced Technology for Digital Libraries, 1999 [12] S Gauch, M Speretta, A Chandramouli and A Micarelli User Profiles for Personalized Information Access springerlink.com, 2007 [13] T Bogers, K Kox and A Bosch Using Citation Analysis for Finding Experts in Workgroups DIR-2008, Maastricht, the Netherlands, April 14-15, 2008 [14] L Shen and Y Zhou A New User Similarity Measure for Collaborative Filtering Algorithm Second International Conference on Computer Modeling and Simulation, 2010 [15] P Lops, M Gemmis, G Semeraro, C Musto, F Narducci, and M Bux A Semantic Content-Based Recommender System Integrating Folksonomies for Personalized Access springerlink.com, 2009 [16] H Liang, Y Xu, Y Li, R Nayak Collaborative Filtering Recommender Systems based on Popular Tags Proceedings of the 14th Australasian Document Computing Symposium, Sydney, Australia, December 2009 [17] A Kumar and Dr P Thambidurai Collaborative Web Recommendation Systems - A Survey Approach Global Journal of Computer Science and Technology Vol Issue (Ver 2.0), January 2010 [18] H Naderi and B Rumpler Graph-Based Profile Similarity Calculation Method and Evaluation springerlink.com, 2008 [19] R Wetzker and C Zimmermann I Tag, You Tag: Translating Tags for Advanced User Models http://portal.acm.org/, 2010 [20] A K Milicevic, A Nanopoulos and M Ivanovic Social tagging in recommender systems: a survey of the state-of-the-art and possible extensions springerlink.com, Published online: 21 January 2010 Phát triển giải thuật so trùng hồ sơ cá nhân cộng đồng nghiên cứu khoa học 78 Tài liệu tham khảo [21] H Naderi and B Rumpler Three User Profile Similarity Calculation (UPSC) Methods and Their Evaluation Third International IEEE Conference on Signal-Image Technologies and Internet-Based System, 2008 [22] V Snasel, A Abraham, S Owais, J Platos and P Krăomer User Profiles Modeling in Information Retrieval Systems springerlink.com, 2010 [23] D Billsus and Michael J Pazzani User Modeling for Adaptive News Access User Modeling and User-Adapted Interaction 10: pages 147-180, 2000 [24] X Wang and A McCallum Topics over Time: A NonMarkov Continuous-Time Model of Topical Trends KDD’06, Philadelphia, Pennsylvania, USA, August 20–23, 2006 [25] X Wang, A McCallum, X Wei Topical N-grams: Phrase and Topic Discovery, with an Application to Information Retrieval Proceedings of the 2007 Seventh IEEE International Conference on Data Mining, 2007 [26] Thomas Hofmann Probabilistic Latent Semantic Indexing SIGIR '99, Berkley, CA USA, 1999 [27] E Michlmayr and S Cayzer Learning User Profiles from Tagging Data and Leveraging them for Personal(ized) Information Access WWW2007, Banff, Canada, May 8–12, 2007 [28] C H Papadimitriou, P Raghavan, H Tamaki and S Vempala Latent Semantic Indexing: A Probabilistic Analysis Proceedings of the seventeenth ACM SIGACTSIGMOD-SIGART symposium on Principles of database systems, 1998 [29] D Shen, J T Sun, Q Yang, Z Chen Latent Friend Mining from Blog Data Proceedings of the Sixth International Conference on Data Mining, 2006 [30] David M Blei, Andrew Y Ng and Michael I Jordan Latent Dirichlet Allocation Journal of Machine Learning Research 3, 2003 [31] Y Matsuo and M Ishizuka Keyword Extraction from a Single Document using Word Co-occurrence Statistical Information American Association for Artificial Intelligence (www.aaai.org), 2003 Phát triển giải thuật so trùng hồ sơ cá nhân cộng đồng nghiên cứu khoa học 79 Tài liệu tham khảo [32] D H Widyantoro, T R Ioerger and J Yen An Adaptive Algorithm for Learning Changes in User Interests CIKM ‘99 I1199 Kansas City MO, USA, 1999 [33] H Billhardt, D Borrajo, V Maojo A Context Vector Model for Information Retrieval Journal of the American Society for Information Science and Technology, Vol 53, pages: 236-249, 2002 [34] S K M Wong, W Ziarko, V V Raghavan, P C N Wong On Modeling of Information Retrieval Concepts in Vector Spaces ACM Transaction on Database System, Vol 12, No.2, 1987 [35] Ahmad El Sayed, Hakim Hacid, Djamel Zighed Mining Semantic Distance Between Corpus Terms PIKM’07, Lisboa, Portugal, November 9, 2007 [36] Gerard Salton and Chris Buckley Term-weighting approaches in automatic text retrieval Information Processing and Management, pages: 513-523, 1988 [37] G Adomavicius and A Tuzhilin Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions IEEE Transactions of Knowledge and Data Engineering, Vol 17, No.6, pp.734-749, June 2005 [38] A E Sayed, H Hacid and D Zighed A Multisource Context-Dependent Semantic Distance Between Concepts In DEXA Springer, 2007 [39] C Leacock, M Chodorow and G A Millers Using Corpus Statistics and WordNet Relations for Sense Identification Computational Linguistics, Volume 24, Number 1, 1998 [40] Thomas K Landauer, Peter W Foltz, Darrell Laham An Introduction to Latent Semantic Analysis Discourse Processes, 25, pages: 259-284, 1998 [41] G Semeraro, M Degemmis, P Lops and P Basile Combining Learning and Word Sense Disambiguation for Intelligent User Profiling IJCAI-07, 2007 Phát triển giải thuật so trùng hồ sơ cá nhân cộng đồng nghiên cứu khoa học 80 ... nghiệm Các kĩ thuật gom nhóm thường đưa gợi ý mang tính cá Phát triển giải thuật so trùng hồ sơ cá nhân cộng đồng nghiên cứu khoa học 20 Chương2: Tổng quan thu thập thông tin mơ hình người dùng nhân. .. stemming Kết trình tinh chế resource cho resource tinh chế (Refined Resource) Resource tinh Phát triển giải thuật so trùng hồ sơ cá nhân cộng đồng nghiên cứu khoa học 41 Chương 5: Chương trình... từ văn Phát triển giải thuật so trùng hồ sơ cá nhân cộng đồng nghiên cứu khoa học 11 Chương2: Tổng quan thu thập thông tin mơ hình người dùng Phương pháp xác suất tổng quát kĩ thuật so trùng xác

Định dạng
Số trang	88
Dung lượng	624,43 KB