Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 131 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
131
Dung lượng
6,81 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM TRẦN MINH KHƠI KHĨA LUẬN TỐT NGHIỆP TÌM HIỂU XÂY DỰNG HỆ KHUYẾN NGHỊ CỘNG TÁC NGHIÊN CỨU COLLABORATION RECOMMENDER SYSTEM FOR RESEARCHERS KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM TP HỒ CHÍ MINH, 2022 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN KHOA CÔNG NGHỆ PHẦN MỀM TRẦN MINH KHÔI - 18520947 KHĨA LUẬN TỐT NGHIỆP TÌM HIỂU XÂY DỰNG HỆ KHUYẾN NGHỊ CỘNG TÁC NGHIÊN CỨU COLLABORATION RECOMMENDER SYSTEM FOR RESEARCHERS KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM GIẢNG VIÊN HƯỚNG DẪN TS HUỲNH NGỌC TÍN TP HỒ CHÍ MINH, 2022 THƠNG TIN HỘI ĐỒNG CHẤM KHĨA LUẬN TỐT NGHIỆP Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số …………………… ngày Hiệu trưởng Trường Đại học Công nghệ Thông tin Chủ tịch Thư ký Ủy viên Ủy viên ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN Độc Lập - Tự Do - Hạnh Phúc TP HCM, ngày … tháng … năm 20 NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP (CỦA CÁN BỘ HƯỚNG DẪN) Tên khóa luận: Tìm hiểu xây dựng hệ khuyến nghị cộng tác nghiên cứu Nhóm SV thực hiện: Trần Minh Khôi 18520947 Cán hướng dẫn: TS Huỳnh Ngọc Tín Đánh giá khóa luận: Về báo cáo Số trang 108 Số chương Số bảng số liệu 28 Số hình vẽ 58 Số tài liệu tham khảo 28 Sản phẩm Một số nhận xét hình thức báo cáo: Về nội dung nghiên cứu: Về chương trình ứng dụng: Về thái độ làm việc sinh viên: Đánh giá khóa luận: Điểm sinh viên: Trần Minh Khôi: ./10 Người nhận xét (Ký ghi rõ họ tên) ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN Độc Lập - Tự Do - Hạnh Phúc TP HCM, ngày … tháng … năm 20 NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP (CỦA CÁN BỘ PHẢN BIỆN) Tên khóa luận: Tìm hiểu xây dựng hệ khuyến nghị cộng tác nghiên cứu Nhóm SV thực hiện: Trần Minh Khơi 18520947 Cán hướng dẫn: ThS Đinh Nguyễn Anh Dũng Đánh giá khóa luận: Về báo cáo Số trang 108 Số chương Số bảng số liệu 28 Số hình vẽ 58 Số tài liệu tham khảo 28 Sản phẩm Một số nhận xét hình thức báo cáo: Về nội dung nghiên cứu: Về chương trình ứng dụng: Về thái độ làm việc sinh viên: Đánh giá khóa luận: Điểm sinh viên: Trần Minh Khôi: ./10 Người nhận xét (Ký ghi rõ họ tên) LỜI CẢM ƠN Khoảng thời gian nghiên cứu làm việc trường Đại học Công nghệ Thông tin ĐHQG TP.HCM, cung cấp cho nhóm đầy đủ kiến thức tảng xây dựng phát triển ứng dụng nói chung Cảm ơn trường tạo môi trường học tập cạnh tranh, lành mạnh Cảm ơn chúng tơi có hội trải nghiệm áp lực chạy deadline, va chạm với nhiều sinh viên giỏi, mày mị cơng nghệ hay mang tính thực tiễn cao Nhóm xin chân thành cảm ơn giảng viên hướng dẫn Huỳnh Ngọc Tín kiên trì theo sát, thúc đẩy nhóm suốt trình làm việc Tài liệu báo tham khảo thầy cung cấp khung sườn giúp nhóm bám theo, mở rộng hoàn thiện đề tài đề tài nói riêng nắm bắt kiến thức thực tiễn hệ khuyến nghị liệu lớn nói chung Tp Hồ Chí Minh, ngày tháng 07 năm 2022 Sinh viên thực đề tài Trần Minh Khôi ĐỀ CƯƠNG CHI TIẾT TÊN ĐỀ TÀI: Tìm hiểu xây dựng hệ khuyến nghị cộng tác nghiên cứu TÊN ĐỀ TÀI (TIẾNG ANH): Collaboration recommender system for researchers Cán hướng dẫn: TS Huỳnh Ngọc Tín Thời gian thực hiện: Từ ngày 25/2/2022 đến ngày 15/6/2022 Sinh viên thực hiện: Trần Minh Khôi – 18520947 Nội dung đề tài ● Bối cảnh ○ Một người làm nghiên cứu, người theo học chương trình thạc sĩ, tiến sĩ có nhu cầu tìm kiếm người cộng tác tiềm Hệ thống tìm kiếm gợi ý hợp tác nghiên cứu dựa thông tin hướng nghiên cứu tổ chức cơng tác ○ Một đồn nghiên cứu trường NUS đến thăm tìm kiếm hội hợp tác với trường UIT Hệ thống tìm kiếm gợi ý quan hệ hợp tác tiềm ● Mục tiêu ○ Nghiên cứu đề tài khuyến nghị cộng tác, tìm kiếm thơng tin, khai thác liệu mạng xã hội ○ Phân tích thử nghiệm mơ hình Ứng dụng xây dựng hệ thống khuyến nghị cộng tác viên tiềm liệu nghiên cứu ● Phạm vi ○ Các quan hệ tương tác chiết xuất từ liệu Arnet Citation V13 ○ Các framework hỗ trợ lập trình máy học, xử lý đại số, hiển thị liệu: Tensorflow, Numpy, Matplotlib ○ Các framework liệu lớn, xử lý liệu: Apache Hadoop, Apache Spark ○ Các thư viện hỗ trợ xây dựng ứng dụng web: Fast API, SqlAlchemy, React ● Phương pháp ○ Đọc hiểu văn bản, báo cáo khoa học ○ Nghiên cứu mã nguồn ○ Thực nghiệm đánh giá ● Kết mong đợi ○ Hệ thống sau deploy phản hồi nhanh ○ Độ xác dự đốn cao ○ Giao diện web cho phép người dùng tương tác Kế hoạch thực Đề án chia làm giai đoạn Tìm hiểu, nghiên cứu giải pháp khuyến nghị cộng tác Các framework hỗ trợ máy học Xử lý liệu thô, xây dựng hệ thống Chạy thực nghiệm kết quả, canh chỉnh thông số Xây dựng giao diện web demo 5.3.1 Độ đo Binary Accuracy Với giá trị dự đoán vượt ngưỡng gán nhãn dương, nhỏ ngưỡng dán nhãn âm Độ đo Binary Accuracy nhằm mục đích đo lường phần trăm đốn trúng nhãn mơ hình 5.3.2 Độ đo Precision Đo lường phần trăm dự đoán nhãn dương Với cơng thức phát biểu sau Mơ hình có Precision cao đồng nghĩa với có mẫu âm bị dự đốn nhầm thành mẫu dương, mơ hình dự đốn mẫu âm tốt Chúng tơi dùng Tensorflow để tính tốn số này, nhiên q trình tính tốn yêu cầu dự đoán phải nằm khoảng từ đến 1, không phù hợp với đặc thù SVM cho kết từ khoảng -1 đến Dùng tiếp cận xấp xỉ, bình thường hóa kết dự đốn SVM vào khoảng đến theo công thức sau Precision đo lường nhiều ngưỡng, cụ thể chọn 200 ngưỡng khoảng giá trị từ 0.1 đến 0.9, kết Precision cuối trung bình Precision từ 200 ngưỡng 5.3.3 Độ đo Recall Đo lường phần trăm nhãn dương dự đốn Với cơng thức phát biểu sau 94 Mơ hình có Recall cao đồng nghĩa với có mẫu dương bị dự đốn sai, mơ hình dự đốn mẫu dương tốt Chúng tơi dùng Tensorflow để tính tốn số q trình tính tốn địi hỏi kết dự đoán khoảng từ đến Dùng cách thức xử lý xấp xỉ làm với Precision, tiến hành bình thường hóa kết dự đốn SVM Kết Recall cuối trung bình Recall từ 200 ngưỡng khoảng [0.1, 0.9] 5.3.4 Độ đo AUC Hình 6.4: Minh họa độ đo AUC (Internet) Đo lường khả phân biệt mẫu dương âm cách tính diện tích bên đường ROC Vẽ đường ROC đơn giản, với ràng buộc giá trị dự đoán khoảng từ đến 1, biểu đồ ROC với trục tung True Positive Rate (TPR) trục hồnh False Positive Rate (FPR) Có thể tính TPR FPR với công thức sau 95 Giả sử tồn 200 ngưỡng khoảng từ [0.1, 0.9], với ngưỡng Confusion Matrix tương ứng với cặp giá trị TPR FPR Vậy ta có 200 điểm biểu đồ ROC, nối lại đường cong ROC Ước lượng AUC cách tính diện tích khơng gian bên đường ROC (Hình 6.4) 5.3.5 Độ đo Top-K content quality Với đặc thù hệ khuyến nghị, người dùng quan tâm đến kết khuyến nghị Do hệ khuyến nghị sau tính toán xếp theo thứ tự giảm dần xếp hạng với xếp hạng cao trang đầu THuynh [23] khuyến nghị công thức ước lượng chất lượng cộng tác sau Với CO tổng số lần cộng tác đối tượng khuyến nghị Như ước lượng chất lượng khuyến nghị top-k ứng dụng công thức ước lượng CQ 96 5.4 Kết thực nghiệm 5.4.1 Độ đo Confusion Matrix Model Binary Accuracy Precision Recall AUC RE1 (Baseline) 0.879213 0.878014 0.999852 0.537679 RE2 0.877435 0.879294 0.999446 0.603194 RE3 0.877073 0.879181 0.99957 0.666246 RE4 0.886647 0.880295 0.999492 0.704915 RE5 0.886391 0.879654 0.999664 0.74379 RE6 0.887186 0.882859 0.973672 0.725538 RE7 0.887158 0.881628 0.99912 0.668968 RE8 0.887072 0.881434 0.999186 0.660209 Bảng 3.8: Kết thực nghiệm, độ đo Confusion Matrix Từ kết thực nghiệm (Bảng 3.8), chúng tơi dễ dàng nhận thấy mơ hình có độ xác tương đồng khơng có nhiều chênh lệch, trường hợp độ đo Recall lớn độ đo Precision Nghĩa với tập đặc trưng tại, huấn luyện mơ hình dự đốn mẫu dương tốt mẫu âm Chúng tơi cho để mơ hình có tính ứng dụng cao, cần tập trung độ đo Binary Accuracy AUC, nhấn mạnh độ xác mơ hình khả phân biệt mẫu dương âm 97 So sánh kỹ thuật chiết xuất tương đồng tổ chức Org-Rank Org-Discrete, tương ứng với mơ hình RE2 RE3 Chúng so sánh AUC với khả phân biệt mẫu dương âm, kết luận Org-Rank kỹ thuật vượt trội chênh lệch nhỏ Từ mơ hình từ RE4 đến RE8 dùng kỹ thuật Org-Rank khai thác tương đồng tổ chức Hình 6.5: So sánh hiệu mơ hình thử nghiệm Trên thực tế khuyến nghị theo nội dung ứng dụng phổ biến, chúng tơi lấy mơ hình RE1 với khuyến nghị theo tương đồng nội dung làm sở so sánh Đúng mong đợi, mơ hình sau với nhiều đặc trưng làm giàu kết khuyến nghị cho hiệu dự đốn cao (Hình 6.5) khả phân biệt mẫu dương âm đặc trưng bù đắp cho Từ thực nghiệm, nhận định mơ hình RE5 RE6 có hiệu cao đạt độ xác khả phân biệt mẫu dương âm tốt 98 thử nghiệm tăng cường học sâu sau mơ hình RE6 khơng làm tăng hiệu mơ hình, với mơ hình có nhiều Neuron RE8 độ đo AUC tụt thê thảm với độ xác khơng có nhiều thay đổi Như độ sâu học máy có ảnh hưởng đến kết khuyến nghị, thể hiệu mơ hình RE6 Tuy nhiên khơng phải học sâu mơ hình thơng minh, nhận thấy với tập đặc trưng tại, tập mẫu âm dương giao nhiều, thực khó chí khơng thể huấn luyện mơ hình có hiệu cao RE5 RE6 5.4.2 Độ đo top-k Model CQ@1 CQ@5 CQ@10 CQ@50 CQ@100 RE1 (Baseline) 10 2675 3867 RE2 12 28 1585.017312 2642.778174 RE3 8.980197 45.772468 213.681782 381.443276 RE4 75 599.912772 687.884811 1691.305528 2450.619844 RE5 8.995574 13.984668 60.831571 141.497149 RE6 4.955383 9.867326 41.021433 84.388298 RE7 4.956005 9.86411 46.812864 89.332916 RE8 4.952219 9.857131 44.743548 80.305212 Bảng 3.9: Kết thực nghiệm, độ đo top-k 99 Hình 6.6: So sánh hiệu kết khuyến nghị Thực nghiệm với độ đo top-k, nhận thấy mơ hình RE4 cho kết ước lượng CQ cao với phân bố giãn giá trị k (hình 6.6) Bên cạnh với thử nghiệm học sâu ý tượng độ đo top k khơng có nhiều biến chuyển 100 5.4.3 Biểu đồ hội tụ Hình 6.7: Biểu đồ hội tụ mơ hình RE1, RE2, RE4 Quá trình hội tụ mơ hình chúng tơi nhận thấy giống (Hình 6.7), đa số đạt độ cao sau chưa đến vịng lặp Chúng tơi nhận thấy mơ hình có đặc trưng tương đồng trích dẫn hội tụ nhanh với giá trị hàm thất vịng lặp huấn luyện đầu tiên, với mơ hình cịn lại loss lớn Có thể kết luận mơ hình dự đốn dựa nội dung mặt chuẩn mực với độ xác cao, khai thác đặc trưng xã hội khác làm tăng hiệu mơ hình việc phân biệt mẫu dương âm 101 Kết luận hướng phát triển Với tập đặc trưng tại, thực trạng tập mẫu âm có phần giao nhiều với tập mẫu dương Gần khơng thể huấn luyện mơ hình tốt Chúng đề xuất hướng nghiên cứu tập trung khai thác đặc trưng phân biệt miền giá trị độc tập mẫu âm với tập mẫu dương Làm điều này, hiệu dự dự đoán cao chí khơng cần dùng cơng nghệ máy học phân biệt Qua thử nghiệm cho thấy yếu tố địa phương đóng góp lớn vào kết khuyến nghị mơ hình có đặc trưng tổ chức cho AUC cao hẳn, đề xuất hướng nghiên cứu tập trung vào lĩnh vực thu thập liệu Với thực trạng liệu rời rạc chúng tơi huấn luyện mơ hình dự đốn tốt, liệu tốt lẽ đương nhiên hiệu dự đoán cao Với liệu thu thập tập trung vào khu vực địa phương Đại học Quốc gia Hà Nội Đại học Quốc gia Thành phố Hồ Chí Minh, hệ khuyến nghị có tính ứng dụng cao Cách thức chiết xuất tương đồng nội dung tại, tự nghiệm thu chưa hồn chỉnh với tập vector có tỉ lệ trùng Đề xuất hướng nghiên cứu tập trung vào tiếp cận xử lý ngôn ngữ đại với tập vector đại diện độc cho đối tượng, mơ hình có khả phân biệt mẫu dương âm tốt so với Với liệu tại, thông tin tác giả ghi nhận tên tổ chức công tác, số trường hợp tên tác giả bị trùng Đề xuất mở rộng nghiên cứu tập trung vào định danh tác giả, tích hợp mô đun phân biệt tác giả với tên giống nhau, đồng thời tích hợp hệ thống Crawl thêm liệu tác giả Một tác giá với định danh rõ ràng theo chúng tơi khai thác mạng xã hội liên kết xã hội dày hơn, làm giàu nâng cấp chất lượng khuyến nghị 102 Đề xuất mơ hình khuyến nghị báo khoa học thiên kiến theo xếp hạng cộng tác Điều thấy dễ dàng, nhóm sinh viên nghiên cứu khoa học xuất báo theo chúng tơi đa số nhằm mục đích cải tiến cơng trình nghiên cứu giảng viên hướng dẫn đề tài khuyến nghị tổ chức, hội nhóm nghiên cứu sinh viên cơng tác Các nhóm nghiên cứu độc lập có định hướng riêng dường Dựa thực trạng nhận thấy mơ hình khuyến nghị báo khoa học dựa phân tích mạng xã hội có độ thực tiễn cao Từ mô đun khuyến nghị báo khoa học khuyến nghị cộng tác, ta hồn tồn xây dựng tảng kết nối người đam mê nghiên cứu phạm vi trường đại học tổ hợp trường có quan hệ cộng tác thân thiết 103 Tài liệu tham khảo [1] Sridevi, M., Rao, R R., & Rao, M V (2016) A survey on recommender system International Journal of Computer Science and Information Security, 14(5), 265 [2] Pradhan, R., Swami, A C., Saxena, A., & Rajpoot, V (2021, March) A Study on Movie Recommendations using Collaborative Filtering In IOP Conference Series: Materials Science and Engineering (Vol 1119, No 1, p 012018) IOP Publishing [3] Recommender system Chapter 13 MIT 6.036 - Fall 2019 [4] Ponnam, L T., Punyasamudram, S D., Nallagulla, S N., & Yellamati, S (2016, February) Movie recommender system using item based collaborative filtering technique In 2016 International Conference on Emerging Trends in Engineering, Technology and Science (ICETETS) (pp 1-5) IEEE [5] Koren, Y., Bell, R., & Volinsky, C (2009) Matrix factorization techniques for recommender systems Computer, 42(8), 30-37 [6] Rendle, S., Freudenthaler, C., Gantner, Z., & Schmidt-Thieme, L (2012) BPR: Bayesian personalized ranking from implicit feedback arXiv preprint arXiv:1205.2618 [7] Aberger, C R (2014) Recommender: An analysis of collaborative filtering techniques Personal and Ubiquitous Computing Journal 104 [8] Safoury, L., & Salah, A (2013) Exploiting user demographic attributes for solving cold-start problem in recommender system Lecture Notes on Software Engineering, 1(3), 303-307 [9] Vozalis, M., & Margaritis, K G (2004, August) Collaborative filtering enhanced by demographic correlation In AIAI symposium on professional practice in AI, of the 18th world computer congress [10] Chen, T., & He, L (2009, June) Collaborative filtering based on demographic attribute vector In 2009 ETP International Conference on Future Computer and Communication (pp 225-229) IEEE [11] Vozalis, M G., & Margaritis, K G (2007) Using SVD and demographic data for the enhancement of generalized collaborative filtering Information Sciences, 177(15), 3017-3037 [12] Lin, K I., & Yang, C (2001, April) The ANN-tree: An index for efficient approximate nearest neighbor search In Proceedings Seventh International Conference on Database Systems for Advanced Applications DASFAA 2001 (pp 174-181) IEEE [13] Johnson, J., Douze, M., & Jégou, H (2017) Billion-scale similarity search with gpus (2017) arXiv preprint arXiv:1702.08734 [14] Chen, H H., Gou, L., Zhang, X., & Giles, C L (2011, June) Collabseer: a search engine for collaboration discovery In Proceedings of the 11th annual international ACM/IEEE joint conference on Digital libraries (pp 231-240) 105 [15] Covington, P., Adams, J., & Sargin, E (2016, September) Deep neural networks for youtube recommendations In Proceedings of the 10th ACM conference on recommender systems (pp 191-198) [16] Yang, J., Yi, X., Zhiyuan Cheng, D., Hong, L., Li, Y., Xiaoming Wang, S., & Chi, E H (2020, April) Mixed negative sampling for learning two-tower neural networks in recommendations In Companion Proceedings of the Web Conference 2020 (pp 441-447) [17] Loh, S., Lorenzi, F., Granada, R., Lichtnow, D., Wives, L K., & de Oliveira, J P M (2009, March) Identifying Similar Users by their Scientific Publications to Reduce Cold Start in Recommender Systems In WEBIST (Vol 9, pp 593-600) [18] Ramos, J (2003, December) Using tf-idf to determine word relevance in document queries In Proceedings of the first instructional conference on machine learning (Vol 242, No 1, pp 29-48) [19] Haveliwala, T H Topic-Sensitive PageRank, 2002 IEEE Transactions on Knowledge and Data Engineering [20] Page, L., Brin, S., Motwani, R., & Winograd, T (1999) The PageRank citation ranking: Bringing order to the web Stanford InfoLab [21] Maruyama, O., & Chihara, A (2011, December) NWE: Node-weighted expansion for protein complex prediction using random walk distances In Proteome science (Vol 9, No 1, pp 1-11) BioMed Central 106 [22] Wang, W., Liu, J., Yang, Z., Kong, X., & Xia, F (2019) Sustainable collaborator recommendation based on conference closure IEEE Transactions on Computational Social Systems, 6(2), 311-322 [23] Huynh, T., Takasu, A., Masada, T., & Hoang, K (2014, May) Collaborator recommendation for isolated researchers In 2014 28th International Conference on Advanced Information Networking and Applications Workshops (pp 639-644) IEEE [24] Tang, J., Zhang, J., Yao, L., Li, J., Zhang, L., & Su, Z (2008, August) Arnetminer: extraction and mining of academic social networks In Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining (pp 990-998) [25] Xin, R S., Gonzalez, J E., Franklin, M J., & Stoica, I (2013, June) Graphx: A resilient distributed graph system on spark In First international workshop on graph data management experiences and systems (pp 1-6) [26] Monga, C., Richa (2018, January) Graph traversals and its applications in graph theory International of Computer Science and Mobile Application (Vol 6, Issue 1, pg 38-42) [27] Huynh, T., Hoang, K., & Lam, D (2013, September) Trend based vertex similarity for academic collaboration recommendation In international conference on computational collective intelligence (pp 11-20) Springer, Berlin, Heidelberg [28] Hastie, T (2020) Ridge regularization: An essential concept in data science Technometrics, 62(4), 426-433 107 Phụ lục 108 ... dựng hệ thống khuyến nghị người cộng tác tiềm phục vụ nghiên cứu sinh, bạn sinh viên làm nghiên cứu trường đại học Chuyên đề nghiên cứu cộng tác học thuật nhà nghiên cứu quan tâm, tiếp cận khuyến. .. tác ○ Một đồn nghiên cứu trường NUS đến thăm tìm kiếm hội hợp tác với trường UIT Hệ thống tìm kiếm gợi ý quan hệ hợp tác tiềm ● Mục tiêu ○ Nghiên cứu đề tài khuyến nghị cộng tác, tìm kiếm thơng... CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM TRẦN MINH KHƠI - 18520947 KHĨA LUẬN TỐT NGHIỆP TÌM HIỂU XÂY DỰNG HỆ KHUYẾN NGHỊ CỘNG TÁC NGHIÊN CỨU COLLABORATION RECOMMENDER