Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 47 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
47
Dung lượng
3,55 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA CÔNG NGHỆ PHẦN MỀM TRẦN MINH KHƠI - 18520947 KHĨA LUẬN TỐT NGHIỆP NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG CL-PUB KHUYẾN NGHỊ CỘNG TÁC HỌC THUẬT BUILDING CL-PUB: AN EMPIRICAL STUDY ON ACADEMIC COLLABORATOR RECOMMENDATION KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM GIẢNG VIÊN HƯỚNG DẪN TS HUỲNH NGỌC TÍN TP HỒ CHÍ MINH, 2022 THƠNG TIN HỘI ĐỒNG CHẤM KHĨA LUẬN TỐT NGHIỆP Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số ngày Hiệu trưởng Trường Đại học Công nghệ Thông tin Chủ tịch Thư ký Ủy viên Ủy viên ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN Độc Lập - Tự Do - Hạnh Phúc TP HCM, ngày tháng năm 20 NHẬN XÉT KHÓA LUẬN TỐT NGHIỆP (CỦA CÁN BỘ HƯỚNG DẪN) Tên khóa luận: Nghiên cứu xây dựng hệ thống khuyến nghị cộng tác Nhóm SV thực hiện: Trần Minh Khôi Cán hướng dẫn: TS Huỳnh Ngọc Tín 18520947 Đánh giá khóa luận: Về báo cáo Số trang 65 Số chương Số bảng số liệu Số hình vẽ 15 Số tài liệu tham khảo 11 Sản phẩm Một số nhận xét hình thức báo cáo: Về nội dung nghiên cứu: Về chương trình ứng dụng: Về thái độ làm việc sinh viên: Đánh giá khóa luận: Điểm sinh viên: Trần Minh Khơi: ./10 Người nhận xét (Ký ghi rõ họ tên) LỜI CẢM ƠN Nhóm xin chân thành cảm ơn giảng viên hướng dẫn Huỳnh Ngọc Tín kiên trì theo sát, thúc đẩy nhóm suốt q trình làm việc Tài liệu tham khảo thầy cung cấp góp phần lớn giúp nhóm hồn thiện đề tài nói riêng nắm bắt kiến thức thực tiễn ứng dụng hệ khuyến nghị nói chung ĐỀ CƯƠNG CHI TIẾT TÊN ĐỀ TÀI: Nghiên cứu xây dựng hệ thống CL-PUB khuyến nghị cộng tác học thuật TÊN ĐỀ TÀI (TIẾNG ANH): Building CL-PUB: An empirical study on academic collaborator recommendation Cán hướng dẫn: TS Huỳnh Ngọc Tín Thời gian thực hiện: Từ ngày 25/2/2022 đến ngày 15/6/2022 Sinh viên thực hiện: Trần Minh Khôi – 18520947 Nội dung đề tài ● Bối cảnh ○ Một người làm nghiên cứu, người theo học chương trình thạc sĩ, tiến sĩ có nhu cầu tìm kiếm người cộng tác tiềm Hệ thống tìm kiếm gợi ý hợp tác nghiên cứu dựa thông tin hướng nghiên cứu tổ chức công tác ○ Một đồn nghiên cứu trường NUS đến thăm tìm kiếm hội hợp tác với trường UIT Hệ thống tìm kiếm gợi ý quan hệ hợp tác tiềm ● Mục tiêu ○ Nghiên cứu đề tài khuyến nghị cộng tác, tìm kiếm thơng tin, khai thác liệu mạng xã hội ○ Ứng dụng xây dựng hệ thống khuyến nghị cộng tác viên tiềm tập liệu nghiên cứu ● Phạm vi ○ Các quan hệ tương tác chiết xuất từ liệu Arnet Citation V13 ○ Các framework hỗ trợ lập trình máy học, xử lý đại số, hiển thị liệu: Tensorflow, Numpy, Matplotlib ○ Các framework liệu lớn, xử lý liệu: Apache Hadoop, Apache Spark ○ Các thư viện hỗ trợ xây dựng ứng dụng web: Flask, SqlAlchemy, React ● Phương pháp ○ Đọc hiểu văn bản, báo cáo khoa học ○ Nghiên cứu mã nguồn ○ Thực nghiệm đánh giá ● Kết mong đợi ○ Hệ thống sau deploy phản hồi nhanh ○ Độ xác dự đốn cao ○ Giao diện web cho phép người dùng tương tác Kế hoạch thực Đề án chia làm giai đoạn Tìm hiểu, nghiên cứu giải pháp khuyến nghị cộng tác Các framework hỗ trợ máy học Xử lý liệu thô, xây dựng hệ thống Chạy thực nghiệm kết quả, canh chỉnh thông số Xây dựng giao diện web demo Meeting định kỳ giảng viên hướng dẫn ● Hàng tuần thứ - 9:30 PM 25/02 - 15/04 ● Nghiên cứu báo liên quan ● Nghiên cứu framework hỗ trợ máy học ● Viết báo cáo giai đoạn 16/04 - 29/04 ● Xử lý liệu từ dblp Xây dựng hệ thống lưu trữ, truy xuất liệu lớn ● Canh chỉnh thông số hệ thống ● Viết báo cáo giai đoạn 30/04 - 14/05 ● Cài đặt thuật toán huấn luyện ● Chạy số liệu ● Viết báo cáo giai đoạn 15/05 - 5/06 ● Giao diện demo ● Deploy hệ thống ● Viết báo cáo giai đoạn (cuối) 5/06 - 11/06 ● Tổng hợp báo cáo Xác nhận CBHD TP HCM, ngày 25 tháng năm 2022 (Ký tên ghi rõ họ tên) DANH MỤC HÌNH VẼ 12 DANH MỤC BẢNG 12 DANH MỤC THUẬT NGỮ 12 DANH MỤC CHỮ VIẾT TẮT 12 TÓM TẮT KHÓA LUẬN 12 Chương - Tổng quan đề tài 1.1 Dẫn nhập 1.2 Mục tiêu 1.3 Nội dung thực 1.4 Phạm vi thực 1.5 Bố cục báo cáo 1.6 Kết đạt 1.7 Kết chương 13 13 14 14 14 14 15 15 Chương - Những nghiên cứu liên quan, hướng phát triển 2.1 Bài toán khuyến nghị 2.1.1 Khái niệm hệ khuyến nghị 2.1.2 Phát biểu toán 2.2 Khảo sát nghiên cứu liên quan 2.2.1 Các phương pháp lọc truyền thống 2.2.1.1 Lọc nội dung (Content-base) 2.2.1.2 Lọc cộng tác (Collaborative filtering) 2.2.1.3 Lọc nhân (Demographic filtering) 2.2.1.4 Kết luận hướng phát triển 2.2.2 Tìm kiếm hàng xóm gần (NNS) 2.2.2.1 Tìm kiếm tuyến tính (Linear search) 2.2.2.2 Tìm kiếm xấp xỉ (Approximate nearest neighbor, ANN) 2.2.2.3 Mơ hình khuyến nghị giai đoạn (2 phase recommender) 2.2.3.4 Kết luận hướng phát triển 2.2.3 Xếp hạng trang (PageRank) 2.2.3.1 Xếp hạng trang truyền thống 2.2.3.2 Lướt ngẫu nhiên với xác suất khởi động (RWR) 2.2.3.3 Kết luận hướng phát triển 2.3 Kết chương 15 15 15 15 17 17 17 18 20 21 22 23 23 25 26 27 28 29 30 31 Chương - Khuyến nghị cộng tác dựa phân tích mạng xã hội 3.1 Phát biểu toán 3.2 Tổng quan tiếp cận 3.3 Dữ liệu mạng xã hội 3.3.1 Định nghĩa 3.3.2 Hiện thực lưu trữ, khai thác liệu mạng xã hội 3.4 Phân tích liệu 3.4.1 Giới thiệu liệu 3.4.2 Tương đồng nội dung 3.4.2.1 Biểu diễn vector nội dung 3.4.2.2 Phân tích số liệu 3.4.3 Tương đồng trích dẫn 3.4.3.1 Lướt ngẫu nhiên với xác suất khởi động (RWR) 3.4.3.2 Phân tích số liệu 3.4.4 Tổ chức cộng tác 3.4.4.1 Tổ chức cộng tác tiềm 3.4.4.2 Phân tích số liệu 3.4.4 Tần suất hoạt động 3.4 Mơ hình khuyến nghị 3.2.1 Chiết xuất đặc trưng 3.2.2 Chỉ mục vector 3.2.2 Xếp hạng phân loại SVM 3.5 Huấn luyện mơ hình 3.3.1 Xử lý liệu 3.3.1.1 Đồ thị tổ chức 3.3.1.2 Đồ thị trích dẫn 3.3.1.3 Độ tương tự nội dung 3.3.1.4 Mức độ tích cực hoạt động 3.3.2 Lấy mẫu 3.4 Kết chương 31 31 32 32 33 33 34 34 35 36 36 39 39 40 41 42 43 43 44 44 44 44 44 44 44 44 44 44 44 44 Chương - Hiện thực hệ thống 4.1 Cơ sở liệu 4.1.1 Dữ liệu lớn 4.1.1.1 Thiết kế luồng đầu vào 4.1.1.2 Cấu trúc bảng 44 44 44 44 44 10 Như đề cập phần dẫn nhập (Đề mục 1.1), khai thác mạng xã hội cách tiếp cận sát với thực tế với nhu cầu nghiên cứu phát triển hệ khuyến nghị cộng tác Tuy nhiên “mạng xã hội” thực chất giao diện bên ngoài, tất yếu cần phải sâu thêm khái niệm, thực lưu trữ khai thác sở lưu trữ liệu 3.3.1 Định nghĩa Mạng xã hội tập hợp quan hệ đối tượng thuộc tập hợp, phạm vi khóa luận, tập hợp xét tập đối tượng khuyến nghị P Ví dụ mạng xã hội facebook, người dùng chiết xuất quan hệ, quan hệ theo dõi (Follow) quan hệ bạn bè (Friend) Nếu loại quan hệ ước lượng số, ta xem mạng xã hội thực chất khơng gian đồ thị có hướng với đồ thị đồ thị có trọng số biểu diễn quan hệ (đơn đồ thị) nhiều quan hệ (đa đồ thị) 3.3.2 Hiện thực lưu trữ, khai thác liệu mạng xã hội Mạng xã hội khơng gian đồ thị có hướng Như khai thác lưu trữ liệu mạng xã hội thực chất khai thác lưu trữ đồ thị Việc lưu trữ đồ thị thực đơn giản, ví dụ từ quan hệ bạn bè thể số năm đối tượng khuyến nghị, phân tích chiết xuất tập hợp tập đỉnh V (Vertex) tập cạnh E (Edge) Với quan hệ vô hướng, ta xem đồ thị chiều với quan hệ tương đương cạnh Như ta có đồ thị (Định nghĩa 1.6) biểu diễn quan hệ bạn bè (Hình 2.6) Hình 2.6: Minh họa lưu trữ đồ thị chiều biểu diễn quan hệ bạn bè 33 Tập đỉnh V tập cạnh E lưu trữ sở liệu quan hệ (RDBMS) sở liệu đồ thị Neo4J Tuy nhiên giải pháp lưu trữ truyền thống không phù hợp với nhu cầu đề tài, chọn cách thức lưu trữ khác với khả tùy chỉnh thuật toán mở rộng ngang (Horizontal scale) liệu lớn (Đề mục 4.1) Khai thác liệu mạng xã hội thực chất phân tích chiết xuất đặc trưng từ đơn đồ thị (1 quan hệ) đa đồ thị (nhiều quan hệ) Có thể ứng dụng giải thuật phân tích đồ thị phổ biến như: tìm đường ngắn (Dijkstra), phân cụm (Connected Components), xếp hạng trang (PageRank) 3.4 Phân tích liệu 3.4.1 Giới thiệu liệu Sử dụng liệu nghiên cứu Arnet Citation V13 [24] thu thập từ nguồn báo khoa học DBLP, ACM, MAG Bộ liệu tập trung thu thập mạng trích dẫn phù hợp cho nghiên cứu phân cụm nghiên cứu khuyến nghị học thuật Qua q trình phân tích, chúng tơi nhận thấy tác giả báo định danh (ID) độc Có thể chiết xuất mạng đồng tác giả mạng trích dẫn, khai thác đặc trưng huấn luyện mơ hình từ mạng Data set Paper Citation Relationship Citation-network V1 Citation-network V2 DBLP-Citation-network V3 DBLP-Citation-network V4 DBLP-Citation-network V5 DBLP-Citation-network V6 DBLP-Citation-network V7 DBLP-Citation-network V8 629,814 1,397,240 1,632,442 1,511,035 1,572,277 2,084,055 2,244,021 3,272,991 > 632,752 > 3,021,489 > 2,327,450 2,084,019 2,084,019 2,244,018 4,354,534 8,466,859 ACM-Citation-network V8 2,381,688 10,476,564 ACM-Citation-network V9 DBLP-Citation-network V9 DBLP-Citation-network V10 DBLP-Citation-network V11 DBLP-Citation-network V12 DBLP-Citation-network V13 2,385,022 3,680,007 3,079,007 4,107,340 4,894,081 5,354,309 9,671,893 1,876,067 25,166,994 36,624,464 45,564,149 48,227,950 Bảng 1.1: Các phiên liệu Arnet Citation 34 Từ liệu, thông qua số bước lọc bản, chiết xuất số liệu quan hệ xã hội sau (Bảng 1.2) Bộ liệu Quan hệ đồng tác giả Quan hệ trích dẫn DBLP-Citation-network V13 21532662 230430870 Bảng 1.2: Số liệu quan hệ xã hội từ liệu Từ liệu thu thập, tiến hành khai thác dựa quan hệ xã hội ứng viên: ● Quan hệ đồng tác giả ● Quan hệ trích dẫn Phân tích liệu từ quan hệ chiết xuất đặc trưng phù hợp để huấn luyện mơ hình máy học dự đoán tiềm cộng tác cặp ứng viên 3.4.2 Tương đồng nội dung Hình 2.7: Minh họa lịch sử xuất Ứng với tác giả có lịch sử xuất báo khoa học (Hình 2.7) Giả sử ứng viên có khả cộng tác tương lai cao lịch sử xuất có chủ đề tương tự nhau, xem tương đồng lịch sử cộng tác ứng viên tiếp cận lọc nội dung đặc thù hệ khuyến nghị (Đề mục 2.2.1.1), kết khuyến nghị đánh giá cao ứng viên có nội dung tương đồng 35 Ứng dụng kỹ thuật vector hóa văn TF-IDF, BOW để biểu diễn vector cho nội dung văn tính tốn vector đại diện cho lịch sử xuất tác giả Ước lượng tương đồng nội dung ứng viên thực tương đồng vector lịch sử xuất bản, ứng dụng cơng thức tương đồng [2] để khai thác tương đồng vector 3.4.2.1 Biểu diễn vector nội dung Bằng cách đánh trọng số cao cho từ hiếm, độc dùng để định danh văn liên quan đánh trọng số thấp cho từ phổ biến Kỹ thuật TF-IDF [18] dùng để tính vector đại diện cho văn dài với nhiều “Stop Words” Tuy nhiên liệu nghiên cứu, liệu văn liên quan đến báo khoa học có tiêu đề (Title), nội dung khác thu thập vấn đề quyền Tiêu đề báo khoa học với đặc thù văn ngắn, thể xúc tích nội dung báo, khơng có stop-words Nếu ứng dụng triệt để TF-IDF khả cao vector đại diện số báo có trọng số tồn Chúng tơi mong muốn thơng qua q trình tính tốn cho kết tập vector phân biệt đại diện đồng thời định danh cho báo tương ứng Vì định chọn kỹ thuật BOW, kết hợp với lọc stop-words kỹ thuật Average Pooling dùng để giảm kích thước vector 3.4.2.2 Phân tích số liệu Hình 2.8: Minh họa kỹ thuật BOW (Internet) 36 Hình 2.9: Minh họa kỹ thuật Average Pooling, với Pool = 2, Stride = (Internet) Từ liệu Arnet Citation V13, lọc báo khơng có tiêu đề, định danh, kết hợp với lọc stop-words Chúng thu thập số liệu sau (Bảng 1.2) Bộ liệu Số báo Kích thước từ vựng Arnet Citation V13 4857021 1082600 Bảng 1.2: Số liệu từ vựng Dựa cách thức hoạt động BOW (Hình 2.8), với tài liệu, kích thước vector đại diện kích thước từ vựng Xử lý vector với kích thước triệu hồn tồn khơng khả thi với tài nguyên có nhóm Việc đếm từ thực bảng băm (Hash table), cho kích thước bảng băm H, H kích thước từ vựng xác suất xảy va chạm 0, tốn nhiều tài ngun xử lý Chúng tơi nhận thấy giảm kích thước H để tăng tốc giải thuật, chấp nhận trường hợp va chạm, sau kết hợp với kỹ thuật Average Pooling (Hình 2.9) giảm kích thước vector đại diện Chúng tơi thử nghiệm kích thước H khác (Bảng 1.3), cho vector đại diện đầu cố định với kích thước 64, canh chỉnh thơng số p (Pool) s (Stride) ứng dụng Average Pooling 1D theo cơng thức sau 37 Kích trước H Average Pooling 1D Tỉ lệ trùng 500 s = 7, p = 53 2.034% 1000 s = 15, p = 41 2.223% 5000 s = 76, p = 137 2.412% Bảng 1.3: Tỉ lệ trùng vector nội dung theo kích thước H 5000 kích thước tối đa tài ngun nhóm cấp phát, chúng tơi chọn H = 500 tương ứng với tỉ lệ trùng nhỏ làm tập vector đại diện cho nội dung báo Lịch sử xuất tác giả tập hợp báo, biểu diễn lịch sử xuất vector trung bình tập hợp Tiến hành bốc 2000 mẫu tập hợp cặp cộng tác chiết xuất từ liệu với xác suất đồng dạng (Uniform distribution), tính độ tương đồng theo Cosin tác giả với cặp cộng tác, khai thác ảnh hưởng tương đồng nội dung đến định cộng tác (Hình 3.1) Hình 3.1: Biểu đồ mật độ thể tương quan tương đồng nội dung số cặp cộng tác Qua kết phân tích liệu, mật độ dày cặp cộng tác sở hữu tương đồng nội dung cosine có giá trị từ 0.0 đến 0.2 Đồng nghĩa với việc sở hữu mối quan tâm chung ứng viên định nhiều tiềm cộng tác Chúng tơi định tích hợp đặc trưng tương đồng nội dung vào mơ hình máy học, nhiên đề cập trước (Đề 38 mục 2.2.1.4), nhân tố lọc nội dung hệ khuyến nghị nhàm chán tập trung vào nhân tố Chúng xem xét thử nghiệm đặc trưng khác để “làm giàu” kết khuyến nghị 3.4.3 Tương đồng trích dẫn Hình 3.2: Minh họa trích dẫn Theo định dạng báo khoa học nói chung Bibtex, báo khoa học có danh sách trích dẫn báo khoa học khác (Hình 3.2) Đây xem nguồn tư liệu mà tác giả báo tham khảo, ứng dụng cải tiến cơng trình nghiên cứu Chúng tơi mong muốn khai thác độ tương đồng tác giả, với giả thuyết đặt tác giả tham khảo số lượng báo khoa học định có tương quan trọng số gần Mỗi tác giả có lịch sử xuất bản, từ lịch sử xuất chiết xuất tập hợp báo trích dẫn ứng với báo trích dẫn lại tập hợp tác giả Từ sở xây dựng mạng trích dẫn với đỉnh tác giả báo liên kết với thông qua quan hệ trích dẫn Có thể nói mạng trích dẫn, tác giả tương tác với nhau, hay nói cách khác theo đặc thù khuyến nghị “người dùng” tương tác với “đối tượng khuyến nghị” Chúng tơi xem mạng trích dẫn đồ thị có hướng với trọng số số lần trích dẫn tác giả A tác giả B, ứng dụng kỹ thuật RWR (Đề mục 2.2.3) để khai thác tương đồng 3.4.3.1 Lướt ngẫu nhiên với xác suất khởi động (RWR) Kỹ thuật lướt ngẫu nhiên, đề cập (Đề mục 2.2.3.2) cách tiếp cận khai thác độ tương tự đỉnh đồ thị Như [20] đề cập, giải thuật hội tụ sau khoảng 50 vòng 39 lặp Chúng tơi tận dụng lại số vịng lặp để chạy giải thuật, ngồi chúng tơi bổ sung thêm cơng thức Proximity tính độ tương quan đỉnh đồ thị sau Nghiên cứu Wei Yang [22] đề xuất ứng dụng lướt ngẫu nhiên thiên kiến theo trọng số cạnh Chúng định thử nghiệm kỹ thuật lướt ngẫu nhiên truyền thống với lướt ngẫu nhiên thiên kiến Với thiên kiến trọng số cạnh thay xác suất nhảy từ đỉnh sang hàng xóm theo cơng thức sau, với k tập hợp liên kết trỏ từ đỉnh 3.4.3.2 Phân tích số liệu Như đề cập (Bảng 1.2), từ liệu khai thác 230 triệu quan hệ trích dẫn Một đồ thị với kích thước cạnh mức độ này, giải thuật duyệt đồ thị thông thường BFS, DFS tải liệu duyệt Ram hồn tồn khơng khả thi với cấu hình máy chủ Do tham khảo tiếp cận liệu lớn, phân hoạch đồ thị theo cạnh duyệt theo khái niệm “Pregel” [25] Hình 3.3: Phân hoạch đồ thị theo cạnh (Pregel) [25] Tiến hành chạy giải thuật RWR với giải thuật chạy 50 vòng lặp Kết giải thuật bảng trọng số đỉnh với trọng số thực chất xếp hạng đỉnh đồ thị Chúng bốc 2000 mẫu tập hợp cặp cộng tác với xác suất đồng dạng, áp dụng 40 công thức Proximity chiết xuất độ tương đồng tác giả cặp mẫu Biểu diễn độ tương quan tương đồng cộng tác đến định cộng tác thơng qua biểu đồ mật độ (Hình 3.4, 3.5) Hình 3.4: Biểu đồ mật độ thể tương Hình 3.5: Biểu đồ mật độ thể tương quan tương đồng trích dẫn số cặp quan tương đồng trích dẫn số cặp cộng tác (RWR) cộng tác (RWR thiên kiến) Qua thực nghiệm số liệu, nhận thấy giải thuật RWR cho mật độ phân bổ giống Vì tiến hành thử nghiệm ảnh hưởng giải thuật đến độ xác kết khuyến nghị hệ thống đầu cuối Như thời điểm tại, chúng tơi hồn thành chiết xuất phân tích đặc trưng nhân tố khuyến nghị khuyến nghị theo nội dung (Tương đồng nội dung) khuyến nghị theo cộng tác (Tương đồng trích dẫn) Để làm giàu kết khuyến nghị, cho yếu tố ngoại cảnh bỏ qua thiết cần phải phân tích để xác minh độ ảnh hưởng đến kết khuyến nghị 3.4.4 Tổ chức cộng tác Hình 3.6: Minh họa cộng tác tổ chức 41 Trong liệu, thu thập tên tổ chức cộng tác ứng với ứng viên, mở rộng khai thác quan hệ tổ chức làm giàu kết khuyến nghị Tổ chức yếu tổ ngoại cảnh ảnh hưởng không nhỏ đến định cộng tác ứng viên, xét thực tiễn đa số báo khoa học công bố ứng viên làm tổ chức điều dễ bắt gặp Tin huynh [23] cho cộng tác tiềm xuất các trường đại học, tổ chức có quan hệ hợp tác (Hình 3.6) Thực tế không sai lệch, sinh viên nhóm nghiên cứu trường có khả cao cộng tác với cộng tác với giảng viên hướng dẫn nhóm Tuy nhiên tính tốn “sức mạnh” liên kết tổ chức vấn đề phức tạp 3.4.4.1 Tổ chức cộng tác tiềm Theo [23] độ mạnh liên kết tổ chức tính theo cơng thức tổng trọng số đường từ tổ chức đến tổ chức mạng liên kết tổ chức Có thể biểu diễn mạng đồ thị có hướng với trọng số đường số quan hệ đồng tác giả người lao động tổ chức Lúc toán tìm tồn đường đỉnh đồ thị áp dụng với đỉnh đồ thị tốn đồ thị nhiều nguồn (Multiple source) có thời gian chạy giải thuật lâu phải quay lui triệt để (Exhaustive backtracking) Giải thuật thực thi mẫu thử nhỏ [23] áp dụng Với kích thước liệu có, giải thuật tìm tồn đường không khả thi Qua tham khảo phân tích, chúng tơi nhận thấy áp dụng kết hợp giải thuật đồ thị ConnectedComponent chia đồ thị thành cụm (Cluster) có đỉnh liên kết mạnh mẽ với Sau ứng dụng Pagerank để tính tốn mức độ ảnh hưởng đỉnh cụm Chúng đặt giả thuyết cụm liên kết mạnh mẽ, đỉnh có nhiều tầm ảnh hưởng (trọng số cao), nhiều khả đỉnh liên kết với tồn đỉnh lại Độ mạnh liên kết tổ chức chúng tơi cho ước lượng trung bình trọng số đỉnh tương ứng đồ thị Đề xuất công thức Org-Rank ước lượng độ quan trọng đỉnh cụm, dựa công thức Pagerank truyền thống [20], thay số c nhằm tạo hiệu ứng cá nhân hóa độ quan trọng theo cụ Cho định danh cụm trả từ giải thuật ConnectedComponent 42 3.4.4.2 Phân tích số liệu Từ liệu thu thập thông số cụm 3.4.4 Tần suất hoạt động 43 3.4 Mơ hình khuyến nghị 3.2.1 Chiết xuất đặc trưng 3.2.2 Chỉ mục vector 3.2.2 Xếp hạng phân loại SVM 3.5 Huấn luyện mơ hình 3.3.1 Xử lý liệu 3.3.1.1 Đồ thị tổ chức 3.3.1.2 Đồ thị trích dẫn 3.3.1.3 Độ tương tự nội dung 3.3.1.4 Mức độ tích cực hoạt động 3.3.2 Lấy mẫu 3.4 Kết chương Chương - Hiện thực hệ thống 4.1 Cơ sở liệu 4.1.1 Dữ liệu lớn 4.1.1.1 Thiết kế luồng đầu vào 4.1.1.2 Cấu trúc bảng 4.1.2 Tra cứu điểm liệu 44 4.2 Kiến trúc tổng quan Chương - Thực nghiệm đánh giá 5.1 Dữ liệu thực nghiệm 5.2 Phương pháp đánh giá 5.2.1 Độ đo Precision 5.2.2 Độ đo Average Precision 5.2.3 Độ đo Recall 5.2.4 Độ đo TopN 5.3 Kết thực nghiệm 5.3.1 Độ đo Precision 5.3.2 Độ đo Average Precision 5.3.3 Độ đo Recall 5.3.4 Độ đo TopN Kết luận hướng phát triển Tài liệu tham khảo [1] A survey on recommender system - 2016 [2] A Study on Movie Recommendations using Collaborative Filtering - 2021 [3] Recommender system Chapter 13 MIT 6.036 - Fall 2019 [4] Movie Recommender System Using Item Based Collaborative Filtering Technique 2016 45 [5] Matrix factorization techniques for recommender system - 2009 [6] BPR: Bayesian Personalized Ranking from Implicit Feedback - 2009 [7] Recommender: An analysis of collaborative filtering techniques (WALs) - 2014 [8] Exploiting User Demographic Attributes for Solving Cold-Start Problem in Recommender System - 2013 [9] Collaborative filtering enhanced by demographic correlation - 2004 [10] Collaborative Filtering based on demographic attribute vector - 2009 [11] Using SVD and demographic data for the enhancement of generalized Collaborative Filtering - 2007 [12] The ANN-tree: An index for efficient approximate nearest neighbor search - 2001 [13] Billion-scale similarity search with GPUs - 2017 [14] CollabSeer: A Search Engine for Collaboration Discovery - 2011 [15] Deep neural networks for youtube recommendations (Youtube DNN) - 2016 [16] Mixed negative sampling for learning two-tower neural networks in recommendations - 2020 [17] Identifying similar users by their scientific publications to reduce cold start in recommender systems - 2009 [18] Using TF-IDF to Determine Word Relevance in Document Queries - 2003 [19] Topic sensitive PageRank - 2002 [20] The PageRank Citation Ranking: Bringing Order to the Web - 1998 [21] NWE: Node-weighted expansion for protein complex prediction using random walk distances - 2011 [22] Sustainable Collaborator Recommendation Based on Conference Closure - 2019 [23] Collaborator Recommendation for Isolated Researchers - 2014 [24] ArnetMiner: Extraction and Mining of Academic Social Networks - 2008 [25] GraphX: A Resilient Distributed Graph System on Spark - 2013 [26] Graph traversal and its application - 2018 [27] Trend based vertex similarity for Academic Collaboration Recommendation - 2011 Phụ lục 46 47 ... hệ thống khuyến nghị cộng tác tiềm 13 1.2 Mục tiêu ● Nghiên cứu đề tài khuyến nghị cộng tác, tìm kiếm thơng tin, khai thác liệu mạng xã hội ● Ứng dụng xây dựng hệ thống khuyến nghị cộng tác viên... Những nghiên cứu liên quan, sở lý luận Mô tả toán khuyến nghị cộng tác học thuật nghiên cứu báo cáo khoa học liên quan Tổng kết, phân tích đưa cách tiếp cận khóa luận ● Chương - Khuyến nghị cộng tác. .. Chương - Khuyến nghị cộng tác dựa phân tích mạng xã hội 3.1 Phát biểu toán Bài toán đặt cho đề tài nghiên cứu ứng dụng phát triển hệ thống khuyến nghị cộng tác Các khái niệm tảng tốn khuyến nghị