Hệ khuyến nghị cộng tác đồng tác giả

12 24 0
Hệ khuyến nghị cộng tác đồng tác giả

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài báo này đề xuất một số độ đo liên kết mới dựa trên cộng đồng tác giả, kịch bản thiết lập bảng ứng viên động theo thời gian và xây dựng hệ khuyến nghị đồng tác giả sử dụng các độ đo đó.

Tạp chí Khoa học Đại học Huế: Kỹ thuật Công nghệ; ISSN 2588–1175 Tập 127, Số 2A, 2018, Tr 109–120;DOI: 10.26459/hueuni-jtt.v127i2A.5017 HỆ KHUYẾN NGHỊ CỘNG TÁC ĐỒNG TÁC GIẢ Trần Đình Khang1, Võ Đức Quang2, Nguyễn Đăng Tuấn Anh1 Trường Đại học Bách khoa Hà Nội, Số Đại Cồ Việt, Hà Nội Trường Đại học Vinh Tóm tắt: Mạng đồng tác giả mạng lưới học thuật nhà nghiên cứu viết chung báo khoa học mức độ kết hợp đồng tác giả đặc trưng độ đo liên kết Dựa đặc trưng đó, xây dựng nhiều tốn có ý nghĩa, có khuyến nghị cộng tác, gợi ý tác giả kết hợp tương lai tăng cường hợp tác Bài báo đề xuất số độ đo liên kết dựa cộng đồng tác giả, kịch thiết lập bảng ứng viên động theo thời gian xây dựng hệ khuyến nghị đồng tác giả sử dụng độ đo Từ khóa: mạng đồng tác giả, độ đo liên kết, khuyến nghị cộng tác Đặt vấn đề Trong nghiên cứu khoa học, nhà khoa học tạo sản phẩm báo khoa học, thường có nhiều người tham gia đứng tên đồng tác giả Một nhà nghiên cứu đóng góp vào nhiều cơng trình khoa học có nhiều đồng tác giả khác mà mức độ liên kết họ đo số báo viết chung thông tin khác gắn kết chun mơn nhóm nghiên cứu Mối quan hệ tác giả báo quan hệ nhiều– nhiều, tác giả tham gia viết nhiều báo, báo có hay nhiều tác giả đứng tên tạo mạng lưới học thuật gọi mạng đồng tác giả [2, 3, 8] với nút tác giả, cạnh thể mối liên kết hai tác giả Theo cách biểu diễn đó, coi mạng đồng tác giả mạng xã hội đặc biệt kế thừa nhiều đặc trưng mạng xã hội nói chung quan hệ lân cận chung đường dẫn liên kết, chứa đựng đặc trưng riêng chuyên môn, lĩnh vực nghiên cứu, cộng đồng nghiên cứu, v.v… Với tính chất vậy, việc xây dựng mạng đồng tác giả giải toán đặt với mạng đồng tác giả thu hút quan tâm nhiều nhóm nghiên cứu Về tốn, biểu diễn mạng đồng tác sở liệu để thực truy vấn, tìm kiếm đồng tác giả, thực tốn dẫn xuất thơng tin dự đốn liên kết đồng tác giả hay khuyến nghị liên kết đồng tác giả [1, 4, 7, 11] Việc dẫn xuất thông tin xem hai nhà khoa học đồng tác giả tương lai hay khơng tốn có ý nghĩa giúp cho nhà khoa học mở rộng mối quan hệ học thuật tìm cộng tác *Liên hệ: khangtd@soict.hust.edu.vn Nhận bài: 22–10–2018; Hoàn thành phản biện: 10–11–2018; Ngày nhận đăng: 22–11–2018 Trần Đình Khang Cs Tập 127, Số 2A, 2018 phù hợp tương lai Các tính tốn dựa vào liên kết đồng tác giả khứ Người ta thường lượng hóa mức độ liên kết hai tác giả độ đo liên kết độ đo lân cận chung độ đo Jaccard [5, 6, 9] Ngồi độ đo thơng dụng cho mạng xã hội cịn có nghiên cứu bổ sung độ đo đặc thù cho mạng đồng tác vị trí tác giả báo lĩnh vực chuyên môn [8, 10] Từ mạng đồng tác giả thời điểm tính tốn cặp tác giả tiềm liên kết tương lai hay gọi ứng viên đồng tác giả Kèm theo độ đo liên kết cặp ứng viên tạo thành bảng ứng viên đồng tác giả Xét mạng đồng tác giả khoảng thời gian T1, bảng ứng viên đồng tác giả có hàng ứng viên đồng tác giả xét theo khoảng thời gian T1, cột độ đo liên kết tính theo khoảng thời gian T1 Nếu T2 khoảng thời gian xảy sau T1, bổ sung thêm cột nhãn, có giá trị cặp ứng viên thực đồng tác giả khoảng T2, có giá trị –1 cặp ứng viên không đồng tác giả khoảng T2 Khi đó, sử dụng bảng ứng viên với độ đo cột nhãn tập liệu cho học máy để xây dựng mơ hình mối quan hệ nhãn với độ đo liên kết Bài toán khuyến nghị cộng tác trở thành tốn học mơ hình tính tốn nhãn liên kết (1/–1) theo mơ hình Với mạng đồng tác giả có kích thước lớn số liên kết lớn, theo bình phương số nút Do đó, đặc tính bảng ứng viên đồng tác giả số ứng viên có nhãn –1 vượt trội so với số ứng viên có nhãn 1, tạo cân nhãn Bài báo có đóng góp:  Đề xuất thêm độ đo cộng đồng nghiên cứu, kết hợp với độ đo truyền thống khác Khảo sát thực nghiệm ảnh hưởng độ đo với hiệu mơ hình để xác định tập độ đo liên kết phù hợp,  Xây dựng bảng ứng viên theo kịch khoảng thời gian động để tận dụng nhãn liên kết làm cho bảng ứng viên đồng tác giả bớt cân hơn,  Xây dựng hệ khuyến nghị đồng tác giả Bài báo tổ chức sau: phần trình bày mạng đồng tác giả, độ đo liên kết bảng ứng viên Phần trình bày độ đo liên kết mới, kịch cải tiến thiết lập bảng ứng viên đánh giá ảnh hưởng độ đo liên kết đến hiệu dự báo Phần giới thiệu hệ khuyến nghị cộng tác đồng tác giả Mạng đồng tác giả 2.1 Định nghĩa mạng đồng tác giả Một mạng đồng tác giả mơ tả hàm 𝐺𝑇=(𝑉𝑇,𝐸𝑇,𝑃𝑇,𝑇), 𝑇= {𝑡1, t2,…, 𝑡𝑘} tập nhãn thời gian; 𝑉𝑇= {𝑣1, v2,…,} tập đỉnh tạo thời gian 𝑇, nút đại diện cho tác giả cộng đồng nghiên cứu; 𝑃𝑇= {𝑝1, p2,…,} tập báo thời 110 jos.hueuni.edu.vn Tập 127, Số 2A, 2018 gian 𝑇; 𝐸𝑇= {(𝑣𝑖,j, 𝑝𝑘, 𝑡h)} tập liên kết tác giả, thể thời gian 𝑇, hai tác giả (𝑣𝑖, 𝑣j) có viết chung báo 𝑝𝑘 nhãn thời gian 𝑡h Ngoài ra, tập đỉnh 𝑉𝑇 cịn chứa thuộc tính nút tương ứng với thơng tin cá nhân tác quốc tịch, trường Đại học/ Viện Nghiên cứu mà họ công tác, lĩnh vực chuyên ngành, v.v… Các thuộc tính ký hiệu tập 𝐴𝑇= {𝑎1, 𝑎2,…,N}, 𝑎𝑖 vector đặc trưng chứa thông tin tác giả/ đỉnh 𝑣𝑖 Các độ đo tương đồng hai tác giả xây dựng dựa thông tin tập 𝐸𝑇 𝐴𝑇 Cho trước khoảng thời gian T GT mạng đồng tác giả tương ứng với lát cắt thời gian Bài tốn khuyến nghị cộng tác sử dụng thông tin từ GT để đưa khuyến nghị cho tác giả vi lựa chọn ứng viên phù hợp để cộng tác đồng tác giả thời gian khuyến nghị cho cặp tác giả (𝑣𝑖, 𝑣𝑗) tiếp tục tăng cường cộng tác đồng tác giả 2.2 Các độ đo liên kết hai tác giả Mức độ liên kết cặp tác giả mạng đồng tác giả thường lượng hóa độ đo liên kết trích xuất thơng tin từ tập ET, AT Dưới số độ đo thơng dụng Các độ đo liên kết áp dụng nhiều loại mạng xã hội khác nhau, khơng riêng cho mạng đồng tác giả Vì tính chất phổ biến độ đo này, báo trình bày sơ lược tên nội dung độ đo Chi tiết ý tưởng nguồn gốc độ đo người đọc tham khảo thêm tài liệu liên quan [2, 5] Với nút 𝑣, ký hiệu T(𝑣) tập nút lân cận 𝑣 mạng đồng tác giả 𝐺 Ta chia độ đo liên kết thành hai nhóm chính: nhóm độ đo dựa lân cận nhóm độ đo dựa đường a/ Nhóm độ đo dựa lân cận (neighbour-based metrics) (i) Độ đo Common Neighbour (CN): Độ đo Common Neighbour hai nút 𝑢 𝑣 tính số lượng nút lân cận chung 𝑢 𝑣 Số lượng lân cận chung cao độ tương đồng CN lớn, khả (𝑢) có liên kết tương lai cao 𝐶𝑁(𝑢, 𝑣) = |𝑇(𝑢) ∩ 𝑇(𝑣)| (1) (ii) Độ đo Adamic Adar (AA): Độ đo Adamic-Adar quan sát thêm số lượng nút lân cận lân cận chung Với 𝑧 lân cận chung 𝑢 𝑣 độ đo Adamic-Adar tỷ lệ nghịch với số lượng lân cận 𝑧 tính theo logarit 𝐴𝐴(𝑢, 𝑣) = ∑𝑧∈𝑇(𝑢)∩𝑇(𝑣) log⁡(|𝑇(𝑧)|) (2) (iii) Độ đo Jaccard Coefficient (JC): Độ đo Jaccard Coefficient hai nút 𝑢 𝑣 tính tỉ lệ số lượng lân cận chung tổng số lân cận hai nút 𝐽𝐶(𝑢, 𝑣) = |⁡T(u)⁡∩⁡T(v)⁡|⁡ |⁡T(u)⁡∪T(v)⁡|⁡ (3) 111 Trần Đình Khang Cs Tập 127, Số 2A, 2018 (iv) Độ đo Preferential Attachment (PA): Độ đo Preferential Attachment thể hai nút có nhiều lân cận (bậc lớn) có hội liên kết với tương lai 𝑃𝐴 (𝑢, 𝑣) = | (𝑢) | × | (𝑣) | (4) (v) Độ đo Resource Allocation (RA): Độ đo Resource Allocation có cơng thức tương tự Adamic Adar, có khác biệt phần mẫu số số lượng lân cận 𝑧 𝑅𝐴(𝑢, 𝑣) = ∑𝑧∈𝑇(𝑢)∩𝑇(𝑣) |𝑇(𝑧)| (5) b/ Nhóm độ đo dựa đường (path-based metrics) (i) Độ đo ShortestPath: Độ đo ShortestPath tính nghịch đảo khoảng cách ngắn hai nút Trong trường hợp hai nút khơng có đường độ đo có giá trị 𝑆ℎ𝑜𝑟𝑡𝑒𝑠𝑡𝑃𝑎𝑡ℎ(𝑢, 𝑣) = 1⁡ (6) 𝑑(𝑢,𝑣)⁡ (ii) Độ đo Katz: Độ đo Katz tính dựa việc thống kê tất đường hai nút 𝑢 𝑣 theo độ dài tăng dần Các đường dài ảnh hưởng tới độ đo giảm chịu tác động hàm mũ 𝐾𝑎𝑡𝑧(𝑢, 𝑣) = ∑𝑙=1→⁡∞ βl |pathlu,v | = βA + βA2 + βA3 + ⋯ đó, 𝑝𝑎𝑡h l𝑢,v (7) tập đường độ dài 𝑙 từ 𝑢 đến 𝑣; 𝛽 số tùy chọn Khi 𝛽 tiến tới độ đo trở nên tương tự với độ đo lân cận chung đường có độ dài lớn đóng góp vào kết cuối 2.3 Bảng ứng viên đồng tác giả Từ mạng đồng tác giả thời điểm tại, tính tốn cặp tác giả tiềm liên kết tương lai, hay gọi ứng viên đồng tác giả Kèm theo độ đo liên kết cặp ứng viên tạo nên bảng ứng viên đồng tác giả Xét mạng đồng tác giả khoảng thời gian T1 bảng ứng viên đồng tác giả có hàng ứng viên đồng tác giả xét theo khoảng thời gian T1; cột độ đo liên kết tính theo khoảng thời gian T1 Nếu T2 khoảng thời gian xảy sau T1 bổ sung thêm cột nhãn, có giá trị cặp ứng viên thực đồng tác giả khoảng T2 có giá trị –1 cặp ứng viên không đồng tác giả khoảng T2 Bảng Bảng ứng viên đồng tác giả Các cặp ứng viên đồng tác giả khoảng thời gian T1 Các độ đo liên kết khoảng thời gian T1 Giá trị độ đo liên kết Nhãn liên kết =1 (hoặc = –1), đồng tác giả (hoặc đồng tác giả) khoảng thời gian T2 Giá trị nhãn Thủ tục 1: Xây dựng bảng ứng viên đồng tác giả từ mạng đồng tác giả G Tính độ đo liên kết khoảng thời gian T1, gán nhãn từ mạng đồng tác giả khoảng thời gian T2 (xảy sau T1) 112 jos.hueuni.edu.vn Tập 127, Số 2A, 2018  Bước 1:Xác định tập cặp ứng viên đồng tác giả; (u,v) cặp ứng viên pPT1, tT1: (u,v,p,t) ET1,hoặc zVT1, p1,p2PT1, t1,t2T1: (u,z,p1,t1), (z,v,p2,t2) ET1  Bước 2: Tính độ đo liên kết cặp ứng viên khoảng thời gian T1  Bước 3: Gán nhãn cho cặp ứng viên; gán nhãn cho cặp (u,v) pPT2, tT2: (u,v,p,t) ET2, ngược lại, gán nhãn –1 Khi đó, sử dụng bảng ứng viên với độ đo cột nhãn tập liệu cho học máy để xây dựng mơ hình mối quan hệ nhãn với độ đo liên kết Các độ đo theo cộng đồng tác giả thiết lập bảng ứng viên đồng tác giả 3.1 Xây dựng độ đo liên kết dựa cộng đồng tác giả Để so sánh tương đồng hay “gần gũi” hai tác giả, việc sử dụng đặc trưng liên kết mạng, khai thác thơng tin ngữ nghĩa cá nhân tác giả Một tác giả hay nhà nghiên cứu đặc trưng số thông tin quốc tịch, nơi làm việc (trường Đại học / Viện nghiên cứu) lĩnh vực chuyên môn mà họ ưa thích Các tác giả có chung quốc tịch nơi làm việc thường có gần gũi định mặt địa lý ngơn ngữ, khả họ có liên kết tương lai cao so với cặp tác giả không chung thơng tin Tương tự với cặp tác giả có lĩnh vực chun mơn ưa thích, tương đồng vấn đề nghiên cứu mà họ quan tâm dẫn đến xác suất hợp tác lớn Ngoài ra, tác giả có chung quốc tịch, nơi làm việc lĩnh vực chun mơn thường có xu hướng hình thành cộng đồng mạng lưới học thuật Các thành viên cộng đồng thường có mối liên hệ chặt chẽ với có khả chia sẻ thơng tin cách nhanh chóng dễ dàng Xuất phát từ mối liên hệ trên, độ đo liên kết xây dựng dựa thông tin từ nhiều cộng đồng khác nhau, bao gồm cộng đồng tác giả theo quốc gia cộng đồng tác giả theo lĩnh vực chuyên môn a Độ đo cộng đồng tác giả theo quốc gia Xét tập tác giả 𝑉 = {𝑣1, 𝑣2, …, 𝑣𝑁}, tác giả 𝑣𝑖 đặc trưng hai thuộc tính: quốc tịch nơi công tác (trường Đại học/ Viện nghiên cứu) ký hiệu 𝑎𝑓𝑓𝑖𝑙𝑐𝑜𝑢𝑛𝑡𝑟𝑦 (𝑣𝑖) 𝑎𝑓𝑓𝑖𝑙𝑢𝑛𝑖𝑣𝑒𝑟𝑠𝑖𝑡𝑦 (𝑣𝑖) Ta có hàm so sánh giống nơi công tác quốc tịch hai nhiều tác giả: 𝑠𝑖𝑚 _𝑤𝑜𝑟𝑘 (𝑣1, 𝑣2, … ,) = 𝑖𝑓 𝑎𝑓𝑓𝑖𝑙𝑢𝑛𝑖𝑣𝑒𝑟𝑠𝑖𝑡𝑦 (𝑣1 ) = 𝑎𝑓𝑓𝑖𝑙𝑢𝑛𝑖𝑣𝑒𝑟𝑠𝑖𝑡𝑦 (𝑣2 ) = ⋯ = 𝑎𝑓𝑓𝑖𝑙𝑢𝑛𝑖𝑣𝑒𝑟𝑠𝑖𝑡𝑦 (𝑣𝑛 ) {1 𝑖𝑓 𝑎𝑓𝑓𝑖𝑙𝑐𝑜𝑢𝑛𝑡𝑟𝑦 (𝑣1 ) = 𝑎𝑓𝑓𝑖𝑙𝑐𝑜𝑢𝑛𝑡𝑟𝑦 (𝑣2 ) = ⋯ = 𝑎𝑓𝑓𝑖𝑙𝑐𝑜𝑢𝑛𝑡𝑟𝑦 (𝑣𝑛 ) 𝑖𝑓 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 (8) Độ tương đồng hai tác giả 𝑢 𝑣 theo cộng đồng quốc gia tính theo cơng thức 113 Trần Đình Khang Cs Tập 127, Số 2A, 2018 𝐶𝑜𝑚𝑚𝐶𝑜𝑢𝑛𝑡𝑟𝑦 (𝑢, 𝑣) = 𝑠𝑖𝑚 _𝑤𝑜𝑟𝑘 (𝑢, 𝑣) +∑𝑧∈𝑇(𝑢)∩𝑇(𝑣) 𝑠𝑖𝑚⁡_𝑤𝑜𝑟𝑘⁡(𝑧, 𝑢, 𝑣) (9) Có thể thấy độ đo 𝐶𝑜𝑚𝑚𝐶𝑜𝑢𝑛𝑡𝑟𝑦 quan sát tương đồng nơi cơng tác hai tác giả, đồng thời tính đến tương đồng lân cận chung cộng đồng quốc gia cộng đồng trường đại học b Độ đo cộng đồng tác giả theo lĩnh vực chuyên môn Mỗi tác giả mạng lưới học thuật đặc trưng lĩnh vực chuyên mơn mà họ quan tâm Để tìm lĩnh vực chuyên môn tác giả lấy thơng tin từ nội dung báo công bố khứ họ Mô hình chủ đề (Topic model) [8] phương pháp áp dụng để phân tích chủ đề từ tập báo đầu vào Kết mơ hình chủ đề cho ta biết xác suất báo 𝑝 thiên chủ đề nằm số lượng 𝐾 chủ đề cho trước thể qua vector đặc trưng chủ đề 𝑇 = (𝑡1, 𝑡2, …, 𝑡𝐾) Từ kết phân tích chủ đề báo, ta xác định danh sách chủ đề mà tác giả có khả quan tâm theo phương pháp sau Gọi (𝑣𝑖) = {𝑝𝑖1, 𝑝𝑖2, …, 𝑝𝑖𝑁} danh sách báo mà tác giả 𝑣𝑖 công bố khứ Kết phân tích chủ đề báo 𝑝𝑎𝑝𝑒𝑟_(𝑣𝑖) = {𝑇𝑖1, 𝑇𝑖2, …, 𝑇𝑖𝑁} với 𝑇𝑖𝑁 vector gồm 𝐾 thành phần tương ứng với xác suất báo 𝑝𝑖𝑁 thuộc số 𝐾 chủ đề Từ thơng tin trên, ta có vector đặc trưng lĩnh vực quan tâm tác giả 𝑣𝑖 tính theo cơng thức Tv𝑖 = ∑𝑗=1→⁡𝑁 𝑇𝑖𝑗 = (𝑡𝑖1, 𝑡𝑖2, …, 𝑡𝑖𝐾) (10) Vector 𝑇𝑣𝑖 gồm 𝐾 thành phần thể quan tâm tác giả 𝑣𝑖 đến số lĩnh vực (chủ đề) định danh sách 𝐾 lĩnh vực chuyên môn Bằng việc chọn ngưỡng 𝜃 thích hợp, ta lọc danh sách lĩnh vực tác giả 𝑣𝑖 quan tâm nhất: Topics (𝑣𝑖) = {𝑗 | 𝑗∈ [1 .𝐾] ∧ 𝑡𝑖𝑗> 𝜃 } (11) Mặt khác, phần tử tập (𝑣𝑖) thể cộng đồng chuyên môn mà tác giả 𝑣𝑖 thành viên Từ thông tin cộng đồng này, ta xây dựng độ đo liên kết hai tác giả (𝑢, 𝑣) dựa cộng đồng tác giả theo lĩnh vực chuyên môn sau: C𝑜mmTopic(𝑢, 𝑣) = |𝑇𝑜𝑝𝑖𝑐𝑠(𝑢) ∩ 𝑇𝑜𝑝𝑖𝑐𝑠(𝑣)|+ ∑𝑧∈𝑇(𝑢)∩𝑇(𝑣)|𝑇𝑜𝑝𝑖𝑐𝑠(𝑧) ∩ ⁡𝑇𝑜𝑝𝑖𝑐𝑠(𝑢) ∩ 𝑇𝑜𝑝𝑖𝑐𝑠(𝑣)| (12) Có thể thấy với độ đo 𝐶𝑜𝑚𝑚𝑇𝑜𝑝𝑖𝑐, hai tác giả có nhiều lĩnh vực chung có khả liên kết với tương lai Hơn nữa, số lượng lân cận chung nằm cộng đồng chuyên môn làm tăng khả liên kết hai người 3.2 Kịch thiết lập bảng ứng viên Để thiết lập bảng ứng viên, chia khoảng thời gian tính tốn ứng viên, độ đo gán nhãn trình bày Thủ tục Đặc trưng bảng ứng viên số lượng cặp ứng 114 jos.hueuni.edu.vn Tập 127, Số 2A, 2018 viên có nhãn –1 lớn nhiều so với số lượng cặp ứng viên có nhãn Thực tế cặp ứng viên (u,v) từ khoảng thời gian T1 trở thành đồng tác giả thực sau này, gán nhãn khoảng thời gian T2 lấy nhãn –1 chưa phải đồng tác giả T2 Điều làm nhiều mẫu có nhãn xét theo khoảng thời gian cố định Bài báo đề xuất kịch cải tiến phù hợp hơn, liên kết xuất thời điểm t gán độ đo từ thông tin mạng đồng tác giả khoảng thời gian trước [0, t−1] hay mốc thời gian phân chia giai đoạn thay đổi theo thời điểm quan sát Cách tiếp cận có ưu điểm tận dụng tồn thơng tin liên kết tác giả khứ, đồng thời khơng bỏ sót liên kết để thiết lập bảng ứng viên Hơn nữa, kịch mơ xác q trình xuất liên kết thực tế kỳ vọng giúp tăng hiệu khuyến nghị Thủ tục 2: Xây dựng bảng ứng viên đồng tác giả từ mạng đồng tác giả G khoảng thời gian 𝑇= {𝑡1,t2,…,𝑡𝑘}  Bước 1: Xác định tập cặp ứng viên đồng tác giả; (u,v) cặp ứng viên, pPT, tT: (u,v,p,t) ET, zVT, p1,p2PT, t1,t2T: (u,z,p1,t1), (z,v,p2,t2) ET  Bước 2: Xét nhãn thời gian ti, tk đến t1  Với (u,v,p,ti) ET tính độ đo cho (u,v) khoảng thời gian [t1,ti–1], gán nhãn cho (u,v), từ khơng tính lại với cặp (u,v)  Bước 3: Với cặp ứng viên chưa gán nhãn gán nhãn –1 Kịch cải tiến có ưu điểm tận dụng nhãn Sau thực nghiệm với liệu thu thập từ thư viện khoa học trực tuyến ScienceDirect (sciencedirect.com) gồm báo tác giả thuộc ba tạp chí: Chemical Physics Letters, Journal of Molecular Biology Biochemical and Biophysical Research Communications [12, 13, 14] Các báo lấy nằm khoảng thời gian từ năm 2000 hết năm 2017 Thông tin số bài, số tác giả có Bảng Bảng Thông tin liệu thử nghiệm Tên tạp chí (tên ISSN liệu) Chemical Physics Let- Số Số tác Số báo trung Số quốc gia có báo báo giả bình năm xuất 00092614 18 931 41 806 113 114 00222836 10 806 35 217 635 97 0006291X 34 848 134 448 049 128 ters (chem_letter) Journal of Molecular Biology (mole_bio) Biochemical and Biophysical Research Comm (biophy_chem) 115 Trần Đình Khang Cs Tập 127, Số 2A, 2018 Tổng cộng 64 585 211 471 797 176 Bảng trình bày thơng tin số lượng nhãn dương liệu kiểm tra tương ứng với kịch truyền thống kịch cải tiến Có thể thấy kịch cải tiến giúp tận dụng nhiều nhãn dương liệu Bảng Số mẫu liệu có nhãn dương theo kịch Bộ liệu \Kịch Truyền thống chem_letter Cải tiến 1250 1460 780 910 1780 2110 mole_bio biophy_chem 3.3 Đánh giá ảnh hưởng độ đo Phần xem xét ảnh hưởng độ đo thông qua thực nghiệmvới liệu kịch thiết lập bảng ứng viên mô tả phần Bảng ứng viên đưa vào thủ tục phân lớp dựa vào độ đo liên kết để phân lớp nhãn Chia bảng liệu thành liệu huấn luyện liệu kiểm tra Đánh giá hiệu phân lớp thông qua tiêu chí AUC (Area Under Curve) F1-score Độ đo AUC đặc trưng cho xác suất chọn ngẫu nhiên hai cặp tác giả xác suất dự báo (predict probability) cặp tác giả có liên kết lớn cặp tác giả khơng có liên kết Nếu AUC = tương ứng với việc dự báo tốt nhất, với phương pháp dự báo ngẫu nhiên AUC = 0,5 Độ đo F1-score = ×Precision/ (Precision + Recall) Các độ đo liên kết thử nghiệm bao gồm độ đo truyền thống trình bày Phần 2.2 hai độ đo cộng đồng trình bày Phần 3.1 Community country Community topics Các thử nghiệm so sánh hiệu phân lớp tổ hợp độ đo theo kịch cải tiến thiết lập bảng ứng viên Kết Bảng Bảng theo độ đo AUC F1-Score Bảng Kết AUC tổ hợp độ đo cộng đồng + truyền thống Độ đo Topic CN+Kat z+Com m Country CN+Kat z +Comm Topic CN+Kat z+Com m Topic+ Comm Country Comm Bộ liệu Comm Comm Country Topic CN+JC +AA+PA+ Katz Country + Comm chem_letter 0,7345 0,7540 0,7356 0,8341 0,8130 0,8033 0,8651 mole_bio 0,713 0,6929 0,6929 0,7625 0,7477 0,7012 0,7780 biophy_chem 0,8916 0,6845 0,8192 0,9279 0,9117 0,8363 0,9387 116 jos.hueuni.edu.vn Tập 127, Số 2A, 2018 Bảng Kết F1-Score tổ hợp độ đo cộng đồng + truyền thống Độ đo CN+Katz+ Comm Bộ liệu Comm Comm Country Topic CN+JC +AA+PA+ Katz Country + Comm CN+Katz+ CN+Katz Comm Comm +Comm Topic+ Country Topic Comm Topic Country chem_letter 0,6911 0,6800 0,6761 0,7623 0,7455 0,7294 0,8116 mole_bio 0,7009 0,6573 0,6221 0,7128 0,7112 0,6854 0,7223 biophy_chem 0,8244 0,6456 0,7742 0,8503 0,8335 0,7820 0,8710 Kết cho thấy cải thiện đáng kể hiệu dự báo sử dụng kết hợp độ đo cộng đồng với độ đo truyền thống Tỉ lệ cải thiện trung bình 15% Các thử nghiệm định hướng cho việc lựa chọn tổ hợp độ đo liên kết đồng tác giả thiết lập bảng ứng viên đồng tác giả cho tính toán khuyến nghị Xây dựng hệ khuyến nghị cộng tác đồng tác giả Việc xây dựng hệ khuyến nghị cộng tác bao gồm bagiai đoạn:  Thu thập liệu, phân tích, tổ chức liệu,  Tính toán độ đo liên kết thiết lập ứng viên,  Xây dựng mơ hình khuyến nghị Hệ thống khuyến nghị đồng tác giả xây dựng với mục đích giúp nhà nghiên cứu tìm danh sách người cộng tác hiệu tương lại cách nhanh chóng thuận tiện Dữ liệu thử nghiệm hệ thống thông tin báo tác giả (tiêu đề báo, tóm tắt nội dung, từ khóa, thơng tin tác giả, v.v…) từ tạp chí Chemical Physics Letters, Journal of Molecular Biology, vàBiochemical and Biophysical Research Communications Sciencedirect khoảng thời gian 2000–2017 thông qua API Sciencedirect Các thông tin khoa học thiết kế tổ chức lại thành sở liệu quan hệ Cụ thể bảng liệu: Journal, Country, Subject, Institute, Author, Paper, PaperAuthor, CoAuthorship.Các bảng Country, Subject, Institute bổ sung thông tin cho Author, bảng Journal bổ sung thông tin choPaper, bảng AuthorPaper cho biết tác giả báo cụ thể Từ tính CoAuthorship chứa cặp đồng tác giả Với CSDL có, tiến hành xây dựng hoàn thiện bảng ứng viên với kịch thiết lập trình bày (Phần 3.2) sử dụng phương pháp tính tốn độ đo liên kết (Phần 2.2 3.1) Sử 117 Trần Đình Khang Cs Tập 127, Số 2A, 2018 dụng phương pháp Tf-Idf để vector hóa nội dung gồm tiêu đề tóm tắt báo; sau sử dụng phương pháp NMF (Non-Negative Matrix Factorization) để xác định vector đặc trưng chủ đề Các tham số sử dụng gồm số topic n_topics = 40 độ dài vector Tf-Idf n_length = 600 Từ đó, tính tốn độ đo liên kết cho cặp ứng viên Chức khuyến nghị xây dựng dựa mơ hình phân lớp Support Vector Machine (SVM) với liệu gán nhãn bảng ứng viên bao gồm học mô hình từ liệu huấn luyện bảng ứng viên gán nhãn, lưu trữ mơ hình sử dụng mơ hình để tính tốn khuyến nghị đồng tác giả Hình Giao diện hệ thống Về cơng nghệ, hệ khuyến nghị đồng tác giả thiết kế theo mơ hình MVC (ModelView-Controller) sử dụng hệ quản trị CSDL MySQL, ngơn ngữ lập trình Python, thư viện Django Web Framework thư viện ScikitLearn (Python) để cài đặt thành phần chức giao diện hệ thống Các kết thử nghiệm Phần 3.3 chương trình cài đặt thực thi máy tính chạy hệ điều hành Ubuntu 64bit, cấu hình i5 4200U@2.5Ghz, 8GB RAM Hệ khuyến nghị đồng tác giả cho phép đưa top-N ứng viên theo thứ tự có khả cộng tác phù hợp tác giả Ngồi ra, hệ thống cịn xây dựng chức bổ sung tìm kiếm, truy vấn cập nhật thơng tin tác giả, báo, tạp chí, quốc gia, cho phép thị trực quan mạng đồng tác giả 118 jos.hueuni.edu.vn Tập 127, Số 2A, 2018 Ví dụ với tác giả Wang Fengping, hệ thống khuyến nghị top-5 ứng viên tiềm năng: Guo Fuqiang, Guan Xinxin, Wang Yanan, Liu Pu, Huang Qiuying Theo giao diện Hình 1, người dùng cung cấp thơng tin khoảng thời gian, lựa chọn độ đo liên kết tên tác giả cần khuyến nghị Hệ thống thực phân lớp theo mơ hình huấn luyện để chọn cặp ứng viên nhãn 1, có thành phần tác giả Top-N đồng tác giả tiềm lấy từ thành phần lại cặp vừa tính Kết luận Bài báo trình bày phân tích độ đo liên kết mạng đồng tác giả, từ phát triển thêm độ đo bổ sung cộng đồng nghiên cứu Bài báo cải tiến xây dựng bảng ứng viên theo kịch khoảng thời gian động để tận dụng nhãn liên kết dương, làm cho bảng ứng viên đồng tác giả bớt cân Các khảo sát thực nghiệm cho thấy việc phối hợp độ đo độ đo cộng đồng mới, kết hợp với việc sử dụng kịch xây dựng bảng ứng viên cải tiến cho hiệu khuyến nghị xác hiệu Dựa sở liệu thông tin báo học thuật thu thập được, tác giả xây dựng hệ thống khuyến nghị cộng tác hoàn chỉnh chức năng, đáp ứng nhu cầu tra cứu, tham khảo có nhiều tiềm phát triển mở rộng Tài liệu tham khảo Zervas P, Tsitmidelli A, Sampson DG, Chen NS, Kinshuk (2014), Studying research collaboration patterns via co-authorship analysis in the field of Tel: The case of educational technology & society journal, Educ Technol Soc 17(4), pp 1–16 M A Brandão, M M Moro, G R Lopes, and J P M Oliveira (2013), Using link semantics to recommend collaborations in academic social networks, in Proc.22nd Int Conf World Wide Web Companion (WWW Companion), pp.833–840 W Glänzel and A Schubert (2005), Analysing scientific networks through co-authorship, in Handbook of Quantitative Science and Technology Research.New York, NY, USA: Springer-Verlag, pp 257–276 S Lee and B Bozeman (2005), The impact of research collaboration on scientific productivity, Soc Stud Sci., vol 35, no 5, pp 673–702 D Liben-Nowell and J Kleinberg (2007), The link-prediction problem for social networks, J Amer Soc Inf Sci Technol., vol 58, no 7, pp 1019–1031 R N Lichtenwalter, J T Lussier, and N V Chawla (2010), New perspectives and methods in link prediction, in Proc 16th ACM SIGKDD Int Conf Knowl.Discovery Data Mining (KDD), Washington, DC, USA, pp 243–252 Milen Pavlov, Ryutaro Ichise (2007), Finding Experts by Link Prediction in Co-authorship Networks, Proceeding of 2nd International ExpertFinder Workshop (FEWS2007), pp 42–55 Pham Minh Chuan, Le Hoang Son, Mumtaz Ali, Tran Dinh Khang, Le Thanh Huong, Nilanjan Dey (2018), Link Prediction in Co-authorship Networks based on Hybrid Content Similarity Metric, Applied Intelligence, 48(8), ISSN: 0924-669X Doi: 10.1007/s10489-017-1086-x, pp 2470–2486 119 Trần Đình Khang Cs Tập 127, Số 2A, 2018 Phạm Minh Chuẩn, Trịnh Khắc Linh, Trần Đình Khang, Lê Hồng Sơn (2017), Phân tích ảnh hưởng số độ đo liên kết áp dụng vào toán dự đoán liên kết mạng đồng tác giả, Kỷ yếu Hội nghị Quốc gia lần thứ X Nghiên cứu ứng dụng Công nghệ thông tin (FAIR) – Đà Nẵng, 17– 18/8/2017 ISBN: 978–604– 913–614–6, trang 760–767 10 [Pham Minh Chuan, Cu Nguyen Giap, Le Hoang Son, Chintan Bhatt, Tran Dinh Khang (2017), Enhance Link Prediction in Online Social Networks Using Similarity Metrics, Sampling, and Classification, Proceeding of the 4th International Conference on Information System Design and Intelligent Applications (INDIA–2017), 15–17 June 2017, Danang, Vietnam, DOI: 10.1007/978-981-10-7512-4_81, pp 823 – 833 11 [Tang, J., Zhang, J., Yao, L., Li, J., Zhang, L., and Su, Z (2008), ArnetMiner: extraction and mining of academic social networks, In Proceeding of the 14thACM SIGKDD International conference on Knowledge discovery and datamining, KDD '08, pages 990–998, New York, NY, USA ACM 12 https://www.sciencedirect.com/journal/chemical-physics-letters/, truy cập tháng 6/2017 13 https://www.sciencedirect.com/journal/journal-of-molecular-biology, truy cập tháng 6/2017 14 https://www.sciencedirect.com/journal/biochemical-and-biophysical-research-communications, cập tháng 6/2017 CO-AUTHORSHIP RECOMMENDATION SYSTEMS Tran Dinh Khang1, Vo Duc Quang2, Nguyen Dang Tuan Anh1 Hanoi University of Science and Technology, No Đai Co Viet Street, Hà Nội Vinh University Abstract A co-authorship network is an academic network amongresearchers who could write a joint scientific paper, where the degree of co-authorship can be characterized by linking measures On the basis of these characteristics, many meaningful problems can be created, including recommendations for collaboration, suggestions for future collaborators or increased collaboration This article proposes some new linking measures based on the research community, a new time-dependent candidates set-up scenario, and the development of a co-authorship recommendation system using those measures Keywords: co-authorship network, linking measure, co-authorship recommendation 120 truy ... tin từ GT để đưa khuyến nghị cho tác giả vi lựa chọn ứng viên phù hợp để cộng tác đồng tác giả thời gian khuyến nghị cho cặp tác giả (

Ngày đăng: 25/10/2020, 12:49

Tài liệu cùng người dùng

Tài liệu liên quan