Bài viết đề xuất phương pháp lượng hóa quan hệ lòng tin giữa các nhà nghiên cứu kết hợp với yếu tố xu hướng quan tâm nghiên cứu để phát triển các phương pháp cho khuyến nghị bài báo khoa học tiềm năng.
Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-1, Số 13 (33), tháng 6/2015 Khai thác xu hướng sở thích quan hệ lòng tin để phát triển phương pháp khuyến nghị báo khoa học Exploiting Trust Relationship and Research Trend of Researchers to Develop New Method for Scientific Paper Recommendation Huỳnh Ngọc Tín, Hồng Kiếm Abstract: In this paper, we propose a hybrid method for recommending potential scientific publications for researcher based on combination of trust relationships and research trend of researchers The research trend let us know which research topic recently is interested in by a researcher while trust relationship let us know experts whom a researcher trust Experiments are conducted on a big dataset crawled from Microsoft Academic Search1 The experimental results show that our proposed methods are more effective than the existing methods in recommending potential publications those are met with research interest of researchers Từ khóa: Hệ khuyến nghị (Recommender System), Khuyến nghị Bài báo (Paper Recommendation), Quan hệ Lòng tin (Trust Relationship), Xu hướng Nghiên cứu (Research Trend) I GIỚI THIỆU Tìm kiếm báo khoa học liên quan đến nghiên cứu để đọc, tham khảo, trích dẫn việc làm thường xuyên người làm nghiên cứu khoa học, cụ thể nhà nghiên cứu Hiện nay, hệ thống tìm kiếm, thư viện số phổ biến lĩnh vực học thuật ACM DL Portal, IEEE Xplore, Google Scholar, Microsoft Academic Search, DBLP, đáp ứng hầu hết nhu cầu tìm kiếm tài liệu khoa học nhà nghiên cứu Tuy nhiên, khối lượng khổng lồ báo khoa học tăng lên hàng năm (Hình 1), làm cho nhà nghiên cứu phải đương đầu với tình trạng q tải thơng tin, nhiều thời gian để tìm tài liệu liên quan Bên cạnh đó, có nhiều thơng tin báo liên quan đến quan tâm nghiên cứu mà họ bỏ qua, không tìm thấy Vấn đề đặt “Làm để hầu hết báo liên quan đến quan tâm nghiên cứu nhà nghiên cứu chủ động tìm đến họ, thay họ phải vất vả tự tìm thơng tin liên quan?” Hệ khuyến nghị báo khoa học giải pháp nghiên cứu gần quan tâm Các nghiên cứu dựa tiếp cận nội dung, gọi tắt tiếp cận nội dung, chứng tỏ thành công tốn này, điển hình nghiên cứu Sugiyama cộng năm 2010, 2011, 2013 [46] Với tiếp cận nội dung, hệ thống mơ hình hố sở thích nghiên cứu nhà nghiên cứu dựa nội dung báo mà họ công bố q khứ Sau đó, sở thích họ so khớp với nội dung báo quan sát danh sách xếp hạng báo liên quan đề xuất Tuy nhiên, sở thích nhà nghiên cứu thay đổi theo thời gian Nếu dựa nội dung tất báo công bố khứ khơng xác định xu hướng quan tâm nghiên cứu nhà nghiên cứu Bên cạnh đó, thật khơng phù hợp chọn báo có nội dung liên quan, cũ, không đáng tin cậy để ưu tiên khuyến nghị Do đó, cần xem xét báo có chất lượng tốt, có độ tin cậy cao, chuyên gia có uy tín để ưu tiên khuyến nghị http://academic.research.microsoft.com/ - 67 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-1, Số 13 (33), tháng 6/2015 Hình Sự gia tăng liệu khoa học dựa Cơ sở liệu khoa học DBLP (Nguồn: http://www.informatik.uni-trier.de/~ley/statistics/recordsindblp.html, truy cập lần cuối 30/07/2014) Câu hỏi đặt báo đáng tin cậy chun gia có uy tín? Trên thực tế, chuyên gia uy tín thường người sản sinh nhiều cơng trình tốt, đáng tin cậy cộng đồng trích dẫn đặt lòng tin Làm để lượng hóa mức độ tin cậy hay lòng tin người người khác? Và lòng tin ảnh hưởng đến định chọn báo để đọc, trích dẫn? Trong báo này, đề xuất phương pháp lượng hóa quan hệ lòng tin nhà nghiên cứu kết hợp với yếu tố xu hướng quan tâm nghiên cứu để phát triển phương pháp cho khuyến nghị báo khoa học tiềm Các đóng góp báo tóm tắt sau: • Khảo sát, đánh giá thực nghiệm phương pháp khuyến nghị báo khoa học phổ biến tập liệu lớn • Đề xuất mơ hình hóa quan hệ lòng tin lĩnh vực học thuật dựa quan hệ cộng tác hành vi trích dẫn • Kết hợp xu hướng sở thích nghiên cứu quan hệ lòng tin lĩnh vực học thuật để phát triển phương pháp cho toán khuyến nghị báo khoa học liên quan Phần lại báo bố cục sau: Phần II tóm tắt nghiên cứu liên quan; Phần III trình bày phương pháp phổ biến cho khuyến nghị báo khoa học Phần IV phương pháp đề xuất; Phần V tiến hành phân tích, đánh giá dựa kết thực nghiệm Kết luận hướng phát triển trình bày mục VI II NGHIÊN CỨU LIÊN QUAN Liên quan đến khuyến nghị báo khoa học Có số toán khác mà nghiên cứu quan tâm Bài toán khuyến nghị báo trích dẫn cho nhà nghiên cứu viết Một số nghiên cứu điển hình nghiên cứu Qi He cộng sự, 2010, 2011 [2,3], Wenyi Huang cộng sự, 2012 [16] Các nghiên cứu nhằm phát triển mơ hình cho phép ánh xạ câu báo với tài liệu trích dẫn Lawrence cộng sự, 1999 [10], Huynh cộng sự, 2012 [17], thực nghiên cứu nhằm phát triển thuật toán khuyến nghị báo tương tự người dùng duyệt qua báo thư viện số Trong ngữ cảnh ứng dụng khác, Sugiyama cộng sự, 2010, đề xuất phương pháp tiếp cận nội dung cho khuyến nghị báo khoa học phù hợp với quan tâm nghiên cứu nhà nghiên cứu [4] Đóng góp họ khai thác quan tâm tiềm ẩn hồ sơ sở thích nhà nghiên cứu từ báo khứ kết hợp với báo tham khảo báo trích dẫn nhà nghiên cứu từ mạng - 68 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT trích dẫn Họ thu thập 597 báo từ hội nghị ACL (Association of Computational Linguistics) lấy ý kiến 28 nhà nghiên cứu 28 nhà nghiên cứu xem danh sách 597 báo cho biết báo liên quan hay không liên quan đến quan tâm nghiên cứu họ Tác giả dùng tập liệu gán nhãn để xây dựng tập đánh giá (Ground Truth) Bản chất mạng trích dẫn mạng thưa Do đó, Sugiyama cộng sự, 2013 tìm cách giảm bớt liệu thưa lọc cộng tác để khám phá báo trích dẫn tiềm dùng trích dẫn tiềm để tinh chỉnh việc dùng báo trích dẫn để mơ hình hóa báo ứng viên Kết thực nghiệm cho thấy việc khai thác báo trích dẫn tiềm cải tiến độ xác khuyến nghị [6] Trong nghiên cứu khác, Jianshan Sun cộng sự, 2013 đề xuất phương pháp cho khuyến nghị báo khoa học liên quan đến quan tâm nghiên cứu nhà nghiên cứu cách kết hợp thông tin nội dung báo quan tâm mối quan hệ xã hội nhà nghiên cứu [7] Họ rút trích danh sách báo liên quan mối quan hệ xã hội nhà nghiên cứu từ trang mạng trực tuyến CiteULike2 để xây dựng tập liệu thực nghiệm bao gồm tập đánh giá (ground truth), tập huấn luyện (training set), tập kiểm tra (testing set) Kết thực nghiệm cho thấy phương pháp kết hợp thông tin nội dung quan hệ xã hội rút trích từ mạng trực tuyến CiteULike cải tiến chất lượng khuyến nghị so với phương pháp tiếp cận nội dung Joeran Beel cộng sự, 2013 thực khảo sát 170 báo, sang chế, trang web công bố lĩnh vực rằng: chưa có đồng thuận, thống tập liệu phương pháp đánh giá thực so sánh phương pháp khuyến nghị báo khoa học khác [1] Điều dẫn đến tình trạng, khó khăn chung, chưa thể biết điểm mạnh yếu thật phương pháp đề xuất có Tập V-1, Số 13 (33), tháng 6/2015 Hiện nay, công trình nghiên cứu Sugiyama cộng sự, 2010-2013 [4-6], Jianshan Sun cộng sự, 2013 [7], nghiên cứu tương tự với vấn đề mà nghiên cứu trình bày báo Tuy nhiên, hầu hết nghiên cứu chưa thật quan tâm đến mối quan hệ xã hội tiềm ẩn, cụ thể quan hệ lòng tin thực khuyến nghị báo khoa học cho nhà nghiên cứu Lòng tin (trust) xem thuộc tính quan hệ xã hội Theo Touhid Bhuiyan, 2013 [22], có nhiều định nghĩa khác cho khái niệm lòng tin, định nghĩa đa số cộng đồng trích dẫn sử dụng định nghĩa nhà xã hội học Dasgupta Lòng tin mong đợi người hành động người khác mà có ảnh hưởng đến định, lựa chọn họ [19] Theo Piotr Sztompka, 1999 [25], lòng tin gồm hai thành phần tin tưởng (belief) cam kết (commitment) Tức người tin tưởng người khác hành động theo cách định đặt lòng tin vào họ, tin tưởng khơng thơi chưa đủ để có lòng tin Lòng tin đặt vào tin tưởng đạt tới mức độ làm tảng cho cam kết thực hành động cụ thể Gần đây, lòng tin trở thành chủ đề nghiên cứu quan trọng nhiều lĩnh vực như: xã hội học, tâm lý học, tin học Stephen Marsh người tiên phong việc khai thác lòng tin tính tốn khoa học [18] Gần đây, lòng tin thu hút nhiều quan tâm nghiên cứu cộng đồng việc phát triển hệ thống khuyến nghị trực tuyến Người dùng thường tin tưởng dễ dàng chấp nhận khuyến nghị từ bạn bè, người thân người lạ khác, hệ khuyến nghị có đề xuất hữu ích chất lượng Bên cạnh đó, lòng tin sử dụng để cải tiến phương pháp khuyến nghị truyền thống Việc sử dụng quan hệ lòng tin giúp hệ khuyến nghị đương đầu với khó khăn, thách thức như: ma trận đánh giá thưa, khởi động lạnh (cold-start) http://www.citeulike.org/ - 69 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-1, Số 13 (33), tháng 6/2015 Paolo Massa Paolo Avesani đề xuất thay bước tính toán tương tự người dùng ma trận đánh giá độ đo lòng tin người Họ đề xuất thuật tốn lan truyền lòng tin mạng tính mức độ lòng tin người dùng Kết thực nghiệm tập liệu Epinions cho thấy việc khai thác lòng tin cải tiến độ xác khuyến nghị [20] Hao Ma cộng nghiên cứu đề xuất phương pháp tối ưu dựa kết hợp mối quan hệ lòng tin khơng tin (distrust) nhằm cung cấp khuyến nghị xác thực tế cho người dùng Nhóm tác giả thực nghiệm tập liệu Epinions cho thấy hương pháp họ tốt hẳn phương pháp có tập liệu [21] Lahiru S Gallege cộng nghiên cứu khai thác lòng tin để hướng đến phát triển hệ khuyến nghị cho dịch phần mềm trực tuyến [23] Phương pháp 1: CB Đầu vào: R = {r} tập nhà nghiên cứu quan sát P = {p} tập báo nhà nghiên cứu Đầu ra: ∀r∈R, trả Top-N p∈P • Bước 1: Tiền xử lý báo p∈P o Rút trích phần tiêu đề tóm tắt o Loại bỏ stopwords, stemming • Bước 2: Vector hóa nội dung báo dùng TFIDF o ∀p∈P: xây dựng vector biểu diễn nội dung báo p dùng phương pháp gán trọng số TFIDF • Bước 3: Vector hóa sở thích nhà nghiên cứu o ∀r∈R: xây dựng vector profile cho nhà nghiên cứu r dựa vào báo mà r công bố Trong lĩnh vực học thuật, theo hiểu biết chúng tơi khái niệm lòng tin chưa được đề cập khai thác để phát triển phương pháp khuyến nghị nhằm hỗ trợ nhà nghiên cứu tìm kiếm thơng tin Vì vậy, báo đề xuất khái niệm lòng tin lĩnh vực học thuật khai thác quan hệ lòng tin nhà nghiên cứu để phát triển phương pháp cho khuyến nghị báo khoa học Phần trình bày chi tiết phương pháp phổ biến, phương pháp đề xuất Trong đó, n: Tổng số báo mà r cơng bố • Bước 4: So khớp nội dung báo với sở thích nhà nghiên cứu Lặp ∀r∈R, ∀p∈P (2) SimCB(r,p) = Cosine( , ) Xếp hạng chọn TopN báo có độ tương tự cao với r, mà r chưa biết đến trước để thực khuyến nghị cho r Cuối lặp III CÁC PHƯƠNG PHÁP KHUYẾN NGHỊ BÀI BÁO III.1 Tiếp cận nội dung (CB) Tiếp cận nội dung đánh giá tiếp cận phù hợp cho đối tượng khuyến nghị dạng văn [8] Với tiếp cận nội dung, vector biểu diễn hồ sơ nghiên cứu nhà nghiên cứu vector biểu diễn nội dung báo xây dựng so khớp Phương pháp (CB): Phương pháp mô hình hóa sở thích nhà nghiên cứu dựa nội dung báo công bố dủng phương pháp sở (base line) để so sánh với phương pháp đề xuất = (1) Phương pháp (CB+R+C): Mơ hình hóa sở thích nhà nghiên cứu dựa nội dung báo công bố, tham khảo, trích dẫn Phương pháp đề xuất Sugiyama cộng sự, 2010 [4] Họ quan niệm, quan tâm nghiên cứu nhà nghiên cứu thông qua nội dung báo mà họ cơng bố, mà thể thông qua nội dung báo mà họ tham khảo (ký hiệu R), trích dẫn (ký hiệu C) Do đó, Sugiyama cộng tổng hợp vector đặc trưng tất báo công bố kết hợp với vector đặc tham khảo, trích dẫn để mơ hình hố quan tâm nghiên cứu nhà nghiên cứu Phương pháp CB+R+C tóm tắt sau: - 70 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Phương pháp 2: CB+R+C Đầu vào: R = {r} tập nhà nghiên cứu quan sát P = {p} tập báo nhà nghiên cứu Đầu ra: ∀r∈R, trả Top-N p∈P • Bước 1: Tương tự phương pháp • Bước 2: Mơ hình hóa nội dung báo = + + , ! , ∗ ∗ "#$ (3) Trong đó, m: Tổng số mà p tham khảo, n: Tổng số trích dẫn p, :bài báo tham khảo thứ i p, ! :bài báo thứ i trích dẫn p • Bước 3: Vector hóa sở thích nhà nghiên cứu o ∀r∈R: xây dựng vector profile = (4) n: Tổng số báo mà r cơng bố • Bước 4: Tương tự phương pháp Để lọc bớt báo không liên quan xem xét báo tham khảo trích dẫn, Sugiyama cộng sự, 2010 đề xuất sử dụng tham số ngưỡng tương tự (Thj ∈ [0,1]) để định chọn tham khảo, trích dẫn dùng để kết hợp với báo khác xây dựng mô hình sở thích nhà nghiên cứu [4] Tức , > &ℎ( , , ! > &ℎ( , vector đặc trưng ! kết hợp với vector đặc trưng p Phương pháp (CB-Recent): Khuyến nghị dựa sở thích gần nhà nghiên cứu Các phương pháp mơ hình hóa sở thích nhà nghiên cứu thơng thường tập trung vào việc mã hóa nội dung báo mà họ cơng bố, tham khảo trích dẫn Trên thực tế, sở thích người dùng dần thay đổi theo thời gian Sugiyama cộng sự, 2010 phát triển phương pháp mơ hình sở thích nghiên cứu gần nhà nghiên Tập V-1, Số 13 (33), tháng 6/2015 cứu cho khuyến nghị báo khoa học [4] Các bước thực tóm tắt sau: Phương pháp 3: CB-Recent Đầu vào: R = {r} tập nhà nghiên cứu quan sát P = {p} tập báo nhà nghiên cứu Đầu ra: ∀r∈R, trả Top-N p ∈P Các bước thực hiện: • Bước 1: Tương tự phương pháp • Bước 2: Tương tự phương pháp • Bước 3: Vector hóa sở thích nhà nghiên cứu dựa xu hướng o ∀r∈R: xây dựng vector profile cho nhà nghiên cứu r = )∗ $*+, -$ ∗ (5) Trong đó, α: hệ số ảnh hưởng yếu tố xu hướng (α ∈[0,1] Trường hợp đơn giản α = 1) tcur: năm thực khuyến nghị t(pi): năm công bố báo pi n: Tổng số báo mà r công bố khứ • Bước 4: Tương tự phương pháp III.2 Tiếp cận lọc cộng tác (CF) Khác với tiếp cận nội dung, tiếp cận lọc cộng tác (tiếp cận CF) khơng bị hạn chế mặt phân tích nội dung văn Những phương pháp CF dùng thông tin từ ma trận đánh giá quan sát từ người dùng đối tượng khuyến nghị Tiếp cận CF áp dụng cho nhiều dạng đối tượng, nhiều kiểu nội dung khác nhau, với đối tượng khuyến nghị không tương tự với đối tượng quan sát khứ Theo Su & Khoshgoftaar, 2009, phương pháp CF đánh giá phương pháp thành công việc xây dựng hệ thống khuyến nghị [11] Với toán khuyến nghị báo khoa học liên quan cho nhà nghiên cứu, giả sử báo nhà nghiên cứu tham khảo, trích dẫn có liên quan đến quan tâm nghiên cứu họ Khi đó, xây dựng ma trận đánh giá M dựa quan hệ trích dẫn, nhằm thể quan tâm nhà nghiên cứu báo kho liệu - 71 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT M có dòng nhà nghiên cứu cột báo Giá trị / , dòng , cột ma trận thể quan tâm researche với báo ( / ,0 = !3! 45 465! , &4!37 !3! 45 !3! 45 465! , trích dẫn báo ( ( ( (6) : số lần mà nhà nghiên cứu khứ &4!37 !3! 45 : tổng số trích dẫn Dựa quan điểm này, xây dựng phương pháp lọc cộng tác cho toán khuyến nghị báo khoa học liên quan Phương pháp (CF-kNN): tiên đoán mức độ liên quan báo khoa học với nhà nghiên cứu dựa tiếp cận CF, tóm tắt sau: Phương pháp 4: CF-kNN Đầu vào: R = {r} tập nhà nghiên cứu quan sát P = {p} tập báo nhà nghiên cứu Đầu ra: ∀r∈R, trả Top-N p∈P Các bước thực hiện: • Bước 1: Xây dựng ma trận có giá trị dòng , cột thể mức độ liên quan ( ∈ với ∈ ,/ 2, ( • Bước 2: Xác định người đồng sở thích, tiên đốn giá trị / , lại chưa xác định Lặp: ∀ 2 ∈ Dùng thuật tốn kNN để xác định k người có sở thích tương tự Độ tương tự ∈ /ớ tính theo hệ số tương quan Pearson dựa ma trận sau: E∑ ∑ B ∈:,,, ∈:,,, ?/?2 , /?2 , (@ : ;