ĐÁNH GIÁ NĂNG LỰC NGHIÊN CỨU CỦA CÁ NHÂN, TỔ CHỨC DỰA TRÊN PHÂN TÍCH, TÍNH TOÁN CÁC CHỈ SỐ KHOA HỌC.
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THÔNG TIN KHOÁ LUẬN TỐT NGHIỆP Đề tài: ĐÁNH GIÁ NĂNG LỰC NGHIÊN CỨU CỦA CÁ NHÂN, TỔ CHỨC DỰA TRÊN PHÂN TÍCH, TÍNH TOÁN CÁC CHỈ SỐ KHOA HỌC Giảng viên hướng dẫn: TH.S HUỲNH NGỌC TÍN Cơ quan công tác: ĐẠI HỌC CÔNG NGHỆ THÔNG TIN T.S LƯƠNG PHÚC HIỆP Cơ quan công tác: ĐẠI HỌC ARKANSAS, HOA KỲ Sinh viên thực hiện: TRẦN HƯNG NGHIỆP MSSV: 07520245 Lớp: HTTT02 Khóa: 2007 – 2012 Tp. HCM, tháng 12 năm 2011 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THÔNG TIN KHOÁ LUẬN TỐT NGHIỆP Đề tài: ĐÁNH GIÁ NĂNG LỰC NGHIÊN CỨU CỦA CÁ NHÂN, TỔ CHỨC DỰA TRÊN PHÂN TÍCH, TÍNH TOÁN CÁC CHỈ SỐ KHOA HỌC Giảng viên hướng dẫn: TH.S HUỲNH NGỌC TÍN Cơ quan công tác: ĐẠI HỌC CÔNG NGHỆ THÔNG TIN T.S LƯƠNG PHÚC HIỆP Cơ quan công tác: ĐẠI HỌC ARKANSAS, HOA KỲ Sinh viên thực hiện: TRẦN HƯNG NGHIỆP MSSV: 07520245 Lớp: HTTT02 Khóa: 2007 – 2012 Tp. HCM, tháng 12 năm 2011 MỞ ĐẦU Khoa học hiện nay đang phát triển rất mạnh, cùng với đó là số lượng bài báo khoa học ngày càng tăng lên. Việc quản lý và khai thác các bài báo khoa học này một cách hiệu quả là một nhu cầu tất yếu cho sự phát triển bền vững của khoa học với tinh thần “đứng trên vai những người khổng lồ”. Hiện nay trên thế giới đã có nhiều hệ thống được xây dựng để thực hiện việc này, chức năng chính của chúng là lưu trữ và tìm kiếm các bài báo phù hợp với các tiêu chí nhất định. Ở đề tài này chúng tôi khảo sát các hệ thống có sẵn này ở khía cạnh nội dung, tính năng, cùng với các giải thuật tìm kiếm, xếp hạng của chúng, sau đó xây dựng mô hình ứng dụng các chỉ số xếp hạng trong việc đánh giá các cá nhân, tổ chức và bước đầu tiến hành thử nghiệm trên các cá nhân, tổ chức làm việc trong lĩnh vực công nghệ thông tin ở Tp. Hồ Chí Minh. Từ đó đề xuất xây dựng một hệ thống thư viện điện tử thực tế có các đặc trưng cần thiết để ứng dụng các chỉ số này phục vụ người dùng ở Việt Nam. LỜI CẢM ƠN Lời đầu tiên em xin gửi lòng biết ơn chân thành đến thầy Huỳnh Ngọc Tín và thầy đồng hướng dẫn Lương Phúc Hiệp. Hai thầy đã tận tình hướng dẫn, góp ý, động viên em rất nhiều trong quá trình làm luận văn. Qua đó, em đã thật sự học hỏi được rất nhiều và trưởng thành hơn trong tư duy và nhận thức. Em xin gửi lời cảm ơn tất cả các thầy cô đã giảng dạy, truyền đạt kiến thức và những kinh nghiệm quý báu cho em suốt những năm học vừa qua. Em cảm ơn khoa Hệ thống Thông tin trường Đại học Công nghệ Thông tin đã tạo điều kiện cho em thực hiện đề tài này. Em cũng xin cảm ơn các bạn đã nhiệt tình giúp đỡ em trong suốt quá trình thực hiện đề tài này. Cuối cùng, em xin gửi lời cảm ơn đến gia đình đã tạo mọi điều kiện thuận lợi về vật chất và tinh thần, giúp em hoàn thành luận văn một cách tốt nhất. Mặc dù em đã cố gắng để hoàn thành tốt đề tài, nhưng chắc chắn không tránh khỏi những thiếu sót, em rất mong được sự tận tình chỉ bảo của quý thầy cô. Tp. Hồ Chí Minh, tháng 12 năm 2011 Sinh viên thực hiện Trần Hưng Nghiệp NHẬN XÉT (Của giảng viên hướng dẫn) NHẬN XÉT (Của giảng viên phản biện) NHẬN XÉT (Của hội đồng) MỤC LỤC MỞ ĐẦU i LỜI CẢM ƠN ii MỤC LỤC vi DANH MỤC CÁC BẢNG ix DANH MỤC CÁC BIỂU ĐỒ xi DANH MỤC CÁC HÌNH xii DANH MỤC CÁC SƠ ĐỒ xiv Chương 1: TỔNG QUAN VỀ ĐỀ TÀI 1 1.1 Đánh giá hiện trạng 1 1.2 Phát biểu bài toán 2 1.3 Mục tiêu đề tài 3 1.4 Cấu trúc báo cáo 3 Chương 2: CÁC NGHIÊN CỨU VÀ ỨNG DỤNG LIÊN QUAN 4 2.1 Giới thiệu 4 2.2 Web crawler 4 2.3 Các phương pháp xếp hạng phổ biến 5 2.3.1 Giới thiệu 5 2.3.2 PageRank 6 2.3.3 PopRank 13 2.4 Các chỉ số xếp hạng phổ biến 19 2.4.1 Giới thiệu 19 2.4.2 Các chỉ số phân tích tài liệu chuẩn (Standard bibliometric indicators) 19 2.4.3 H-type indexes 22 2.4.4 A-type indexes 29 2.5 Các hệ thống liên quan 33 2.5.1 Giới thiệu 33 2.5.2 IEEEXplore 33 2.5.3 Association for Computing Machinery (ACM) 36 2.5.4 SpringerLink 40 2.5.5 Microsoft Academic Search (MAS) 43 2.5.6 Google Scholar 49 2.5.7 CiteSeerX 52 Chương 3: CÁCH TIẾP CẬN CỦA ĐỀ TÀI 56 3.1 Mở đầu 56 3.2 Thảo luận về các chỉ số xếp hạng 56 3.3 Thảo luận về các phương pháp xếp hạng 57 3.4 Phân tích cải tiến các hệ thống thư viện điện tử 58 3.5 Cách tiếp cận của đề tài 60 Chương 4: HIỆN THỰC HỆ THỐNG 62 4.1 Mở đầu 62 4.2 Chương trình thu thập dữ liệu 62 4.2.1 Khảo sát hiện trạng 62 4.2.2 Phân tích thiết kế 63 4.2.3 Cài đặt 82 4.2.4 Kết quả 86 4.3 Chương trình tính toán các chỉ số xếp hạng 87 4.3.1 Khảo sát hiện trạng 87 4.3.2 Phân tích thiết kế 87 4.3.3 Cài đặt 96 4.3.4 Kết quả 97 4.4 Hệ thống thư viện điện tử 102 4.4.1 Khảo sát hiện trạng 102 4.4.2 Phân tích thiết kế 102 4.4.3 Cài đặt 104 4.4.4 Kết quả 107 Chương 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ 110 5.1 Mở đầu 110 5.2 Thu thập danh sách giảng viên 110 5.3 Chuẩn hóa dữ liệu giảng viên và nhập liệu 113 5.4 Chương trình thu thập dữ liệu chỉ mục 114 5.4.1 Khảo sát hiện trạng 114 5.4.2 Phân tích thiết kế 115 5.4.3 Cài đặt 122 5.4.4 Kết quả 124 5.5 Kiểm tra dữ liệu 125 5.6 Tính toán các chỉ số xếp hạng 127 5.6.1 Mở đầu 127 5.6.2 Phân tích thiết kế 127 5.6.3 Cài đặt 131 5.7 Đánh giá kết quả 131 5.7.1 Kết quả tính toán 131 5.7.2 Nhận xét và đề xuất một số cải tiến 143 Chương 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 146 6.1 Kết quả đạt được 146 6.2 Hạn chế và hướng phát triển 146 6.2.1 Hạn chế 146 6.2.2 Hướng phát triển 147 DANH MỤC TÀI LIỆU THAM KHẢO 148 [...]... đồ 5.2 – Biểu đồ số lượng bài báo của các tổ chức 133 Biểu đồ 5.3 – Biểu đồ số lượng số lượng trích dẫn của các tổ chức 135 Biểu đồ 5.4 – Biểu đồ số trích dẫn trung bình của một bài báo của các tổ chức 136 Biểu đồ 5.5 – Biểu đồ H-index các tổ chức 138 Biểu đồ 5.6 – Biểu đồ G-index các tổ chức 139 Biểu đồ 5.7 – Biểu đồ tổng hợp kết quả tính toán các tổ chức 141 Biểu đồ... Nền tảng của việc tìm kiếm hiệu quả ở các thư viện điện tử này chính là các chỉ số xếp hạng và các phương pháp xếp hạng Các chỉ số này có thể là thô sơ như số lượng các bài báo của một tác giả, số trích dẫn của một bài báo Nó cũng có thể phức tạp hơn một chút như H-Index, G-Index khi nó tính toán tổng thể các số liệu thành phần của một tác giả hay một tổ chức để có một chỉ số đánh giá tổng hợp Các phương... indicators) a) Tổng số bài báo khoa học Đây là chỉ số đơn giản nhất trong số ba chỉ số phân tích tài liệu chuẩn Tổng số bài báo khoa học thể hiện năng suất lao động khoa học của tác giả, nếu xét cho tổ chức hay quốc gia thì nó thể hiện năng suất lao động khoa học của tổ chức hay quốc gia đang xét b) Tổng số trích dẫn Số lượng trích dẫn của một bài báo khoa học phản ánh tầm ảnh hưởng của bài báo khoa học đó,... điện tử như bài báo khoa học, tác giả,… Th.S Huỳnh Ngọc Tín T.S Lương Phúc Hiệp Trang 18 Trần Hưng Nghiệp Khóa luận tốt nghiệp 2.4 Các chỉ số xếp hạng phổ biến 2.4.1 Giới thiệu Việc xếp hạng, đánh giá chất lượng làm việc của các nhà khoa học, các tổ chức hay các tờ báo khoa học là một trong số những công việc chính của ngành phân tích các tài liệu Để làm việc này, các nhà khoa học đã xây dựng nhiều... trang web Việc tính toán PageRank có thể thực hiện hoàn toàn giống như tính toán có thể tính toán khá đơn giản bằng phương pháp Điều cần quan tâm ở đây chính là việc gán tự động các hệ số truyền b Tính toán hệ số truyền Các hệ số truyền đóng một vai trò quan trọng trong tính toán PopRank, giá trị các hệ số truyền có ảnh hưởng lớn tới giá trị hạng của các đối tượng Việc gán giá trị cho các hệ số truyền... tính năng của chúng, một hệ thống thư viện điện tử muốn được đánh giá cao còn phải đáp ứng được các yêu cầu đặc trưng cho một nhóm người dùng nhất định Mục đích của đề tài là thiết kế các tính năng cho một hệ thống thư viện điện tử phục vụ người dùng Việt Nam Mỗi hệ thống đều xây dựng tính năng của nó dựa trên các nền tảng khác nhau về dữ liệu, các thuật toán, các tiêu chí đánh giá và các chỉ số xếp... đo của các chỉ số xếp hạng khác nhau Các chỉ số đó ban đầu đơn giản chỉ là số lượng tác phẩm khoa học, số lượng trích dẫn, số trích dẫn trung bình trên một tác phẩm Đến vài năm gần đây, hàng loạt chỉ số mới đã được đề xuất và được ứng dụng rộng rãi Mở đầu với h-index, sau đó các chỉ số ra đời trong nỗ lực cải tiến h-index như g-index, m-quotient, h(2)index, đây là nhóm các chỉ số thiên về tính số lượng... quả tính toán số trích dẫn trung bình của một bài báo 135 Bảng 5.11 – Kết quả tính toán chỉ số H-index 137 Bảng 5.12 – Kết quả tính toán chỉ số G-index 138 Bảng 5.13 – Tổng hợp kết quả tính toán 140 Bảng 5.14 – Tổng hợp kết quả xếp hạng 142 DANH MỤC CÁC BIỂU ĐỒ Biểu đồ 4.1 – Biểu đồ thời gian tính toán các chỉ số 101 Biểu đồ 5.1 – Biểu đồ số lượng giảng viên các tổ chức. .. liệu mẫu 1 dùng để tính toán các chỉ số đánh giá 97 Bảng 4.9 – Dữ liệu mẫu 2 dùng để tính toán các chỉ số đánh giá 98 Bảng 4.10 – Cấu hình phần cứng 1 98 Bảng 4.11 – Cấu hình phần cứng 2 99 Bảng 4.12 – Kết quả thử nghiệm cài đặt các chỉ số 99 Bảng 5.1 – Các tổ chức và nguồn dữ liệu danh sách giảng viên tương ứng 111 Bảng 5.2 – Thuật giải của quy trình thu thập... hạng có được do các mối liên kết giữa các đối tượng Để tính hạng tổng hợp này ta sẽ áp dụng công thức PopRank sau: ∑ (12) Với: , là tập các đối tượng loại và loại , là các vector hạng tổng hợp của các đối tượng loại X và loại Y là vector hạng trang web chứa các đối tượng loại tính theo PageRank dựa vào siêu liên kết [ ] là ma trận kề của đồ thị các đối tượng với các phần tử có giá trị như sau: . ứng dụng và tính toán các chỉ số xếp hạng trong việc đánh giá các cá nhân, tổ chức và bước đầu tiến hành thử nghiệm trên các cá nhân, tổ chức làm việc. NGHIỆP Đề tài: ĐÁNH GIÁ NĂNG LỰC NGHIÊN CỨU CỦA CÁ NHÂN, TỔ CHỨC DỰA TRÊN PHÂN TÍCH, TÍNH TOÁN CÁC CHỈ SỐ KHOA HỌC