Nhận xét và đề xuất một số cải tiến

Qua các kết quả được trình bày ở trên, ta có thể đưa ra một số nhận xét sau:

 Nhóm các trường dẫn đầu thuộc về các trường thuộc Đại học Quốc gia Tp. HCM. Trường Đại học Bách Khoa Tp. HCM dẫn đầu về nhiều mặt và có thể xem là trường mạnh nhất trong số các trường trên. Các trường Đại học Khoa Học Tự Nhiên Tp. HCM và trường Đại học Công Nghệ Thông Tin cũng là những trường nằm trong tốp đầu về chất lượng nghiên cứu khoa học.

0 2 4 6 8 10 12 Số lượng tác giả Số lượng bài báo Số lượng trích dẫn Số trích dẫn trung bình của một bài báo H-index G-index Tổng hợp kết quả xếp hạng các tổ chức theo các chỉ số

(Số chỉ hạng nhỏ hơn là hạng cao hơn)

Đại học Công Nghệ Thông Tin

Đại học Quốc Tế

Đại học Khoa Học Tự Nhiên Tp. HCM Đại học Bách Khoa Tp. HCM Đại học Sư Phạm Tp. HCM Đại học Sư Phạm Kỹ Thuật Tp. HCM

Đại học Công Nghiệp Tp. HCM

Đại học Hoa Sen Tp. HCM Đại học Kỹ Thuật Công Nghệ Tp. HCM

 Một số trường công lập được phát triển lâu năm nhưng không chuyên về công nghệ thông tin thì cũng không mạnh về công nghệ thông tin lắm, đặc biệt là trường Đại học Sư Phạm Tp. HCM hầu như không nghiên cứu mà chỉ giảng dạy tin học.

 Các trường đại học tư thục với sự đầu tư mạnh mẽ về tài chính cũng phát triển đáng kể về nghiên cứu khoa học. Tuy nhiên trường Đại học FPT chỉ phát triển mạnh mẽ về số lượng giảng viên để đào tạo ra sinh viên đi làm ở doanh nghiệp mà không chú trọng nghiên cứu khoa học.

Qua những nhận xét trên, có thể kết luận rằng các chỉ số xếp hạng phản ánh khá chính xác tình hình thực tế ở các tổ chức.

Từ quá trình thực nghiệm, đề tài đưa ra một số đề xuất cải tiến sau:

 Mỗi chỉ số phản ánh một khía cạnh khác nhau, vì vậy có thể phối hợp sử dụng các chỉ số này một cách phù hợp để đưa ra các đánh giá khách quan về nhiều mặt trong hoạt động cũng như chất lượng nghiên cứu khoa học ở các tổ chức.

Ví dụ:

o Xét trường Đại học FPT, kết hợp số lượng giảng viên nhiều và số lượng bài báo khoa học ít có thể đánh giá trường này chuyên về đào tạo mà ít nghiên cứu.

o Xét trường Đại học Kỹ Thuật Công Nghệ, kết hợp số lượng giảng viên ít và số lượng bài báo khoa học nhiều có thể đánh giá trường này khá chú trọng nghiên cứu so với đào tạo.

 Khi đánh giá các tổ chức, ngoài việc sử dụng phối hợp các chỉ số ở trên, còn có thể đánh giá theo thời gian để xác định xu hướng trong hoạt động và chất lượng nghiên cứu khoa học của các tổ chức. Từ đó có thể cho cái nhìn khách quan hơn về các tổ chức lâu đời và các tổ chức mới thành lập.

 Dữ liệu để tính toán các chỉ số này có đặc trưng là thay đổi theo thời gian nên cần phải tiến hành thu thập và tính toán thường xuyên. Để

dữ liệu thu thập được đầy đủ và có chất lượng thì cần phải sử dụng nhiều nguồn khác nhau. Vì vậy cần mở rộng nguồn dữ liệu của crawler. Mặt khác, có thể dùng một cách khá hiệu quả để thu thập dữ liệu là sử dụng một hệ thống tương tự Wiki, cho phép người dùng đóng góp thông tin dữ liệu chỉ mục, dữ liệu này có thể được kiểm tra đánh giá lại bởi những người dùng có uy tín được cấp quyền để tránh sai dạng false negative.

 Hệ thống thư viện điện tử có thể sử dụng dữ liệu chỉ mục và các chỉ số được tính toán ở đây để xây dựng chức năng dành cho các đối tượng người dùng quan tâm. Trong tương lai cần mở rộng phạm vi dữ liệu và tính toán nhiều chỉ số hơn để đáp ứng tốt hơn nhu cầu của người dùng trong nước.

CHƯƠNG 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 6.1 Kết quả đạt được

Đóng góp đầu tiên của đề tài là đã nghiên cứu và xây dựng một chương trình thu thập dữ liệu chỉ mục hiệu quả cao, từ đó đề tài đã và đang thu thập được dữ liệu chỉ mục của hơn 2,3 triệu bài báo khoa học trong lĩnh vực công nghệ thông tin. Đề tài cũng đã xây dựng mô hình dữ liệu quan hệ để lưu trữ các dữ liệu chỉ mục này một cách hiệu quả và thuận tiện sử dụng.

Ngoài ra, đề tài cũng đã nghiên cứu xây dựng mô hình ứng dụng và xây dựng chương trình tính toán nhiều chỉ số xếp hạng khác nhau và đã có những thử nghiệm đánh giá trên dữ liệu thu thập được.

Bên cạnh đó, đề tài đã thu thập, chuẩn hóa dữ liệu chỉ mục của các tổ chức nghiên cứu về công nghệ thông tin nổi tiếng ở Tp. Hồ Chí Minh, từ đó tiến hành thực nghiệm các chỉ số xếp hạng. Dựa trên những kết quả thực nghiệm này, đề tài đã đưa ra một số đề xuất cải tiến trong việc thu thập dữ liệu, sử dụng các chỉ số và xây dựng hệ thống thư viện điện tử.

Bước đầu thử nghiệm, đề tài đã đề xuất xây dựng một hệ thống thư viện điện tử với các chức năng cơ bản, có thiết kế tốt và có khả năng mở rộng thêm các module do các nhóm nghiên cứu khác đang thực hiện. Từ đó, hệ thống này có thể ứng dụng trong thực tế và sử dụng để làm thực nghiệm trong quá trình nghiên cứu.

6.2 Hạn chế và hướng phát triển

6.2.1 Hạn chế

Bên cạnh những thành quả đạt được, đề tài vẫn còn không ít tồn tại và hạn chế.

Chương trình thu thập dữ liệu chưa có nhiều nguồn dữ liệu khác nhau, vì vậy có thể bị thiếu sót dữ liệu. Việc kiểm tra dữ liệu hiện nay cũng đang được thực hiện bằng tay gây khó khăn khi xử lý dữ liệu lớn.

Các chỉ số xếp hạng chưa được cài đặt và thử nghiệm đầy đủ để tìm ra cách sử dụng tối ưu. Các đề xuất cải tiến vẫn chỉ là sản phẩm suy luận chứ chưa được triển khai thực tế.

Do giới hạn về thời gian thực hiện nên hệ thống thư viện điện tử vẫn còn sơ khai, chưa tích hợp nhiều tính năng.

6.2.2 Hướng phát triển

Trong tương lai đề tài có thể tiến hành thử nghiệm nhiều hơn về các chỉ số xếp hạng, các đề xuất cải tiến cũng cần được đưa vào ứng dụng thực tế.

Chương trình thu thập dữ liệu có thể mở rộng thêm các nguồn dữ liệu từ các hệ thống thư viện điện tử khác ngoài MAS, và các trang web chính thức của tác giả. Ngoài ra, cần xây dựng cơ chế kiểm tra dữ liệu tự động.

Hệ thống thư viện điện tử có thể được xây dựng thành một hệ thống ứng dụng hoàn chỉnh với đầy đủ tính năng.

DANH MỤC TÀI LIỆU THAM KHẢO

Tiếng Việt:

1. [TC2011] Đỗ Văn Tiến, Nguyễn Phước Cường (2011). “Xây dựng và làm giàu kho chỉ mục bài báo khoa học dùng web crawler”, Báo cáo khóa luận, khoa Công Nghệ Phần Mềm, trường Đại học Công Nghệ Thông Tin.

Tiếng Anh:

1. [Aus2006] David Austin (2006) . “How Google Finds Your

Needle in the Web's Haystack”, Grand Valley State University,

Feature Column from the AMS, Monthly essays on mathematical topics.

2. [BM+2008] Lutz Bornmann, Rüdiger Mutz, Hans-Dieter Daniel. “Are there better indices for evaluation purposes than the h index? A comparison of nine different variants of the h index using

data from biomedicine”. Journal of the American Society for

Information Science and Technology, vol.59, 2008, pp. 830-837. 3. [BM+2009] Lutz Bornmann, Rüdiger Mutz, Hans-Dieter

Daniel. “DoWe Need the h Index and Its Variants in Addition to

Standard Bibliometric Measures?”. Journal of the American Society

for Information Science and Technology archive, vol.60, no.6, 06/2009.

4. [BP1998] Sergey Brin, Lawrence Page (1998). “The Anatomy

of a Large-Scale Hypertextual Web Search Engine”. Proceedings of

the 7th international conference on World Wide Web (WWW). Brisbane, Australia. pp. 107–117.

5. [BP+1998] Sergey Brin, Lawrence Page, Rajeev Motwani, Terry Winograd (1999). “The PageRank citation ranking: bringing

6. [Bur2007] Quentin L. Burrell. “Hirsch’s h-index: a stochastic

model”. Journal of In-formetrics, vol.1, no.1, 2007, pp.16–25.

7. [Bur2007a] Quentin L. Burrell. “On the h-index, the size of the

Hirsch core and Jin’s A-index”. Journal of Informetrics, vol.1, no.2,

2007, pp.170-177.

8. [BW+2008] Lutz Bornmann, Gerlind Wallon and Anna Ledin.

“Is the h index related to (standard) bibliometric measures and to the assessments by peers? An investigation of the h index by using

molecular life sciences data”. Research Evaluation, vol.17, no.2,

06/2008, pp.149-156.

9. [CB2008] Rodrigo Costas, María Bordons. “Is g-index better than h-index? An exploratory study at the individual level”.

Scientometrics, vol.77, no.2, 2008, pp.267-288.

10.[Egg2006] Leo Egghe, “Theory and practise of the g-index”. Scientometrics, vol. 69, no.1, 2006, pp.131-152.

11.[ER2008] Leo Egghe, Ronald Rousseau. “An h-index

weighted by citation impact”. Information Processing &

Management, vol.4, 2008, pp.770-780.

12.[Hir2005] J. E. Hirsch (2005). “An index to quantify an

individual’s scientific research output”. PNAS.

13.[Hir2007] J. E. Hirsch. “Does the h index have predictive

power?”. PNAS, vol.104, no.49, 2007, pp.19193-19198.

14.[HK2003] Taher H. Haveliwala and Sepandar D. Kamvar (2003). “The Second Eigenvalue of the Google Matrix”. Stanford University.

15.[HK+2003] Taher Haveliwala, Sepandar Kamvar and Glen Jeh (2003). “An Analytical Comparison of Approaches to Personalizing

PageRank”. Stanford University.

16.[Jin2006] Bihui Jin. “H-index: an evaluation indicator

17.[Jin2010] Arif Jinha (2010). “Article 50 million: an estimate

of the number of scholarly articles in existence”. Learned

Publishing, vol.23, no.3, pp.258-263. DOI: 10.1087/20100308. 18.[JL+2007] Bihui Jin, Liming Liang, Ronald Rousseau, Leo

Egghe. “The R- and AR-indices: Complementing the h-index”. Chinese Science Bulletin, vol.52, no.6, 2007, pp.855-863.

19.[Kos2006] Marek Kosmulski. “A new Hirsch-type index saves

time and works equally well as the original h-index”. ISSI

Newsletter, vol.2, no.3, 2006, pp.4-6.

20.[MY2007] Lokman I. Meho and Kiduk Yang. “Impact of data sources on citation counts and rankings of LIS faculty: Web of

Science versus Scopus and Google Scholar”. Journal of the

American Society for Information Science and Technology, vol.58, no.13, 2007, pp.2105-2125.

21.[NZ+2005] Zaiqing Nie, Yuanzhi Zhang, Ji-Rong Wen, Wei- Ying Ma (2005). “Object-level ranking: bringing order to web

objects”. Conference: World Wide Web Conference Series - WWW

, pp. 567-574. DOI: 10.1145/1060745.1060828

22.[Rou2006] Ronald Rousseau (2006). “New developments

related to the Hirsch index”. Truy xuất ngày 20/12/2012, từ

http://eprints.rclis.org/archive/00006376/.

23.[Rou2008] Ronald Rousseau. “Reflections on recent

developments of the h-index and h-type indices”. Collnet journal of

scientometrics and information management, vol.2, no.1, 06/2008. 24.[Sch2003] Barry Schwartz (2003). “The Paradox of Choice:

Why More Is Less”.

Web:

1. [ACM] http://dl.acm.org, 20/12/2011.

2. [CS] http://citeseerx.ist.psu.edu, 20/12/2011. 3. [CSX] http://csxstatic.ist.psu.edu/help, 20/12/2011.

5. [GSH] http://scholar.google.com/intl/en/scholar/help.html , 20/12/2011. 6. [IEEE] http://ieeexplore.ieee.org, 20/12/2011. 7. [MAS] http://academic.research.microsoft.com, 17/01/2012. 8. [MASH] http://academic.research.microsoft.com /About/Help.htm, 17/01/2012. 9. [SL] http://www.springerlink.com/, 20/12/2011. 10.[WikiDB&SE] http://en.wikipedia.org/wiki /List_of_academic_databases_and_search_engines, 20/12/2011. 11.[WikiDS] http://en.wikipedia.org/wiki/Durfee_square, 02/09/2011. 12.[WikiErr] http://en.wikipedia.org/wiki /Type_I_and_type_II_errors, 20/12/2011. 13.[WikiGF] http://en.wikipedia.org/wiki/GlassFish, 20/12/2011. 14.[WikiHI] http://en.wikipedia.org/wiki/H-index, 02/09/2011. 15.[WikiIF] http://en.wikipedia.org/wiki/Impact_factor, 02/09/2011. 16.[WikiME] http://en.wikipedia.org/wiki /Matthew_effect_(sociology), 02/09/2011. 17.[WikiPR] http://en.wikipedia.org/wiki/Pagerank , 02/09/2011. 18.[WikiSCI] http://en.wikipedia.org/wiki/SCIgen, 02/09/2011. 19.[WikiWC] http://en.wikipedia.org/wiki/Web_crawler, 20/12/2011.

Nhận xét và đề xuất một số cải tiến

Association for Computing Machinery (ACM)

Thảo luận về các chỉ số xếp hạng