Chương 5 : THỰC NGHIỆM VÀ ĐÁNH GIÁ
5.5 Kiểm tra dữ liệu
Những q trình thu thập dữ liệu ln gặp một vấn đề chung là dữ liệu có thể có sai sót. Những sai sót này có thể chia làm hai dạng là false positive và false negative [WikiErr]. Cụ thể hai dạng sai sót này như sau:
False positive: là dạng sai sót do bỏ sót những dữ liệu thỏa yêu cầu. False negative: là dạng sai sót do thu nhận những dữ liệu khơng thỏa
Trong q trình thu thập dữ liệu ở chương này, cả hai dạng sai sót đều có thể xảy ra. Những sai sót đó đều ảnh hưởng xấu tới kết quả hoạt động và việc đánh giá nên chúng cần được kiểm tra và chỉnh sửa lại cho đúng. Những sai sót dạng false positive nếu xảy ra do lỗi khách quan thì chỉ có một cách giải quyết là bổ sung thêm nguồn dữ liệu để tăng thêm độ chính xác. Những sai sót dạng false negative có thể giải quyết bằng cách kiểm tra lại dữ liệu và loại bỏ các đơn vị dữ liệu không thỏa yêu cầu.
Khi thu thập danh sách giảng viên của các trường, như đã nói ở trên, danh sách giảng viên khơng được thu nhận đầy đủ vì những lý do khách quan, nên sẽ bị sai sót dạng false positive. Những sai sót này có thể được khắc phục bằng cách bổ sung thêm giảng viên còn thiếu, nhưng việc này cần sự hỗ trợ hợp tác của các đơn vị nắm giữ dữ liệu giảng viên trong các trường. Vì vậy, những sai sót này sẽ được sửa sau khi làm việc được với các đơn vị đó. Tuy nhiên, những giảng viên thu được hiện tại đóng vai trị chủ chốt trong nghiên cứu và giảng dạy ở các tổ chức của họ nên được xem là đủ tốt để đại diện cho các giảng viên của tổ chức đó.
Ở cả bước một thu thập dữ liệu AuthorInstance và bước hai thu thập dữ liệu chỉ mục, sai sót dạng false positive xảy ra vì dữ liệu từ nguồn MAS khơng đầy đủ. Dạng sai sót này sẽ được giải quyết bằng cách bổ sung thêm các nguồn dữ liệu như từ DBLP, hay từ các thư viện điện tử khác như CiteSeerX, Google Scholar.
Ở bước một thu thập dữ liệu AuthorInstance, những sai sót dạng false nagative xảy ra chủ yếu do các tác giả trùng họ tên với nhau. Vì dữ liệu thử nghiệm khơng q lớn nên dạng sai sót này đã được giải quyết bằng cách kiểm tra bằng tay và xóa các AuthorInstance không đúng. Việc kiểm tra này chủ yếu dựa trên các thông tin về đơn vị cơng tác, các đồng tác giả, các trích dẫn đến bài báo của tác giả.
Ở bước hai thu thập dữ liệu chỉ mục, những sai sót dạng false nagative xảy ra chủ yếu do chất lượng dữ liệu của MAS. Dữ liệu chỉ mục ngay sau khi thu thập về khá lớn nên khó có thể kiểm tra bằng tay ngay được. Thay vào đó, các
dữ liệu này sẽ được dùng để tính tốn chỉ số h-index trước, sau khi tính tốn ta sẽ xác định Hirsch-core, từ đó giới hạn số bài báo cần phải kiểm tra của mỗi tác giả. Việc kiểm tra này chủ yếu dựa trên các thơng tin về các đồng tác giả, các trích dẫn đến bài báo đó. Trong trường hợp cụ thể đang xét, dữ liệu kết quả sau khi kiểm tra không thay đổi so với trước đó.