5.1 Kết quả thực nghiệm.
Dữ liệu DBLP đưa vào hệ thống được tác giả công bố tháng 1 năm 2011 chứa khoảng 1,5 triệu bài báo (dblp-2011-1-26.sql.gz 26).
Để đánh giá tính cập nhật, đầy đủ dữ liệu của hệ thống xây dựng được, chúng tôi tiến hành truy vấn trên hệ thống đã xây dựng với đầu vào là từ khóa chủ đề trong lĩnh vực khoa học máy tính (bảng dưới thống kê kết quả khi tìm kiếm 2 từ khóa database và data mining). Sau đó chúng tôi xét trên 100 kết quả trả về lần lượt từ 3 thư viện số ACM, IEEEXplore và CiteSeer thì kết quả thu được như sau:
Với từ khóa nhập vào là: database Thư viện số Thời gian thu
thập (phút)
Số bài tồn tại trong DBLP
(%)
Số bài trước năm 2005 mà trong DBLP không
chứa (%)
ACM 33 93 85,71
CiteSeer 0.5 78 90,91
IEEEXplore 1.02 44 48,21
Bảng 5.1 - Kết quả của hệ thống với từ khóa là Database
Với từ khóa nhập là: data mining Thư viện số Thời gian thu
thập (phút)
Số bài tồn tại trong DBLP
(%)
Số bài trước năm 2005 mà trong DBLP không
chứa (%)
ACM 32 52 66,67
CiteSeer 0.25 71 72,41
IEEEXplore 1 46 12,96
Bảng5.2 - Kết quả của hệ thống với từ khóa là Data mining.
+ Thời gian thu thập: tính khi hệ thống đã được nhập vào từ khóa và người dùng yêu cầu thu thập thông tin.
+ Số bài tồn tại trong DBLP: được tính bằng số bài trong 100 bài trả về từ thư viện số và tồn tại trong dữ liệu DBLP.
+ Số bài trước năm 2005 mà trong DBLP không chứa: được tính bằng số bài có năm xuất bản trước năm 2005 trong 100 bài báo trả về từ thư viện số mà không chứa trong dữ liệu DBLP.
Như vậy, theo các đánh giá trên trung bình hệ thống đã cập nhật được các bài báo khi được công bố trên thư viện số cũng như bổ sung những dữ liệu còn thiếu trong trong DBLP (kết quả thể hiện ở bảng 5.3).
Thư viện số Dữ liệu của bài báo được bổ sung vào DBLP (%)
Citeseer 25,2
IEEEXplore 55
Bảng 5.3 - Kết quả bổ sung dữ liệu mới của hệ thống.
(Dữ liệu của bài báo được bổ sung vào DBLP được tính bằng trung bình số lượng bài báo được bổ sung trên các thư viện số với 2 từ khóa là database và data mining.)
Để đánh giá tính cập nhật dữ liệu của hệ thống xây dựng, chúng tôi tìm kiếm bài báo được xuất bản năm 2010 ví dụ như bài báo: “Gate framework based metadata extraction from scientific papers” của tác giả Tin Huynh, Kiem Hoang [18] được công bố tháng 12 năm 2010, chúng tôi thấy chỉ trên thư viện số của tổ chức công bố bài báo là IEEEXplore tồn tại thông tin bài báo này, còn trên các thư viện số khác hoặc trong dữ liệu chỉ mục DBLP chưa có thông tin chỉ mục của bài báo này. Như vậy, đối với hệ thống chúng tôi đã có thể cập nhật được thông tin bài báo mới được công bố trên thư viện số.
5.2 Đánh giá
Sau khi thực hiện khóa luận chúng tôi đã đạt được những kết quả sau:
Về mặt kiến thức:
- Chúng tôi đã có được những kiến thức về các hệ thống xây dựng đánh dấu dữ liệu chỉ mục hiện nay.
- Chúng tôi đã có được kiến thức chung về việc rút trích thông tin Metadata, Bibtex.
- Với việc xây dựng hệ thống chúng tôi đã có kiến thức trong việc sử dụng các công nghệ như Web Crawler, Hibernate, BibTex parser, …
Về mặt kinh nghiệm:
- Chúng tôi đã có được những kinh nghiệm về kỹ năng lập trình, làm việc nhóm. Những kinh nghiệm này sẽ giúp ích cho chúng tôi cho quá trình làm việc tại các công ty sau khi ra trường.
- Có được kinh nghiệm trong việc viết báo cáo, trình bày báo cáo và những kỹ năng mềm cần thiết cho một kỹ sư ngành công nghệ phần mềm.
Về chương trình xây dựng trong khóa luận:
- Dựa vào kết quả các thực nghiệm được trình bày bên trên, hệ thống đã đảm được những mục tiêu mà chúng tôi đã đưa ra là xây dựng thành công hệ thống làm giàu dữ liệu chỉ mục các bài báo khoa học từ thư viện số kết hợp với dữ liệu chỉ mục có sẵn từ DBLP. Dữ liệu thu thập từ hệ thống xây dựng có tính chính xác và cập nhật.
- Mặc dù vậy chương trình còn một số hạn chế như:
+ Cần bổ sung thêm nhiều thư viện để kết quả thu thập được là đầy đủ nhất. + Hệ thống chưa loại bỏ được những đường dẫn đã thực hiện thu thập rồi do đó khiến thời gian thu thập còn chậm.
+ Chức năng tìm kiếm trên dữ liệu của hệ thống còn chậm do dữ liệu hệ thống lớn cùng với đó việc tìm kiếm chỉ dựa trên sự xuất hiện của từ khóa có thể trả về các kết quả không phù hợp.