CHƯƠNG 3 LÀM GIÀU KHO DỮ LIỆU CHỈ MỤC BÀI BÁO KHOA HỌC.
3.4 Kiểm tra dữ liệu trùng lặp.
Sau đây chúng tôi xin trình bày cách lưu thông tin của một bài báo được thu thập về từ các hệ thống thư viện và cách xử lý trùng lặp dữ liệu.
Để đảm bảo dữ liệu thu thập không bị trùng lặp với các dữ liệu đã có trong hệ thống cũng như trong cơ sở dữ liệu chỉ mục có sẵn trong DBLP thì hệ thống sẽ tiến hành kiểm tra tính tồn tại của bài báo thu thập được. Khi một bài báo được lấy về từ hệ thống thu thập (bài báo đã được rút các thông tin), hệ thống sẽ dựa vào các trường thông tin sau để kiểm tra sự trùng lặp dữ liệu đã có trong database:
+ Tựa đề bài báo (title). + Năm công bố bài báo.
+ Nơi công bố bài báo.
Để kiểm tra sự trùng lặp trên trường tựa đề bài báo, hệ thống sẽ so sánh tựa đề bài báo thu thập được trên trường tựa đề bài báo có trong cơ sở dữ liệu. Đầu tiên hệ thống sẽ tiền xử lý nội dung tựa đề của bài báo thu thập. Việc tiền xử lý tựa đề bài báo bao gồm loại bỏ khoảng trắng và một số ký tự đặc biệt như “!?,.”. Sau đó chuỗi này sẽ được chuyển về cùng dạng chữ thường.
Đối với dữ liệu đã có trong database (trường title có trong database) hệ thống cũng xử lý tương tự như tựa đề của bài báo thu thập được. Như vậy, việc so sánh tựa đề bài báo là việc truy vấn tựa đề của bài báo vừa thu thập trên trường thông tin title của bài báo đã có trong database.
- Nếu tựa đề của bài báo thu thập tồn tại trong database thì hệ thống sẽ đi so sánh trường thứ 2 của bài báo đó là năm xuất bản. Nếu năm xuất bản của bài báo vừa thu thập và bài báo có title giống với bài báo thu thập có trong database khác nhau thì chứng tỏ bài báo thu thập được chưa có trong dữ liệu của chương trình.
- Trường hợp bài báo đã có trong cơ sở dữ liệu khi 3 trường tựa đề, năm xuất bản và nơi xuất bản của bài báo thu thập được giống với 1 bài báo có trong cơ sở dữ liệu.