Kiểm tra dữ liệu trùng lặp.

Một phần của tài liệu KHÓA LUẬN TỐT NGHIỆP XÂY DỰNG KHO CHỈ MỤC BÀI BÁO KHOA HỌC DÙNG WEB CRAWLER (Trang 30)

Sau đây nhóm xin trình bày cách lưu thông tin của một bài báo được thu thập về từ các hệ thống thư viện và cách xử lý trùng lặp dữ liệu.

Để đảm bảo việc dữ liệu thu thập được không bị trùng lặp với các dữ liệu đã có trong hệ thống cũng như trong dữ liệu chỉ mục có sẵn trong DBLP thì hệ thống sẽ tiến hành kiểm tra tính tồn tại của bài báo. Khi một bài báo được lấy về từ hệ

thống thu thập (bài báo đã được rút các thông tin), hệ thống sẽ dựa vào các thông tin sau để kiểm tra sự trùng lặp dữ liệu có đã có trong database:

+ Tựa đề bài báo (title). Trong dữ liệu có sẵn có trường titleSingnatere, đây là tựa đề của bài báo sau khi bỏ khoảng trắng và một số ký tự đặc biệt như “!?,.”. Bài báo sau khi rút được tựa đề hệ thống sẽ bỏ khoảng trắng và các ký tự đặc biệt và so sánh với trường titleSingnatere có trong hệ thống để kiểm tra xem bài báo có trong hệ thống chưa.

+ Năm công bố bài báo. + Tên tác giả bài báo.

Dữ liệu của DBLP được đưa vào hệ thống nhờ module import, từ dữ liệu đưa vào kết hợp với các thông tin mà bài báo vừa thu thập được hệ thống sẽ tiến hành kiểm tra lần lượt các trường được chọn phía trên để kiểm tra tính tổn tại của bài báo.

Nếu dữ liệu được đã tồn tại - ba trường trên của bài báo được thu thập giống với dữ liệu trong hệ thống thì chương trình sẽ đưa ra thông báo trên giao diện cho người dùng biết.

Hình 14 - Luồng xử lý dữ liệu trùng lặ

CHƯƠNG 3: HIỆN THỰC HỆ THỐNG.

Một phần của tài liệu KHÓA LUẬN TỐT NGHIỆP XÂY DỰNG KHO CHỈ MỤC BÀI BÁO KHOA HỌC DÙNG WEB CRAWLER (Trang 30)