Kiểm tra dữ liệu trùng lặp.

Một phần của tài liệu XÂY DỰNG VÀ LÀM GIÀU DỮ LIỆU CHỈ MỤC VỚI WEB CRAWLER (Trang 41 - 43)

CHƯƠNG 3: XÂY DỰNG VÀ LÀM GIÀU DỮ LIỆU CHỈ MỤC VỚI WEB CRAWLER.

3.4 Kiểm tra dữ liệu trùng lặp.

Sau đây chúng tôi xin trình bày cách lưu thông tin của một bài báo được thu thập về từ các hệ thống thư viện và cách xử lý trùng lặp dữ liệu.

Để đảm bảo dữ liệu thu thập không bị trùng lặp với các dữ liệu đã có trong hệ thống cũng như trong cơ sở dữ liệu chỉ mục có sẵn trong DBLP thì hệ thống sẽ tiến hành kiểm tra tính tồn tại của bài báo thu thập được. Khi một bài báo được lấy về từ hệ thống thu thập (bài báo đã được rút các thông tin), hệ thống sẽ dựa vào các trường thông tin sau để kiểm tra sự trùng lặp dữ liệu đã có trong database:

+ Tựa đề bài báo (title). + Năm công bố bài báo.

Để kiểm tra sự trùng lặp trên trường tựa đề bài báo, hệ thống sẽ so sánh tựa đề bài báo thu thập được trên trường tựa đề bài báo có trong cơ sở dữ liệu. Đầu tiên hệ thống sẽ tiền xử lý nội dung tựa đề của bài báo thu thập. Việc tiền xử lý tựa đề bài báo bao gồm loại bỏ khoảng trắng và một số ký tự đặc biệt như “!?,.”. Sau đó chuỗi này sẽ được chuyển về cùng dạng chữ thường.

Đối với dữ liệu đã có trong database (trường title có trong database) hệ thống cũng xử lý tương tự như tựa đề của bài báo thu thập được. Như vậy, việc so sánh tựa đề bài báo là việc truy vấn tựa đề của bài báo vừa thu thập trên trường thông tin title của bài báo đã có trong database.

- Nếu tựa đề của bài báo thu thập tồn tại trong database thì hệ thống sẽ đi so sánh trường thứ 2 của bài báo đó là năm xuất bản. Nếu năm xuất bản của bài báo vừa thu thập và bài báo có title giống với bài báo thu thập có trong database khác nhau thì chứng tỏ bài báo thu thập được đã có trong dữ liệu của chương trình.

- Nếu bài báo thu thập được có title không giống title của bài báo nào trong database hoặc title giống trong database nhưng năm xuất bản khác nhau thì bai báo thu thập được là mới.

Một phần của tài liệu XÂY DỰNG VÀ LÀM GIÀU DỮ LIỆU CHỈ MỤC VỚI WEB CRAWLER (Trang 41 - 43)

Tải bản đầy đủ (DOCX)

(82 trang)
w