Phương pháp thu thập dữ liệu

Hiện nay rút trích thông tin trên web thường được thực hiện bằng cách sử dụng các wrapper. Một wrapper có thể được xem như là một thủ tục được thiết kế để có thể rút trích được những nội dung cần quan tâm của một nguồn thông tin nào đó. Wrapper xây dựng theo các phương pháp này có nhược điểm là phải cập nhật lại khi có sự thay đổi cách thức trình bày trên trang web.

Phương pháp rút trích thông tin bằng cách so trùng hai trang web được xây dựng dựa trên phương pháp nhận dạng mẫu cho phép rút trích chính xác vùng thông tin mang nội dung chính trên các trang web. Phương pháp này được thực hiện bằng cách so trùng trang web cần rút trích với một trang web mẫu để

xác định khung trình bày chung của hai trang web, từ khung trình bày chung ta có thể rút trích ra được nội dung chính của trang web cần rút trích. Phương pháp này không đòi hỏi người dùng phải biết các ngôn ngữ xây dựng wrapper hay phải thay đổi wrapper khi cách trình bày thay đổi do trang web mẫu có thể lấy trực tiếp từ trang chủ và có cùng cách trình bày với trang cần rút trích. Như ví dụ minh họa dưới đây, phần thông tin trong khung đỏ mang nội dung là tiêu đề của các bài báo web, phần thông tin trong khung xanh mang nội dung chính của trang web, đây là nội dung ta cần lấy.

Tên trang web Regex Tiêu đề Regex Nội dung Vnexpress.net @"<H1 class=Title>(?<1>.*?)</ H1>" "<P class=Normal>(?<1>.*?)< /P>" Giaothongvantai. com.vn "<h1 class=\"cssGTVTTitle\"> (?<1>.*?)</h1>" "<P align=justify><SPAN>(?< 1>.*?)</SPAN></P>" baodientu.chinhp hu.vn "<span id=\"csaook thitl00_mainContent_bod yContent_lbHeadline\">( ?<1>.*?)</span>" "<P align=justify>(?<1>.*?) </P>"

Dantri.com.vn div class=\"fon31

mt1\">(?<1>.*?)</div>"

"(<DIV>(?<1>.*?)</DIV>| <P>(?<1>.*?)</P>)"

Bảng 4: các từ khóa xác định tiều đề và nội dung bài

3.2.2. Tiền xử lý dữ liệu

Sau khi thu thập dữ liệu từ trên web về, tôi tiến hành bóc tách nội dung, và tiền xử lý dữ liệu, như tách câu, tách từ, loại bỏ từ dừng. Quá trình này rất quan trọng vì là bước xử lý cho văn bản đầu vào. Tiếp quá trình này, tôi tiến hành loại bỏ từ dừng vì một số từ xuất hiện nhiều nhưng không mang nhiều ý nghĩa trong quá trình để phân loại văn bản.

Bảng 5: Một số từ dừng loại bỏ trong quá trình xử lý

Loại từ Ví dụ

Đại từ, danh từ Hắn, anh ta, chị ta, cô ấy…

Từ đếm Một, hai , ba..

Từ nối Nhưng, tuy, vì thế…

Từ phủ định Không, ngược lại.. Giới từ Trên, trong, ở...

Dữ liệu thu được sau quá trình tiền xử lý được mô tả chi tiết trong bảng sau:

Dữ liệu sau khi thu thập:

Tổng số file: 3098 (files) khoảng 11MB…

Dữ liệu sau khi tiền xử lý: loại bỏ file trùng lặp, tách từ, loại bỏ từ dừng.. Tổng số file: 3088(files) khoảng 10MB.., tổng số từ là 31.490(từ)

Chuyên mục thu thập:

- Dữ liệu thuộc văn bản giao thông: www.giaothongvantai.com.vn - Dữ liệu không thuộc văn bản giao thông: www.dantri.com.vn,

www.vnexpress.net....

Bảng 6: kết quả sau khi thu thập dữ liệu

Phương pháp biểu diễn văn bản

Thực nghiệm phân lớp bán giám sát SVM-kNN