Công cụ chiết xuất nội dung từ các web-site báo đi- 123docz.net

3. Bố cục và cấu trúc của luận văn

7.1. Công cụ chiết xuất nội dung từ các web-site báo điện tử

Mục tiêu của chƣơng trình là hỗ trợ việc tạo Corpus từ các website báo điện tử bằng cách chỉ chiết xuất đúng nội dung của bài báo và nó chuyển về dạng văn bản ở mã UTF-8 và loại bỏ các dữ liệu thừa gây nhiễu khác.

Ngoài ra chƣơng trình đƣợc bổ sung chức năng phân chia dữ liệu để thực hiện k-fold cross validation và chức năng chuyển đổi mã encoding của dữ liệu đề phục phụ cho các mục đích khác nhau.

Chức năng chiết xuất nội dung:

Bài báo điện tử đƣợc lấy từ các site báo điện tử, nội dung dƣới dạng HTML có thể gồm nhiều các thông tin khác nhƣ header, footer, menu trái, menu phải, links và tóm tắt của các tin khác.

Nếu chỉ đơn thuần loại bỏ các tag html thì nội dung thu đƣợc có thể còn rất nhiều thông tin bị nhiễu. Mục tiêu của công cụ này là chỉ chiết xuất đúng nội dung bài báo và chuyển về dạng .txt, để phục phụ tiền xử lý văn bản. Công cụ này làm việc với tất cả các site báo điện tử có sử dụng một công cụ quản trị nội dung CMS nào đó. Hiện giờ công cụ đƣợc cấu hình để làm việc với 10 site liệt kê ở 4.4. Với một site mới có thể định nghĩa luật để công cụ tự động nhận và chiết xuất đúng nội dung chính.

Giao diện của công cụ:

Hình 7-2: Giao diện công cụ chiết xuất nội dung

Một số điểm chính:

- Destination Folder: Thƣ mục dữ liệu đích, khi thực hiện cấu trúc trong thƣ mục nguồn sẽ đƣợc giữ nguyên trong thƣ mục đích, mỗi file dữ liệu nguồn sẽ tƣơng ứng với một file dữ liệu đích, nội dung file đích chỉ chứa đúng nội dung bài báo tƣơng ứng dƣới dạng UTF-8.

- Threshold size: Định nghĩa ngƣỡng để loại bỏ đi các file đich có kích thƣớc nhỏ hơn ngƣỡng, nếu để ngƣỡng đặt là 0, thì chức năng này đƣợc bỏ qua.

Việc thu thập một Corpus sẽ đƣợc thực hiện dễ dàng nhờ sử dụng công cụ này kết hợp với một công cụ Spider.

Chức năng k-Fold Partition: Tự động phân chia dữ liệu để thực hiện với k- fold cross validation. Chƣơng trình tự động chia tập ngữ liệu thành k phần, lấy một phần hoặc một số phần làm tập kiểm thủ và các phần còn lại làm tập huấn luyện.

Hình ảnh kết quả chạy với k=10

Chức năng Encoding conversion: Chuyển đổi giữa các dạng encoding khác nhau cho tập ngữ liệu nhƣ chuyển từ UTF-8 sang Unicode 2 bytes, hoặc ngƣợc lại vv..

Công cụ chiết xuất nội dung từ các web-site báo điện tử

Phƣơng pháp k-Nearest Neighbour

Phƣơng pháp Linear Least Square Fit LLSF