Mô hình tổng quan

Một phần của tài liệu LUẬN VĂN: TỰ ĐỘNG TỔNG HỢP VÀ PHÂN LOẠI TIN TRONG HỆ THỐNG TRANG TIN ĐIỆN TỬ pdf (Trang 34 - 38)

Hình 8. Mô hình tng quan ca h thng tng hp và phân loi tin tc

Mô tả bài toán

Đầu vào: File cấu hình hệ thống xnews.conf

Đầu ra: Các tin tức đã được phân tích và tách thành các phần bao gồm: tiêu đề, tóm tắt, ảnh minh họa, nội dung... ghi vào CSDL.

File cấu hình xnews.conf chứa tập các URLs hạt giống, tương ứng với mỗi URL hạt giống là một loạt các mẫu, cho phép trích xuất thông tin như mong đợi.

Định dạng xnews.conf được trình bày như sau:

Dòng 1: Chứa số nguyên dương N, với N là số nguồn sẽ sử dụng để tổng hợp tin tức.

1. URL hạt giống

2. Dấu hiệu nhận biết link con cần lấy 3. Bắt đầu phần nội dung

4. Kết thúc phần nội dung 5. Tiêu đề bài báo

6. Đoạn tóm tắt nội dung chính 7. Tác giả bài báo

8. Dòng trống

Đối với cụm 8 dòng này thì:

7 dòng đầu tiên chứa thông tin về một Web tin tức, nó cho phép crawl, trích xuất tất cả các tin bài cần lấy của Web tin tức đó.

Dòng thứ 8 được để trống.

Ví dụ đối với báo vnexpress.net để có thể lấy được đầy đủ các tin bài cần thiết, khóa luận xây dựng một bộ gồm các mẫu như sau:

~http://vnexpress.net/GL/Home/~

~class="link-topnews"~class="folder-topnews fl"~class="other-folder fl"~<li><a class="link-othernews"~<p><a class="link-title"~ ~class="content"~ ~style="margin-top:5px;margin-bottom:5px;"~ ~class=Title~ ~<P class=Lead>~ ~ormal align=right~ Mỗi một dòng được bắt đầu và kết thúc bởi dấu “~”, đồng thời dấu “~” cũng được sử dụng để làm phân cách cho các mẫu trên cùng một dòng.

Trước hết, “module sinh file huấn luyện” được chạy để sinh ra file huấn luyện, cũng là dữ liệu vào, thành phần chính của “module phân lớp”. Tiếp theo, chương trình đọc file cấu hình xnews.conf để thu được các URLs hạt giống và các mẫu đi cùng với nó như được trình bày ở trên. Tạo một yêu cầu (request) HTTP để lấy về mã HTML của trang tin Home tương ứng với URL hạt giống. Đọc và trích xuất ra các siêu liên kết có trong mã HTML này dựa vào mẫu “Dấu hiệu nhận biết link con cần lấy” để thu được danh sách URLs. Truy vấn đến CSDL để kiểm tra các URLs thuộc danh sách này xem đã được thăm chưa, từ đó đưa ra được danh sách các URLs chưa thăm. Ởđây, khóa luận sử dụng lưu trữ

trong CSDL bảng băm MD5 của URL thay cho việc lưu trữ trực tiếp URL, đồng thời sử

dụng mã MD5 làm khóa chính của bảng tương ứng trong CSDL (sẽ được trình bày chi tiết hơn trong chương 4). Đối với mỗi URL trong danh sách URLs chưa thăm, lặp lại việc gửi yêu cầu HTTP để thu được mã HTML tương ứng. Sử dụng công cụ UnicodeConverter để

chuẩn hóa Unicode mã HTML lấy về, và sau đó tiến hành trích xuất thông tin nhờ vào tập mẫu của file cấu hình xnews.conf. Thông tin trích xuất được, được đưa vào dữ liệu “các

thông tin đầy đủ về bài báo” bao gồm bảng băm MD5 của URL, URL, tiêu đề bài báo, phần tóm tắt nội dung, link ảnh minh họa, và phần nội dung bài báo, đồng thời cung cấp

“toàn bộ nội dung bài báo” (từ phần bắt đầu đến kết thúc của bài báo đó trong mã

HTML) cho “module chuẩn hóa dữ liệu huấn luyện/kiểm tra mô hình”. Qua bước này, chương trình thu được xâu đã được chuẩn hóa, làm dữ liệu vào cho “module phân lớp”,

qua module thu được nhãn tương ứng của bài báo. Cung cấp nhãn này cho “các thông tin đầy đủ về bài báo” và cuối cùng là tiến hành ghi các thông tin này vào CSDL.

Xử lý các văn bản không thuộc các lớp quan tâm

Trên thực tế, xảy ra trường hợp tập các lớp mà bài toán phân lớp của chương trình quan tâm tới không bao quát hết các trường hợp văn bản, tin tức của hệ thống trang tin

điện tử. Một phương pháp giải quyết với vấn đề này, là xây dựng thêm một phân lớp, là phân lớp “khác”. Tất cả các văn bản không thuộc các phân lớp văn bản thông thường sẽ được xếp vào phân lớp “khác”. Để giải quyết vấn đề theo cách đơn giản hơn, khóa luận

đã áp dụng một số phương pháp để loại bỏ các trường hợp này từ danh sách URLs dựa vào đặc điểm URL và một số yếu tố khác. Làm như vậy cũng đồng thời tiết kiệm được công sức phải xử lý (từ lấy mã HTML, chuẩn hóa, phân lớp,…) một lượng các văn bản không thuộc lớp nào góp phần tăng tốc độ chung cho toàn hệ thống.

Ví dụ 1: Trên trang báo điện tử vnexpress.net có phân lớp “Tâm sự” là phân lớp không thuộc nhóm được quan tâm của nội dung khóa luận. Một số URL bài viết thuộc lớp này:

- http://vnexpress.net/GL/Ban-doc-viet/Tam-su/2010/05/3BA1C0B9/

- http://vnexpress.net/GL/Ban-doc-viet/Tam-su/2010/05/3BA1C0BD/

Dễ dàng nhận thấy đặc điểm chung URL của các bài viết thuộc lớp này. Như vậy với báo điện tử vnexpress.net để loại các bài viết thuộc lớp “Tâm sự” đơn giản chỉ cần loại các URL có chứa xâu “vnexpress.net/GL/Ban-doc-viet/Tam-su/”.

Ví dụ 2: Trong trường hợp của báo phapluattp.vn. Xuất hiện các bài báo thuộc lớp

“Đô thị” là phân lớp chưa được khóa luận quan tâm tới.

Dựa vào đặc điểm này, các bài báo thuộc lớp “Đô thị” cũng sẽ dễ dàng bị loại trước khi chương trình thực hiện trích xuất các nội dung thông tin cần thiết.

Kiểm soát các trang trùng nhau

Một vấn đề không kém phần quan trọng trong nội dung tổng hợp tin tức là kiểm soát các bài báo có cùng nội dung. Đối với hệ thống trang tin điện tử của Việt Nam, nhiều trang báo thực hiện việc tổng hợp từ các báo khác bằng phương pháp thủ công, và đi kèm với đó có một số vấn đề cần được xử lý như sau:

- Tiêu đề của tin tức có thểđược thay đổi.

- Phần tóm tắt có thểđược thêm bớt.

- Ảnh minh họa có thể bị thay đổi.

- Nội dung có thểđược thêm bớt ít nhiều.

Để xử lý trường hợp này phương pháp thường được sử dụng là Jaccard Index (chỉ

số Jaccard) – còn được gọi là hệ số tương tự Jaccard, là một số thống kê được sử

dụng để so sánh sự giống nhau và đa dạng của các bộ mẫu. Nhưng do có nhiều hạn chế về mặt thời gian, nên vấn đề này sẽ là định hướng phát triển trong tương lai.

Một phần của tài liệu LUẬN VĂN: TỰ ĐỘNG TỔNG HỢP VÀ PHÂN LOẠI TIN TRONG HỆ THỐNG TRANG TIN ĐIỆN TỬ pdf (Trang 34 - 38)

Tải bản đầy đủ (PDF)

(59 trang)