Xứ lý cho trang web chứa ít nội dung

Một phần của tài liệu phát triển một số công cụ hỗ trợ phân tích, tổng hợp văn bản tiếng việt (Trang 71)

Như ta đã biết, trong trang Web thường chứa nhiều thơng tin hình ảnh, phim, …

Đặc biệt, cĩ loại trang Web chứa phần lớn là hình ảnh và các thơng tin quảng cáo, các liên kết, …, chẳng hạn các trang chủ (Home page) của các Website, hoặc các trang Web mua bán, dịch vụ, … Đối với các loại trang Web đĩ, thường khơng cĩ một thơng tin chính nổi trội hơn các thơng tin khác, hoặc đoạn văn bản dùng để

thơng báo thơng tin chủ đề của trang Web là quá nhỏ so với kích thước của tồn trang Web, do đĩ ta khơng cĩ cách nào hợp lý để chọn ra được một vùng văn bản chính trên trang Web đĩ để lấy xử lý tạo ra bản tĩm tắt cho trang Web.

Với loại trang Web mà số lượng thơng tin (dạng văn bản) trên chính trang Web

đĩ khơng đủ để làm nguồn dữ liệu để tạo tĩm tắt cho trang Web đĩ nhưđược nêu ở

trên, ta bắt buộc phải tìm nguồn dữ liệu ở nơi khác cĩ liên quan để làm dữ liệu tĩm tắt cho trang Web.

Gần đây, người ta sử dụng các thơng tin ngữ cảnh của trang Webđể làm nguồn dữ liệu đầu vào cho việc tạo tĩm tắt cho trang Web, hay thơng tin chủ đề về trang Web. Ngữ cảnh của trang Web là bao gồm loại thơng tin gì? Sử dụng chúng như

thế nào trong việc tạo tĩm tắt cho trang Web? Các phần này sẽ được trình bày rõ hơn trong mục bên dưới.

5.7.TĨM TẮT TRANG WEB DỰA VÀO NGỮ CẢNH CỦA TRANG WEB WEB

5.7.1. Mở đầu

Một số trang Web cĩ liên kết đến các trang Web khác chứa các URL kèm theo các tựa đề cũng cung cấp một tĩm tắt ngắn về các tài liệu được liên kết tới.

Các nghiên cứu về tĩm tắt tự động đã được thực hiện từ 50 năm nay, nhưng cho

đến khi Internet phát triển, những nghiên cứu này đã chủ yếu tập trung trên các tài liệu văn bản thuần túy. Những kỹ thuật hiện tại cho thấy hiệu quả rất hạn chế khi thực hiện trên các trang Web. Lý do giải thích cho những kết quả khơng mong đợi này liên quan đến nội dung của tài liệu Web như sau:

-Các trang Web là tài liệu đa phương tiện, chúng chứa những thành phần khơng thể tĩm tắt được (như là âm thanh, hình ảnh, phim, …). Hơn nữa, thơng tin dạng văn bản thường ít.

-Các trang Web thường liên quan đến nhiều chủđề khác nhau.

-Mặc dù các trang Web con người cĩ thể đọc được, nhưng chương trình máy tính khĩ cĩ thể phân biệt được đâu là thơng tin chính và đâu là thơng tin phụ

trong tài liệu HTML.

Trong vài năm qua, ngày càng nhiều ứng dụng Web thành cơng trong việc sử dụng ngữ cảnh của tài liệu Web thay vì chỉ sử dụng nội dung của nĩ. Một ví dụ

về ngữ cảnh của trang Web là phần liên quan được trích trong tất cả các tài liệu khác cĩ kết nối với nĩ. Một số trang Web cĩ liên kết đến các trang Web khác chứa các URL kèm theo các lời mơ tả, chú thích cũng cung cấp một tĩm tắt ngắn về các tài liệu được liên kết tới. Đã cĩ một số thuật tốn sử dụng cả nội dung và ngữ cảnh, một số khác chỉ sử dụng ngữ cảnh.

Ở đây, ta xét đến ngữ cảnh của tài liệu Web là một tập các mẫu thơng tin được trích từ tất cả các tài liệu liên kết với nĩ. Để tĩm tắt một tài liệu Web, một chương trình tĩm tắt dựa vào ngữ cảnh phải thực hiện tác vụ tiền xử lý, trong quá trình này nĩ phải quyết định những mẫu thơng tin nào của các tài liệu nguồn là liên quan đến nội dung của tài liệu đang xét. Sử dụng ngữ cảnh để tĩm tắt tài liệu cĩ hai điểm thuận lợi sau:

-Những trở ngại và những hạn chế của việc tĩm tắt dựa vào nội dung được khắc phục.

-Khi một tài liệu liên kết đến một tài liệu khác, nĩ thường chứa một đoạn mơ tả kèm theo link chỉ tới tài liệu đích. Nĩi cách khác, ngữ cảnh cĩ thể đã chứa những phần tĩm tắt của tài liệu đích do con người tạo ra.

Trong nghiên cứu của mình, nhĩm tác giả J.-Y.Delort đã đề xuất hai thuật giải tĩm tắt tài liệu dựa vào ngữ cảnh. Thuật tốn thứ nhất sử dụng kết hợp cả ngữ cảnh của tài liệu và nội dung của tài liệu. Thuất tốn thứ hai chỉ sử dụng ngữ cảnh.

Trong các phần sau, một trang nguồn được định nghĩa là S sẽ trỏ tới một trang đích là T.

5.7.2.Ngữ cảnh của tài liệu Web

Ngữ cảnh của một trang Web là các phần thơng tin mơ tả, ghi chú của các trang Web khác dành cho các link liên kết đến trang Web đĩ.

Với việc ngày càng nhiều ứng dụng thành cơng khi sử dụng ngữ cảnh, đã cĩ một số nghiên cứu tìm hiểu lý do cĩ những thành cơng này. Attardi đã mơ tả hai đặc tính của việc phân loại bằng ngữ cảnh như sau:

-Nếu một tài liệu nguồn chỉ tới một tài liệu đích thì ngữ cảnh của link đĩ trong tài liệu nguồn cĩ thể liên quan đến nội dung của tài liệu đích.

-Ngữ cảnh của một tài liệu đủđể phân biệt được nĩ.

5.7.3.Các cơng việc chính

Sau đây là mơ tả của các phương pháp thực hiện nhằm tĩm tắt trang Web dựa vào ngữ cảnh. Đây là những phương pháp được nêu trong [19]. Chúng tơi sử dụng phương pháp này và cĩ các điều chỉnh cho chương trình thử nghiệm.

Bất kỳ chương trình tĩm tắt dựa vào ngữ cảnh nào đều phải đối phĩ với ba vấn

đề sau:

-Thu thập ngữ cảnh - Trích các mẫu thơng tin trong các tài liệu của ngữ

cảnh liên quan đến tài liệu đích hoặc cung cấp thơng tin về tài liệu đích.

-Kết hợp các phần riêng lẻ - Đơi khi, các mẫu thơng tin trong các tài liệu thuộc về ngữ cảnh của tài liệu đích chỉ nhấn mạnh vào một phần nội dung của tài liệu gốc. Sau đĩ, những mẫu thơng tin này cần phải được gắn kết lại để cĩ thể

tĩm tắt tồn bộ tài liệu gốc.

-Xét độ liên quan về nội dung – Các thành phần của ngữ cảnh cần được phân biệt thành hai loại, một loại được liên kết với tài liệu đích nhưng lại khơng chứa bất cứ ý tưởng nào liên quan đến tài liệu đích, một loại cĩ thể cung cấp thơng tin sâu sắc và tồn diện về tài liệu gốc. Sự khác biệt này được minh họa trong ví dụđược trích từ tài liệu [13] như sau:

1. <LINK> CNN </LINK> reported that the rate of cars

robbed in Nevada increased by 3% at the first quarter. 2. <LINK>CNN</LINK> is a news website.

Một phần của tài liệu phát triển một số công cụ hỗ trợ phân tích, tổng hợp văn bản tiếng việt (Trang 71)

Tải bản đầy đủ (PDF)

(131 trang)