X thành văn bản Y.
XÂY DỰNG HỆ THỐNG TẠO TRÍCH LƯỢC NỘI DUNG VĂN BẢN
NỘI DUNG VĂN BẢN
6.1.MỞ ĐẦU
Vận dụng kết quả nghiên cứu về tĩm tắt văn bản và tĩm tắt trang Web theo hướng trích lược các câu trội, cũng như về các đặc điểm ngơn ngữ của tiếng Việt và các phương pháp xử lý trên văn bản tiếng Việt, chúng tơi đã xây dựng hệ thống tĩm tắt trang Web tiếng Việt đơn, tức tĩm tắt từng trang Web riêng lẻ theo hướng trích lược các câu trội ( mang nghĩa chính) của văn bản, với các đặc điểm chính sau: - Tạo bản trích lược các câu chính của trang Web dựa trên tiêu chí trích ra các câu
nổi trội trong phần nội dung của trang Web.
- Cĩ phương pháp trích chọn phần nội dung chính của trang Web, loại bỏ các nội dung phụ, khơng liên quan đến nội dung chủđề của trang Web.
- Áp dụng các phương pháp xử lý ngơn ngữ tự nhiên để làm tăng hiệu quả tĩm tắt. Một phần kết quả của chương này đã được trình bày và đăng tải trong kỷ yếu hội nghị khoa học về nghiên cứu cơ bản FAIR’2005 và tạp chí phát triển khoa học – cơng nghệĐHQG-HCM, năm 2005
6.2. QUY TRÌNH XỬ LÝ
Qui trình xử lý của chương trình tạo tĩm tắt cho trang Web tiếng Việt bao gồm các bước sau:
Bước 1.1. Trích thơng tin dạng văn bản. Tách và loại bỏ các thơng tin định dạng, thơng tin xử lý của trang Web, các hình ảnh, …, chỉ giữ
lại phần thơng tin dạng văn bản của trang Web.
Bước 1.2. Phân vùng văn bản tạm thời. Phân chia tạm thời các vùng nội dung trên trang Web dựa vào độ gần về khơng gian của các vùng văn bản xuất hiện trong trang Web.
Bước 1.3. Thu thập ngữ cảnh của trang Web. Bước này chỉ được thực hiện nếu lượng thơng tin dạng văn bản của trang Web cĩ được qua các bước ở trên là quá ít, nhỏ hơn một ngưỡng cho trước. Thơng tin ngữ cảnh thu thập được trong bước này sẽ được phân vào một
vùng văn bản tạm thời mới và sẽ kết hợp với các vùng văn bản tạm thời cĩ được ở Bước 1.2 để làm dữ liệu nguồn cho việc tạo tĩm tắt trong các bước tiếp theo.
- Bước 2. Tách câu. Phân tách các câu trong các phần văn bản đã cĩ được qua Bước 1.
- Bước 3. Tách từ. Phân tách các từ trên mỗi câu đã phân tách ở Bước 2. - Bước 4. Gán nhãn từ loại. Gán nhãn từ loại cho từng từ trên các câu.
Trang Web tiếng Việt (UTF-8) Trích thông tin dạng văn bản Phânvùng văn bản tạm thời Thu thập ngữ cảnh T < T0 Tách câu Tách từ và gán nhãn từ loại Phát hiện cụm danh từ Lọc câu và biểu diễn câu
Xác định vùng van bản chính
Gomcụm và trích câu trội
Tập các câu trội
Thông tin phân vùng tạm thời Thông tin ngữ cảnh Tập câu Tập câu đã tách từ và gán nhãn từ loại Tập câu đã gán nhãn từ loại và đánh dấu cụm danh từ
Câu được biểu diễn trong không gian
vec-tơ Thông tin vùng văn bản chính Yes No T: tổng kích thước các vùng văn bản T0: kích thước văn bản tối thiểu
để tạo tóm tắt
Hình 6.1. Sơđồ xử lý tổng quát của các bước trên. - Bước 5. Đặc trưng câu. Bao gồm:
Bước 5.1. Phát hiện cụm danh từ.
Bước 5.2. Loại bỏ những câu khơng hợp lệ (khơng phải là câu thật sự)
Bước 5.2. Biểu diễn các câu trên khơng gian vec-tơ.
Bước 5.3 Bổ sung thơng số quan hệ ngữ nghĩa. Nối kết các mục từ
cĩ quan hệ ngữ nghĩa và hiệu chỉnh trọng số của vec-tơ biểu diễn câu - Bước 6. Tạo tĩm tắt. Bao gồm:
Bước 6.1. Xác định vùng văn bản chính. Dựa vào thơng tin phân vùng văn bản tạm thời cĩ được ở Bước 1, ghép các vùng cĩ độ tương tự cao và chọn vùng văn bản cĩ kích thước lớn nhất để xử lý trong các bước tiếp theo.
Bước 6.2. Gom cụm câu. Gom các câu tương tự nhau thành từng nhĩm
Bước 6.3 Rút câu trội. Với mỗi nhĩm câu, chọn ra câu trội nhất để
tạo bản tĩm tắt, số lượng câu được chọn để tạo tĩm tắt tỉ lệ với tổng số câu của các nhĩm.
6.3. PHƯƠNG PHÁP XỬ LÝ
Phần này trình bày chi tiết phương pháp xử lý cho từng bước đã được nêu trong phần trước, bao gồm các nội dung: giải pháp đề nghị, và hiện trạng xử lý thực tế trong chương trình do tác giả xây dựng.
6.3.1.Trích thơng tin trang Web và phân vùng tạm thời a) Trích thơng tin dạng văn bản của trang Web
Mục tiêu là loại bỏ tất cả những thơng tin khơng phải dạng văn bản (như hình
ảnh, âm thanh, …) và thơng tin khơng được hiển thị trên trang Web (những thơng tin định dạng, thơng tin xử lý động của trang Web, …), chỉ giữ lại những thơng tin dạng văn bản được hiển thị trên trang Web.
Yêu cầu trên cĩ thể được thực hiện nhờ trên trang Web, tất cả những thơng tin khơng phải văn bản và khơng cần hiển thị trên bề mặt trang Web đều được bao trong hai dấu “<” và “>”, một chuỗi “<…..>” được gọi là HTML tag (hay thẻđánh dấu trang HTML), trong phần này ta gọi tắt là tag. Những tag này giúp trình duyệt Web (Web browser) phân biệt được những phần mã định dạng, xử lý với các phần nội dung cần hiển thị cũng như cĩ được những thơng tin định dạng cho phần văn bản tương ứng và thơng tin xử lý động cho trang Web. Các tag luơn bắt đầu bằng “tên tag” tương ứng với chức năng xử lý của tag đĩ trên trang Web, theo sau đĩ là các thuộc tính thêm cho tagđĩ, nếu cĩ. Ví dụ,
- tag <FONT size=3 color=#0001345> là tag định dạng font chữ cho phần văn bản tiếp theo, các thuộc tính size, color tuần tự là các thuộc tính định dạng kích thước, màu sắc cho phần văn bản được tác động bởi tag FONT này. Đối với các
tagđịnh dạng chữ luơn luơn cĩ kèm theo tag đĩng tương ứng với nĩ để chỉ định
đã ra ngồi vùng ảnh hưởng của tag đĩ , ví dụ tag đĩng của tag FONT là tag
</FONT>, và <FONT …> được gọi là tagmở của tag FONT. Phần văn bản nằm giữa tag đĩng và tag mở là phần văn bản được ảnh hưởng bởi tag tương ứng. - tag <BR> là tag xuống dịng.
Các tag cĩ thể cĩ trên trang Web cĩ các loại sau: tag định dạng thơng tin chung của trang Web, tag phân vùng, chia dịng, chia cột, …, tag liệt kê đề mục,
tagđịnh dạng chữ, hiệu ứng, tag xử lý..
Để cĩ thể xử lý yêu cầu trên, cần phân chia các dạng tag trong trang Web thành 2 loại chính và cách xử lý tương ứng như sau:
- Các tag xử lý cĩ tag đĩng. Các tag loại này là những tag mà phần nội dung nằm giữa 2 tag mở và tag đĩng tương ứng là phần mã xử lý của trang Web, khơng được hiển thị trên trang Web, ta cần loại bỏđi. Ví dụ, <SCRIPT> … (mã xử lý động) … </SCRIPT>
- Các tag cịn lại. Bao gồm các tagđịnh dạng chữ, định dạng dịng, cột, .., và các
tag xử lý khơng cĩ tag đĩng như <EMBED>, <BGSOUND>, <FRAME>, <IMG>, <INPUT>, …. Đối với những dạng tag này, các thơng tin ẩn, khơng cần hiển thị trên trang Web đều khơng nằm ngồi ký hiệu đĩng mởtag (“<” và “>”), do đĩ chỉ cần tách bỏ các tag là các chuỗi liên tục dạng “<…>”.
Với các phân tích trên, chúng ta đã giải quyết được tồn bộ yêu cầu đặt ra ở
phần này, bao gồm cả việc loại bỏ thơng tin khơng phải văn bản như hình ảnh, âm thanh, …. Ta cĩ được điều này vì các thơng tin chỉđịnh cho hình ảnh, âm thanh, … trên trang Web đều nằm trong một số chuỗi tag “<…>” như <IMG> (cho hình ảnh), <BGSOUND> (âm thanh nền), …, và các tag này rơi vào loại tag thứ 2 vừa được nêu ở trên.
Xử lý của chương trình:
Trong cơng đoạn này, chương trình cũng xử lý theo cách phân chia đã được nêu ở trên (gồm 2 loại tag cần xử lý). Trong đĩ, các tag được cho thuộc loại 1 là: <SCRIPT>, <NOSCRIPT>, <FRAMESET>, <IFRAME>, <NOFRAME>, <APPLET>, <CODE>, <COMMENT>, <ADDRESS>, <STYLE>.
Chương trình sẽ chèn chuỗi ký tự xuống dịng (tách đoạn) vào phần văn bản trả ra khi gặp những tag sau (bao gồm cảtag mở và tag đĩng (nếu cĩ) tương ứng): BR, TITLE, CENTER, DIV, P, BLOCKQUOTE, TEXTAREA, TEXT, các tag Hn (H1, H2, …), DL, DT, LI, UL, OL, TH, TD, TR.