XÂY DỰNG HỆ THỐNG 1 Mơ tả chương trình

Một phần của tài liệu phát triển một số công cụ hỗ trợ phân tích, tổng hợp văn bản tiếng việt (Trang 92)

, trong đĩ σ là hằng số tỷ lệ

1. Tính và chuẩn hĩa u: 2.Tính và chuẩn hĩa v:

6.4. XÂY DỰNG HỆ THỐNG 1 Mơ tả chương trình

6.4.1. Mơ tả chương trình

Áp dụng các phương pháp đã nghiên cứu, chúng tơi đã xây dựng hệ thống tạo trích nội dung chính của trang Web tiếng Việt đơn. Ở đầu vào của chương trình, người sử dụng chọn một trang Web đã được lưu sẵn trên máy (chương trình khơng tích hợp phần download và lưu trữ các trang Web). Chương trình sẽ xử lý trên trang Web được chọn và trả ra kết quả tĩm tắt bao gồm một tập những câu quan trọng/ câu trội trên trang Web đĩ.

Để tiện cho việc theo dõi kết quả thực hiện từng bước, chương trình được xây dựng theo dạng cho chạy tuần tự, độc lập từng xử lý, kết quả của bước trước là thơng tin

• Loại bỏ các tag HTML, loại bỏ các đoạn văn bản khơng cần thiết, tách lấy nội dung văn bản của trang Web và phân vùng tạm thời trên văn bản.

Trong đĩ, các đoạn văn bản bị loại bỏ là những đoạn:

ƒ cĩ số ký tự nhỏ hơn 25, hoặc

ƒ hồn tồn khơng cĩ ký tự cĩ dấu (ký tự mở rộng dùng cho tiếng Việt).

• Tách câu trên phần văn bản đã tách được và đã phân vùng tạm thời.

• Tách từ trên các câu và gán nhãn từ loại (xem Chương 2).

• Lọc bỏ những câu khơng hợp lệ và biểu diễn các câu trong khơng gian vec-tơ cĩ số chiều là tổng số mục từ / cụm danh từ chung của văn bản. Trong đĩ, một câu được xem là hợp lệ nếu: cĩ chứa ít nhất một danh từ và một động từ và khơng chứa quá 4 mục từ

khơng xác định từ loại.

• Xác định vùng văn bản chính trên trang Web. Sau khi đã ghép các vùng (được phân chia tạm thời ) kề nhau và cĩ liên quan về nội dung, chỉ cĩ một vùng văn bản cĩ kích thước lớn nhất là vùng văn bản được xử lý để rút ra các câu quan trọng.

Hai vùng văn bản được xem là cĩ liên quan về nội dung với nhau nếu độ tương tự giữa chúng lớn hơn một ngưỡng cho trước, mặc

định là α = 0,2, với các tính độ tương tự dựa vào khoảng cách kết nối hồn tồn (CLD). Cách tính độ tương tự giữa hai vùng vain bản cũng giống như giữa hai cụm. Các thơng số trên được cho phép tùy chọn khi sử dụng chương trình.

• Gom cụm các câu và rút câu trội.

Trong quá trình xử lý như trên, chuỗi ký hiệu được dùng đểđánh dấu vị trí phân cách cách vùng văn bản tạm thời là “break.”, và ký hiệu đánh dấu tách đoạn là

“paragraph.”. Dữ liệu đầu vào của chương trình là các trang Web tiếng Việt theo mã UTF-8.

Hình 6.6. Giao diện chương trình

Trường hợp của trang Web chứa ít nội dung:

Đối với trường hợp sau khi loại bỏ các đoạn văn bản khơng cần thiết và các tag

HTML để tách lấy phần văn bản nhưng 1ượng thơng tin này lại quá nhỏ, chương trình sẽ yêu cầu người dùng chỉ ra đường dẫn của thư mục chứa các bài báo cĩ

linkđến trang Web này. Từđĩ, chương trình sẽ xử lý để tách lấy phần thơng tin ngữ cảnh trên các trang Web đĩ. Sau bước này, việc xử lý để tạo tĩm tắt từ ngữ

cảnh đã thu thập được cũng giống như với việc tạo tĩm tắt từ chính nội dung của trang Web.

Một phần của tài liệu phát triển một số công cụ hỗ trợ phân tích, tổng hợp văn bản tiếng việt (Trang 92)

Tải bản đầy đủ (PDF)

(131 trang)