CÁC NGHIÊN CỨU LIÊN QUAN

f) Trích danh từ, cụm danh từ làm đặc trưng (cĩ xem xét nghĩa của từ)

5.2. CÁC NGHIÊN CỨU LIÊN QUAN

“Tĩm tắt là qui trình làm cơ đọng một văn bản nguồn thành một phiên bản rút ngắn mà vẫn giữđược các thơng tin chính của văn bản đĩ” [15]. Các kỹ thuật tĩm tắt đã được nghiên cứu trong hơn nửa thập kỷ qua và lĩnh vực nghiên cứu này vẫn

đang phát triển, song song với sự phát triển trong lĩnh vực truy vấn thơng tin (IR- Information Retrieval), và ngày càng thu hút nhiều sự quan tâm hơn khi nhu cầu sử dụng các trang Web gia tăng. Một bản tĩm lược các cơng trình nghiên cứu gần đây trong lĩnh vực tĩm tắt văn bản sẽ giúp ta nắm được tương đối tình hình tổng quan về

các nghiên cứu trong lĩnh vực này (xem [31]).

Các bản tĩm tắt cĩ chất lượng như của người thực hiện thực sự địi hỏi khả năng hiểu, diễn đạt lại, tĩm lược và tạo ra tĩm tắt là một đoạn văn bản mới. Đây là một cơng việc khĩ, đặc biệt đối với xử lý bằng máy. “Hầu hết các nghiên cứu về tĩm tắt văn bản đều chuyển dịch bài tốn này thành bài tốn “tĩm tắt bằng cách rút trích các

đoạn văn bản”: xếp hạng các câu trong văn bản dựa trên độ trội của câu” [22]. Hướng nghiên cứu để tạo ra bản tĩm tắt, như người, thật sựđược gọi là abstract, ta gọi là tĩm lược, và hướng nghiên cứu sau được gọi là extract, ta gọi là trích lược.

Đối với việc tạo tĩm tắt theo hướng trích lược, bản tĩm tắt tạo được tạo ra là tập hợp của các phần văn bản được trích nguyên văn từ văn bản gốc. Trong khi đĩ, tĩm lượcđịi hỏi việc hiểu, diễn giải và biển đổi thành một văn bản mới tĩm tắt nội dung của văn bản gốc và bản tĩm tắt này cĩ thể chứa những phần khơng cĩ trong văn bản gốc. Đối với hướng tĩm lược, vẫn cịn rất ít nghiên cứu và chưa đạt được nhiều kết quả tốt. Đây vẫn cịn là một vấn đề mở. Cho đến nay, các nghiên cứu chủ yếu tập trung vào hướng trích lược. Các hệ thống trích lược phân tích tài liệu nguồn để xác

định những câu quan trọng và tạo ra một bản tĩm tắt ngắn gọn từ những câu quan trọng này. Độ quan trọng của một câu được xác định dựa trên một sốđặc trưng như mật độ của các từ khĩa và các mối quan hệ về cấu trúc, về từ ngữ trong văn bản .

Tĩm tắt văn bản tự động tạo bản tĩm tắt ngắn gọn từ các phần văn bản quan trọng được trích lược dùng các tiếp cận thống kê như [17], tiếp cận ngơn ngữ như

[14], và tiếp cận kết hợp thống kê và ngơn ngữ như [23].

Các ứng dụng tĩm tắt văn bản phần lớn là dạng tĩm tắt ý chính của văn bản (informative summary). Ngồi ra, cịn cĩ dạng tĩm tắt biểu thị (indicative summary), dạng tĩm tắt này giúp cho người đọc quyết định xem cĩ nhu cầu đọc tồn bộ tài liệu hay khơng. Nhĩm tác giả R. Barzilay và M. Elhadad (1997) [15] nghiên cứu kỹ thuật tạo tĩm tắt dạng này.

Trong lĩnh vực tạo tĩm tắt để hiển thị trên các thiết bị cầm tay, Garcia-Molina và cộng sự đã so sánh các phương pháp để tĩm tắt các trang Web. Trong đĩ, phương pháp Keyword (từ khĩa) trích các từ khĩa từ các đơn vị văn bản, và phương pháp

Summary (bản tĩm tắt) xác định một câu quan trọng nhất của mỗi đơn vị văn bản làm một câu trong bản tĩm tắt. Họđã kiểm tra hiệu quả của các phương pháp này

bằng cách yêu cầu người sử dụng thực hiện các tác vụ được xử lý theo các phương pháp khác nhau, và kết luận rằng phương pháp kết hợp Keyword/ Summary cho hiệu quả tốt nhất về thời gian thực hiện và số các thao tác người dùng phải thực hiện trên thiết bị cầm tay.

Một lĩnh vực con của tĩm tắt văn bản là tĩm tắt trang Web. Trong lĩnh vực này

đã cĩ phát triển một hướng tĩm tắt mới phù hợp với đặc trưng của các tài liệu Web là tĩm tắt dựa vào ngữ cảnh của trang Web, bao gồm thơng tin trên chính trang Web và các thơng tin mơ tả từ bên ngồi của các trang Web khác dành cho trang Web

đang xét (trong đề tài văn này ta dùng từ ngữ cảnh để chỉ các thơng tin bên ngồi mơ tả về trang Web), xem [19]. Trong kỹ thuật này, ngồi những nội dung trong chính trang web (thường ít), cĩ sử dụng thêm những thơng tin của các dịng văn bản nhằm mơ tả liên kết (link) trên các trang web khác chỉ đến trang web đang xét để

trích ra bản tĩm tắt cho trang web. InCommonSense [13] là hệ thống tiên phong trong việc tĩm tắt sử dụng ngữ cảnh bên ngồi của trang Web. Hệ thống này đã

được người dùng ưa chuộng hơn so với AltaVista và các bộ tĩm tắt link của Google. Tuy nhiên, tiến trình chọn câu của hệ thống này bị hạn chế khi ngữ cảnh

khơng quá lớn. Hơn nữa, hệ thống cĩ khuynh hướng tạo ra tĩm tắt gồm chỉ một câu và hướng để tạo ra những phần tĩm tắt dài hơn và chi tiết hơn cũng chưa được mơ tả trong cơng trình này. Trong hướng này, các tác giả J-Y. Delort, B.Bouchon- Meunier, và Mrifqi [19] đã cĩ nghiên cứu nâng cao hiệu quả tĩm tắt dựa vào việc sử

dụng các hyperlink (liên kết trang Web). Qua đĩ, các tác giảđã giới thiệu và nghiên cứu các vấn đề chính trong tĩm tắt trang Web dựa vào ngữ cảnh. Cĩ hai thuật tốn mới đã được đề xuất để giải quyết vấn đề liên quan về nội dung, và hiệu quả của các thuật tốn này phụ thuộc vào kích thước của nội dung và kích thước của ngữ cảnh của trang Web cần tĩm tắt. Bên cạnh việc tĩm tắt một trang Web cịn cĩ nhu cầu tĩm tắt cả Website, gồm nhiều trang Web. Tác giả Zhang [40] đã đề xuất một hệ

thống tĩm tắt tựđộng tồn bộ một Website sử dụng thuật tốn chọn câu dựa trên các cụm từ quan trọng nhất kết hợp thêm với các đặc điểm như kích thước của trang và

độ sâu của trang.

Càng về sau này, các nghiên cứu về tĩm tắt đều theo hướng sử dụng xử lý ngơn ngữ tự nhiên để làm tăng hiệu quả tĩm tắt [14],[15]. Với trong nước, hiện nay ta cũng cĩ đề tài bắt đầu nghiên cứu về tĩm tắt văn bản tiếng Việt, tuy chưa áp dụng các phương pháp xử lý ngơn ngữ tự nhiên, như đề tài của nhĩm tác giả Đỗ Phúc, Hồng Kiếm (2004) [2], nghiên cứu về rút trích ý chính từ văn bản tiếng Việt dựa trên việc thống kê các dãy từ phổ biến. Đối với lĩnh vực xử lý ngơn ngữ tự nhiên tiếng Việt, cho đến nay đã cĩ một số nghiên cứu cho kết quả tương đối và cĩ thể áp dụng trong việc tĩm tắt văn bản như tách từ, gán nhãn từ loại, phát hiện cụm danh từ, … Một số nghiên cứu trong lĩnh vực này là các nghiên cứu liên quan đến gán nhãn từ loại tiếng Việt của tác giả Nguyễn Thị Minh Huyền và các cộng sự, xem [8], các nghiên cứu về tách từ của tác giả Đinh Điền và cộng sự như [21], nghiên cứu về phát hiện cụm danh từ tiếng Việt của tác giả Lại Thị Hạnh, xem [7]. Nhĩm tác giả Đồng Thị Bích Thủy, Hồ Bảo Quốc [4] cung cấp cái nhìn tổng quát về ứng dụng xử lý ngơn ngữ tự nhiên trong tìm kiếm thơng tin tiếng Việt.

Lĩnh vực đánh giá tĩm tắt cũng cĩ nhiều nghiên cứu và đang phát triển đồng hành với việc phát triển các nghiên cứu về kỹ thuật tĩm tắt. Cĩ hai tiếp cận chính trong đánh giá tĩm tắt là: đánh giá từbên trong, và đánh giá từbên ngồi [23],[32].

Đánh giá bên trong là đánh giá trên chính nội dung của bản tĩm tắt được tạo ra bởi hệ thống tĩm tắt đang xét, hay cĩ thể nĩi là đánh giá trực tiếp, được dùng trong [19]. Đánh giá theo tiếp cận này thường được thực hiện bằng cách so sánh các bản tĩm tắt do hệ thống tạo ra với tiêu chuẩn vàng nào đĩ được tạo ra bởi một hệ thống tĩm tắt tham khảo nào đĩ, hoặc thường dùng hơn là các tĩm tắt do con người tạo ra.

Đánh giá bên ngồi cịn được gọi là đánh giá dựa trên nhiệm vụ, hay cĩ thể nĩi là

đánh giá gián tiếp, và gần đây nĩ ngày càng trở nên thơng dụng hơn, như [37].

Đánh giá dạng này đo mức độ hiệu quả của các bản tĩm tắt được tạo ra tự động trong một nhiệm vụ cụ thể nào đĩ, ví dụ như phân lớp.

Nhìn chung, tình hình nghiên cứu trên thế giới trong lĩnh vực tĩm tắt văn bản và

đánh giá kết quả tĩm tắt tự động hiện đang rất phát triển và ngày càng cĩ thêm nhiều hướng nghiên cứu mới. Hàng năm, hội nghị DUC (Document Understanding Conference) vẫn tổ chức hội nghị các nghiên cứu về tĩm tắt văn bản. Đây cũng là tổ chức chuyên đánh giá các hệ thống tĩm tắt. Ngồi ra, DMOZ Open Directory Project là dự án cung cấp kho dữ liệu tĩm tắt tiếng Anh gồm các tĩm tắt cho các trang Web, trang tin tức, … do các chuyên gia xây dựng. Đây là nguồn cung cấp dữ liệu mẫu phong phú để đánh giá hiệu quả cho các hệ thống tĩm tắt tự động. Ở

Việt Nam, lĩnh vực tĩm tắt văn bản và xử lý ngơn ngữ tự nhiên đã khá phát triển trong vài năm gần đây và đối với tiếng Việt hiện vẫn cịn nhiều hướng mở, vấn đề

tĩm tắt tiếng Việt vẫn chưa được nghiên cứu nhiều. Việc mở ra nhiều nhĩm, nhiều

đề tài nghiên cứu về lĩnh vực này sẽ giúp việc phát triển nhanh hơn và sẽ tạo ra nhiều hệ thống hiệu quả và cĩ ích. Để tài này cũng nhằm mục đích nghiên cứu và xây dựng thử nghiệm một hệ thống tĩm tắt tựđộng cho trang Web tiếng Việt theo hướng trích lược nội dung.

Nguồn dữ liệu từ điển LDOCE

Bước 2: Sử dụng mơ hình