Biến đổi nhờ vào rút gọn câu

Một phần của tài liệu XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT (Trang 73 - 75)

f. Phương pháp TFxIPF (Term Frequency times Inverted Paragraph Frequency)

4.3.2.1. Biến đổi nhờ vào rút gọn câu

Như chúng ta đã đề cập, các phương pháp biến đổi nhờ vào rút gọn câu không tăng thêm độ chính xác của ứng dụng tóm tắt, chỉ làm tăng độ nén cũng như làm cho người đọc dễ hiểu và nắm bắt được vấn đề chính. Trong đồ án này em chọn phương pháp rút gọn câu dựa theo luật cú pháp. Các luật cú pháp rút gọn thông thường được thu về thông qua việc học, áp dụng vào một câu đã phân tích cú pháp để rút gọn cấu trúc câu đó. Nhưng hiện tại em chưa có một bộ phân tích cú pháp chính xác mà chỉ là một bộ phân tích nông (shallow parser) nên chỉ có một số luật cơ bản được áp dụng để rút gọn như xóa ngữ đồng vị, xóa bỏ chú thích, xóa trạng ngữ, giữ lại danh từ chính trong ngữ danh từ.

Các thuật toán loại bỏ ngữ đồng vị, xóa chú thích, xóa trạng ngữ hay giữ lại danh từ được cài đặt trong đồ án này là các thuật toán khác nhau chứ không phải dựa trên các tập luật rút gọn thống nhất. Thông qua kiểm thử em nhận thấy bốn thuật toán này làm việc rất hiệu quả, áp dụng trên nhiều câu và có độ chính xác cao so với việc học từ các tập mẫu và đưa ra tập luật rút gọn thống nhất.

i. Thuật toán loại bỏ ngữ đồng vị

Ngữ đồng vị là các ngữ đóng cùng một vai trò với một thành phần nào đó của câu, thường là ngữ danh từ. Các ngữ đồng vị này không mang nhiều chức năng cú pháp, chỉ làm rõ nghĩa cho câu :

Ví dụ: Bill Gate, chủ tịch tập đoàn Microsoft, là người giàu nhất thế giới.

Ở đây, “chủ tịch tập đoàn Microsoft” là ngữ đồng vị, có thể bỏ đi, kết quả chấp nhận trong một chừng mực nào đó khi ta phải ưu tiên thực hiện yêu cầu về độ nén.

Ngữ đồng vị là trường hợp xuất hiện khá nhiều trong các mẩu tin, thường được phân cách bởi một cặp dấu phảy, đây chính là dấu hiệu để phân tách ngữ đồng vị và thành phần cùng chức năng với chúng.

Chúng ta có thể dễ dàng phân biệt ngữ đồng vị với tập liệt kê các cụm danh từ - vốn không thể loại bỏ - bằng việc xét chức năng từ loại của thành phần đi ngay sau dấu phảy cuối cùng

Ví dụ: Một chiếc Toyota, hai chiếc Hyundai, hai chiếc Mercedez đã bị tạm giữ ngay trong ngày đầu tiên.

Ví dụ trên đây là tập liệt kê cụm danh từ vì ngữ đầu tiên sau dấu phảy cuối “hai chiếc Mercedez” vốn là một ngữ danh từ, khác với ngữ đi sau dấu phảy trong trường hợp ngữ đồng vị sẽ là ngữ động từ. Như vậy ta kiểm tra xem ngữ đi ngay sau dấu phảy cuối cùng là ngữ động từ hay ngữ danh từ. Trong trường hợp là ngữ động từ thì ngữ nằm giữa hai dấu phảy cuối cùng là ngữ đồng vị và ta có thể loại bỏ. Tất nhiên trước khi thực hiện việc này chúng ta phải phân tách tập ngữ danh từ và ngữ động từ - nòng cốt của câu -

bằng bộ phân tích cú pháp nông để giảm thiểu sai sót gây ra do các dấu phảy nằm ở ngữ động từ.

ii. Loại bỏ chú thích

Chú thích thực ra phần lớn là một loại ngữ đồng vị, nhưng được phát hiện dễ dàng hơn và thuật toán loại bỏ chúng cũng đơn giản hơn nhiều. Điều này kéo theo độ chính xác của phương pháp là rất cao so với các phương pháp rút gọn khác. Hiện tại, hệ thống chỉ coi những phần nào nằm trong dấu ngoặc đơn, nằm giữa hai dấu ngạch ngang (- như thế này -) là chú thích. Sau khi nhận biết, chúng ta lập tức xóa các chú thích đi. Thuật toán chỉ đơn giản kiểm tra một câu có cặp “()” hay “- -” thì xóa phần nằm giữa.

iii. Loại bỏ trạng ngữ

Trạng ngữ là các ngữ bổ nghĩa cho câu (chính xác hơn là bổ nghĩa cho động từ chính trong câu ) về mặt thời gian, nơi chốn, nguyên nhân, mục đích, cách thức

Ví dụ:

Nằm ở xã Kim Thuỷ, huyện Lệ Thuỷ, Quảng Bình, suối Bang còn nguyên nét hoang sơ kỳ bí với đường vào hẹp, quanh co và dốc.

Từ ngày hôm nay, nhiều trường đại học trên địa bàn thành phố tiếp tục nhận hồ sơ thí sinh trúng tuyển nguyện vọng một và hai.

Để tránh lộn xộn và quá tải, ĐH Kinh tế tiếp nhận hồ sơ sinh viên theo khu vực. Các trạng ngữ này được phát hiện bằng cách tương tự như ngữ đồng vị : Ngữ trước dấu phảy duy nhất của câu được lấy ra và kiểm tra xem có là một ngữ danh từ hay không, nếu không phải, và đồng thời ngữ sau dấu phảy là một ngữ danh từ thì chương trình coi đây là một trạng ngữ và chương trình sẽ loại bỏ trạng ngữ đó.

Đây là trường hợp xuất hiện nhiều nhất trong các mẩu tin và cũng là một phương pháp có độ chính xác cũng như độ nén cao.

iv. Giữ lại cụm danh từ chính trong ngữ danh từ :

Đây là phương pháp rút gọn đơn giản nhưng chỉ mang lại kết quả có độ nén thấp và làm giảm độ chính xác của ứng dụng tóm tắt. Một ngữ danh từ thường gồm các thành phần như danh từ chỉ đơn vị, danh từ loại thể, danh từ chính , tính từ bổ nghĩa cho danh từ chính, trạng từ bổ nghĩa cho tính từ.

Ví dụ:

“Nokia 9960i là một chiếc điện thoại di động vô cùng sang trọng”

Trong câu trên “[một] [chiếc] [điện thoại di động] [vô cùng] [sang trọng]” là một ngữ danh từ. Chúng ta có thể rút gọn ngữ danh từ này chỉ còn “[một] [chiếc] [điện thoại di động], bỏ hết tính từ bổ nghĩa cho danh từ chính, trạng từ bổ nghĩa cho tính từ. Câu sẽ trở thành :

Nokia 9960i là một chiếc điện thoại di động.

Như chúng ta thấy chỉ nên áp dụng phương pháp này trong trường hợp yêu cầu độ nén cao vì tính chính xác của hệ thống giảm đi khá nhiều. Tùy vào yêu cầu độ nén mà các thành phần trong ngữ danh từ có thể bỏ đi theo thứ tự là trạng từ bổ nghĩa tính từ, tính từ bổ nghĩa danh từ chính, danh từ đơn vị và danh từ loại thể. Như ví dụ trên, nếu yêu cầu độ nén không lớn ứng dụng chỉ cần loại bỏ trạng từ để có được câu sau :

Nokia 9960i là một chiếc điện thoại di động sang trọng.

Các thành phần từ loại trong ngữ danh từ được gán trọng số “loại bỏ”. Trọng số càng lớn thì mức độ ưu tiên loại bỏ càng lớn. Một số trường hợp tương tự như trạng từ bổ nghĩa động từ, mệnh đề quan hệ cũng sử dụng chung mô hình này nếu có được trọng số “loại bỏ” chính xác. Đặc biệt thông qua quá trình học máy chúng ta có thể rút ra các luật rút gọn và gán các trọng số tương ứng. Ứng dụng hiện tại chưa cài đặt mô hình học tự động từ tập ngữ liệu.

Trong các phương pháp rút gọn theo cú pháp ở trên, VTAS sử dụng ba phương pháp đầu do độ chính xác của toàn ứng dụng không bị ảnh hưởng, kết quả rút gọn cũng đạt yêu cầu. Phương pháp cuối cùng khi chưa có bộ phân tích cú pháp cũng như một mô hình học máy thích hợp thì chưa được đưa vào áp dụng để rút gọn câu.

Một phần của tài liệu XÂY DỰNG ỨNG DỤNG TÓM LƯỢC TỰ ĐỘNG VĂN BẢN TIẾNG VIỆT (Trang 73 - 75)

Tải bản đầy đủ (DOC)

(92 trang)
w