0
Tải bản đầy đủ (.doc) (103 trang)

Giải thuật phân đoạn câu:

Một phần của tài liệu CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT DOC (Trang 45 -47 )

Trong rất nhiều bài toán xử lý ngôn ngữ tự nhiên, việc phân đoạn câu là một trong những công việc bắt buộc phải thực hiện trước tiên. Trong canh lề văn bản cũng vậy. Rất nhiều phương pháp canh lề văn bản đòi hỏi văn bản phải được phân đoạn câu trước. Ví dụ như phương pháp canh lề văn bản theo chiều dài câu, phương pháp canh lề theo giải thuật SIRM và GSA.

Để có thể hiểu rõ điều này, chúng ta cần định nghĩa câu là gì. Câu là một chuỗi các từ kết thúc bằng một trong các dấu: dấu chấm (.), dấu chấm thang (!), dấu chấm hỏi (?). Đó là định nghĩa đơn giản. Thật sự, giải thuật phân đoạn câu không đơn giản như thế. Theo thống kê, có khoảng 90% câu kết thúc bằng dấu chấm. Dấu chấm thang và dấu chấm hỏi là một ký hiệu kết thúc câu tương đối rõ ràng. Có những câu không có ký hiệu kết thúc câu, nhưng nó ở vị trí cuối đoạn văn (kết thúc bằng ký hiệu xuống dòng). Ngoài ra, không phải tất cả các dấu chấm đều là ký hiệu kết thúc câu. Dấu chấm có thể xuất hiện trong các trường hớp khác:

 Dấu chấm trong chữ viết tắt. Ví dụ: U.S.

 Dấu chấm trong dấu ba chấm (…)

 Dấu chấm trong địa chỉ Website. Ví dụ: http://www.hcmut.edu.vn

 Dấu chấm trong địa chỉ email. Ví dụ: ngocsoncntt@yahoo.com

Đôi khi, không thể phân biệt được dễ dàng dấu chấm đang ở vai trò nào. Nó có thể là trong chữ viết tắt, có thể là ký hiệu kết thúc câu, hay cũng có thể là trongchữ viết tắt, lại ở vị trí kết thúc một câu. Xét ví dụ sau:

(1) She needs her car by 5 p.m. on Saturday evening. (2) At 5 p.m. I had to go to the bank.

Như vậy, trong câu trường hợp (1) “p.m.” là một chữ viết tắt, vì sau nó là một chữ viết thường. Trong trường hợp (2) sau “p.m.” lại là chữ viết in hoa.

Trong một ví dụ khác, việc xác định lại càng khó khăn hơn:

(1) It was due Friday by 5 p.m. Saturday would be too late.

(2) She has an appointment at 5 p.m. Saturday to get her car fixed . Hay trong ví dụ sau:

(1) The Office of the U.S. Trade Representative includes two deputy USTRs, one based in Washington, D.C., and the other in Geneva, Switzerland.

(2) I bought the apples, pears, lemons, ect. Did you eat them? Chữ “etc.” vừa là một chữ viết tắt, vừa ở vị trí kết thúc câu.

Một số phương pháp phân đoạn câu:

 Phương pháp mạng Neural của tác giả Palmer và Hearst (1997) có độ chính xác đạt tới 98.5% (theo báo cáo của tác giả khi áp dụng cho corpus Wall Street Journal – WSJ).

 Phương pháp dùng các luật kết hợp với danh sách từ viết tắt của tác giả Grefenstette và Tapanainen (1994).

 Phương pháp maximum-entropy của tác giả Ratnaparkhi (1997) đạt độ chính xác 98% khi áp dụng cho corpus WSJ.

 Phương pháp áp dụng luật và yếu tố ngữ pháp của tác giả Nilani Aluthgedara. Có 3 luật cơ bản:

o Mỗi các câu đều có một động từ.

o Tất cả các câu bắt đầu bằng một từ viết hoa. o Các danh từ riêng bắt đầu bằng chữ cái viết hoa.

 Phương pháp dùng mô hình trực tiếp: Phương pháp này dựa vào danh sách các từ viết tắt để giải quyết tình trạng nhập nhằng.

Một phần của tài liệu CANH LỀ VĂN BẢN SONG NGỮ VÀ ỨNG DỤNG GIẢI QUYẾT NHỮNG TRƯỜNG HỢP ĐẶC THÙ CỦA NGÔN NGỮ ANH - VIỆT DOC (Trang 45 -47 )

×