d. Câu cảm thán
4.1. Hiện tượng đồng tham chiếu trong tiếng Việt và hướng tiếp cận
Hiện tượng đồng tham chiếu Np – anaphora là hiện tượng đồng tham chiếu hay xảy ra nhất trong hội thoại tiếng Việt.
4.1.1 . Np- anaphora .
Nhắc lại định nghĩa, hiện tượng Np- anaphora là hiện tượng một từ - thường là đại từ - thay thế cho một danh từ, một cụm danh từ đã nhắc đến ở phía trước. a. Cách tiếp cận cũ – thuật toán Hobbs.
Phải nói rằng, đây là thuật toán nhận diện đại từ đầu tiên cho những kết quả thực nghiệm khả quan từ những năm 70 của thế kỷ trước. Trước khi bắt tay vào nghiên cứu những thuật toán mới, em xin phép nhắc lại điểm cốt lõi của thuật toán này
Thuật toán này đòi hỏi xây dựng một cây phân tích cú pháp, cây phân tích có nhiệm vụ phân chia câu thành chủ ngữ, động từ, đại từ, bổ ngữ, tính từ… mà không thay đổi trật tự từ hay bỏ qua từ trong câu theo chiều phân tích từ trái sang phải đúng như cấu trúc ngữ pháp tiếng Anh.
Hình 1 - Mô phỏng thuật toán Hobbs
Căn bản dựa trên cây phân tích cú pháp, thuật toán duyệt qua bề mặt cây phân tích cú pháp theo một trật tự đặc biệt, tìm kiếm một cụm danh từ tương thích về số lượng (số ít, số nhiều), kiểu loại (giống đực, giống cái..) với đại từ. Trật tự duyệt như sau:
1. Bắt đầu ở nút NP đại diện cho đại từ cần thay thế.
2. Đi ngược lên gốc của cây đến khi gặp nút NP hoặc nút S đầu tiên. Gọi nút này là X, và con đường để dẫn đến X là p.
3. Duyệt tất cả các nhánh ở dưới nút X và bên trái nhánh p theo phương pháp tìm kiếm rộng. Cho là mỗi cụm từ bị thay thế bởi đại từ (antecedent) có một nút NP hoặc S nằm giữa nó và X.
4. Nếu X là nút S cao nhất trong câu, duyệt cây phân tích cú pháp của câu đứng trước theo trật tự từ câu gần nhất vói câu đang xét. Mỗi cây được duyệt kiểu tìm kiếm rộng từ trái sang phải, và khi gặp một nút NP, nút đó được cho là cụm từ mà đại từ thay thế (antecedent). Nếu X không phải là nút S cao nhất trong cây, tiếp tục bước 5.
5. Từ nút X, tiếp tục đi lên gốc cây cho đến khi gặp được một nút S hoặc NP. Gọi nút mới này là X và con đường duyệt đến nó là p.
6. Nếu X là một nút NP và đường p duyệt tới X không chứa nút (mỗi nút NP có một nút ngay dưới nó đại diện phần danh từ chính của cụm danh từ) nào mà X ngay lập tức bao hàm, gán X là cụm danh từ thay thế (antecedent).
7. Duyệt tất cả các nhánh cây nằm dưới nút X theo trật tự tìm kiếm rộng từ trái sang phải. Gán mọi nút NP gặp được là antecedent.
8. Nếu X là một nút S, duyệt tất cả các nhánh của nút X đến nhánh bên phải của đường p theo trật tự tìm kiếm rộng từ trái sang phải nhưng không duyệt xuống dưới bất cứ nút NP hay S nào gặp được. Gán bất cứ nút NP nào gặp được là antecedent.. 9. Trở lại bước 4.
Tìm kiếm rộng trên cây là cách tìm kiếm mà tại đó tất cả các nút ở độ sâu n được tới thăm trước khi thăm bất cứ nút nào có độ sâu n+1. Bước 2 và bước 3 giải quyết
vấn đề về độ sâu của cây mà tại đó một đại từ phản thân có thể được sử dụng. Bước 5-9 bao quát cây giữa các nút NP và S. Nút 4 tìm kiếm trong câu trước đó.
Điểm hạn chế của thuật toán này, đó chính là việc chỉ hiệu quả trong việc xử lý các đồng tham chiếu nằm trong cùng một câu, trong nhiều trường hợp, để cải thiện hiệu quả yêu cầu phải đưa vào những ràng buộc hạn chế như là:
• Ngày tháng không thể dịch chuyển . • Địa điểm không thể di chuyển .
• Những vật lớn không thể dịch chuyển .
Các ràng buộc chỉ mới được đưa vào ở những dạng đơn giản nhất, không được chú trọng trong thuật toán một cách tương xứng với vai trò của nó.
Mặt khác, hiệu quả của thuật toán cũng phụ thuộc nhiều vào sự đúng đắn của phân tích cây cú pháp. Các câu trong hội thoại thường là câu đơn và có cấu trúc tương đối đơn giản, sử dụng thuật toán Hobbs có thể đáp ứng được khoảng 70% các trường hợp xảy ra Np- anaphora. Tuy nhiên, một yếu điểm quan trọng của thuật toán này khi đưa vào áp dụng cho tiếng Việt là độ chính xác của thuật toán phụ thuộc vào độ chính xác của cây cú pháp nhưng một thuật toán có thể đưa ra cấu trúc câu ngữ pháp chính xác trong tiếng Việt cho đến thời điểm thực hiện đồ án này là không có. Vì thế việc cài đặt thuật toán Hobbs trở nên không khả thi.
b. Cách tiếp cận mới – Đa chiến lược.
Ý tưởng của cách tiếp cận mới này là thay vì hoàn toàn phụ thuộc vào trật tự của cây cú pháp như thuật toán Hobbs, ta chỉ tìm kiếm các tiền ngữ phía trước đại từ và sử dụng tập các ràng buộc để xử lý lựa chọn ra tiền ngữ phù hợp nhất với đại từ đó.
Giải quyết vấn đề đồng tham chiếu từ lâu đã được nhận định là vấn đề khó, đòi hỏi kiến thức sâu rộng không hạn định cả về ngữ pháp, ý nghĩa học và thực tế… Để giải quyết một lớp lớn các hiện tượng đồng tham chiếu, thay vì chỉ sử dụng một biện pháp hay cách tiếp cận đơn thuần, thay vào đó ta xây dựn một biến pháp mới là kết hợp của nhiều chiến lược khác nhau. Vấn đề ở đây chính là việc kết hợp chúng như thế nào.
Không làm mất tính tổng quát, ta đặt ra giả thiết là tất cả các tiền ngữ của các tham chiếu là rõ ràng (đã được nhắc đến ở câu trước). Đây chính là giới hạn đầu tiên đặt ra. Dựa trên ý tưởng của luật Centering, chủ đề của người sử dụng ngôn ngữ biến đổi linh động qua từng câu. Mỗi đại từ thay thế sẽ ứng với một tiền ngữ duy nhất trước nó (là danh ngữ được xếp mức ưu tiên cao nhất của câu trước).Nếu gọi tập các tiền ngữ trong câu thứ n-1 là Cf, tập các đại từ thay thế trong câu thứ n là Cb(i), việc chúng ta phải làm là tìm ra được Cp (tiền ngữ thích hợp nhất) trong Cf tương ứng cho từng Cb(i).
Ta xây dựng các ràng buộc với các mức ưu tiên từ trên xuống dưới như sau. • Local constraints : Tiền ngữ và đại từ đồng tham chiếu phải thống nhất về
mặt số lượng (số ít, số nhiều), giống (người/ vật, đực/ cái), bản chất (động vật/ thực vật)… Tất cả các ứng viên trong Cf vi phạm rằng buộc này đều phải bị loại bỏ.
Ví dụ : John và Mary đi siêu thị, Anh ấy mua một cái tủ lạnh mới. Anh ấy phải được hiểu là John.
• Case – role sentence contraints : Vai trò ý nghĩa học của tiền tố và đại từ đồng tham chiếu phải thống nhất. Tất cả các ứng viên vi phạm đều phải bị loại bỏ.
Ví dụ : John lấy cái bánh ở trên bàn và ăn nó. “nó” là cái bánh chứ không thể là bàn được.
• Disjoint-Contraints : Câu Su – Verb – Ob . tuỳ vào từng động từ cụ thể mà có cho phép Su và Ob là một hay không. Tất cả các tiền tố vi phạm ràng buộc này đều bị loại bỏ.
• Condition-Constraint : Tiền ngữ và đại từ tham chiếu phải thoả mãn thực tế hành động.
Ví dụ :
John cho Tom một quả táo. Anh ý ăn nó ngay. “Anh ý” phải là Tom chứ không thể là John được.
• Prefer- Constraint: Nếu sau khi tất cả các giới hạn trên được áp dụng mà vẫn con nhiều hơn 2 ứng viên tiền tố. Ta sẽ tính đến ưu tiên về vai trò ngữ pháp và ưu tiên về chủ đề câu.
Các ứng viên tiền ngữ được xác định bằng cách lọc ra các cụm danh từ từ câu gần nhất mà thuật toán tìm được tiền ngữ thích hợp, nếu không tìm được thì bắt đầu từ câu gần nhất được nhập vào. Để thuật toán được chính xác cần phải phân biệt rõ ràng ràng buộc nào là bắt buộc và ràng buộc nào là phần thêm. Ràng buộc bắt buộc áp dụng cho tất cả các trường hợp trong khi ràng buộc thêm chỉ áp dụng cho các trường hợp nhập nhằng (cụ thể như câu có hơn 2 người vai trò tương đương).
Khẳng định ràng buộc thêm không có độ chính xác 100 %, đó chỉ là các điều kiện ta thêm vào để tối ưu hóa kết quả trong các trường hợp nhập nhằng ngữ nghĩa mà thôi.
4.1.2. “One” anaphora
Nhắc lại định nghĩa, one- anaphora là hiện tượng sử dụng số từ để thay thế cho từ loại danh từ đã nhắc đến phía trước.
Số từ thường được sử dụng nhiều như: cái, chiếc,đứa… Ví dụ : Trung tâm mới nhập về một loại thiệp mới.
Cho tôi xem thử một chiếc.
Mặc dù đây là hiện tượng hay gặp trong hội thoại tiếng Việt nhưng do tính chất của hội thoại là liền mạch và đơn giản nên việc xử lý one-anaphora cũng tương tự như Np-anaphora nhưng các ràng buộc của nó không nhiều – chỉ có sự ràng buộc tương thích giữa danh từ và số từ.
4.1.3. VP- anaphora.
Nhắc lại định nghĩa, VP-anaphora là hiện tượng sử dụng một từ để thay thế cho một động từ hoặc cụm động từ đã nhắc đến ở phía trước.
Các trường hợp VP-anaphora trong hội thoại tiếng Việt không phong phú lắm, hơn nữa việc phân chia VP-anaphora và hiện tượng tỉnh lược chỉ là tương đối do VP- anaphora cũng có thể coi là một trường hợp đặc biệt của tỉnh lược.
Ví dụ:
• Nhưng tôi không muốn thế.
Chỉ xét các câu có cấu trúc đơn giản (vì mục tiêu của đồ án là hướng vào ứng dụng hội thoại), đặc điểm nhận biết VP – anaphora là câu có cấu trúc <động từ><từ thay thế>, trong đó, <động từ> thường là các động từ chỉ sở thích như thích, muốn… và từ thay thế thường là: thế, vậy.
Đặc thù của hội thoại là tính liên tục của ngữ cảnh, vì thế nếu phát hiện một câu có xảy ra hiện tượng VP – anaphora thì cụm động từ - tiền ngữ đã được thay thế- phải xuất hiện ở câu ngay phía trước. Ta chỉ cần tìm các tiền ngữ là cụm động từ để thay thế (mà không cần đến một cây cấu trúc ngữ pháp hoàn chỉnh và chính xác).
4.1.4. S- anaphora
Nhắc lại định nghĩa, S- anaphora là hiện tượng sử dụng một từ để thay thế cho cả một câu đã được nhắc đến ở phía trước.
Ví dụ:
• Bức tranh này hình như thuộc trường phái trừu tượng ? • Uh, tôi cũng nghĩ thế.
S- anaphora cũng là một dạng hay gặp trong hội thoại tiếng Việt, với tính chất đơn giản của cấu trúc câu hội thoại, đặc điểm câu có S- anaphora là câu có cấu trúc <Su><V><từ thay thế>, trong đó <V> thường là các nội động từ mang tính phán đoán như nghĩ, đoán… và từ thay thế là thế, vậy.
Cách tiếp cận của S- anaphora cũng tương tự VP – anaphora.
4.2. Hiện tượng tỉnh lược câu và hướng tiếp cận.
4.2.1. Tỉnh lược ngữ pháp - Contextual ellipsis .
Nếu như hiện tượng đồng tham chiếu, đặc biệt là NP-anaphora không chỉ xảy ra trong hội thoại mà còn xuất hiện rất nhiều trong những đoạn văn chuẩn mực thì hiện tượng tỉnh lược câu lại là hiện tượng đặc thù của hội thoại. Như đã phân tích ở phần trước, chúng ta sẽ chỉ quan tâm đến phần tỉnh lược ngữ pháp (Contextual ellipsis )- phần lược bỏ của câu có thể được khôi phục lại dựa vào ngay câu phía trước, thường phần lược bỏ đó là sự lặp lại của một từ hoặc một cụm từ đứng trước – trong khi tỉnh lược tình huống ( Pragmatic ellipsis) lại yêu cầu có được sự nhận
diện tình huống cụ thể khi xảy ra hội thoại – vấn đề này tạm thời sẽ không xét đến trong đồ án này.
Tỉnh lược ngữ pháp -Contextual ellipsis bao hàm nhiều trường hợp tỉnh lược câu khác. Ranh giới giữa tỉnh lược và VP- anaphora, S – anaphora , one-anaphora chỉ là tương đối. Tuy câu tỉnh lược có nhiều dạng, nhưng trong hội thoại với người hỏi là người sử dụng thì hai loại câu tỉnh lược hay gặp nhất là thuộc tínhvật, vật A vật B với A,B thuộc cùng loại thực thể (A,B có thể đồng nghĩa , hoặc là phân lớp con/cha của nhau)
• Trong trường bạn có bao nhiêu nữ giáo viên có bằng tiến sĩ? 6 người.
(Thế còn) bằng thạc sỹ? 10 người.
• Chiếc xe này giá bao nhiêu? Tầm 20 triệu.
Tốc độ?
Tối đa 200km/h
Một dạng hay gặp nữa của hiện tượng tỉnh lược câu đó là dạng Gapping – tồn tại một khoảng trống ngữ pháp . Ví dụ:
• Hè này tôi nghỉ mát ở Hạ Long. • Tôi thì [- Gapping -] Sầm Sơn.
4.2.2. Hướng tiếp cận.
Hình 2 - Mô phỏng quan hệ từ vựng
Bài toán giải quyết hiện tượng tỉnh lược là bài toán khôi phục lại đầy đủ cấu trúc của câu đã bị lược bỏ. Giả thiết tồn tại một mối quan hệ giữa một từ trong câu tỉnh lược ngữ pháp và một từ trong phần đã bị tỉnh lược – ta gọi đây là mối quan hệ tỉnh lược. Ví dụ : cái khóa là một phần của cánh cửa , ta ký hiệu: cánh cửa cái khóa. Một mối qua hệ như thế là nền tảng giải quyết bài toán. Tìm kiếm mối quan hệ này là nhiệm vụ cần thực hiện, tuy nhiên việc này sẽ không được thực hiện một cách trực tiếp mà bằng cách tìm kiếm gốc và đích (tiền ngữ bị lược bỏ) của mối qua hệ này.
Thuật toán xử lý vấn đề này có thể tóm lược như sau: • Bắt đầu từ câu tỉnh lược B
• Tìm kiếm A ở câu gần đây nhất cho kết quả tiền tố.
• Kiểm tra mối quan hệ của A và B. Nếu A thoả mãn các rằng buộc Viết lại B theo A
Chú ý là với đặc thù liên tục của hội thoại và giả thiết là tất cả các yếu tố đã biết (tìm được tiền ngữ) hầu hết các tiền ngữ bị lược bỏ phải được tìm thấy ở câu phía trước.
Bởi vì hiện tượng tỉnh lược vốn là hiện tượng ngữ pháp câu khuyết đi một phần, do đó, cái “gốc” của mối quan hệ tỉnh lược khá dễ dàng để nhận diện : phát hiện khiếm khuyết ngữ pháp của câu. Về mặt ngữ pháp, các dạng khiếm khuyết hay gặp nhất là dạng:
• Thiếu vắng chủ thể - một từ mà không thể đứng đầu câu lại không chịu tác động của các từ khác trong câu. Ví dụ như một tính từ thiếu vắng danh từ… như (nghiêm trọng lỗi lầm).
• Thiếu vắng bổ ngữ - một từ yêu cầu kèm theo thực thể bị tác động nhưng trong câu không có thực thể này. Ví dụ đơn giản như từ trong câu tỉnh lược là một bộ phận, một thuộc tính, một phân lớp của từ đã bị tỉnh lược, như tranh trường phái trừu tượng.
Thuật toán nhìn qua có vẻ khá đơn giản tuy nhiên vấn đề mấu chốt và phức tạp của hiện tượng tỉnh lược câu chính là phát hiện mối quan hệ giữa hai câu A – câu tỉnh lược và B- câu phía trước. Giải pháp của đồ án này đó là so sánh từ/cấu trúc của 2 câu và dự vào mối quan hệ đã được định nghĩa trong một từ điển được xây dựng mới tương tự WordNet. Cấu trúc của từ điển này sẽ được làm rõ ở phần sau.
4.3. Tổng hợp
4.3.1.Hướng giải quyết mối quan hệ chủ ngữ - động từ - bổ ngữ.
Mặc dù đồ án dựa trên cách tiếp cận cố gắng ít dựa vào phân tích câu hết mức có thể, nhưng các ràng buộc động từ - danh từ vẫn đòi hỏi vai trò cú pháp của từ ở một mức nhất định nào đó.
Xét ví dụ:
• Họa sĩ Tô Ngọc Vân sống ở đâu? • Ông ấy sinh ra và lớn lên ở Hà Nội. • Tôi nghĩ rằng bức tranh này là giả.
Trên là ba ví dụ về dạng câu hay gặp nhất, dựa trên điều kiện là các câu hội thoại là câu đơn có cấu trúc khá đơn giản, ta có thể tìm kiểm chủ ngữ của động từ