3 Ứng dụng cho tiếng Việt
3.2 Phương pháp sàng nhiều lượt cho tiếng Việt
3.2.1 Các lượt sàng
Các lượt sàng được áp dụng cho tiếng Việt là:
Lượt Nội dung
1 Xác định người nói 2 So khớp các chuỗi chặt chẽ 3 So khớp các chuỗi nới lỏng 4 Một số trường hợp đặc biệt chính xác 5 So khớp từ chính chặt chẽ 6 Phân cụm các đề cập còn lại
Trong các lượt sàng trên, lượt sàng 2, 3, 4, 5 được thực hiện bằng cách so khớp các cặp đề cập. Lượt sàng 6 được thực hiện bằng thuật toán phân cụm dữ liệu.
Lượt sàng xác định người nói
Các bước xử lý trong lượt sàng: 1. Xác định các đoạn hội thoại 2. Xác định người nói, người nghe
3. Xác định các đại từ ngơi thứ nhất và thứ hai trong đoạn hội thoại
4. Gộp các đại từ ngơi thứ nhất với người nói, ngơi thứ hai với người nghe.
Lượt sàng so khớp chuỗi chặt chẽ
Quá trình xử lý ở lượt sàng này được thực hiện tương tự như tiếng Anh, hai cụm danh từ (không phải là đại từ) giống hệt nhau sẽ được xếp vào cùng một cụm.
Lượt sàng so khớp chuỗi nới lỏng
Hai cụm danh từ có thành phần chính giống nhau, một đề cập có thêm mệnh đề quan hệ. Các cụm danh từ có mệnh đề quan hệ sẽ có thành phần được gán nhãn là SBAR.
Ví dụ: Tơi đã mua quyển sách mà thầy giáo giới thiệu. Quyển sách rất hay. Ở đây, sau khi phân tích cú pháp, ta sẽ thu được kết quả phân tích cú pháp: Cụm NP "quyển sách mà thầy giáo giới thiệu" và cụm NP "quyển sách" có chung thành phần chính là "quyển sách", sai khác một mệnh đề quan hệ là SBAR "mà thầy giáo giới thiệu".
Lượt sàng xác định các cặp đồng sở chỉ đặc biệt
Các trường hợp đặc biệt được áp dụng trong hệ thống xây dựng cho tiếng Việt:
Hình 3.1: Phân tích cú pháp câu "Tơi đã mua quyển sách mà thầy giáo giới thiệu."
• Ngữ đồng vị
• Vị ngữ chỉ định
• Từ viết tắt
Ngữ đồng vị
Ngữ đồng vị được xác định thơng qua phân tích cú pháp. Dấu hiệu để nhận biết các cặp đề cập này là: các cặp cụm danh từ ngang có vai trị ngang hàng trong câu, được ngăn cách bằng đấu ",", có chung vị ngữ và tách rời với vị ngữ bởi dấu ",".
Ví dụ: Hà Nội, thủ đơ của Việt Nam, đang bị ô nhiễm.
Ở đây, cụm NP "Hà Nội" và cụm NP "thủ đơ của Việt Nam" ngang hàng vì đều là con của mệnh đề S "Hà Nội, thủ đô của Việt Nam, đang bị ơ nhiễm.". Hai cụm NP này có chung vị ngữ theo sau là cụm VP "đang bị ơ nhiễm". Hai
Hình 3.2: Phân tích cú pháp câu "Quyển sách rất hay."
cụm này ngăn cách nhau bởi dấu "," và tách biệt với vị ngữ bởi dấu ",".
Vị ngữ chỉ định
Cặp cụm danh từ được liên kết bằng vị ngữ chỉ định sẽ có quan hệ đồng sở chỉ. Trường hợp này được nhận biết thơng qua phân tích cú pháp bằng tìm các mệnh đề có cụm vị ngữ có vị từ chính là "là". Mệnh đề cần tìm sẽ có cấu trúc dạng "NP VP(là NP)".
Ví dụ: Hà Nội là thủ đơ của Việt Nam.
Trong ví dụ này, cụm NP "Hà Nội" có cụm vị ngữ VP "là thủ đơ của Việt Nam" - với vị từ chính "là" và cụm NP "thủ đô của Việt Nam".
Một cách đơn giản hơn để xác định các cặp đề cập trong trường hợp này là sử dụng kết quả của phân tích vai nghĩa. Ta sẽ tìm tất cả các trường hợp xuất hiện của REL "là". Các cặp cụm danh từ trong ARG-0 và ARG-1 có quan hệ đồng sở chỉ.
So khớp từ chính chặt chẽ
Trong hiện tượng này, hai cụm danh từ có từ chính giống nhau, có sự tương đồng về cấu trúc cú pháp (cây cú pháp bao trùm nhau) có quan hệ đồng sở chỉ. Cách thức để nhận biết trong trường hợp này là so sánh hai cây cú pháp, nếu một cây là cây con của cây kia thì hai đề cập sẽ có quan hệ đồng sở chỉ.
Hình 3.3: Phân tích cú pháp câu "Hà Nội, thủ đơ của Việt Nam, đang bị ơ nhiễm."
Phân cụm các đề cập cịn lại
Ở bước này, các cụm thu được sau các bước so khớp trước sẽ chọn ra các đề cập đại diện và được xác định xác đặc trưng để tiến hành phân cụm.
Thuật toán phân cụm được sử dụng là DBSCAN với chỉ số MinPts = 2. Khoảng cách giữa hai đề cập được tính theo cơng thức:
dist(N Pi, N Pj) =P f∈F wf ∗incompatibilityf(N Pi, N Pj) trong đó, • F là tập hợp các đặc trưng • f là một đặc trưng • wf là trọng số của đặc trưng f
Hình 3.4: Phân tích cú pháp câu "Hà Nội là thủ đơ của Việt Nam."
• incompatibilityf là một hàm số tính khoảng cách của hai đề cập theo đặc trưng f, hàm này trả về giá trị giữa 0 và 1.
Các đặc trưng được sử dụng được cho trong bảng:
Danh sách các từ 10 1 nếu tất cả các từ thuộc đề cập này thuộc đề cập kia, 0 nếu ngược lại. Từ chính 1 1 nếu khác từ chính, 0 nếu cùng từ
chính.
Khoảng cách câu 5 (khoảng cách số câu)/(tổng số câu). Khoảng cách đoạn 5 (khoảng cách đoạn)/(tổng số đoạn). Là chuỗi con -∞ 1 nếu một đề cập là chuỗi con của
đề cập cịn lại
Số ít, số nhiều ∞ 1 nếu không thể cùng loại, 0 nếu ngược lại
Tên riêng ∞ 1 nếu cùng là tên riêng, 0 nếu ngược lại