Phương pháp xây dựng tập dữ liệu Tiếng Việt- 123docz.net

Hiện nay vẫn chưa có bộ dữ liệu chuẩn nào cho bài toán phân tách cụm danh từ tiếng Việt. Từ việc nghiên cứu phương pháp xây dựng tập dữ liệu tiếng Anh, tôi cũng áp dụng phương pháp tương tự để xây dựng tập dữ liệu tiếng Việt. Tập dữ liệu tiếng Việt được chiết xuất tự động từ Viet Treebank [24], tập dữ liệu bao gồm 5329 câu

được gán nhãn thủ công3

. Trong Viet Treebank, các thành phần của câu được gán nhãn theo ba cấp độ, bao gồm tách từ (word segmentation), xác định từ loại (part-of-speech tagging), và gán nhãn cú pháp (syntatic labelling).

Do cụm danh từ cơ sở Tiếng Anh không có thành phần phụ sau, tức là chỉ gồm phần đầu và danh từ trung tâm, vì thế, Ramshaw và Marcus xác định cụm danh từ cơ sở là phần đầu của cụm danh từ không đệ quy cho đến danh từ trung tâm. Nếu áp dụng định nghĩa cụm danh từ cơ sở Tiếng Anh cho tiếng Việt thì không chính xác, vì cụm danh từ tiếng Việt còn chứa phần phụ sau – là các từ hoặc cụm từ bổ nghĩa cho danh từ trung tâm. Do đó, trong luận văn, khái niệm cụm danh từ cơ sở tiếng Việt được hiểu là cụm danh từ tiếng Việt đơn giản, có cấu trúc được trình bày ở phần 3.1, bao gồm phần phụ trước, danh từ trung tâm và phần phụ sau, loại trừ các phần phụ sau phức tạp là cụm giới từ hoặc mệnh đề. Phần phụ sau có thể là một cụm danh từ, vì thế rất nhiều cụm danh từ cơ sở tiếng Việt chứa một cụm danh từ khác bên trong nó. Do đó, khái niệm cụm danh từ cơ sở là cụm danh từ không đệ quy hay không chồng nhau cũng không phù hợp với tiếng Việt.

Để chiết xuất các cụm danh từ tiếng Việt tự động từ Viet Treebank, luận văn xây dựng tập luật dựa vào độ sâu của cây thành phần. Mặc dù vẫn còn sai sót, tuy nhiên đây là phương pháp thường được dùng để xây dựng tập dữ liệu đủ lớn cho bài toán này.

Hình 7: Ví dụ về biểu diễn dạng cây của một câu đã phân tích cú pháp

Ví dụ trong hình 7 là biểu diễn dạng cây của câu “Nhà Vy ở Buôn_Ma_Thuột, có bốn chị_em.” trong tập dữ liệu đã được phân tích cú pháp. Tập nhãn từ loại và nhãn cú pháp trong Viet Treebank được giới thiệu trong phụ lục 1.

Hiện tại, Viet Treebank đã có gần 1000 câu, tuy nhiên do điều kiện về thời gian tôi mới chỉ thực nghiệm được trên 5329 câu

Như phần 3.1 đã trình bày, từ tiếng Việt có thể gồm nhiều hơn một âm tiết cách nhau bởi dấu trống, vì thế chúng tôi sử dụng dấu gạch dưới “_” để nối các từ có từ hai âm tiết trở lên. Khi đó, “Buôn Ma Thuột” thành Buôn_Ma_Thuột, “chị em” thành chị_em.

Dựa vào cấu trúc của cây thành phần có nhãn NP, tôi chiết xuất các cụm danh từ thỏa mãn một trong các tiêu chí sau:

 Độ sâu của nhánh NP bằng 1 (1).

 Phần bổ nghĩa sau của danh từ trung tâm có độ sâu bằng 1 và không phải là cụm giới từ (2).

 Phần cuối của cụm danh từ là cụm danh từ hoặc cụm động từ có độ sâu bằng 2 (3).

 Nếu độ sâu của nhánh NP lớn hơn 3, cụm danh từ chiết xuất chỉ gồm phần phụ đầu và danh từ trung tâm, bỏ qua phần phụ sau (4).

Hai ví dụ đầu ở hình 8, “cuộc_đời tôi” và “năm 2000” là cụm danh từ thỏa mãn tiêu chí (1) trong đó danh từ trung tâm được bổ nghĩa bởi một đại từ và một số từ tương ứng, độ sâu của cây thành phần NP là 1. Ví dụ thứ ba, cụm danh từ “những bông hoa mặt_trời xinh_đẹp” phức tạp hơn, trong đó danh từ trung tâm được bổ nghĩa bởi cả phần phụ trước là một từ chỉ số lượng và phần phụ sau gồm hai danh từ và một tính từ (thỏa mãn tiêu chí (2)).

Hình 8: Ví dụ về nhánh NP có độ sâu bằng 1 hoặc 2

(S (NP-SUB (N-H Nhà) (NP (Np-H Vy) )) (VP (VP (V-H ở) (NP-LOC (Np-H Buôn_Ma_Thuột) )) (, ,) (VP (V-H có) (NP-DOB (M bốn) (N-H chị_em) ))) (. .) ))

Hai cụm danh từ trong hình 9 thỏa mãn tiêu chí (3), nhánh NP có độ sâu bằng 3. Ví dụ thứ nhất, “Bộ_tưởng Bộ Tài_nguyên & môi trường” là một cụm danh từ đệ quy, trong đó danh từ trung tâm Bộ_trưởng được bổ nghĩa bởi phần phụ sau là một cụm danh từ “Bộ Tài_nguyên & môi_trường” có độ sâu bằng 2. Ví dụ thứ hai, “cơ_sở khám chữa bệnh” là một cụm danh từ, trong đó danh từ trung tâm cơ_sở được bổ nghĩa bởi một cụm động từ có độ sâu bằng 2.

Hình 9: Ví dụ về nhánh NP có độ sâu lớn hơn 2

Hình 10 là một cụm danh từ phức tạp có độ sâu lớn hơn 3 (tiêu chí (4)), do đó tôi chỉ lựa chọn phần phụ đầu và danh từ trung tâm, bỏ qua phần phụ sau. Cụm danh từ cơ sở chiết xuất được là “một số cán bộ”.

Hình 10: Nhánh NP có độ sâu lớn hơn 3

Ngoài các nhánh có nhãn NP, các cụm danh từ chỉ số lượng có nhãn QP cũng được xem xét theo các tiêu chí:

 Nếu QP có độ sâu bằng 1 và chứa danh từ thì cụm danh từ sẽ là toàn bộ nhánh QP đó (5).

Ví dụ: “15 g”, “600.000 đồng”.

Hình 11: Nhánh QP có độ sâu bằng 1

 Nếu nhánh có nhãn QP và chứa NP có độ sâu nhỏ hơn hoặc bằng 2 thì cụm NP sẽ là toàn bộ nhánh QP (6).

Ví dụ: “trên 900 hộ dân” và “trên 31 ha đất sản xuất chính” là một cụm danh từ.

Hình 12: Nhánh QP có độ sâu

bằng 2 Hình 13: Nhánh QP có độ sâu bằng 3 và chứa NP

 Nếu nhánh QP có độ sâu lớn hơn 3 nhưng chứa NP có độ sâu bằng 1 thì cụm danh từ sẽ gồm các từ thuộc nhánh QP có độ sâu là 1 và nhánh NP đó (7).

Ví dụ, cụm danh từ được trích chọn trong hình vẽ dưới là “gần bảy tiếng đồng hồ”

Hình 14: Nhánh QP có độ sâu lớn hơn 3 và chứa NP có độ sâu bằng 1

 Các cụm chứa liên từ “và”, tùy từng trường hợp sẽ được phân tách thành hai cụm hoặc mở rộng thành một cụm (8).

Hình 15: Ví dụ về cụm danh từ chứa liên từ “và”

Ví dụ bên trái hình 15, “Những giọt nước_mắt cảm_thông và hạnh_phúc” được coi là một cụm danh từ. Tuy nhiên, “chồng và “đứa con gái” được tách thành hai cụm danh từ.

Một số trường hợp đặc biệt khác như cụm danh từ chứa dấu nháy kép, dấu phảy, tôi cũng xây dựng những luật phù hợp. Để rút ra được những tiêu chí trên, tôi đã nghiên cứu và tìm hiểu kỹ về tập dữ liệu, đồng thời kết hợp với kết quả thực nghiệm để chỉnh sửa dần những tiêu chí này sao cho phù hợp và chính xác. Tuy nhiên, do cấu trúc phức tạp của cụm danh từ tiếng Việt, những luật này có thể chưa bao phủ tất cả

các trường hợp. Vì vậy, sau quá trình trích rút tự động, tôi thực hiện rà soát lại tập dữ liệu và chỉnh sửa những trường hợp chưa chính xác một cách thủ công.

Chương 4: Bài toán phân tách cụm danh từ tiếng Việt sử dụng mô hình CRFs

Phương pháp xây dựng tập dữ liệu Tiếng Việt

Đặc điểm cụm danh từ tiếng Việt

Đánh giá và phân tích lỗi