Bài báo trình bày một số kết quả ban đầu mà chúng tôi đã đạt được như: xây dựng tập nhãn từ loại, xây dựng tập nhãn cú pháp, xây dựng công cụ, triển khai gán nhãn. Trong phần đánh giá kết quả gán nhãn, bài báo chỉ ra là độ đồng thuận giữa những người gán nhãn còn chưa cao chứng tỏ còn nhiều vấn đề cần được giải quyết.
Xây dựng treebank tiếng Việt Nguyễn Phương Thái1, Vũ Xuân Lương2, Nguyễn Thị Minh Huyền3 Tóm tắt Ngân hàng câu giải cú pháp (treebank) kho ngữ liệu quan trọng nghiên cứu xây dựng ứng dụng xử lý ngôn ngữ tự nhiên Treebank thường dùng để xây dựng hệ phân tích cú pháp chất lượng cao Các hệ phân tích cú pháp lại sử dụng ứng dụng quan trọng truy vấn thông tin, dịch máy, v.v Bài báo liên quan đến việc xây dựng ngân hàng câu tiếng Việt giải cú pháp Bài báo trình bày số kết ban đầu mà đạt như: xây dựng tập nhãn từ loại, xây dựng tập nhãn cú pháp, xây dựng công cụ, triển khai gán nhãn Trong phần đánh giá kết gán nhãn, báo độ đồng thuận người gán nhãn chưa cao chứng tỏ nhiều vấn đề cần giải Giới thiệu Tiếng Việt ngôn ngữ mà thứ tự từ cố định chúng tơi chọn xây dựng treebank gồm thành phần Đối với ngôn ngữ mà thứ tự từ tự tiếng Nhật, Séc phụ thuộc thích hợp Chúng áp dụng tiếp cận xây dựng treebank Marcus cộng (1993) Đây tiếp cận kiểm chứng qua việc áp dụng cho nhiều ngôn ngữ khác như: tiếng Anh, ngôn ngữ thuộc họ Ấn-Âu; tiếng Trung, họ ngôn ngữ riêng; tiếng Hàn; tiếng Ả-rập Mục tiêu chúng tơi nghiên cứu xây dựng kho ngữ liệu gồm 10 ngàn câu tiếng Việt giải cú pháp Quá trình xây dựng treebank có số bước là: tìm hiểu, thiết kế, xây dựng cơng cụ, thu thập ngữ liệu thô, gán nhãn liệu Hiện tiến hành gán nhãn liệu khoảng ngàn câu Thực chất trình xốy trơn ốc, vừa gán liệu vừa hồn thiện thêm tài liệu hướng dẫn gán nhãn (thiết kế) hay cải tiến công cụ Chúng chọn văn báo chí để gán nhãn Chúng tơi thu thập báo báo Tuổi Trẻ điện tử Hiện gán nhãn cho báo thuộc chủ đề Chính trị-Xã hội Chúng tơi gán nhãn thêm cho chủ đề Kinh tế hay Tin học Cấu trúc báo sau Trước hết, chúng tơi trình bày tập nhãn từ loại hướng dẫn gán nhãn từ loại Thứ hai phần tập nhãn cú pháp hướng dẫn gán nhãn cú pháp Thứ ba công cụ hỗ trợ người làm ngữ liệu Thứ tư qui trình gán nhãn cú pháp Thứ năm kết đạt thời điểm Cuối phần kết luận Đại học Công nghệ, Đại học Quốc gia Hà Nội Trung tâm Từ điển học Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội 2 Hướng dẫn gán nhãn từ loại cú pháp 2.1 Tập nhãn từ loại Trong ngôn ngữ Châu Âu, khái niệm từ loại gắn với phạm trù hình thái học giống số cách v.v Trong tiếng Việt có hai quan điểm: Quan điểm khơng phân từ loại, phủ nhận tồn (Lê Quang Trinh, Nguyễn Hiến Lê, Hồ Hữu Tùng) Quan điểm phân từ loại (rất nhiều nhà ngôn ngữ học): o dựa vào khả kết hợp chức vụ ngữ pháp (gọi chung thái độ ngữ pháp) Ngồi số nghiên cứu đối sánh ngơn ngữ học nêu lên tượng "biến đổi hình thái" từ tiếng Việt với tham gia từ chức o dựa vào nghĩa khái quát Chúng theo quan điểm phân từ loại xây dựng treebank tiếng Việt Về nguyên tắc, thông tin từ chứa nhãn từ loại bao gồm: từ loại sở (danh từ, động từ, v.v.), thông tin hình thái (số ít, số nhiều, thì, ngơi, v.v.), thơng tin phân loại (ví dụ động từ với danh từ, động từ với mệnh đề, v.v.), thông tin ngữ nghĩa, hay số thông tin cú pháp khác Chúng xây dựng tập nhãn từ loại chứa thông tin từ loại sở mà khơng bao gồm thơng tin hình thái, phân loại con, v.v Tập nhãn từ loại liệt kê Bảng 1, tổng số nhãn 17 STT Tên N Np Chú thích Danh từ Danh từ riêng Nc Danh từ loại Nu Danh từ đơn vị 10 11 12 13 V A P L M R E C I Động từ Tính từ Đại từ Định từ Số từ Phụ từ Giới từ Liên từ Thán từ 14 15 16 17 T U Y X Trợ từ, tiểu từ, từ tình thái Từ đơn lẻ Từ viết tắt Các từ không phân loại Bảng Tập nhãn từ loại 2.2 Tập nhãn cú pháp Nhãn thành phần cú pháp Loại nhãn mô tả thành phần cú pháp cụm từ mệnh đề Nhãn thành phần cú pháp thông tin cú pháp, tạo thành xương sống cú pháp4 Tập nhãn cú pháp ngôn ngữ khác khác (ở tỉ lệ định) hai nguyên nhân Nguyên nhân khác biệt ngôn ngữ Chẳng hạn tiếng Trung, từ loại có chức làm bổ nghĩa trước cho danh từ Từ loại lại kết hợp với số từ phần phụ trước cụm danh từ Vì nhóm thiết kế Chinese Treebank (CTB) đặt nhãn cụm từ loại Đây điểm khác biệt với treebank tiếng Anh (PTB) Nguyên nhân thứ hai kỹ thuật thiết kế tập nhãn Chẳng hạn với cụm từ nghi vấn, PTB có loại nhãn WHNP, WHPP, WHADJP, WHADVP Trong CTB lại đặt nhãn chức WH Nhãn dùng kèm với nhãn cụm từ cụm từ có từ dùng để hỏi Như đủ để mô tả cụm từ nghi vấn (NP-WH, PP-WH, ADJP-WH, ADVP-WH) Bảng liệt kê tập nhãn cụm từ Bảng nhãn mệnh đề STT Tên Chú thích NP Cụm danh từ VP Cụm động từ AP Cụm tính từ RP Cụm phụ từ PP Cụm giới từ QP Cụm từ số lượng MDP Cụm từ tình thái WHNP Cụm danh từ nghi vấn (ai, gì, gì, v.v.) WHAP Cụm tính từ nghi vấn (lạnh nào, đẹp sao, v.v.) WHRP Cụm từ nghi vấn dùng hỏi thời gian, nơi chốn, v.v WHPP Cụm giới từ nghi vấn (với ai, cách nào, v.v.) Bảng Tập nhãn cụm từ STT Tên Chú thích S Câu trần thuật (khẳng định phủ định) SQ Câu hỏi SBAR Mệnh đề phụ (bổ nghĩa cho danh từ, động từ, tính từ) Bảng Tập nhãn mệnh đề Nhiều lý thuyết cú pháp dựa cấu trúc xương sống Nhãn chức cú pháp Nhãn chức thành phần cú pháp cho biết vai trò thành phần cú pháp mức cao Nhãn chức cú pháp gán cho thành phần câu chủ ngữ, vị ngữ, tân ngữ Nhờ thông tin nhãn chức cung cấp ta xác định loại quan hệ ngữ pháp sau đây: - Chủ-vị Đề-thuyết Phần chêm Bổ ngữ Phụ ngữ Sự kết hợp STT Tên Chú thích SUB Nhãn chức chủ ngữ DOB Nhãn chức tân ngữ trực tiếp IOB Nhãn chức tân ngữ gián tiếp TPC Nhãn chức chủ đề PRD Nhãn chức vị ngữ cụm động từ LGS Nhãn chức chủ ngữ logic câu thể bị động EXT Nhãn chức bổ ngữ phạm vi hay tần suất hành động H Nhãn phần tử trung tâm (của cụm từ mệnh đề) 9-12 TC, CMD, EXC, SPL Nhãn phân loại câu: đề-thuyết, mệnh lệnh, cảm thán, đặc biệt 13 TTL Tít báo hay tiêu đề 14 VOC Thành phần than gọi Bảng Nhãn chức cú pháp Ngồi nhãn chức tương ứng với loại trạng ngữ thời gian, nơi chốn, hay mục đích Như loại nhãn chức chứa thông tin ngữ nghĩa “nông” thành phần cú pháp Bảng liệt kê nhãn chức trạng ngữ mà sử dụng STT Tên Chú thích Nhãn chức trạng ngữ thời gian TMP LOC Nhãn chức trạng ngữ nơi chốn DIR Nhãn chức trạng ngữ hướng MNR Nhãn chức trạng ngữ cách thức PRP Nhãn chức trạng ngữ mục đích hay lý ADV Nhãn chức trạng ngữ nói chung (dùng trạng ngữ không thuộc loại cụ thể trên) Bảng Nhãn chức trạng ngữ Nhãn thành phần rỗng Đây loại thành phần đặc biệt Nó tồn (được ngầm hiểu) thành phần cú pháp cho dù khơng xuất vị trí Thơng thường thành phần rỗng gán số thành phần mà đại diện Dưới ví dụ: Tơi mua sách mà thầy giáo giới thiệu (S (NP-SBJ Tôi) (VP mua (NP (NP-OBJ-1 sách) (SBAR mà (S (NP-SBJ thầy giáo) (VP giới thiệu (NP-OBJ *T*-1)))))) ( .)) Trong ví dụ đại từ “Tơi” có nhãn chức SBJ cho biết chủ từ câu, danh từ “quyển sách” có nhãn chức OBJ cho biết danh từ làm tân ngữ 2.3 Xây dựng tài liệu hướng dẫn gán nhãn Đây tài liệu quan trọng bao gồm khơng thơng tin tập nhãn, mà hướng dẫn gán nhãn cho tượng cụ thể với ví dụ minh họa Để xây dựng tài liệu này, trước tiên nghiên cứu tài liệu ngữ pháp kinh nghiệm xây dựng treebank có Ngồi chúng tơi cộng tác chặt chẽ với nhà ngôn ngữ để xử lý tượng khó Khi gặp tượng khó có vài lựa chọn, chủ động chọn cần chuyển đổi sang Những người gán nhãn khuyến khích đưa câu hỏi trình làm việc Khi xây dựng phiên tài liệu này, nhóm thiết kế tự tay phân tích tập câu mẫu lấy từ sách ngữ pháp, vừa phân tích vừa viết tài liệu Kết bao trùm cấu trúc tượng ngữ pháp Bước phân tích câu lấy từ ngữ liệu thực tế (kết bước chọn văn thô) Việc quan trọng, giúp nhóm thiết kế đưa tài liệu sát với thực tế dựa vào câu mẫu sách Kinh nghiệm cho thấy vấn đề ngôn ngữ phát sinh xây dựng treebank đa dạng phức tạp nhiều so với tượng sách ngữ pháp (Han cộng sự, 2002) Do tài liệu hướng dẫn chỉnh sửa, nâng cấp, bổ xung trình gán nhãn văn Với tượng ngữ pháp, chúng tơi trình bày cách nhận diện cách gán nhãn với ví dụ cụ thể để minh họa Các ví dụ lấy từ sách ngữ pháp từ ngữ liệu thực tế Khi có thể, chúng tơi cố gắng trích dẫn tài liệu tham khảo để người đọc nắm đầy đủ vấn đề nêu Công cụ hỗ trợ Công cụ hỗ trợ người gán nhãn làm việc hiệu Có hai nội dung hỗ trợ soạn thảo cú pháp gán nhãn tự động (sau người sửa lại) Kinh nghiệm xây dựng treebank cho thấy công cụ giúp tăng tốc độ gán nhãn lên nhiều Hình cho thấy cơng cụ soạn thảo cú pháp mà sử dụng Hiện chưa sử dụng công cụ gán nhãn tự động sớm đưa vào thời gian tới Hình Cơng cụ trợ giúp soạn thảo cú pháp Chương trình có ba cửa sổ Thứ cửa sổ bên trái hiển thị danh sách câu file vào Người làm ngữ liệu click vào câu thơng tin tương ứng hiển thị bên phải Cửa sổ phía bên phải (Parsed Text) hiển thị cú pháp dạng văn cho phép sửa Cửa sổ bên phải (Syntax GUI Trees) hiển thị cú pháp dạng đồ họa Sau sửa đổi lưu vào nhớ kết thúc phiên làm việc với file ghi đĩa cứng Quá trình gán nhãn Quá trình gán nhãn câu gồm ba bước: tách từ, gán nhãn từ loại, phân tích cú pháp Qui trình thực gán nhãn tương tự nhau, nhiên bước yêu cầu kiến thức có đặc trưng riêng Trước tiên, người gán nhãn cần huấn luyện cách gán nhãn, tập nhãn, cách sử dụng công cụ Sau họ gán nhãn cho phần corpus thơ Q trình gán nhãn thể Hình Mỗi người làm có người review sửa lỗi Những trường hợp khơng chắn ghi lại để thảo luận với nhóm thiết kế Người review yêu cầu có mắt phê phán làm việc Họ có tinh thần làm việc nhóm cao vừa để gán nhãn xác vừa để giúp cải tiến tài liệu hướng dẫn Hình Sơ đồ trình làm ngữ liệu Khi gán nhãn, người làm liệu cần: - Hiểu câu trước phân tích, cần biến đổi câu để hiểu (thêm từ, bớt từ, thay từ, đổi thứ tự từ) - Nhận dạng mẫu (đặc biệt động từ): chẳng hạn ta biết mẫu động từ với danh từ, động từ với cụm giới từ, động từ với mệnh đề định Khi review, người làm liệu cần ý kiểm tra điểm sau: - Sai tách từ không? - Sai từ loại không? - Có lỗi liên kết cụm từ khơng? - Có sai nhãn cú pháp khơng? - Có thiếu khơng? (nhãn H, nhãn chức trạng ngữ, v.v.) Đánh giá độ đồng thuận Độ đồng thuận hiểu mức độ giống kết gán nhãn cú pháp hai người thực độc lập văn Vấn đề tương tự toán so sánh cú pháp đánh giá chất lượng hệ phân tích cú pháp Chúng tơi sử dụng cách so sánh thành phần cú pháp Các cú pháp chuyển thành dạng: {(i, j, nhãn)} trước so sánh với Dựa vào ta tính được: tỉ lệ thành phần giống hoàn toàn (cả nhãn thành phần nhãn chức năng), tỉ lệ thành phần giống bỏ qua nhãn chức năng, tỉ lệ thành phần giống cặp (i,j) Theo cách này, ta đánh giá độ đồng thuận cho thành phần cú pháp cụ thể S, NP, VP, v.v Chúng tơi cài đặt chương trình C++ thực tự động việc đánh giá Ví dụ: Hằng ngắm mưa công viên Người Người (S (NP (Np Hằng)) (S (NP (Np Hằng)) (VP (V ngắm) (VP (V ngắm) (NP (N mưa)) (NP (NP (N mưa)) (PP (E trong) (PP (E trong) (NP (N công viên)))) (NP (N công viên))))) ( .)) ( .)) (1,6,S); (1,1,NP); (2,5,VP); (3,3,NP); (4,5, (1,6,S); (1,1,NP); (2,5,VP); (3,3,NP); (3,5,NP); (4,5, PP); (5,5,NP) PP); (5,5,NP) Độ đồng thuận A hai người gán nhãn tính sau: = 2∗ 1+ Trong đó: - C1 số thành phần cú pháp kết gán nhãn người thứ C2 số thành phần cú pháp kết gán nhãn người thứ hai - C số thành phần cú pháp giống Trong ví dụ trên: C1=6; C2=7; C=6 Do A=12/13=0.92 Chúng tơi thực test với ba người làm ngữ liệu gán nhãn cho 100 câu Các câu thu thập từ hai nguồn báo Tuổi Trẻ điện tử sách ngữ pháp (tỉ lệ 50/50) Ba người tiến hành gán nhãn độc lập sau kết chương trình đánh sau: Nhãn đầy đủ Bỏ qua nhãn chức Khơng tính nhãn Người 1-Người Người 2-Người 0.54 0.62 0.66 0.69 0.74 0.75 Bảng Đánh giá độ đồng thuận Người 3- Người 0.59 0.69 0.76 Kết cho thấy độ đồng thuận chưa cao Cần cải tiến tài liệu hướng dẫn gán nhãn huấn luyện người gán nhãn kỹ Kết luận Trong báo chúng tơi trình bày kết ban đầu trình xây dựng treebank tiếng Việt Nhiều chi tiết kỹ thuật bỏ qua giới hạn khn khổ báo Hiện chúng tơi nhiều vấn đề phải giải để đạt mục tiêu đề Trong tương lai, có điều kiện chúng tơi mời chun gia nước ngồi cố vấn, trực tiếp có trao đổi với nhóm xây dựng thành công treebank nước họ Chúng tơi nhanh chóng đưa cơng cụ gán nhãn tự động vào hỗ trợ người làm liệu Thêm vào cải tiến cơng cụ soạn thảo cú pháp trực quan giúp người làm liệu sửa cú pháp nhanh Lời cảm ơn Bài báo có nhờ hỗ trợ kinh phí đề tài nhánh SP7.3 thuộc đề tài nhà nước “Nghiên cứu phát triển số sản phẩm thiết yếu xử lý tiếng nói văn tiếng Việt”, mã số KC01.01/06-10 Tài liệu tham khảo [1] Diệp Quang Ban 2005 Ngữ pháp tiếng Việt (2 tập) NXB Giáo dục [2] Vũ Tiến Dũng Tiếng Việt ngôn ngữ học đại sơ khảo cú pháp 2003 VIET Stuttgart – Germany [3] Cao Xuân Hạo 2006 Tiếng Việt sơ thảo ngữ pháp chức NXB Khoa học Xã hội [4] Nguyễn Văn Hiệp Vài nét lịch sử nghiên cứu cú pháp tiếng Việt Tạp chí Ngơn ngữ, Hà Nội, số 10/2002 [5] Nguyễn Kim Thản 2008 Cơ sở ngữ pháp tiếng Việt NXB Khoa học Xã hội [6] Nguyễn Minh Thuyết Nguyễn Văn Hiệp 1999 Thành phần câu tiếng Việt NXB ĐHQG Hà Nội [7] Ủy ban Khoa học Xã hội Việt Nam 1983 Ngữ pháp tiếng Việt NXB Khoa học Xã hội [8] Sabine Brants et al The TIGER Treebank 2003 COLING [9] Chung-hye Han et al Development and Evaluation of a Korean Treebank and its Application to NLP 2002 LREC [10] Mitchell P Marcus et al Building a Large Annotated Corpus of English: The Penn Treebank 1993 Computational Linguistics [11] Peter Sells Lectures on Contemporary Syntactic Theories 1987 CSLI [12] Fei Xia et al Developing Guidelines and Ensuring Consistency for Chinese Text Annotation 2000 COLING [13] Nianwen Xue et al Building a Large-Scale Annotated Chinese Corpus 2002 COLING ... nêu lên tượng "biến đổi hình thái" từ tiếng Việt với tham gia từ chức o dựa vào nghĩa khái quát Chúng theo quan điểm phân từ loại xây dựng treebank tiếng Việt Về ngun tắc, thơng tin từ chứa nhãn... phẩm thiết yếu xử lý tiếng nói văn tiếng Việt , mã số KC01.01/06-10 Tài liệu tham khảo [1] Diệp Quang Ban 2005 Ngữ pháp tiếng Việt (2 tập) NXB Giáo dục [2] Vũ Tiến Dũng Tiếng Việt ngôn ngữ học đại... ngữ pháp tiếng Việt NXB Khoa học Xã hội [6] Nguyễn Minh Thuyết Nguyễn Văn Hiệp 1999 Thành phần câu tiếng Việt NXB ĐHQG Hà Nội [7] Ủy ban Khoa học Xã hội Việt Nam 1983 Ngữ pháp tiếng Việt NXB