Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 81 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
81
Dung lượng
738,15 KB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN —————————— Hà Mỹ Linh PHÂN TÍCH CÚ PHÁP PHỤ THUỘC TIẾNG VIỆT LUẬN VĂN THẠC SĨ KHOA HỌC Hà Nội - 2015 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN —————————— Hà Mỹ Linh PHÂN TÍCH CÚ PHÁP PHỤ THUỘC TIẾNG VIỆT Chuyên ngành: Cơ sở toán cho tin học Mã số: 60460110 LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Lê Hồng Phương Hà Nội - 2015 Lời cảm ơn Em xin gửi lời cảm ơn tới thầy giáo, cô giáo, cán khoa Toán - Cơ Tin học, trường Đại học Khoa học tự nhiên, Đại học Quốc gia Hà Nội tận tình dạy dỗ giúp đỡ em suốt thời gian học cao học làm việc Bộ môn Tin học Trong trình thực luận văn suốt năm học vừa qua, em nhận bảo hướng dẫn nhiệt tình TS Lê Hồng Phương TS Nguyễn Thị Minh Huyền Em xin gửi tới Thầy Cô lời cảm ơn chân thành Em xin gửi lời cảm ơn tới gia đình, bạn bè động viên, khuyến khích tạo điều kiện cho em trình học tập thực luận văn Mặc dù cố gắng để hoàn thành luận văn, hạn chế kinh nghiệm thời gian, nên luận văn tránh khỏi thiếu sót Em mong nhận cảm thông ý kiến đóng góp thầy cô bạn Hà Nội, tháng năm 2015 Học viên Hà Mỹ Linh i Mục lục Danh sách bảng iv Danh sách hình vẽ v Lời mở đầu 1 Tổng quan cú pháp phụ thuộc 1.1 1.1.1 Định nghĩa cú pháp phụ thuộc 1.1.2 Biểu diễn cú pháp phụ thuộc Các thuật toán phân tích cú pháp phụ thuộc 1.2.1 Phân tích cú pháp phụ thuộc dựa đồ thị 1.2.2 1.2 Cú pháp phụ thuộc Phân tích cú pháp phụ thuộc dựa bước chuyển 11 Xây dựng tập nhãn phụ thuộc cho tiếng Việt 16 2.1 Kho ngữ liệu tiếng Việt - Viettreebank 16 2.2 Tập nhãn quan hệ phụ thuộc đa ngôn ngữ 19 2.3 Tập nhãn quan hệ phụ thuộc cho tiếng Việt 23 Thực nghiệm 3.1 33 33 3.1.1 MSTParser 33 3.1.2 3.2 Các công cụ phân tích cú pháp phụ thuộc MaltParser 35 Thuật toán xây dựng tài nguyên tiếng Việt tự động 39 3.2.1 40 Tập luật tìm phần tử trung tâm ii 3.2.2 Thuật toán chuyển tự động từ Viettreebank sang cú pháp phụ thuộc 3.3 41 Kết thực nghiệm 45 Kết luận 48 Các công trình công bố liên quan đến luận văn 49 Tài liệu tham khảo 50 Phụ lục 54 iii Danh sách bảng 1.1 Kết phân tích cú pháp phụ thuộc hai mô hình cho hệ thống CoNLL-X (Buchholz Marsi 2006) 1.2 Các đặc trưng dùng MSTParser 10 1.3 Các đặc trưng dùng MaltParser 14 1.4 Ví dụ phân tích cú pháp dựa vào bước chuyển 15 2.1 Tập nhãn từ loại tiếng Việt 18 2.2 Tập nhãn cụm từ tiếng Việt 19 2.3 Tập nhãn mệnh đề tiếng Việt 19 2.4 Tập nhãn chức cú pháp tiếng Việt 20 2.5 So sánh tập nhãn phụ thuộc tiếng Việt với tập nhãn phụ thuộc đa ngôn ngữ (UD) tập nhãn phụ thuộc tiếng Anh (SD) 32 3.1 Kết MSTParser 35 3.2 Kết MaltParser 39 3.3 Tập quy tắc xác định phần tử trung tâm 40 3.4 Câu tiếng Việt theo định dạng CoNLL-X chưa phân tích 45 3.5 Câu tiếng Việt theo định dạng CoNLL-X phân tích phụ thuộc 46 3.6 Kết phân tích cú pháp phụ thuộc với tập liệu 2700 46 3.7 Kết phân tích cú pháp phụ thuộc với tập liệu 6546 câu 47 iv Danh sách hình vẽ 1.1 Cấu trúc cụm từ 1.2 Đồ thị phụ thuộc câu tiếng Anh 1.3 Ví dụ phân tích cú pháp dựa đồ thị 11 3.1 Cú pháp thành phần câu tiếng Việt 41 v Lời mở đầu Xử lí ngôn ngữ tự nhiên (Natural Language Processing - NLP) nhánh trí tuệ nhân tạo, tập trung ứng dụng nhằm giúp hệ thống máy tính hiểu xử lí ngôn ngữ người Xử lí ngôn ngữ tự nhiên vấn đề khó thu hút nhiều nhóm nghiên cứu liên quan đến việc phải hiểu ý nghĩa ngôn ngữ - công cụ hoàn hảo tư giao tiếp Phân tích cú pháp vấn đề quan trọng lĩnh vực xử lí ngôn ngữ tự nhiên Với phân tích cú pháp tốt, tích hợp vào nhiều ứng dụng xử lí ngôn ngữ tự nhiên dịch máy, tóm tắt văn bản, hệ thống hỏi đáp, trích chọn thông tin, để tăng tính xác ứng dụng Trong phân tích cú pháp, phân tích cú pháp phụ thuộc nghiên cứu phụ thuộc từ câu dựa ngữ nghĩa Gần đây, phân tích cú pháp phụ thuộc thu hút quan tâm nhiều nhóm nghiên cứu ngôn ngữ tự nhiên giới quan hệ phụ thuộc hai từ câu nghiên cứu khử nhập nhằng ngữ nghĩa câu cú pháp có khả mô hình hóa ngôn ngữ có trật tự từ tự Đối với nhiều ngôn ngữ tiếng Anh, tiếng Pháp, tiếng Trung, có nhiều nghiên cứu công cụ phân tích cú pháp phụ thuộc với hiệu cao Tuy nhiên, tiếp cận cho toán hầu hết dựa học máy đòi hỏi kho ngữ liệu với nhiều thông tin từ loại quan hệ phụ thuộc nên có công bố nghiên cứu phân tích cú pháp phụ thuộc tiếng Việt Hiện nay, công cụ phân tích cú pháp phụ thuộc cho tiếng Việt đạt số kết định Nhóm tác giả Nguyễn Lê Minh cộng [1] sử dụng thuật toán phân tích cú pháp dựa vào đồ thị, thực nghiệm với công cụ MSTParser liệu hạn chế gồm 450 câu làm tay với độ xác 63.11% Nhóm tác giả Lê Hồng Phương cộng [20] nghiên cứu phân tích cú pháp phụ thuộc dựa vào văn phạm kết nối từ vựng hóa, thực nghiệm huấn luyện với 8637 câu kho ngữ liệu cú pháp thành phần tiếng Việt, phân tích 441 câu có độ dài nhỏ 30 từ đạt độ xác 73.21% Gần công bố nhóm nghiên cứu tác giả Nguyễn Quốc Đạt cộng [7], tác giả chuyển tự động kho ngữ liệu cú pháp thành phần sang kho ngữ liệu cú pháp phụ thuộc, với tập 33 nhãn quan hệ phụ thuộc với độ xác 71.66% Tuy nhiên, hầu hết nghiên cứu tiếng Việt chưa thống tập nhãn phụ thuộc, nhãn phụ thuộc chưa mô tả cách rõ ràng hiệu phân tích hạn chế Luận văn trình bày vấn đề phân tích cú pháp phụ thuộc, tập trung vào việc xây dựng tập nhãn phụ thuộc cho tiếng Việt thử nghiệm hai công cụ phân tích cú pháp MaltParser MSTParser Nội dung luận văn gồm có chương: • Chương Tổng quan: Chương trình bày vấn đề liên quan tới cú pháp phụ thuộc, khái niệm phân tích cú pháp phụ thuộc Và số thuật toán phân tích cú pháp phụ thuộc tốt • Chương Xây dựng tập nhãn phụ thuộc cho tiếng Việt: Chương trình bày việc nghiên cứu xây dựng tập nhãn phụ thuộc cho tiếng Việt có đối sánh với tập nhãn phụ thuộc đa ngôn ngữ nhóm nghiên cứu trường Đại học Stanford Ngoài ra, Chương so sánh khác hai nhãn để thấy đặc trưng tiếng Việt • Chương 3: Thực nghiệm: Chương trình bày số công cụ phân tích cú pháp phụ thuộc hiệu nay: MSTParser MaltParser Tiếp theo thuật toán chuyển tự động từ kho ngữ liệu cú pháp thành phần Viettreebank sang kho ngữ liệu cú pháp phụ thuộc Tiến hành thực nghiệm phân tích cú pháp phụ thuộc cho tiếng Việt với hai công cụ trên, sau so sánh kết đạt tập liệu khác đưa kết luận Chương Tổng quan cú pháp phụ thuộc Chương trình bày kiến thức sở sử dụng phần sau, đặc biệt khái niệm liên quan tới phân tích cú pháp phụ thuộc thuật toán phân tích cú pháp phụ thuộc điển hình 1.1 Cú pháp phụ thuộc Cú pháp chủ đề nghiên cứu hai cộng đồng gồm người làm ngôn ngữ người làm tin học Cú pháp vừa đối tượng nghiên cứu, vừa cấp độ cần mô tả cộng đồng người làm ngôn ngữ Đối với cộng đồng người làm tin học, cần làm cho máy tính phân tích cú pháp với hai mục tiêu xây dựng ứng dụng, giải số toán thực tế, đối tượng nghiên cứu họ hệ hình thức thuật toán 1.1.1 Định nghĩa cú pháp phụ thuộc Kiến thức ví dụ phần trình bày theo tài liệu tác giả Joakim Nivre Johan Hall cộng [9] Cú pháp quy tắc dùng tiếng để đặt câu văn cho xác Để sử dụng ngôn ngữ linh hoạt, ta phải hiểu rõ cú pháp Muốn hiểu rõ cú pháp, ta phải hiểu câu, loại câu, mệnh đề, loại mệnh đề, cấu trúc chúng Với câu có hai cách phân tích cú pháp: phân tích cú pháp thành root csubj nsubj Anh pmod nói neg không punct • Gió thổi mạnh làm đổ cối → csubj(làm, thổi) • Phụ nữ viết tiểu thuyết trở thành tượng → csubj(trở thành, viết) dep: phụ thuộc Quan hệ phụ thuộc quan hệ tổng quát, sử dụng ta xác định quan hệ cụ thể từ câu det: hạn định Hạn định quan hệ từ cụm danh từ với từ hạn định Trong tiếng Việt, từ hạn định hay gặp "những", "các", "mọi", "cả", "tất cả" • Mưa ngày → det(ngày, cả) root punct nsubj Trời tmod mưa det ngày predet: hạn định đứng đầu câu Hạn định quan hệ từ cụm danh từ với từ hạn định Các từ hạn định đứng đầu câu • Tất mèo đen đẹp → det(con, những); predet(con, tất cả) nsubj predet det Tất_cả root pmod amod advmodb advmodb nc mèo đen 60 punct đẹp 10 dobj: bổ ngữ trực tiếp Bổ ngữ trực tiếp cụm động từ thường cụm danh từ • Nó đạt giải nhì → dobj(đạt, giải) root punct psubj Nó dobj đạt num giải nhì • Nam ăn cháo → dobj(ăn, cháo) root nsubj advmodt Nam punct dobj ăn cháo • Hoa sinh viên → dobj(là, sinh viên) • Nam tặng cô hoa → dobj(tặng, hoa) iobj: bổ ngữ gián tiếp Bổ ngữ gián tiếp cụm động từ thường đại từ danh từ làm bổ ngữ tặng cách Bổ ngữ gián tiếp thường trả lời cho câu hỏi đại từ: Ai? Người nào? (whom) Chú ý quan hệ sử dụng giới từ • Nam tặng cô hoa punct dobj root nsubj Nam iobj tặng pmod cô hoa Trong trường hợp có giới từ ta sử dụng quan hệ dobj, prep pobj • Hiến đất cho làng → dobj(hiến, đất); prep(hiến, cho); pobj(cho, làng) 61 mark: đánh dấu Từ đánh dấu từ giới thiệu mệnh đề phụ mệnh đề chính, tiếng Việt thường từ "rằng", "là", "mà", "nơi" Quan hệ đánh dấu liên kết từ mệnh đề phụ với từ đánh dấu • Cô nói anh thích chơi → mark(thích, rằng) punct root ccomp mark nsubj pmod Cô nsubj nói anh vv thích dobj chơi • Anh nói em thích kem → mark(thích, rằng) • Cô nói ngày mai đến → mark(đến, là) neg: phủ định Mô tả mối quan hệ phủ định từ (động từ tính từ) từ diễn đạt ý nghĩa phủ định Trong tiếng Việt, hai từ hay dùng để diễn đạt ý phủ định “không” “chẳng” • Anh không tới → neg(tới, không) root nsubj neg Anh không punct tới • Hoa không chăm → neg(chăm chỉ, không) • Nó chẳng thiết → neg(thiết, chẳng) nc: bổ nghĩa danh từ cho danh từ loại Quan hệ nc biểu diễn mối liên hệ danh từ loại với danh từ chung, danh từ chung bổ nghĩa cho danh từ loại Các danh từ loại đứng trước danh từ chung, ví dụ “cái”, “con” Chú ý từ cụm danh từ danh từ loại • Hai mèo đen ăn cá → nc(con, mèo) 62 nsubj root amod num Hai nc punct dobj advmodt mèo đen ăn cá • Những cam vàng → nc(quả, cam) nn: bổ nghĩa danh từ Mô tả quan hệ bổ nghĩa danh từ với danh từ phụ Trong tiếng Việt, cụm có hai danh từ danh từ thường đứng trước danh từ phụ (ngược với tiếng Anh, danh từ nằm bên phải cùng, ví dụ the phone book, oil prices) • Sổ điện thoại bàn → nn(sổ, điện thoại) root nsubj nn Sổ advmodt điện_thoại punct prep pobj bàn • bàn máy tính → nn(bàn, máy tính) • người nhện → nn(người, nhện) nsubj: chủ ngữ danh từ Chủ ngữ danh từ cụm danh từ đại từ làm chủ ngữ mệnh đề Từ quan hệ thường động từ tính từ • Bông hoa tươi → nsubj(tươi, bông) root nsubj nc Bông advmodb hoa tươi • Liêm đánh bại Sơn → nsubj(đánh bại, Liêm) 63 punct • Biển lặng → nsubj(lặng, biển) • Trang mờ → nsubj(mờ, trang) num: bổ từ số lượng Bổ từ số lượng danh từ cụm số bổ nghĩa cho danh từ Danh từ thường có kiểu Nc Nu • Hoa ăn que kem → num(que, 3) punct root dobj num nsubj Hoa ăn 3 nc que kem • Có mèo → num(con, 2) • Nó nhận triệu đồng → num(triệu, 5) number: thành phần số từ Mô tả quan hệ thành phần cụm số từ số lượng tiền Từ thường đơn vị tiền tệ (đồng, USD ) • Nó nhận triệu đồng → number(đồng, triệu) punct dobj root psubj Nó nhận num number triệu đồng parataxis: thành phần đẳng lập Quan hệ đẳng lập quan hệ vị từ mệnh đề thành phần khác câu, ví dụ phần ngoặc đơn, mệnh đề sau dấu chấm phảy (;), dấu hai chấm (:), hai câu song song • Gã đó, anh nói, → parataxis(đi, nói) 64 nsubj parataxis punct pmod Gã nsubj , anh punct advmodt advmoda punct nói root , 10 Các thành phần đẳng lập thường nằm câu phức đẳng lập, loại câu phức, mệnh đề liên kết với quan hệ bình đẳng Loại câu nhận biết nhờ hai dấu hiệu hình thức Liên từ liên hợp: như, và, nhưng, song, rồi, còn, hay [là], [là], mà, vả [lại], [là] [là]; quãng nghỉ nói, dấu ngắt mệnh đề (dấu phảy, dấu hai chấm) viết Để thiết lập loại câu này, người ta thường dựa vào số quan hệ Dưới quan hệ phổ biến: • Quan hệ liệt kê/nối tiếp Ví dụ: – Mắt nhìn xuống mũi, mũi nhìn xuống miệng, miệng bịu – Nó kêu, la, rên, khóc, giả giãy chết, nằm lăn ăn vạ • Quan hệ giải thích Ví dụ: – Nết làm việc: cô đưa hàng buổi sớm, cô đến quan, cô dạy học – Tôi đùa chơi chứ, anh tưởng mê Dung à? • Quan hệ bổ sung Ví dụ: – Dung khóc, không dám nói – Thôi, nhức đầu bị búa bổ, chóng mặt – Tôi không nói, mà anh không nói 65 • Quan hệ tương phản/nhượng Ví dụ: – Người đàn bà run cầm cập, thầy đồ thản nhiên không – Cà có nhiều loại, vị không khác • Quan hệ lựa chọn/so sánh Ví dụ: – Tôi hay anh đi? – Nó nghiện mùi xăng người ta nghiện ma túy pcomp: bổ trợ giới từ Quan hệ sử dụng bổ ngữ giới từ động từ mệnh đề • Đi học để mở mang kiến thức → pcomp(để, mở mang) punct root prep vv Đi pcomp học để dobj mở_mang kiến_thức • nhằm phát triển đội ngũ → pcomp(nhằm, phát triển) • Bởi anh chăm việc canh nông Cho nên có bồ bịch → pcomp(bởi, chăm) pobj: bổ ngữ giới từ Bổ ngữ giới từ từ cụm danh từ sau giới từ • Tôi ngồi ghế → pobj(trên, ghế) root psubj Tôi punct prep ngồi pobj ghế • Bị trói buộc tập quán cũ → pobj(bởi, tập quán) 66 • Hỏng việc hấp tấp → pobj(do, hấp tấp) • Nói chuyện với sếp → pobj(với, sếp) • Chuyển hàng xuống thuyền → pobj(xuống, thuyền) • Tôi với anh lên thành phố → pobj(với, anh); pobj(lên, thành phố) pmod: đại từ định Quan hệ đại từ định mô tả phụ thuộc danh từ với đại từ định tiếng Việt, ví dụ “ấy”, “kia”, “này”, “đó”, “bây giờ” • Anh cao → pmod(anh, này) root nsubj pmod Anh advmodb punct cao • Hai mèo đen → pmod(con, ấy) • Mùa thu qua → pmod(mùa thu, đó) • Nơi đâu → pmod(nơi,đâu) prep: bổ nghĩa giới từ Quan hệ bổ nghĩa giới từ mô tả liên hệ cụm giới từ với động từ, tính từ, danh từ giới từ • Anh xúc cát xẻng → prep(xúc, bằng) punct root prep nsubj Anh dobj xúc pobj cát xẻng • Tôi nhìn thấy chuột gầm bàn → prep(chuột, trong) • Nam nhận trách nhiệm việc → prep(trách nhiệm, về) 67 • Nó tay → prep(đi, bằng) psubj: chủ ngữ đại từ Quan hệ psubj mô tả phụ thuộc từ chủ ngữ đại từ Ví dụ: • Tôi học → psubj(đi, tôi) root punct psubj Tôi vv học • Đó chuyện lạ → psubj(là, đó) punct: dấu câu Quan hệ mô tả phụ thuộc từ dấu câu • Vào chuồng! → punct(vào, !) root punct dobj Vào chuồng ! • Đi chứ? → punct(đi, ?) question: từ để hỏi Quan hệ mô tả phụ thuộc từ từ để hỏi, thường “sao”, “tại sao”, “vì sao” • Sao người dân phải gánh chịu hậu → question(phải, sao) question nsubj nc Sao người dân root punct dobj vv phải gánh_chịu hậu_quả ? quantmod: bổ ngữ số lượng ước lượng Bổ sung nghĩa cho số từ không tuyệt đối Tiếng Việt thường sử dụng “khoảng”, “gần”, “xấp xỉ”, “chừng”, “gần_đến”, “quãng”, “hơn” 68 • Gần 200 người tham gia → quantmod(200, Gần) root quantmod num Gần 200 nsubj người punct tham_gia • Nhóm gồm khoảng 10 người → quantmod(10, khoảng) rcmod: bổ nghĩa mệnh đề quan hệ Bổ nghĩa mệnh đề quan hệ cụm danh từ (NP) Quan hệ mối quan hệ từ trung tâm cụm danh từ với từ trung tâm mệnh đề quan hệ (thường động từ) • Tôi thấy người đàn ông bạn yêu → rcmod(người, yêu) punct ccomp rcmod root ref psubj Tôi nc thấy người nsubj đàn_ông mà bạn yêu ref: tham chiếu Tham chiếu cụm danh từ từ quan hệ liên kết mệnh đề quan hệ bổ nghĩa cho cụm danh từ Từ quan hệ tiếng Việt đại từ “mà” • Tôi nhìn thấy sách mà bạn mua → ref(cuốn, mà) punct ccomp rcmod root ref psubj Tôi nc thấy nsubj sách mà bạn • Người mà anh nói đến bố → ref(người, mà) 69 mua Chú ý từ “mà” liên từ trợ từ Trong trường hợp từ tham chiếu Khi sử dụng liên từ, từ “mà” diễn đạt loại ý nghĩa sau: Liên từ biểu thị kết quả: Biết tay ăn mặn chừa, đừng trêu mẹ mướp mà xơ có ngày; Non đắp mà cao, sông kia, biển đào mà sâu Liên từ biểu thị mục đích: Trèo lên trái núi mà coi, có bà quản tượng cưỡi voi bành vàng Liên từ biểu thị giả thiết: Anh mà đến sớm gặp chị Còn sử dụng làm trợ từ, từ “mà” thường đặt cuối câu để nhấn mạnh: Đã bảo!; Anh tin làm mà! root: gốc Quan hệ ngữ pháp gốc trỏ tới từ câu Ta dùng nút giả có tên ROOT để làm từ Từ ROOT đánh số 0, từ câu đánh số • Tôi yêu Mai → root(ROOT, yêu) root punct dobj psubj Tôi yêu Mai • Doanh thu công ty tăng mạnh → root(ROOT, tăng) tmod: bổ ngữ thời gian Bổ ngữ thời gian câu thường cụm danh từ thời gian Trong ngữ pháp, cụm thường gọi trạng từ thời gian • Đêm qua ngủ muộn → tmod(ngủ, đêm_qua) root tmod psubj Đêm_qua 70 punct apredmod ngủ muộn • Ngày mai họ → tmod(đi, ngày mai) • Chuyện 20 năm trước → tmod(năm, chuyện) vcomp: bổ ngữ động từ động từ Quan hệ bổ ngữ động từ động từ sử dụng để định quan hệ động từ động từ phụ • Tôi chuyển tiền nộp học phí → vcomp(chuyển, nộp) punct root vcomp psubj Tôi dobj chuyển dobj tiền nộp học_phí • có vốn mở sở → vcomp(có, mở) • tăng vốn làm ăn → vcomp(tăng, làm ăn) Quan hệ vcomp sử dụng ví dụ sau: • Anh cho bò ăn → vcomp(cho, ăn) root punct vcomp dobj nsubj Anh cho bò ăn • Tôi cho mượn tiền → vcomp(cho, mượn) • Anh cho học hết lớp 12 → vcomp(cho, học) vmod: bổ ngữ động từ danh từ Quan hệ bổ ngữ động từ cụm danh từ dùng để mô tả mối quan hệ danh từ động từ cụm danh từ • Thợ sửa tivi đến → vmod(thợ, sửa) 71 nsubj vmod Thợ root dobj sửa advmodt tivi punct đến • Cô giáo dạy THCS chuyển → vmod(cô giáo, dạy) • Năm đổi → vmod(năm, đổi mới) vnom: danh từ hóa động từ Động từ danh từ hóa từ loại đứng trước Ví dụ “cái”, “sự”, “việc” • Cái ăn khan quá! → vnom(cái, ăn) root nsubj punct advmoda vnom Cái ăn khan_hiếm ! • Sự học ngày phát triển quê hương → vnom(sự, học) vsubj: chủ ngữ động từ Quan hệ vsubj mô tả tượng động từ làm chủ ngữ Trong tiếng Việt, chủ ngữ thường danh từ, nhiên có số trường hợp tính từ, động từ, cụm chủ-vị làm chủ ngữ • Học tập nhiệm vụ → vsubj(là, học tập) root vsubj Học_tập punct dobj amod nhiệm_vụ • Nói chuyện với họ chán → vsubj(chán phè, Nói chuyện) 72 • Viết tiểu thuyết trở thành hẳn nghề riêng → vsubj(trở thành, viết) vv: bổ ngữ động từ vị từ Quan hệ vv mô tả quan hệ bổ nghĩa động từ vị từ Các động từ ý chí, định, yêu thích • Tôi thích ăn thịt → vv(thích, ăn) root punct dobj psubj Tôi vv thích ăn thịt • Tôi phải → vv(phải, đi) nsubjpass: chủ ngữ danh từ bị động Chủ ngữ danh từ bị động cụm danh từ đại từ làm chủ ngữ bị động mệnh đề Từ diễn đạt ý nghĩa bị động tiếng Việt thường “bị” “được” Từ quan hệ thường động từ, tính từ danh từ Nếu từ tính từ bỏ từ diễn đạt ý nghĩa bị động đi; trường hợp ta sử dụng phụ thuộc nsubj thay cho phụ thuộc nsubjpass, nhiên để quán, ta sử dụng nsubjpass • Nó bị đánh → nsubjpass(đánh, nó) • Y bị trục xuất → nsubjpass(trục xuất, y) • Lan khen → nsubjpass(khen, Lan) • Trang [bị] mờ → nsubjpass(mờ, trang) • Tèo bị điểm → nsubjpass(điểm, Tèo) xsubj: chủ ngữ kiểm soát Quan hệ xsubj mô tả quan hệ chủ ngữ câu vị từ (là từ vv) • Tôi thích ăn thịt → xsubj(ăn, tôi) • Tôi phải → xsubj(đi, tôi) 73 Hướng dẫn sử dụng MaltParser Thông tin chi tiết MaltParser viết trang http://www.maltparser.org [27] • Công cụ MaltParser viết ngôn ngữ Java, yêu cầu cài đặt JDK 1.6 trở lên cho máy tính • Tải MaltParser 1.7.1 giải nén Chế độ huấn luyện: Để huấn luyện mô hình, ta sử dụng câu lệnh: java -jar malt.jar -c vi.mco -i examples/data/training_data.conll -m learn Chế độ phân tích: Để phân tích câu hoàn toàn mới, sử dụng cấu hình vi.mco vừa tạo ra, ta sử dụng câu lệnh: java -jar malt.jar -c vi.mco -i examples/data/test_data.conll -o output.conll -m parse Kết trình phân tích cú pháp phụ thuộc file output.conll Hướng dẫn sử dụng MSTParser MSTParser chương trình viết Java Yêu cầu cài đặt JDK 1.4 trở lên chạy với JDK 1.4 1.5 tốt Yêu cầu tải thư viện: trove.jar để hỗ trợ cho chương trình Có thể tải phiên MSTParser máy, tích hợp vào Eclipse chạy kiểu Run configuration với câu lệnh sau: Chế độ huấn luyện train train-file:data\dulieuMSTParser.txt Chế độ phân tích train train-file:data\dulieuMSTParser.txt test model-name:dep.model testfile:data\testTV.txt output-file:out.txt 74