Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 71 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
71
Dung lượng
873,25 KB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - PHẠM THỊ OANH PHÁT HIỆN QUAN HỆ PHỤ THUỘC GIỮA CÁC MỆNH ĐỀ TRONG CÂU GHÉP Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã đề tài: CNTTVINH13B-08 LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN THỊ THU HƢƠNG Hà Nội – Năm 2015 LỜI CAM ĐOAN Luận văn thạc sỹ em nghiên cứu thực hướng dẫn Cô giáo TS Nguyễn Thị Thu Hƣơng mơn khoa học máy tính Viện công nghệ thông tin truyền thông trường Đại học BKHN Với mục đích học tập, nghiên cứu để nâng cao kiến thức trình độ chun mơn nên em làm luận văn cách nghiêm túc hoàn toàn trung thực Để hoàn thành luận văn này, tài liệu tham khảo liệt kê, em cam đoan khơng chép tồn văn cơng trình thiết kế tốt nghiệp người khác Hà Nội, tháng năm 2015 Học viên Phạm Thị Oanh LỜI CẢM ƠN Trước hết, em xin gửi lời cảm ơn chân thành em tới thầy cô giáo trường Đại học Bách khoa Hà Nội nói chung thầy cô Viện Công nghệ thông tin-truyền thông mơn Khoa học máy tính nói riêng Các thầy, tạo điều kiện cho chúng em có hội học, tận tình giúp đỡ chúng em suốt trình học tập Viện Em xin gửi lời cảm ơn sâu sắc đến cô giáo TS Nguyễn Thị Thu Hương tận tình giúp đỡ, trực tiếp bảo, chỉnh sửa, huớng dẫn em suốt trình làm luận văn Trong thời gian làm việc với Cô, em tiếp thu thêm kiến thức mà học tập tinh thần làm việc, thái độ nghiên cứu khoa học nghiêm túc, hiệu Tôi xin cảm ơn anh, chị, em lớp 13BCNTT-VINH đồng hành giúp đỡ trình học tập làm luận văn Cuối cùng, xin gửi lời cảm ơn chân thành tới gia đình, bạn bè động viên, khuyến khích, chăm sóc, đóng góp ý kiến giúp đỡ trình học tập, nghiên cứu hồn thành luận văn Trân trọng! DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TẮT BNF Backus Naur Form: Công thức siêu ngữ Backus ADJ Annotated Disjunct: Dạng tuyển có giải RST Rhetorical Structure Tree: Cây cấu trúc diễn ngôn CCR Chunks/Constituents/Relation SVO Subject-Verb-Object: Trật tự câu theo kiểu chủ ngữ- động từ- bổ ngữ SVM Support Vector Machine: Máy vectơ hỗ trợ CRF Conditional Random Fields: Trường ngẫu nhiên có điều kiện EDUs Elementary Discourse Unit: Đơn vị diễn ngôn nguyên tố HPSG Head driven Phrase Structure Grammar: Văn phạm cấu trúc đoạn hướng trung tâm BNF Backus Naur Form: Công thức siêu ngữ Backus mở rộng LVSP Đề tài nghiên cứu xử lí tiếng Việt DANH MỤC BẢNG BIỂU Bảng 2.1 Bảng xác định phần tử trung tâm nhóm 27 Bảng 2.2 Bảng danh sách quan hệ .29 Bảng 2.3 Bảng định nghĩa quan hệ chứng 31 Bảng 3.1 Mơ tả ý nghĩa kí hiệu sử dụng biểu thức mô tả dấu hiệu diễn ngôn 47 Bảng 3.2 Một số dấu hiệu diễn ngôn thường gặp .47 Bảng 3.3 Liệt kê số quan hệ để xây dựng quan hệ diễn ngôn dựa vào dấu hiệu diễn ngôn 48 Bảng 3.4 Thuật tốn tìm quan hệ diễn ngơn giả thiết 50 Bảng 4.1 Bảng kết .59 DANH MỤC HÌNH VẼ Hình 1.1 Lược đồ cấu trúc kiểu câu phức Hình 1.2 Cây ngữ cấu câu “Bò vàng gặm cỏ non” Hình 1.3 Cây ngữ cấu “Họ không chuyển hàng xuống thuyền vào ngày mai” 10 Hình 1.4 Văn phạm phi ngữ cảnh xác suất ngữ cấu câu 13 Hình 1.5 Phân tích câu văn phạm phụ thuộc 15 Hình 2.1 Phân tích câu “John loves a woman” mơ hình văn phạm phụ thuộc 20 Hình 2.2 Đồ thị phụ thuộc câu “Economic news had little effect on financial market” 21 Hình 2.3 Năm kiểu sơ đồ sử dụng RST [Mann & Thompson] .32 Hình 3.1 Liên kết đơn vị 52 Hình 3.2 Xây dựng RST 53 Hình 4.1 Giao diện chương trình .58 Hình 4.2 Giao diện tách từ .59 MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC BẢNG BIỂU DANH MỤC HÌNH VẼ MỤC LỤC MỞ ĐẦU CHƢƠNG 1: VẤN ĐỀ PHÂN TÍCH CÚ PHÁP CÂU NHIỀU MỆNH ĐỀ 1.1 Phân loại câu ngôn ngữ .3 1.1.1 Tiếng Anh 1.1.2 Tiếng Việt 1.2 Các mơ hình biểu diễn cú pháp .7 1.2.1 Cách tiếp cận cấu trúc 1.2.2 Cách tiếp cận phụ thuộc (Dependency grammar) 15 1.3 Phân tích câu nhiều mệnh đề 16 1.3.1 Phương pháp dựa từ gợi ý quan hệ diễn ngôn mức câu 17 1.3.2 Phương pháp học máy 17 CHƢƠNG TỔNG QUAN VỀ MƠ HÌNH CÚ PHÁP PHỤ THUỘC .19 2.1 Mơ hình văn phạm phụ thuộc 19 2.1.1 Khái niệm 19 2.1.2 Đặc điểm mơ hình phụ thuộc .22 2.1.3 Bộ phân tích cú pháp phụ thuộc .23 2.1.4 Bộ phân tích cú pháp phụ thuộc cho Tiếng Việt 26 2.2 Mối quan hệ phụ thuộc mệnh đề 31 2.2.1 Quan hệ diễn ngôn mệnh đề 31 2.2.2 Định nghĩa quan hệ phụ thuộc dựa quan hệ diễn ngôn .33 CHƢƠNG PHÂN TÁCH MỆNH ĐỀ TRONG CÂU GHÉP TIẾNG VIỆT 38 3.1 Quan hệ diễn ngôn mệnh đề tiếng Việt 38 3.1.1 Quan hệ liệt kê 38 3.1.2 Quan hệ kết hợp 38 3.1.3 Quan hệ đối chiếu 40 3.1.4 Quan hệ đối lập 40 3.1.5 Quan hệ nguyên nhân .41 3.1.6 Quan hệ điều kiện .42 3.1.7 Quan hệ mục đích .43 3.1.8 Quan hệ nhượng 44 3.2 Phân tách mệnh đề dựa quan hệ diễn ngôn .44 3.2.1 Xác định dấu hiệu diễn ngôn tiềm tàng 46 3.2.2 Từ dấu hiệu diễn ngôn giả thiết quan hệ diễn ngôn 48 3.2.3 Xây dựng RST cho câu 52 CHƢƠNG THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QỦA 56 4.1 Công cụ thử nghiệm 56 4.2 Kết đạt .58 4.3 Những tồn hướng phát triển 60 KẾT LUẬN 61 TÀI LIỆU THAM KHẢO 62 MỞ ĐẦU Lý chọn đề tài Với bùng nổ thơng tin, nhu cầu tìm kiếm, dịch máy, tóm tắt văn bản,… người dùng ngày cao phức tạp Các mơ hình cú pháp đóng vai trị tích cực việc nâng cao chất lượng xử lý ngơn ngữ tự nhiên Mơ hình phụ thuộc mơ hình nghiên cứu Việt nam có vài kết ban đầu việc xây dựng văn phạm, phân tích câu đơn Trong câu ghép câu phức chiếm tỷ lệ lớn văn tiếng Việt Việc tách mệnh đề câu ghép để phân tích nâng cao đáng kể độ xác phân tích Đề tài Phát quan hệ phụ thuộc mệnh đề câu ghép mang đến đóng góp nhỏ bé hiệu cho xử lý tiếng Việt Mục đích nghiên cứu luận văn - Nắm vững kiến thức liên quan đến xử lý ngôn ngữ tự nhiên, bao gồm: mơ hình biểu diễn cú pháp, mơ hình phụ thuộc, - Thử nghiệm phân tách mệnh đề dựa dấu hiệu diễn ngôn mức câu thiết lập mối quan hệ phụ thuộc mệnh đề Phạm vi nghiên cứu Luận văn tập trung nghiên cứu phân tích cú pháp câu nhiều mệnh đề, mơ hình văn phạm phụ thuộc, phân tách mệnh đề câu ghép Tiếng Việt Nội dung luận văn gồm có phần mở đầu, chương, phần kết luận, tài liệu tham khảo phụ lục Chƣơng Vấn đề phân tích cú pháp câu nhiều mệnh đề Chương trình bày: Phân loại câu ngơn ngữ tiếng Anh tiếng Việt; mơ hình biểu diễn cú pháp: văn phạm phi ngữ cảnh, văn phạm phụ thuộc, số mơ hình khác; phân tích câu nhiều mệnh đề tiếng Anh: phân tích theo mơ hình phi ngữ cảnh, phân tích theo mơ hình phụ thuộc; phương pháp phân tách mệnh đề tiếng Anh: phương pháp dựa từ gợi ý quan hệ diễn ngôn mức câu, phương pháp học máy Chƣơng Tổng quan mơ hình cú pháp phụ thuộc Chương trình bày: Mơ hình văn phạm phụ thuộc: Khái niệm bản, đặc điểm mơ hình phụ thuộc, phân tích cú pháp phụ thuộc; mối quan hệ phụ thuộc mệnh đề: khái niệm mệnh đề, quan hệ diễn ngôn mệnh đề, định nghĩa quan hệ phụ thuộc dựa quan hệ diễn ngôn Chƣơng Phân tách mệnh đề câu ghép tiếng Việt Chương trình bày: Quan hệ diễn ngơn mệnh đề tiếng Việt: quan hệ liệt kê, quan hệ kết hợp, quan hệ đối chiếu, quan hệ đối lập, quan hệ nguyên nhân, quan hệ điều kiện, quan hệ mục đích, quan hệ nhượng bộ, quan hệ khác; phân tách mệnh đề dựa quan hệ diễn ngôn: xác định dấu hiệu diễn ngôn tiềm tàng, từ dấu hiệu diễn ngôn giả thiết quan hệ diễn ngôn, xây dựng RST cho câu Chƣơng Thử nghiệm đánh giá kết Chương trình bày: Công cụ thử nghiệm, kết đạt được, tồn hướng phát triển 2 Liên kết: Với quan hệ diễn ngơn tương ứng, liên kết với thành phần đơn vị văn Ở có thuộc tính T S, tương ứng với quan hệ diễn ngôn liên kết với thành phần đứng TRƯỚC SAU Kiểu đơn vị: Kiểu đơn vị liên kết, C Clause (Mệnh đề), S Sentence (Câu) Tên quan hệ: Tên gắn cho quan hệ tương ứng với dấu hiệu nhận biết Max dist: Số lượng đơn vị nhiều mức mà xuất quan hệ diễn ngôn với đơn vị Dist Sal: Khoảng cách tới đơn vị vệ tinh Ví dụ, với từ gợi ý “mặc dù” có tập thuộc tính: tập {SATELLITE NUCLEUS, SAU, CLAUSE, CONCESSION, 1, -1}, có nghĩa dấu hiệu cho quan hệ diễn ngôn tên: CONCESSION đơn vị mệnh đề, đơn vị Vệ tinh, sau Hạt nhân Đơn vị mệnh đề chứa từ gợi ý liên kết SAU với đơn vị khác chứa dấu hiệu Số lượng lớn đơn vị tựa mệnh đề chia làm mệnh đề liên hệ “mặc dù” Và khơng có trường hợp, văn mà quan hệ CONCESSION xác định “mặc dù” mệnh đề đứng trước mệnh đề đứng sau (Dist sal = -1) Sau xác định đầy đủ quan hệ diễn ngôn từ dấu hiêu, ta mơ tả thuật tốn liệt kê quan hệ diễn ngôn từ dấu hiệu diễn ngôn sau: Đầu vào: Dãy U[n] đơn vị văn Tập Dd dấu hiệu diễn ngôn xuất U Đầu ra: Danh sách RRd giả thuyết quan hệ khác biệt đơn vị U RRd:=NULL; for i from to n for dấu hiệu m Dd có mặt U[i] mối liên hệ có kiểu U if Where_to_link(m)=BEFORE 49 rr:=NULL; l:=i-1; while (l ≥ ^ i-1 ≤ Maximal_distance(m)) r:=i while (r ≤ n^r-i ≤ Distance_to_salient_unit(m)+1) 10 if (Statuses(m)=SATELLITE_NUCLEUS) rr:=rr rhet_rhel(name(d),l,r); 11 12 else rr+=rr rhet_rhel(name(d),r,l); 13 14 15 16 r:=r+1; l:=l-1; else 17 rr:=NULL; 18 r:=i+1; 19 while (r ≤ n ^ r-i ≤ Maximal_distance(m)) 20 l:=i; 21 while (l ≥ 0^i-l ≤ Distance-to_salient_unit(m)+1) 22 if (Statuses(m)=SATELLITE_NUCLEUS) rr:=rr rhet_rhel(name(d),l,r); 23 24 else rr:=rr rhet_rhel(name(d),r,l); 25 26 l:=l-1; 27 28 r:=r+1; endif 29 RRd:=RRd {rr} 30 endfor endfor Bảng 3.4 Thuật toán tìm quan hệ diễn ngơn giả thiết 50 Giải thích biến hàm thuật tốn: Statuses xác định trạng thái diễn ngôn đơn vị liên kết dấu hiệu diễn ngôn Giá trị đặc tính {SATELLITE_NUCLEUS, NUCLEUS_SETELLITE NUCLEUS_NUCLEUS} Rhet_rel xác định tên quan hệ diễn ngôn có nhận cụm gợi ý Giá trị đặc tính liệt kê trường Rhetorical relation sở liệu Maximal_distance xác định số lượng lớn đơn vị loại tìm thấy đơn vị văn bản, đơn vị có quan hệ diễn ngơn Giá trị đặc tính cho giá trị lớn trường Clause distance đơn vị liên quan đơn vị tựa mệnh đề giá trị lớn trường Sentence distance đơn vị liên quan câu Giá trị đơn vị liên quan kề tất thể tập văn Distance_to_salient_unit khoảng cách tới vệ tinh đơn vị xác định Tại mức cốt lõi (Câu, Đoạn, Mục), thuật tốn tìm quan hệ diễn ngơn từ dấu hiệu diễn ngôn lặp lại mức ngang cấp dấu hiệu diễn ngơn mà có quan hệ với mức Với dấu hiệu diễn ngơn, thuật toán xây dựng giả thuyết khác quan hệ diễn ngơn Đầu thuật tốn mô tả bảng 3.4 danh sách tất quan hệ diễn ngơn, có dạng sau: 3.4 Rhet_rel(NAME, i, i-1) … Rhet_rel(NAME, i, i – max(m)) Rhet_rel(NAME, i+1, i-1) … Rhet_rel(NAME, i+1, i-max(m)) Rhet_rel(NAME, i + Dist_sal(m)+1, i-1) … Rhet_rel(NAME, i + Dist_sal(m), i-max(m)) 51 Ví dụ: Giả sử thuật toán xử lý thành phần thứ i n thành phần giả thiết thành phần thứ i có chứa dấu hiệu diễn ngơn mà dẫn tới quan hệ diễn ngơn với đơn vị trước quan hệ mà vệ tinh (S) theo sau hạt nhân (N) Có thể mơ tả q trình xem xét cặp mà thuật toán xét quan hệ chúng: i - Maximum_distance(m) i-1 i i + Distance_to_salient_unit(m) + Hình 3.1 Liên kết đơn vị Về chất, giả thuyết khác liệt kê quan hệ loại name thông qua thành viên tích đề-các {i,i+1,….,i+Distance_to_salient_unit(m)} x {i-Maximum_distance(m),i-Maximum_distance(m)+1,…i-1}, ví dụ tất cặp đơn vị chia đường mờ đơn vị i i - hình Các giả thuyết khác sinh giải thuật phép Xor quan hệ diễn ngôn nhận dấu hiệu sử dụng nhiều lần xây dựng cấu trúc văn có giá trị 3.2.3 Xây dựng RST cho câu Công thức để xác định trọng số cho câu xác định sau: Phương pháp nối câu lên từ Lá đến gốc, xem mệnh đề lá, Bằng cách này, phân tích diễn ngơn xây dựng bao trùm lên toàn câu Ở bước cuối cùng, cần dựng lên RST với thông tin đầy đủ mơ hình, thành phần Vệ tinh đánh dấu ô nét đứt, thành phần Hạt nhân 52 đánh dấu nét liền Có dấu mũi tên từ Vệ tinh sang Hạt nhân nút gốc Vệ tinh, Hạt nhân tên quan hệ đơn vị tương ứng Kết tốn có dạng: S(1 ,4 ,Tree(Hạt nhân, Nguyên nhân, {2}, Tree(Hạt nhân, Bằng chứng {3}, Tree(Vệ tinh, lá, {1} , NULL , NULL) Tree(Hạt nhân, Liệt kê, {3} Tree(Hạt nhân, Lá, {2}, NULL, NULL), Tree(Hạt nhân, Lá, {3}, NULL, NULL)), Tree(Hạt Nhân , , {4} , NULL , NULL))) Ví dụ kết thuật tốn Để dễ hiểu hơn, ta biểu diễn kết dạng cây: 1-4 Status= Hạt Nhân Type= Bằng chứng promotion = 1-3 2-3 Status= Vệ tinh Type= promotion = Status= Hạt Nhân Type= Nguyên Nhân promotion = Status= Hạt Nhân Type= Liệt kê promotion = 3 Status= Hạt nhân Type= promotion = Status= Hạt nhân Type= promotion =3 Hình 3.2 Xây dựng RST 53 Status= Hạt nhân Type= promotion =4 Từ quan hệ diễn ngôn đƣa quan hệ phụ thuộc mệnh đề Sau có phân tích diễn ngôn, ta phải thiết lập quan hệ phụ thuộc Việc thiết lập quan hệ phụ thuộc phải xuât phát từ kết phân tích phụ thuộc cho mệnh đề riêng biệt Luận văn xác lập quan hệ phụ thuộc sau: Liệt kê: Quan hệ liệt kê chuyển thành quan hệ đẳng lập parataxis hai từ trung tâm hai mệnh đề, ví dụ Ví dụ: Tơi học, làm Quan hệ xác lập parataxis (đi -2 , -6) Kết hợp: Quan hệ kết hợp thường đặc trưng từ “và, “còn” nên quan hệ phụ thuộc xác lập từ trung tâm mệnh đề trước với từ nối, ngồi cịn mối quan hệ phụ thuộc từ nối từ trung tâm mệnh đề sau Ví dụ: Thằng lớn cưỡi lên lưng heo béo tai heo cc(cưỡi, và) cc(và, béo) Các quan hệ điều kiện, đối lập, kết quả, nguyên nhân, đối chiêu, nhượng chuyển thành quan hệ phụ thuộc o mark động từ từ liên hệ o ccomp advcl động từ mệnh đề động từ mệnh đề phụ Vì dụ: Nếu trời mưa, tơi khơng học mark(mưa, nếu) ccomp(mưa, học) Ví dụ: Nó kiếm việc tốt học giỏi mark(kiếm,vì) advcl(kiếm, học) 54 Thuật tốn phân tích cú pháp phụ thuộc dựa cấu trúc diễn ngôn Đầu vào : Câu tiếng Việt Đầu : Câu tiếng Việt phân tích dạng văn phạm phụ thuộc (VPPT) Bước 1: Tiến hành thực phân tích diễn ngơn câu đầu vào thuật tốn phân tích diễn ngơn với tiếng Việt nêu Kết sau bước danh sách mệnh đề danh sách quan hệ diễn ngôn mệnh đề phân tách Bước 2: Đưa cấu trúc diễn ngôn câu đầu vào.Việc đưa cấu trúc diễn ngôn cho ta kết phân tích xác tất câu ghép Bước 3: Đối với mệnh đề kết phân tích diễn ngơn bước ta tiến hành thực phân tích VPPT với chúng Kết sau bước mệnh đề phân tích VPPT Bước 4: Tổng hợp kết Kết phân tích VPPT mệnh đề tổng hợp thêm liên kết mệnh đề với nhau, từ có chức diễn ngơn mệnh đề lại dựa quan hệ diễn ngôn thu (bước một) 55 CHƢƠNG THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QỦA 4.1 Công cụ thử nghiệm Môi trường cài đặt Java NetBean 7.0 Dưới thiết kế, cài đặt giải thuật phân tích diễn ngơn tổng hợp kết cuối Gói ptdienngon cài đặt có nhiệm vụ thực nhiệm vụ phân tích diễn ngơn với câu đầu vào Các lớp gói bao gồm : PaserAllField: Các dấu hiệu diễn ngơn mơ tả file XML lớp có nhiệm vụ phân tích liệu từ file XML tạo danh sách dấu hiệu diễn ngôn dùng để nhận biết SignHolder: Dấu hiệu diễn ngôn mà ta thu phân tích câu.Cấu trúc dấu hiệu thu public class SignHolder { public int indextbegin = 0; //Vị trí bắt đầu xuất dấu hiệu câu public int indextend = 0; int position = 0; //Vị trí kết thúc dấu hiệu câu //Vị trí dấu hiệu danh sách dấu hiệu dùng để nhận biết } SeparatePeriod: Có chức thực phân tích diễn ngơn.Các hàm, thủ tục gói bao gồm: public List analyseText(String s): Tìm kiếm dấu hiệu diễn ngôn xuất câu public String markerToRhel(): Từ dấu hiệu diễn ngôn thu đưa quan hệ diễn ngôn mệnh đề public void action (String s, String action, String maker, int actionpost, String pOnClause): Thực hành động tương ứng với hành động dấu diễn ngôn thu s : Câu đầu vào 56 action: Hành động tương ứng với dấu hiệu xét maker: Biểu thức quy mơ tả dấu hiệu diễn ngơn xét actionpost: Vị trí dấu hiệu danh sách dấu hiệu dùng để phát dấu hiệu dấu hiệu diễn ngơn pOnClause: Vị trí dấu hiệu diễn ngơn câu đầu, cuối hay Cấu trúc liệu mô tả quan hệ mệnh đề public class relationship{ public int clause1; // mệnh đề public int clause2; // mệnh đề public String relation; //tên quan hệ diễn ngôn public String Action; // Hành động diễn ngơn kèm } Measurements: Có chức phân tích diễn ngơn câu có chứa liên từ “và" Do nhập nhằng liên từ “và”, “nên” trình bày giải thuật phân tách diễn ngơn bên ta tiến hành phân tích VPPT để xác định hai thành phân có liên kết F đến từ “và” Sau kiểm tra danh sách liên kết hai từ chúng giống ta khẳng định chúng có vai trị tương đương câu lúc từ “và” có chức từ mở rộng nối hai từ lại Ngược lại từ “và” có chức diễn ngơn nối hai mệnh đề Bộ tổng hợp đƣa kết phân tích cuối cùng: Gói ComplexSentence có chức tổng hợp đưa kết phân tích cuối với câu Đầu vào gói kết phân tích diễn ngơn danh sách mệnh đề, danh sách quan hệ diễn ngơn Vì chưa tích hợp với phân tích sinh từ Malt Parser nên chương trình cho phép nhập kết phân tích riêng mệnh đề tay Từ kết phân tích, xác lập quan hệ phụ thuộc 57 4.2 Kết đạt đƣợc Phần trình bày chức chương trình kết phân tích, đối sánh với chương trình phân tích VPPT khơng sử dụng phân tích diễn ngơn Hình 4.1 Giao diện chương trình Bộ tách từ sử dụng nhóm Phan Xuân Hiếu ngữ liệu đầu vào dùng để test số lượng câu khơng phân tích thành cơng kết tách từ sai lớn Ví dụ câu: chim mái ấp trứng chim đực đem thức ăn Kết tách từ: [con][chim][mái][ấp trứng] [trong khi] [con][chim] [đực] [đem] [thức ăn] [về] Ví dụ câu: phim thổi phồng lên kiệt tác, tơi thấy chán 58 Kết tách từ: [bộ] [phim] [đã] [được] [thổi] [phồng] [lên] [là] [một] [kiệt tác], [nhưng] [tôi] [thấy] [nó] [rất] [chán] Để khắc phục điều sau kết tách từ tự động chương trình cho phép người dùng hiệu chỉnh lại kết tách từ Hình 4.2 Giao diện tách từ Hệ thống câu ghép dùng để thực kiểm thử được lấy từ báo, internet liên quan đến nhiều lĩnh vực khác thể thao, xã hội, kinh tế Như nói trên, chưa tích hợp với Malt Parser hệ thống văn phạm phụ thuộc tiếng Việt chưa hồn chỉnh cơng việc luận văn tìm quan hệ phụ thuộc mệnh đề nên nhập kết phân tích riêng mệnh đề tay tích hợp với phân tích diễn ngơn để tạo phân tích tổng thể Sau hình kết câu “Trời…” Với ngữ liệu thử nghiệm, kết có sau: Bộ đầu vào Số lƣợng Sô câu pt câu ghép 10 (70 %) 50 50 (100%) 15 13 (86%) 10 10 (100 %) 14 13(93 %) Bảng 4.1 Bảng kết 59 Lý câu ghép phân tích VPPT có sử dụng phân tích diễn ngơn sai khơng phân tích từ gợi ý khơng phải giới hạn mệnh đề, ví dụ câu “Họ chiến đấu nước, dân”, từ “vì” khơng dấu hiệu diễn ngơn 4.3 Những tồn hƣớng phát triển Qua trình tìm hiểu cú pháp câu ghép tiếng Việt, phương pháp phân tích tiếng Việt VPPT, lý thuyết cấu trúc diễn ngơn Chương trình phân tích câu ghép tiếng Việt VPPT hoàn thành Luận văn góp phần vào việc hồn thiện hệ thống phân tích câu tiếng Việt VPPT Với kết đạt luận văn, đáp ứng yêu cầu đặt ban đầu Các kết đạđược đáng khích lệ song hạn chế thời gian, kinh nghiệm nên chưa thể sản phẩm hồn hảo Kính mong thầy, bạn bảo, đóng góp thêm để hồn thiện nâng tính xác, khả thi thuật tốn Hƣớng phát triển Để chương trình hồn thiện ta cần thêm số xử lý sau: Trước tiên hoàn thành tách từ Bộ tách từ cho kết làm giảm bớt tỷ lệ câu khơng phân tích Kết phần kiểm thử kết với test không xét đến trường hợp tách từ sai Do chương trình cho phép người dùng hiệu chỉnh lại kết tách từ cho lần phân tích Đối với bước phân tích diễn ngơn thêm số bước để kết xác như: Tiền xử lý câu đầu vào, việc sử dụng cụm từ gợi ý thêm thơng tin cú pháp, ngữ nghĩa để kết thu tốt Hoàn thiện Văn phạm phụ thuộc để tích hợp với kết phân tích diễn ngơn Hồn chỉnh văn phạm phụ thuộc cho tiếng Việt dẫn đến tích hợp với phân tách mệnh đề để xây dựng phân tích phụ thuộc cho câu ghép Thử nghiệm phương pháp học máy để tìm giới hạn mệnh đề câu ghép Nghiên cứu mơ hình phân tích phụ thuộc, phương pháp phân tích phụ thuộc phân tích cú pháp phụ thuộc Nghiên cứu phương pháp tìm giới hạn mệnh đề câu nhiều mệnh đề 60 KẾT LUẬN Luận văn nghiên cứu đƣợc: - Nghiên cứu mơ hình phân tích phụ thuộc, phướng pháp phân tích phụ thuộc phân tích cú pháp phụ thuộc - Nghiên cứu phương pháp tìm giới hạn mệnh đề câu nhiều mệnh đề - Nghiên cứu thử nghiệm phương pháp phân tách câu ghép thành mệnh đề dựa quan hệ diễn ngôn mức câu - Xác lập mối quan hệ phụ thuộc mệnh đề câu ghép dựa phân tích diễn ngơn Hƣớng nghiên cứu tiếp theo: Hồn chỉnh văn phạm phụ thuộc cho tiếng Việt dẫn đến tích hợp với phân tách mệnh đề để xây dựng phân tích phụ thuộc cho câu ghép Thử nghiệm phương pháp học máy để tìm giới hạn mệnh đề câu ghép Với kết đạt luận văn đáp ứng yêu cầu đặt ban đầu Các kết đạt đáng khích lệ, song thân hạn chế thời gian, kinh nghiệm nên chưa thể sản phẩm hồn hảo Kính mong thầy bạn bảo, đóng góp thêm ý kiến để hồn thiện nâng tính xác, khả thi thuật toán 61 TÀI LIỆU THAM KHẢO [1] D Jurafsky, J H Martin (2009) Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition, and Computational Linguistics 2nd edition Prentice-Hall [2] Mann, William and Thompson, Sandra 1988 Rhetorical structure theory Toward a functional theory of text organization Text, 8(3): 243-281 [3] Kübler S., McDonald R., Nivre J.(2009) Dependency Parsing, Morgan & Claypool [4] Marcu D (1997)The Rhetorical Parsing, Summarization and Generation of Natural Language Texts , University of Toronto [5] De Marneffe C.M., Manning C.D Stanford typed dependencies manual, 8/2008, Technical report, Stanford University [6] D.G.Hays (1964) Dependency Grammar: A Formalism and some Observation Rand [7] Nivre J., Hall J.,Nilsson J MaltParser: A Data-Driven Parser-Generator for Dependency Parsing [8] Tomohiro Ohno, Shigeki Matsubara, Hideki Kashioka, Takehiko Maruyama, Hideki Tanaka (2006) Dependency Parsing of Japanese Monologue Using Clause Boundaries Languages Resources and Evaluation, Springer [9] Takehito Utsuro, Shigeyuki Nishiokayama, Masakazu Fujio, Yuji Matsumoto, (2000) Analyzing Dependencies of Japanese Surbodinate Clauses based on Statistics of Scope Embedding Preference Proc 1st NAACL [10] Nguyễn Vi Dương, Nguyễn Thị Đảm(2013) Bộ chuyển đổi từ văn phạm thành phần sang văn phạm phụ thuộc cho tiếng Việt, Báo cáo Hội nghị khoa học sinh viên Viện CNTT-TT, 5/2013 [11] Nguyễn Thị Thu Hương, Lê Văn Chương(2008) Phân tích diễn ngơn cho văn tiếng Việt, Kỷ yếu hội thảo ICT-RDA 8/2008 62 [12] Nguyễn Tài Cẩn (1996) Ngữ pháp tiếng Việt (Tiếng - Từ ghép - Đoản ngữ) NXB Đại học quốc gia Hà Nội [13] Diệp Quang Ban, Hoàng Dân (2001) Ngữ pháp tiếng Việt, Nhà xuất Giáo dục [14] Nguyễn Chí Hịa (2005) Các phương tiện liên kết tổ chức văn NXB Đại học Quốc gia Hà Nội 63 ... mệnh đề, quan hệ diễn ngôn mệnh đề, định nghĩa quan hệ phụ thuộc dựa quan hệ diễn ngôn Chƣơng Phân tách mệnh đề câu ghép tiếng Việt Chương trình bày: Quan hệ diễn ngôn mệnh đề tiếng Việt: quan hệ. .. hệ liệt kê, quan hệ kết hợp, quan hệ đối chiếu, quan hệ đối lập, quan hệ nguyên nhân, quan hệ điều kiện, quan hệ mục đích, quan hệ nhượng bộ, quan hệ khác; phân tách mệnh đề dựa quan hệ diễn ngôn:... phụ thuộc quan hệ bất đối xứng gọi quan hệ phụ thuộc (hay phụ thuộc- dependency) Quan hệ phụ thuộc xảy từ phụ thuộc (dependent) từ khác mà phụ thuộc vào gọi từ trung tâm (head) Văn phạm phụ thuộc