PHÁT HIỆN QUAN hệ PHỤ THUỘC GIỮA các MỆNH đề TRONG câu GHÉP

68 409 1
PHÁT HIỆN QUAN hệ PHỤ THUỘC GIỮA các MỆNH đề TRONG câu GHÉP

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI - PHẠM THỊ OANH PHÁT HIỆN QUAN HỆ PHỤ THUỘC GIỮA CÁC MỆNH ĐỀ TRONG CÂU GHÉP Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã đề tài: CNTTVINH13B-08 LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS NGUYỄN THỊ THU HƯƠNG Hà Nội – Năm 2015 LỜI CAM ĐOAN Luận văn thạc sỹ em nghiên cứu thực hướng dẫn Cô giáo TS Nguyễn Thị Thu Hương môn khoa học máy tính viện công nghệ thông tin truyền thông trường Đại học BKHN Với mục đích học tập, nghiên cứu để nâng cao kiến thức trình độ chuyên môn nên em làm luận văn cách nghiêm túc hoàn toàn trung thực Để hoàn thành luận văn này, tài liệu tham khảo liệt kê, em cam đoan không chép toàn văn công trình thiết kế tốt nghiệp người khác Hà Nội, tháng năm 2015 Học viên Phạm Thị Oanh LỜI CẢM ƠN Trước hết, em xin gửi lời cảm ơn chân thành em tới thầy cô giáo trường Đại học Bách khoa Hà Nội nói chung thầy cô Viện Công nghệ thông tin-truyền thông môn Khoa học máy tính nói riêng Các thầy, cô tạo điều kiện cho chúng em có hội học tập, tận tình giúp đỡ chúng em suốt trình học tập Viện Em xin gửi lời cảm ơn sâu sắc đến cô giáo TS Nguyễn Thị Thu Hương tận tình giúp đỡ, trực tiếp bảo, chỉnh sửa, huớng dẫn em suốt trình làm luận văn Trong thời gian làm việc với Cô, em tiếp thu thêm kiến thức mà học tập tinh thần làm việc, thái độ nghiên cứu khoa học nghiêm túc, hiệu Tôi xin cảm ơn anh, chị em lớp 13BCNTT-VINH đồng hành giúp đỡ trình học tập làm luận văn Cuối cùng, xin gửi lời cảm ơn chân thành tới gia đình, bạn bè động viên, khuyến khích, chăm sóc, đóng góp ý kiến giúp đỡ trình học tập, nghiên cứu hoàn thành luận văn Trân trọng! MỤC LỤC CHƯƠNG 1: VẤN ĐỀ PHÂN TÍCH CÚ PHÁP CÂU NHIỀU MỆNH ĐỀ Câu đơn hai thành phần: câu có cụm chủ-vị làm thành nòng cốt câu a Văn phạm phi ngữ cảnh xác suất .11 DANH MỤC HÌNH VẼ Hình 1.1 Lược đồ cấu trúc kiểu câu phức Hình Cây ngữ cấu câu “Bò vàng gặm cỏ non” Hình 1.3 Cây ngữ cấu “Họ không chuyển hàng xuống thuyền vào ngày mai” 10 Hình 1.4 Văn phạm phi ngữ cảnh xác suất ngữ cấu câu .13 Hình 1.5 Phân tích câu văn phạm phụ thuộc 15 Hình 2.1 Phân tích câu “John loves a woman” mô hình văn phạm phụ thuộc .19 Hình 2.2 Đồ thị phụ thuộc câu “Economic news had little effect on financial market” 20 Hình 2.3 Năm kiểu sơ đồ sử dụng RST [Mann & Thompson] .31 Hình 3.1 Liên kết đơn vị 51 Hình 3.2 Xây dựng RST 52 Hình 4.1 Giao diện chương trình 57 Hình 4.2 Giao diện tách từ .58 DANH MỤC BẢNG BIỂU Bảng 2.1 Bảng xác định phần tử trung tâm nhóm 26 Bảng 2.2 Bảng danh sách quan hệ 27 Hình 2.3 Bảng định nghĩa quan hệ chứng .30 Bảng 3.1 Mô tả ý nghĩa kí hiệu sử dụng biểu thức mô tả dấu hiệu diễn ngôn 46 Bảng 3.2 Một số dấu hiệu diễn ngôn thường gặp 46 Bảng 3.3 Liệt kê số quan hệ để xây dựng quan hệ diễn ngôn dựa vào dấu hiệu diễn ngôn 47 Bảng 3.4 Thuật toán tìm quan hệ diễn ngôn giả thiết 49 Bảng 4.1 Bảng kết 58 MỞ ĐẦU Thông tin cú pháp đóng vai trò quan trọng xử lý ngôn ngữ tự nhiên toán kiểm tra cú pháp cho văn bản, phân tích cú pháp giai đoạn thiếu dịch máy theo luật hay giúp nâng cao chất lượng dịch máy thống kê Trong lĩnh vực khác tách từ, gán nhãn từ, tóm tắt văn bản, phân cụm văn bản, thông tin cú pháp câu ảnh hưởng lớn đến kết xử lý Không giống ngôn ngữ lập trình, ngôn ngữ tự nhiên có khả biểu đạt phong phú với trật tự từ tự Sử dụng mô hình cú pháp ngôn ngữ lập trình cho ngôn ngữ tự nhiên nhiều không biểu đạt hết dạng phát ngôn, hay việc gán cấu trúc cú pháp cho câu cách khiên cưỡng làm sai lệch chức cú pháp, dẫn đến sai sót xử lý sau Mô hình cú pháp phụ thuộc mô hình có từ lâu đời xuất phát từ ngôn ngữ Panini, phương ngữ Ấn Độ cho phép biểu diễn cú pháp câu thông qua mối quan hệ từ Mô hình không sử dụng tốt cho ngôn ngữ có trật tự từ tự do, mà biểu diễn thông tin khác thông tin ngữ nghĩa Các phân tích cú pháp phụ thuộc xây dựng cho nhiều ngôn ngữ hư tiếng Anh, Pháp, Bồ Đào Nha, Nga, Thụy Điển, Nhật, Trung Quốc, Hàn Quốc hầu hết ngôn ngữ Đông Nam Á tiếng Thái, tiếng Bahasa (Indonesia, Malaysia), Tagalog (Philippines) Hiện có hai phân tích cú pháp phụ thuộc xây dựng cho tiếng Việt mức độ thử nghiệm ban đầu Câu nhiều mệnh đề chiếm đa số văn thực tế, song việc phân tích tự động câu nhiều mệnh đề lại gặp khó khăn Ngoài chi phí thời gian cao, luật cú pháp bao quát hết mối liên hệ mệnh đề khó khăn Vì việc tách mệnh đề phân tích riêng mệnh đề cho kết nhanh chóng xác Từ lý nói trên, luận văn đề cập đến việc phân tách mệnh đề phục vụ toán phân tích cú pháp theo mô hình phụ thuộc Các mệnh đề phân tách dựa dấu hiệu diễn ngôn, sau có phân tích phụ thuộc mệnh đề, phụ thuộc mệnh đề xây dựng dựa diễn ngôn mức câu Với phương pháp này, kết phân tích cú pháp xác hơn, thời gian thực giảm đáng kể CHƯƠNG 1: VẤN ĐỀ PHÂN TÍCH CÚ PHÁP CÂU NHIỀU MỆNH ĐỀ Thông tin cú pháp đóng vai trò quan trọng xử lý ngôn ngữ tự nhiên Dù có kho ngữ liệu lớn cho phép thực phương pháp học máy, thống kê , thông tin cú pháp góp phần đáng kể cải tiến chất lượng dịch máy, tóm tắt văn bản, tất nhiên thiếu ứng dụng quan trọng kiểm tra cú pháp cho văn Việc phân tích câu đơn thực hoàn chỉnh với mô hình cú pháp khác Tuy nhiên, thực tế câu gồm nhiều mệnh đề lại chiếm phần lớn văn Việc phân tích câu nhiều mệnh đề thường chậm dẫn đến kết không trình học không tìm câu thực tốt, luật cú pháp áp vào cách khiên cưỡng, ví dụ câu “Trong biên hoàn công công trình (ông Tuấn ký ngày 1-6-1995) công nhận phần kiếntrúc “ , lửng , năm lầu mái che thang , khung cột đà sàn bêtông cốt thép”, với tổng DTXD 388, 80 m”, thực mệnh đề “(ông Tuấn ký ngày 1-6-1995)” lời giải thích cho từ “biên bản” Vì vậy, việc tìm hiểu cấu trúc câu nhiều mệnh đề phân tách để phân tích cú pháp riêng mệnh đề đem lại hiệu tốt Trước sâu vào chi tiết, luận văn xin giới thiệu khái niệm liên quan đến câu, câu nhiều mệnh đề số ngôn ngữ 1.1 Phân loại câu ngôn ngữ 1.1.1 Tiếng Anh a Simple sentences (câu đơn) - Là câu có mệnh đề độc lập Ví dụ: + We were sorry We left We did not meet all the guests + We felt the disappointment of our friends at our early departure – Câu đơn câu ngắn mà thể ý – Một câu đơn có nhiều chủ ngữ Ví dụ: John and Mary were sorry - Một câu đơn có nhiều động từ Ví dụ: John ate peanuts and drank coffee b Counpound sentences (câu ghép) – Là câu chứa từ hai mệnh đề độc lập trở lên, diễn tả ý có tầm quan trọng ngang – Chúng ta sử dụng cách sau để nối hai mệnh đề: + Sử dụng dấu chấm phẩy Ví dụ: The bus was very crowded; I had to stand all the way + Sử dụng dấu phẩy liên từ đẳng lập Ví dụ: The bus was very crowded, so I had to stand all the way + Sử dụng dấu chấm phẩy liên từ trạng từ (however, therefore, nevertheless…) theo sau dấu phẩy Ví dụ: The bus was very crowded; therefore, I had to stand all the way c Complex sentences (câu phức) – Là câu chứa mệnh đề độc lập hay nhiều mệnh đề phụ thuộc Mệnh đề phụ bắt đầu liên từ phụ thuộc đại từ quan hệ Ví dụ: Because the bus was crowded, I had to stand all the way Trong câu có mệnh đề độc lập “I had to stand all the way” mệnh đề phụ thuộc “the bus was crowded” Ví dụ: It makes me happy that you love me Câu có mệnh đề độc lập “it makes me happy” mệnh đề phụ thuộc “that you love me” – Câu phức sử dụng liên từ phụ thuộc để nối vế câu Ví dụ: We left before he arrived d Compound-complex sentences (câu phức hợp) - Là câu có hai mệnh đề độc lập mệnh đề phụ thuộc Ví dụ: Because she didn’t hear the alarm, Mary was late and the train had already left Trong câu trên, có hai mệnh đề độc lập “Mary was late” “the train had already left” Ví dụ, với từ gợi ý “mặc dù” có tập thuộc tính: tập {SATELLITE NUCLEUS, SAU, CLAUSE, CONCESSION, 1, -1}, có nghĩa dấu hiệu cho quan hệ diễn ngôn tên: CONCESSION đơn vị mệnh đề, đơn vị Vệ tinh, sau Hạt nhân Đơn vị mệnh đề chứa từ gợi ý liên kết SAU với đơn vị khác chứa dấu hiệu Số lượng lớn đơn vị tựa mệnh đề chia làm mệnh đề liên hệ “mặc dù” Và trường hợp, văn mà quan hệ CONCESSION xác định “mặc dù” mệnh đề đứng trước mệnh đề đứng sau (Dist sal = -1) Sau xác định đầy đủ quan hệ diễn ngôn từ dấu hiêu, ta mô tả thuật toán liệt kê quan hệ diễn ngôn từ dấu hiệu diễn ngôn sau: Đầu vào: Dãy U[n] đơn vị văn Tập Dd dấu hiệu diễn ngôn xuất U Đầu ra: Danh sách RRd giả thuyết quan hệ khác biệt đơn vị U RRd:=NULL; for i from to n for dấu hiệu m ∈ Dd có mặt U[i] mối liên hệ có kiểu 10 11 12 13 14 15 16 17 18 19 20 21 22 U if Where_to_link(m)=BEFORE rr:=NULL; l:=i-1; while (l ≥ ^ i-1 ≤ Maximal_distance(m)) r:=i while (r ≤ n^r-i ≤ Distance_to_salient_unit(m)+1) if (Statuses(m)=SATELLITE_NUCLEUS) rr:=rr ⊕ rhet_rhel(name(d),l,r); else rr+=rr ⊕ rhet_rhel(name(d),r,l); r:=r+1; l:=l-1; else rr:=NULL; r:=i+1; while (r ≤ n ^ r-i ≤ Maximal_distance(m)) l:=i; while (l ≥ 0^i-l ≤ Distance-to_salient_unit(m)+1) if (Statuses(m)=SATELLITE_NUCLEUS) 48 23 rr:=rr ⊕ rhet_rhel(name(d),l,r); 24 else 25 rr:=rr ⊕ rhet_rhel(name(d),r,l); 26 l:=l-1; 27 r:=r+1; 28 endif 29 RRd:=RRd ∪ {rr} 30 endfor endfor Bảng 3.4 Thuật toán tìm quan hệ diễn ngôn giả thiết 49 Giải thích biến hàm thuật toán: • Statuses xác định trạng thái diễn ngôn đơn vị liên kết dấu hiệu diễn ngôn Giá trị đặc tính {SATELLITE_NUCLEUS, NUCLEUS_SETELLITE NUCLEUS_NUCLEUS} • Rhet_rel xác định tên quan hệ diễn ngôn có nhận cụm gợi ý Giá trị đặc tính liệt kê trường Rhetorical relation sở liệu • Maximal_distance xác định số lượng lớn đơn vị loại tìm thấy đơn vị văn bản, đơn vị có quan hệ diễn ngôn Giá trị đặc tính cho giá trị lớn trường Clause distance đơn vị liên quan đơn vị tựa mệnh đề giá trị lớn trường Sentence distance đơn vị liên quan câu Giá trị đơn vị liên quan kề tất thể tập văn • Distance_to_salient_unit khoảng cách tới vệ tinh đơn vị xác định Tại mức cốt lõi (Câu, Đoạn, Mục), thuật toán tìm quan hệ diễn ngôn từ dấu hiệu diễn ngôn lặp lại mức ngang cấp dấu hiệu diễn ngôn mà có quan hệ với mức Với dấu hiệu diễn ngôn, thuật toán xây dựng giả thuyết khác quan hệ diễn ngôn Đầu thuật toán mô tả bảng 3.4 danh sách tất quan hệ diễn ngôn, có dạng sau: 3.4 Rhet_rel(NAME, i, i-1) ⊕ … ⊕ Rhet_rel(NAME, i, i – max(m)) ⊕ Rhet_rel(NAME, i+1, i-1) ⊕ … ⊕ Rhet_rel(NAME, i+1, i-max(m)) ⊕ Rhet_rel(NAME, i + Dist_sal(m)+1, i-1) ⊕ … ⊕ Rhet_rel(NAME, i + Dist_sal(m), i-max(m)) 50 Ví dụ: Giả sử thuật toán xử lý thành phần thứ i n thành phần giả thiết thành phần thứ i có chứa dấu hiệu diễn ngôn mà dẫn tới quan hệ diễn ngôn với đơn vị trước quan hệ mà vệ tinh (S) theo sau hạt nhân (N) Có thể mô tả trình xem xét cặp mà thuật toán xét quan hệ chúng: Hình 3.1 Liên kết đơn vị Về chất, giả thuyết khác liệt kê quan hệ loại name thông qua thành viên tích đề-các {i,i+1,….,i+Distance_to_salient_unit(m)} x {i-Maximum_distance(m),i-Maximum_distance(m)+1,…i-1}, ví dụ tất cặp đơn vị chia đường mờ đơn vị i i - hình Các giả thuyết khác sinh giải thuật phép Xor quan hệ diễn ngôn nhận dấu hiệu sử dụng nhiều lần xây dựng cấu trúc văn có giá trị 3.2.3 Xây dựng RST cho câu Công thức để xác định trọng số cho câu xác định sau: Phương pháp nối câu lên từ Lá đến gốc, xem mệnh đề lá, Bằng cách này, phân tích diễn ngôn xây dựng bao trùm lên toàn câu Ở bước cuối cùng, cần dựng lên RST với thông tin đầy đủ mô hình, thành phần Vệ tinh đánh dấu ô nét đứt, thành phần Hạt nhân 51 đánh dấu ô nét liền Có dấu mũi tên từ Vệ tinh sang Hạt nhân nút gốc Vệ tinh, Hạt nhân tên quan hệ đơn vị tương ứng Kết toán có dạng: S(1 ,4 ,Tree(Hạt nhân, Nguyên nhân, {2}, Tree(Hạt nhân, Bằng chứng {3}, Tree(Vệ tinh, lá, {1} , NULL , NULL) Tree(Hạt nhân, Liệt kê, {3} Tree(Hạt nhân, Lá, {2}, NULL, NULL), Tree(Hạt nhân, Lá, {3}, NULL, NULL)), Tree(Hạt Nhân , , {4} , NULL , NULL))) Ví dụ kết thuật toán Để dễ hiểu hơn, ta biểu diễn kết dạng cây: 14 Status= Hạt Nhân Type= Bằng chứng promotion = 13 23 Status= Vệ tinh Type= promotion = Status= Hạt Nhân Type= Nguyên Nhân promotion = Status= Hạt Nhân Type= Liệt kê promotion = 3 Status= Hạt nhân Type= promotion = Status= Hạt nhân Type= promotion =3 Hình 3.2 Xây dựng RST 52 Status= Hạt nhân Type= promotion =4 Từ quan hệ diễn ngôn đưa quan hệ phụ thuộc mệnh đề Sau có phân tích diễn ngôn, ta phải thiết lập quan hệ phụ thuộc Việc thiết lập quan hệ phụ thuộc phải xuât phát từ kết phân tích phụ thuộc cho mệnh đề riêng biệt Luận văn xác lập quan hệ phụ thuộc sau: Liệt kê: Quan hệ liệt kê chuyển thành quan hệ đẳng lập parataxis hai từ trung tâm hai mệnh đề, ví dụ Ví dụ: Tôi học, làm Quan hệ xác lập parataxí (đi -2 , -6) Kết hợp Quan hệ kết hợp thường đặc trưng từ “và, “còn” nên quan hệ phụ thuộc xác lập từ trung tâm mệnh đề trước với từ nối, mối quan hệ phụ thuộc từ nối từ trung tâm mệnh đề sau Ví dụ: Thằng lớn cưỡi lên lưng heo béo tai heo cc(cưỡi, và) cc(và, béo) Các quan hệ điều kiện, đối lập, kết quả, nguyên nhân, đối chiêu, nhượng chuyển thành quan hệ phụ thuộc o mark động từ từ liên hệ o ccomp advcl động từ mệnh đề động từ mệnh đề phụ Vì dụ: Nếu trời mưa, không học mark(mưa, nếu) ccomp(mưa, học) Ví dụ: Nó kiếm việc tốt học giỏi mark(kiếm,vì) advcl(kiếm, học) 53 Thuật toán phân tích cú pháp phụ thuộc dựa cấu trúc diễn ngôn Đầu vào : Câu tiếng Việt Đầu : Câu tiếng Việt phân tích dạng VPPT Bước 1: Tiến hành thực phân tích diễn ngôn câu đầu vào thuật toán phân tích diễn ngôn với tiếng Việt nêu trên.Kết sau bước danh sách mệnh đề danh sách quan hệ diễn ngôn mệnh đề phân tách Bước 2: Đưa cấu trúc diễn ngôn câu đầu vào.Việc đưa cấu trúc diễn ngôn cho ta kết phân tích xác tất câu ghép Bước 3: Đối với mệnh đề kết phân tích diễn ngôn bước ta tiến hành thực phân tích VPPT với chúng Kết sau bước mệnh đề phân tích VPPT Bước 4: Tổng hợp kết quả.Kết phân tích VPPT mệnh đề tổng hợp thêm liên kết mệnh đề với nhau, từ có chức diễn ngôn mệnh đề lại dựa quan hệ diễn ngôn thu bước 54 CHƯƠNG THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QỦA 4.1 Công cụ thử nghiệm Môi trường cài đặt Java NetBean 7.0 Dưới thiết kế, cài đặt giải thuật phân tích diễn ngôn tổng hợp kết cuối Gói ptdienngon cài đặt có nghiệm vụ thực nghiệm vụ phân tích diễn ngôn với câu đầu vào Các lớp gói bao gồm : PaserAllField: Các dấu hiệu diễn ngôn mô tả file XML lớp có nghiệm vụ phân tích liệu từ file XML tạo danh sách dấu hiệu diễn ngôn dùng để nhận biết SignHolder: Dấu hiệu diễn ngôn mà ta thu phân tích câu.Cấu trúc dấu hiệu thu public class SignHolder { public int indextbegin = 0; //Vị trí bắt đầu xuất dấu hiệu câu public int indextend = 0; int position = 0; //Vị trí kết thúc dấu hiệu câu //Vị trí dấu hiệu danh sách dấu hiệu dùng để nhận biết } SeparatePeriod: Có thực phân tích diễn ngôn Các hàm, thủ tục gói bao gồm: public List analyseText(String s): Tìm kiếm dấu hiệu diễn ngôn xuất câu public String markerToRhel(): Từ dấu hiệu diễn ngôn thu đưa quan hệ diễn ngôn mệnh đề public void action (String s, String action, String maker, int actionpost, String pOnClause): Thực hành động tương ứng với hành động dấu diễn ngôn thu s : Câu đầu vào action: Hành động tương ứng với dấu hiệu xét maker: Biểu thức quy mô tả dấu hiệu diễn ngôn xét actionpost: Vị trí dấu hiệu danh sách dấu hiệu dùng để phát dấu hiệu dấu hiệu diễn ngôn 55 pOnClause: Vị trí dấu hiệu diễn ngôn câu đầu, cuối hay Cấu trúc liệu mô tả quan hệ mệnh đề public class relationship{ public int clause1; // mệnh đề public int clause2; // mệnh đề public String relation; //tên quan hệ diễn ngôn public String Action; // Hành động diễn ngôn kèm } Measurements: Có chức phân tích diễn ngôn câu có chứa liên từ và.Do nhập nhằng liên từ nên trình bày giải thuật phân tách diễn ngôn bên ta tiến hành phân tích VPPT để xác định hai thành phân có liên kết F đến từ “và” Sau kiểm tra danh sách liên kết hai từ chúng giống ta khẳng định chúng có vai trò tương đương câu lúc từ có chức từ mở rộng nối hai từ lại Ngược lại từ có chức diễn ngôn nối hai mệnh đề Bộ tổng hợp đưa kết phân tích cuối cùng: Gói ComplexSentence có chức tổng hợp đưa kết phân tích cuối với câu Đầu vào gói kết phân tích diễn ngôn danh sách mệnh đề , danh sách quan hệ diễn ngôn Vì chưa tích hợp với phân tích sinh từ Malt Parser nên chương trình cho phép nhập kết phân tích riêng mệnh đề tay Từ kết phân tích, xác lập quan hệ phụ thuộc 56 4.2 Kết đạt Phần trình bày chức chương trình kết phân tích, đối sánh với chương trình phân tích VPPT không sử dụng phân tích diễn ngôn Hình 4.1 Giao diện chương trình Bộ tách từ sử dụng nhóm Phan Xuân Hiếu Trong ngữ liệu đầu vào dùng để test số lượng câu không phân tích thành công kết tách từ sai lớn Ví dụ câu: chim mái ấp trứng chim đực đem thức ăn Kết tách từ: [con][chim][mái][ấp trứng] [trong khi] [con][chim] [đực] [đem] [thức ăn] [về] Ví dụ câu: phim thổi phồng lên kiệt tác, thấy chán 57 kết tách từ: [bộ] [phim] [đã] [được] [thổi] [phồng] [lên] [là] [một] [kiệt tác], [nhưng] [tôi] [thấy] [nó] [rất] [chán] Để khắc phục điều sau kết tách từ tự động chương trình cho phép người dùng hiệu chỉnh lại kết tách từ Hình 4.2 Giao diện tách từ Hệ thống câu ghép dùng để thực kiểm thử được lấy từ báo, internet liên quan đến nhiều lĩnh vực khác thể thao, xã hội, kinh tế Như nói trên, chưa tích hợp với Malt Parser hệ thống văn phạm phụ thuộc tiếng Việt chưa hoàn chỉnh công việc luận văn tìm quan hệ phụ thuộc mệnh đề nên nhập kết phân tích riêng mệnh đề tay tích hợp với phân tích diễn ngôn để tạo phân tích tổng thể Sau hình kết câu “Trời ” Với ngữ liệu thử nghiệm, kết có sau: Bộ đầu vào Số lượng Sô câu pt câu ghép 10 (70 %) 50 50 (100%) 15 10 14 13 (86%) 10 (100 %) 13(93 %) Bảng 4.1 Bảng kết 58 Lý câu ghép phân tích VPPT có sử dụng phân tích diễn ngôn sai không phân tích từ gợi ý giới hạn mệnh đề, ví dụ câu “Họ chiến đấu nước, dân”, từ không dấu hiệu diễn ngôn 4.3 Những tồn hướng phát triển Qua trình tìm hiểu cú pháp câu ghép tiếng Việt, phương pháp phân tích tiếng Việt VPPT, lý thuyết cấu trúc diễn ngôn Chương trình phân tích câu ghép tiếng Việt VPPT hoàn thành Luận văn góp phần vào việc hoàn thiện hệ thống phân tích câu tiếng Việt VPPT Với kết đạt đáp ứng yêu cầu đặt ban đầu Các kết đạt đáng khích lệ song hạn chế thời gian, kinh nghiệm nên chưa thể sản phẩm hoàn hảo Kính mong thầy cô bạn bảo, đóng góp thêm để hoàn thiện nâng tính xác, khả thi thuật toán Hướng phát triển Để chương trình hoàn thiện ta cần thêm số xử lý sau: Trước tiên hoàn thành tách từ Bộ tách từ cho kết làm giảm bớt tỷ lệ câu không phân tích Kết phần kiểm thử kết với test không xét đến trường hợp tách từ sai Do chương trình cho phép người dùng hiệu chỉnh lại kết tách từ cho lần phân tích Đối với bước phân tích diễn ngôn thêm số bước để kết xác Tiền xử lý câu đầu vào, việc sử dụng cụm từ gợi ý thêm thông tin cú pháp, ngữ nghĩa để kết thu đượclà tốt Hoàn thiện Văn phạm phụ thuộc để tích hợp với kết phân tích diễn ngôn Hoàn chỉnh văn phạm phụ thuộc cho tiếng Việt dẫn đến tích hợp với phân tách mệnh đề để xây dựng phân tích phụ thuộc cho câu ghép Thử nghiệm phương pháp học máy để tìm giới hạn mệnh đề câu ghép Nghiên cứu mô hình phân tích phụ thuộc, phướng pháp phân tích phụ thuộc phân tích cú pháp phụ thuộc Nghiên cứu phương pháp tìm giới hạn mệnh đề câu nhiều mệnh đề 59 KẾT LUẬN Luận văn nghiên cứu được: - Nghiên cứu mô hình phân tích phụ thuộc, phướng pháp phân tích phụ thuộc phân tích cú pháp phụ thuộc - Nghiên cứu phương pháp tìm giới hạn mệnh đề câu nhiều mệnh đề - Nghiên cứu thử nghiệm phương pháp phân tách câu ghép thành mệnh đề dựa quan hệ diễn ngôn mức câu - Xác lập mối quan hệ phụ thuộc mệnh đề câu ghép dựa phân tích diễn ngôn Hướng nghiên cứu Hoàn chỉnh văn phạm phụ thuộc cho tiếng Việt dẫn đến tích hợp với phân tách mệnh đề để xây dựng phân tích phụ thuộc cho câu ghép Thử nghiệm phương pháp học máy để tìm giới hạn mệnh đề câu ghép Với kết đạt đáp ứng yêu cầu đặt ban đầu Các kết đạt đáng khích lệ, song thân hạn chế thời gian, kinh nghiệm nên chưa thể sản phẩm hoàn hảo Kính mong thầy cô bạn bảo, đóng góp thêm ý kiến để hoàn thiện nâng tính xác, khả thi thuật toán 60 TÀI LIỆU THAM KHẢO [1] D Jurafsky, J H Martin (2009) Speech and Language Processing: An Introduction to Natural Language Processing, Speech Recognition, and Computational Linguistics 2nd edition Prentice-Hall [2] Mann, William and Thompson, Sandra 1988 Rhetorical structure theory Toward a functional theory of text organization Text, 8(3): 243-281 [3] Kübler S., McDonald R., Nivre J.(2009) Dependency Parsing, Morgan & Claypool [4] Marcu D (1997)The Rhetorical Parsing, Summarization and Generation of Natural Language Texts , University of Toronto [5] De Marneffe C.M., Manning C.D Stanford typed dependencies manual, 8/2008, Technical report, Stanford University [6] D.G.Hays (1964) Dependency Grammar: A Formalism and some Observation Rand [7] Nivre J., Hall J.,Nilsson J MaltParser: A Data-Driven Parser-Generator for Dependency Parsing [8] Tomohiro Ohno, Shigeki Matsubara, Hideki Kashioka, Takehiko Maruyama, Hideki Tanaka (2006) Dependency Parsing of Japanese Monologue Using Clause Boundaries Languages Resources and Evaluation, Springer [9] Takehito Utsuro, Shigeyuki Nishiokayama, Masakazu Fujio, Yuji Matsumoto, (2000) Analyzing Dependencies of Japanese Surbodinate Clauses based on Statistics of Scope Embedding Preference Proc 1st NAACL [10] Nguyễn Vi Dương, Nguyễn Thị Đảm(2013) Bộ chuyển đổi từ văn phạm thành phần sang văn phạm phụ thuộc cho tiếng Việt, Báo cáo Hội nghị khoa học sinh viên Viện CNTT-TT, 5/2013 [11] Nguyễn Thị Thu Hương, Lê Văn Chương(2008) Phân tích diễn ngôn cho văn tiếng Việt, Kỷ yếu hội thảo ICT-RDA 8/2008 61 [12] Nguyễn Tài Cẩn (1996) Ngữ pháp tiếng Việt (Tiếng - Từ ghép - Đoản ngữ) NXB Đại học quốc gia Hà Nội [13] Diệp Quang Ban, Hoàng Dân (2001) Ngữ pháp tiếng Việt, Nhà xuất Giáo dục [1] Nguyễn Chí Hòa (2005) Các phương tiện liên kết tổ chức văn NXB Đại học Quốc gia Hà Nội 62

Ngày đăng: 01/07/2016, 17:52

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan