Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại

71 474 3
Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Phân giải đồng tham chiếu tượng tỉnh lược hội thoại 2010 PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP Thông tin sinh viên Họ tên sinh viên: Đỗ Thái Hà Điện thoại liên lạc: 0917290 254 Lớp: Email: hangoit2002@yahoo.com Hệ Thống Thông Tin K-50 Hệ đào tạo: Đại học quy Đồ án tốt nghiệp thực tại: Bộ môn Hệ Thống Thông Tin – Viện Công nghệ thông tin truyền thông – Trường Đại học Bách Khoa Hà Nội Thời gian làm ĐATN: Từ ngày / /2010 đến / /2010 Mục đích nội dung ĐATN Mục tiêu đồ án đưa phương pháp xử lý cho phân giải đồng tham chiếu tượng tỉnh lược hội thoại tiếng Việt, cho trường hợp hội thoại thông dụng Các nhiệm vụ cụ thể ĐATN • Phân loại tượng đồng tham chiếu tỉnh lược • Phân tích đưa thuật toán xử lý trường hợp nhỏ tượng phân giải đồng tham chiếu tỉnh lược • Kết hợp thuật toán xử lý để xử lý tất trường hợp phân giải đồng tham chiếu tỉnh lược • Cài đặt chương trình , kết hợp với hệ thống hội thoại người – máy • Tổng kết, đánh giá hiệu đồ án Lời cam đoan sinh viên: Tôi – Đỗ Thái Hà - cam kết ĐATN cơng trình nghiên cứu thân hướng dẫn Tiến sĩ Lê Thanh Hương Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 Phân giải đồng tham chiếu tượng tỉnh lược hội thoại 2010 Các kết nêu ĐATN trung thực, khơng phải chép tồn văn cơng trình khác Hà Nội, ngày tháng năm Tác giả ĐATN Họ tên sinh viên Xác nhận giáo viên hướng dẫn mức độ hoàn thành ĐATN cho phép bảo vệ: Hà Nội, ngày tháng năm Giáo viên hướng dẫn Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 Phân giải đồng tham chiếu tượng tỉnh lược hội thoại 2010 TÓM TẮT NỘI DUNG ĐỒ ÁN TƠT NGHIỆP Ngơn ngữ tự nhiên đa dạng phong phú ngơn ngữ bạn sử dụng ngơn ngữ Vì việc ánh xạ từ ngôn ngữ tự nhiên vào hệ thống máy tính vấn đề vô phức tạp thu hút quan tâm nghiên cứu nhiều chuyên gia Một hệ thống hội thoại tự động lý tưởng mơ ước chun gia máy tính.Bài tốn xây dựng hệ thống nhiều thách thức chưa có lời giải tồn vẹn Để làm cho máy tính “người” hơn, vấn đề phân giải đồng tham chiếu tượng tỉnh lược hội thoại vấn đề không quan tâm nghiên cứu Đồ án gồm phần lớn Phần I : Tổng quan Nội dung phần nêu nên nhìn tổng quan đề tài.Các ý lớn phần : • • • Nêu lên mơ hình tổng qt : Đề tài nghiên cứu hệ thống nằm hệ thống hội thoại người – máy tiếng Việt Tóm tắt tình hình nghiên cứu giới tình hình nghiên cứu vấ đề Việt Nam Phân tích khó khăn đồ án gặp phải : ngữ pháp phức tạp, từ đa nghĩa, nhập nhằng đại từ quan hệ Mục tiêu hướng tiếp cận đồ án : không hướng vào chiều sâu mà hướng vào chiều rộng – xây dựng chương trình giải tổng hợp trường hợp hay gặp đồng tham chiếu tỉnh lược hội thoại Phần : Nội dung Phần trình bày hướng tiếp cận cụ thể cho khía cạnh vấn đề, tổng hợp thuật toán Các ý lớn phần bao gồm: • • • Phân tích ngữ pháp tiếng Việt, quan tâm chủ yếu đến cấu trúc danh từ, động từ, đại từ, cấu trúc câu trần thuật câu nghi vấn Phân loại tượng đồng tham chiếu tỉnh lược, đưa cách tiếp cận cho loại Đưa kiến trúc từ điển kép theo Sematic Phần : Cài đặt hệ thống Phần sâu vào việc xây dựng cài đặt chương trình.Các ý lớn gồm có : • • • Các thiết kế mơ hình tổng quát hệ thống Kết kiểm thứ đánh giá Hướng phát triển tương lai Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 Phân giải đồng tham chiếu tượng tỉnh lược hội thoại 2010 Lời cảm ơn Để hoàn thành tốt đồ án này, em xin cảm ơn thầy giáo, cô giáo môn hệ thống thông tin, thầy giáo, cô giáo khoa Công nghệ thông tin thầy cô trường Đại học Bách Khoa Hà Nội dìu dắt em suốt năm năm đại học Em xin gửi lời cảm ơn sâu sắc tới cô giáo TS Lê Thanh Hương, người định hướng, giúp đỡ em có tri thức, hiểu biết để hoàn thành đồ án Con xin cảm ơn bố mẹ, người thân bên con, động viên tạo điều kiện cho trình làm đồ án Xin cảm ơn bạn bè động viên, giúp đỡ tôi cần Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 Phân giải đồng tham chiếu tượng tỉnh lược hội thoại 2010 Mục lục PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP Danh mục từ viết tắt thuật ngữ Tiếng Anh .8 Danh mục bảng PHẦN I TỔNG QUAN 11 CHƯƠNG TỔNG QUAN 11 1.1 Đặt vấn đề 11 1.2 Mơ hình tổng qt 11 1.3 Các cách tiếp cận phân giải đồng tham chiếu tượng tỉnh lược hội thoại 12 1.3.1 Các cách tiếp cận giới 12 1.3.2 Những vấn đề tồn 12 1.3.3 Phân giải đồng tham chiếu tượng tỉnh lược hội thoại tiếng Việt 13 1.4 Những khó khăn toán phân giải đồng tham chiếu tỉnh lược hội thoại tiếng Việt .14 1.4.1 Ngữ pháp phức tạp 14 1.4.2.Nhập nhằng việc tách từ phân loại từ .14 1.4.3 Sự nhập nhằng , đa nghĩa đại từ 14 1.5 Mục tiêu, giới hạn hướng tiếp cận đồ án .15 PHẦN II GIẢI QUYẾT VẤN ĐỀ 16 CHƯƠNG PHÂN LOẠI HIỆN TƯỢNG ĐỒNG THAM CHIẾU VÀ TỈNH LƯỢC 16 2.1 Hiện tượng đồng tham chiếu – Anaphora 16 2.1.1.Định nghĩa 16 2.1.2 Phân loại 17 2.2 Hiện tượng tỉnh lược - Elliptics .19 2.2.1 Định nghĩa .19 2.2.2.Phân loại 19 CHƯƠNG SƠ LƯỢC CẤU TRÚC TIẾNG VIỆT 20 3.1 Danh từ cụm danh từ 20 3.2 Động từ cụm động từ 22 3.3 Các loại từ khác 25 3.4 Các dạng câu .28 a Câu trần thuật .28 Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 Phân giải đồng tham chiếu tượng tỉnh lược hội thoại 2010 b Câu nghi vấn 29 c Câu cầu khiến .32 d Câu cảm thán .32 CHƯƠNG XÂY DỰNG THUẬT TOÁN XỬ LÝ HIỆN TƯỢNG ĐỒNG THAM CHIẾU VÀ TỈNH LƯỢC TRONG TIẾNG VIỆT 33 4.1 Hiện tượng đồng tham chiếu tiếng Việt hướng tiếp cận 33 4.1.1 Np- anaphora 33 4.1.2 “One” anaphora 37 4.1.3 VP- anaphora 37 4.1.4 S- anaphora 38 4.2 Hiện tượng tỉnh lược câu hướng tiếp cận .38 4.2.1 Tỉnh lược ngữ pháp - Contextual ellipsis 38 4.2.2 Hướng tiếp cận 40 4.3 Tổng hợp 41 4.3.1.Hướng giải mối quan hệ chủ ngữ - động từ - bổ ngữ 41 4.3.2 Hướng xây dựng sở liệu từ điển 42 4.3.2.1 Nguyên nhân 42 4.3.2.2 Cấu trúc từ điển 42 4.3.3.Tổng hợp phương pháp .48 PHẦN XÂY DỰNG HỆ THỐNG 50 CHƯƠNG THIẾT KẾ HỆ THỐNG 50 5.1 Giới hạn toán 50 5.2 Vị trí hệ thống hệ thống hội thoại tổng hợp 50 5.3 Thiết kế usecase 51 5.3.1 Biểu đồ 51 5.3.2.Biểu đồ trạng thái máy 52 5.4 Thiết kế gói chương trình .52 5.4.1 Gói truy nhập sở liệu – XMLdataConnection .53 5.4.2 Gói Tiền xử lý – PrepareStructure 53 5.4.3 Gói phát hiện tượng ngôn ngữ - Discover 55 5.4.4 Gói xử lý tượng ngơn ngữ .58 5.5 Thiết kế lớp 60 CHƯƠNG THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 62 6.1 Kiểm thử 62 6.1.1 Giao diện chương trình 62 6.1.2 Thử nghiệm kết 63 Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 Phân giải đồng tham chiếu tượng tỉnh lược hội thoại 2010 6.2.Đánh giá kết 65 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 67 7.1 Nhận xét ưu khuyết điểm 67 7.1.1 Ưu điểm 67 7.1.2.Khuyết điểm tồn 67 7.2.Hướng phát triển cho tương lai .68 Tài liệu tham khảo .70 Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 Phân giải đồng tham chiếu tượng tỉnh lược hội thoại Danh mục từ viết tắt thuật ngữ Tiếng Anh STT Từ Giải nghĩa antecedent Tiền ngữ - từ/câu bị thay Anaphora Phân giải đồng tham chiếu S - Anaphora Phân giải đồng tham chiếu câu VP - Anaphora Phân giải đồng tham chiếu động từ One - anaphora Phân giải đồng tham chiếu số từ NP – anaphora Phân giải đồng tham chiếu danh từ Pronominal Phân giải đồng tham chiếu đại từ Definite NP Phân giải đồng tham chiếu đại từ xác định Elliptics Hiện tượng tỉnh lược 10 Contextual ellipsis Tỉnh lược ngữ pháp 11 Pragmatic ellipsis Tỉnh lược ngữ cảnh 12 Prefer- Constraint Ràng buộc thêm (không bắt buộc) Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 2010 Phân giải đồng tham chiếu tượng tỉnh lược hội thoại 2010 Danh mục bảng a Lớp NounConnection 53 b Lớp VerbConnection 53 a Lớp WordStruct 54 b Lớp SentenceStruct 54 c Lớp PrepareStructure 55 a EcllipsisDiscover:IDisCoverInterface 55 b Lớp NPAnaphoraDisCover 56 c VPAnaphoraDisCover 56 d OneAnaphoraDisCover .57 e SAnaphoraDiscover 57 a.Lớp NPAnaphoraResolve 58 b Lớp VPAnaphoraResolve 58 c.Lớp SPAnaphoraResolve 58 d.Lớp OneAnaphoraResolve 59 e.Lớp EcllipsisResolve 59 f Lớp MergeClass – Đây lớp tổng hợp thuật toán để xử lý chung .59 Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 Phân giải đồng tham chiếu tượng tỉnh lược hội thoại 2010 Danh mục hình vẽ Hình - Mơ thuật tốn Hobbs 34 Hình - Mơ quan hệ từ vựng .40 Hình - Biểu đồ trạng thái máy tổng quát 52 Hình - Minh họa sơ đồ hoạt động giai đoạn nhận diện câu 52 Hình 6- Hình biểu đồ lớp gói nhận diện câu 61 Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 10 Phân giải đồng tham chiếu tượng tỉnh lược hội thoại d OneAnaphoraDisCover Rule //// Phát phân giải đồng tham chiếu số từ Thuộc tính Public bool IsOccup() // Trả true câu có đồng tham chiếu số từ Public string TypeOccup() // Loại tham chiếu động từ mặc định e SAnaphoraDiscover Rule //// Phát phân giải đồng tham chiếu câu Thuộc tính Public bool IsOccup() // Trả true câu có đồng tham chiếu câu Public string TypeOccup() // Loại tham chiếu động từ mặc định Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 57 2010 Phân giải đồng tham chiếu tượng tỉnh lược hội thoại 2010 5.4.4 Gói xử lý tượng ngôn ngữ a.Lớp NPAnaphoraResolve Rule // Lớp xử lý loại tham chiếu đại từ Thuộc tính Private bool iresolve //Kiểm tra xem giải đồng tham chiếu hay không Phương thức Static public void ResolveIntraSimple //Xử lý đồng tham chiếu với đại tư tiền ngữ hai câu Static public void ResolvenIntraConplex //Xử lý đồng tham chiếu với đại từ tiền ngữ câu, có nhập nhằng Static public void ResolveInter // Xử lý đồng tham chiếu với đại từ tiền ngữ nằm câu b Lớp VPAnaphoraResolve Rule //Xử lý tượng đồng tham chiếu động từ Thuộc tính Private bool iresolve //Kiểm tra đồng tham chiếu có giải chưa Phương thức Static public void Resolve //Xử lý đồng tham chiếu động từ c.Lớp SPAnaphoraResolve Rule Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 58 Phân giải đồng tham chiếu tượng tỉnh lược hội thoại 2010 //Xử lý tượng đồng tham chiếu câu Thuộc tính Private bool iresolve //Kiểm tra đồng tham chiếu có giải chưa Phương thức Static public void Resolve //Xử lý đồng tham chiếu câu d.Lớp OneAnaphoraResolve Rule //Xử lý tượng đồng tham chiếu số từ Thuộc tính Private bool iresolve //Kiểm tra đồng tham chiếu có giải chưa Phương thức Static public void Resolve //Xử lý đồng tham chiếu số từ e.Lớp EcllipsisResolve Rule //Xử lý tượng tỉnh lược Thuộc tính Private bool iresolve //Kiểm tra tượng tỉnh lược có giải chưa Phương thức Static public void Resolve //Xử lý tượng tỉnh lược f Lớp MergeClass – Đây lớp tổng hợp thuật toán để xử lý chung Rule //Xử lý tổng hợp thuật toán Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 59 Phân giải đồng tham chiếu tượng tỉnh lược hội thoại Thuộc tính 2010 Private sentence_tagger cur //Thể cấu trúc câu xử lý Private sentence_tagger pre1 //Thể cấu trúc câu xử lý1 Private sentence_tagger pre2 //Thể cấu trúc câu xử lý2 Private sentence_tagger senresult //Thể cấu trúc câu kết Pivate SentenceStruct currSen //Thể cấu trúc câu xử lý Private SentenceStruct preSen //Thể cấu trúc câu xử lý Phương thức Static public bool Merge(…) //Lớp xử lý tổng hợp 5.5 Thiết kế lớp Vì cấu trúc lớp gói liệt kê đầy đủ bảng phần trên, phần không tập trung vào thiết kê lớp chương trình mà tập trung vào thiết kế lớp hai gói phức tạp quan trọng gói phát hiện tượng ngơn ngữ câu gói giải tổng hợp Usecase tổng hợp Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 60 Phân giải đồng tham chiếu tượng tỉnh lược hội thoại 2010 Hình 6- Hình biểu đồ lớp gói nhận diện câu Hì nh - Biểu đồ lớp gói xử lý tổng hợp Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 61 Phân giải đồng tham chiếu tượng tỉnh lược hội thoại 2010 CHƯƠNG THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 6.1 Kiểm thử 6.1.1 Giao diện chương trình Như phân tích trên, chương trình phần hệ thống hội thoại tích hợp, giao diện thống phù hợp với yêu cầu hệ thống hội thoại Cụ thể , giao diện có : Phần trung tâm bao gồm textbox : • Textbox nơi người dùng nhập câu hội thoại với máy • Textbox nơi chương trình phân giải đồng tham chiếu tỉnh lược in câu người dùng sau hệ thống xử lý • Textbox cuối để hệ thống hội thoại phản hồi lại người dùng Phần bên trái và bên phải có textbox hiển thị câu hội thoại phía trước (textbox bên phải) Giao diện cụ thể : Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 62 Phân giải đồng tham chiếu tượng tỉnh lược hội thoại 2010 6.1.2 Thử nghiệm kết Sau số câu thử nghiệm minh họa kết đầu chương trình Bảng thử nghiệm Đầu vào 1.John lấy bánh bàn ăn 2.John lấy bánh bàn rửa 3.Họa sĩ Tơ Ngọc Vân vẽ tranh? Tôi nghĩ Họa sĩ Tô Ngọc Vân có tranh Ảnh ? quốc tịch họa sĩ Tơ Ngọc Vân ? … Q quán? 6.Họa sĩ Tô Ngọc Vân nhà đâu? … Ngày sinh? Bảo tàng trưng bày tranh ? tranh Bức tranh “ The Mona Lisa” họa sĩ Leonardo da Vinci phải không? Vâng, tranh ơng vẽ 9.A: Bức họa “ The Madonna with the Yamwinder” Leonardo bị đánh cắp phải không? B: Vâng, tranh ông bị đánh cắp vào hồi tháng 8/2003 10 Bạn biết họa sĩ Tô Ngọc Vân chứ? Đầu John lấy bánh bàn ăn T bánh John lấy bánh bàn rửa T bàn Tôi nghĩ họa sĩ Tô Ngọc Vân vẽ T tranh Họa sĩ Tơ Ngọc Vân có ảnh T ? Quê quán họa sĩ Tơ Ngọc Vân T gì? Họa sĩ Tơ Ngọc Vân ngày sinh đâu? F Bảo tàng trưng bày tranh T Vâng, The Mona Lisa Leonardo da T Vinci vẽ tranh Leonardo bị đánh cắp T vào hồi tháng 8/2003 có chứ,”thiếu nữ bên hoa huệ “ T tranh sơn dầu tiếng Tô Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 63 Phân giải đồng tham chiếu tượng tỉnh lược hội thoại 2010 B: có chứ,”thiếu nữ bên hoa huệ “ Ngọc Vân tranh sơn dầu tiếng ông 11.Ai phục chế tranh ? Caroline Fry phục chế tranh F B: Caroline Fry 12 Bức tranh sơn dầu “ hoa mười giờ” họa sĩ vẽ ? B: Họa sĩ Vũ Kim Thanh A: Hiện ông ý sống Luân Đôn phải không? 12 Bức tranh sơn dầu “ hoa mười T giờ” Vũ Kim Thanh vẽ A: Hiện Vũ Kim Thanh sống Luân Đôn phải không? 12Bức tranh “ The Mona Lisa” Vâng,“ The Mona Lisa” Leonardo T họa sĩ Leonardo da Vinci phải da Vinci vẽ không? B: Vâng, tranh ơng ta vẽ 13.Q qn họa sĩ Tô Ngọc Vân đâu? … Chứng minh thư? 14.John lấy gậy bàn lau 15.: Kiệt tác” ao súng” bán với giá 80 triệu USD B: Nó tác phẩm Claude Monet? A:Vâng, ông ta danh họa ngưừoi Pháp theo trường phái ấn tượng Chứng minh thư họa sĩ Tô Ngọc N Vân đâu ? 16 Bạn muốn tìm tranh ? Trừu tượng 17 Bạn muốn tìm gì? Tranh trừu tượng 18 Goya vậy? B: Ơng đại danh họa giới Tơi muốn tìm tranh trừu tượng T F F John lấy gậy bàn lau N gậy Ao Súng tác phẩm Claude T Monet? A:Vâng, Claude Monet danh họa người Pháp theo trường phái ấn tượng Goya đại danh họa giới người T Tây Ban Nha Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 64 Phân giải đồng tham chiếu tượng tỉnh lược hội thoại 2010 người Tây Ban Nha 19 Mary yêu quý Lan Mary thường ngồi hàng nói T Bà thường ngồi hàng nói chuyện với Lan chuyện với cô 6.2.Đánh giá kết Cách tiếp cận đồ án dựa ý tưởng tổng hợp thuật tốn có tính khả thi cao độ xác khả thực hóa Trong trình thực đồ án này, em nghiên cứu nhiều ý tưởng lạ, nhiên thực tiễn chứng minh chúng khơng có khả thi cài đặt cao, tiếng Việt Chương trình đạt kết khả quan với câu hội thoại đồng tham chiếu đơn giản Với câu đơn giản nhập nhằng loại bỏ Với câu phức tạp hơn, xác chương trình bị giảm Các kết sai hay rơi vào trường hợp nhập nhằng câu hỏi – trả lời câu xảy tượng tỉnh lược, vấn đề phụ từ, nhân xưng Mặc dù hội thoại bao gồm câu đơn giản khơng mà khơng có nhập nhằng xảy Xét ví dụ thực nghiệm thứ 14 • John lấy gậy bàn lau Có thể hiểu • John lấy gậy bàn lau gậy • John lấy gậy bàn lau bàn Khơng thể nói trường hợp trường hợp sai dựa vào phân tích cú pháp, phải dựa vào kiến thức thực tế điều kiện hồn cảnh xảy câu nói Thuật tốn hiệu câu ngắn, có từ đến đại từ tham chiếu Mặc dù lúc tìm tiền ngữ thích hợp dù dùng tất giới hạn Ví dụ: • John mang hộp hộ Bill cho Tom Anh gửi cậu ta sách Mary Dù có đầy đủ tiền ngữ “anh ấy” “cậu ta” xác định (John|Bill) (Bill|Tom) Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 65 Phân giải đồng tham chiếu tượng tỉnh lược hội thoại 2010 Chương trình sử dụng lại phần tách từ vntagger, lấy kết làm đầu vào nên độ xác chương trình thu tích số độ xác thuật tốn độ xác chương trình vntagger • P (chương trình) = P (vntagger) * P (thuật toán) Do cách tiếp cận địi hỏi phải có từ điển chứa thông tin ngữ nghĩa từ em có nguồn cấu trúc Semantic từ điển từ thơng dụng chưa có phân loại, em phải tự xây dựng thủ công nên số từ chưa nhiều Do đó, số từ chưa nhiều em chưa có nhiều thời gian để thực thử nghiệm chương trình với nhiều câu có kết đánh giá xác chương trình Chương trình xây dựng hướng lĩnh vực, cụ thể lĩnh vực liên qua đến viện bảo tàng Bộ từ điển xây dựng dựa lĩnh vực Lý em xây dựng từ điển hướng lĩnh vực để hạn chế nhập nhằng ngữ nghĩa từ loại, qua nâng cao độ xác chương trình Trong thời gian tới em xây dựng thử nghiệm thêm từ điển lĩnh vực khác kết xác Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 66 Phân giải đồng tham chiếu tượng tỉnh lược hội thoại 2010 CHƯƠNG KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong báo cáo này, em trình bày vấn đề sau : • Định nghĩa phân loại tượng đồng tham chiếu tượng tỉnh lược hội thoại • Tích hợp thuật toán sử dụng tập luật ràng buộc, từ điển cầu trúc từ, chia để trị…để giải trường hợp vấn đề, sau tích hợp thành tốn lớn • Thiết kế ngồi chương trình, kết kiểm tra đánh giá 7.1 Nhận xét ưu khuyết điểm 7.1.1 Ưu điểm • Ưu điểm lớn cách tiếp cận này, tận dụng lợi nhiều thuật tốn có độ tin cậy cao • Việc cài đặt dễ dàng so với nhiều thuật tồn khác • Bằng việc áp dụng điều kiện ràng buộc khác nhau, phương pháp tiếp cận đồ án tránh việc phải sử dụng tới cấu trúc ngữ pháp – vốn đề tài phức tạp ngôn ngữ tiếng Việt mà cài đặt nhiều nhập nhằng giới hạn • Độ xác câu đơn giản cao • Cơ đạt mục tiêu đồ án – tổng hợp cách giải cho phần lớn trường hợp đồng tham chiếu tượng tỉnh lược 7.1.2.Khuyết điểm tồn Lĩnh vực đồ án hướng đến viện bảo tàng nhỏ,thời gian cho kiểm thử chưa nhiều chưa thể thực nghiệm hết tất dạng câu tiếng Việt Việc xây dựng từ điển cấu trúc Semantic cịn phải làm thủ cơng, phức tạp Mặc dù có kết tốt với trường hợp câu hội thoại đơn giản, nhiên tất cách tiếp cận khác, cách tiếp cận đồ án sử dụng có giới hạn Ví dụ như: Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 67 Phân giải đồng tham chiếu tượng tỉnh lược hội thoại 2010 • Thuật tốn chưa tính đến việc thay đổi cấu trúc ngữ pháp câu (khi từ thuộc tính danh từ cho kèm động từ khác – ví dụ : nhà - “ở đâu” “số chứng minh thư” – “là gì” “số chứng minh thư” “nhà” thuộc tính “người” ) trường hợp tỉnh lược mà tìm mối liên hệ tỉnh lược • Thuật tốn chưa tính đến nhập nhằng ngữ cảnh thực tế (ví dụ 14) • Từ điển sử dụng thuật toán xây dựng hướng lĩnh vực khơng dựa tồn từ điển từ • Việc viết lại câu dựa vào ngữ pháp câu phía trước Về mặt lý thuyết, việc tìm kiếm kéo dài câu hội thoại, nhiên thực tế, đặc biệt câu tỉnh lược, tiền ngữ thường nằm câu trước – câu hệ thống xử lý nên câu đầy đủ - chương trình giới hạn câu phía trước 7.2.Hướng phát triển cho tương lai Cịn nhiều hướng phát triển mở rộng đồ án Việc viết lại câu trường hợp câu tỉnh lược phức tạp (không phải trọng tâm đồ án), để nâng cao độ xác thuật tốn , cần phải kết hợp vào thuật toán hướng phát triển mới, nghiên cứu việc tổ chức viết lại ngữ pháp câu dựa nội dung câu phía trước dựa vào ngữ pháp câu phía trước Đồ án mở rộng khơng thay cho danh từ, đại từ ghép mà cịn thay cho cụm danh từ - tính từ việc áp dụng học máy Sau áp dụng ràng buộc để tìm ứng viên tiền ngữ thích hợp nhất, tiền ngữ gắn chặt với thuộc tính ràng buộc Ví dụ : “cơ ấy” xác định “bác sĩ ” tất đồng tham chiếu sau đến “bác sĩ” yêu cầu nữ không xác định rõ giới tính Ngồi ra, ngồi kiểm tra điều kiện ràng buộc danh từ, động từ kèm theo việc kiểm tra ràng buộc tính từ kèm với danh từ Do vậy, hướng phát triển tương lai đồ án tập trung vào vấn đề sau: Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 68 Phân giải đồng tham chiếu tượng tỉnh lược hội thoại 2010  Xây dựng, thử nghiệm thêm tập luật ràng buộc nhằm giảm tối đa nhập nhằng ngữ pháp  Xây dựng tập sở liệu hướng lĩnh vực khác  Nghiên cứu để áp dụng học máy tái cấu trúc câu dựa nội dung câu trước Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 69 Phân giải đồng tham chiếu tượng tỉnh lược hội thoại 2010 Tài liệu tham khảo [1] Daniel Jurafsky, James H Martin Speech and language processing, Prentice Hall năm 2000 [2] Allen, Jame Natural language understanding, Addision Wesley năm 1995 [3] Lê Thanh Hương “Phân tích cú pháp tiếng Việt”, Luận văn tốt nghiệp thạc sĩ, ĐHBK Hà Nội năm 2000 [4] Diệp Quang Ban Ngữ pháp tiếng Việt, NXB Giáo Dục năm 1998 [5] Nguyễn Hữu Quỳnh Ngữ pháp tiếng Việt, NXB Từ điển Bách Khoa Hà Nội năm 2001 [6] Bộ giáo dục đào tạo Ngữ pháp tiếng Việt, sách Cao đẳng Sư phạm, NXB Giáo dục năm 2000 [7] - 1988 Jaime G Carbonell Anaphora Resolution : A Multi – Strategy Approach [8] Alexander Gelbukh, Grigori Sidorov – On Cohenrence Maintenance in Human – Machine Dialogue with Contextual Ellipese - 2001 [9] David I Beaver – The Optimiztion of Discourse Anaphora – 2002 [10] Tatjana Scheffler – Ellipsis, Subsentential Speech and the Contextualism Discussion – 2005 [11] Regina Barzilay – Modeling Local Cohernce : An Entity – Base Approach – 2009 [12] Chương trình tách từ vntagger tiến sĩ Lê Hồng Phong Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 70 ... 11 Phân giải đồng tham chiếu tượng tỉnh lược hội thoại 2010 1.3 Các cách tiếp cận phân giải đồng tham chiếu tượng tỉnh lược hội thoại 1.3.1 Các cách tiếp cận giới Phân giải đồng tham chiếu tượng. .. tin K50 32 Phân giải đồng tham chiếu tượng tỉnh lược hội thoại 2010 CHƯƠNG XÂY DỰNG THUẬT TOÁN XỬ LÝ HIỆN TƯỢNG ĐỒNG THAM CHIẾU VÀ TỈNH LƯỢC TRONG TIẾNG VIỆT 4.1 Hiện tượng đồng tham chiếu tiếng... Anaphora Phân giải đồng tham chiếu S - Anaphora Phân giải đồng tham chiếu câu VP - Anaphora Phân giải đồng tham chiếu động từ One - anaphora Phân giải đồng tham chiếu số từ NP – anaphora Phân giải đồng

Ngày đăng: 06/05/2015, 10:35

Mục lục

  • PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP

  • Danh mục các từ viết tắt và thuật ngữ Tiếng Anh

  • Danh mục các bảng

  • PHẦN I . TỔNG QUAN

  • CHƯƠNG 1. TỔNG QUAN

    • 1.1 Đặt vấn đề.

    • 1.2. Mô hình tổng quát.

    • 1.3. Các cách tiếp cận trong phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại.

      • 1.3.1. Các cách tiếp cận trên thế giới.

      • 1.3.2. Những vấn đề còn tồn tại.

      • 1.3.3. Phân giải đồng tham chiếu và hiện tượng tỉnh lược trong hội thoại tiếng Việt.

      • 1.4. Những khó khăn chính của bài toán phân giải đồng tham chiếu và tỉnh lược trong hội thoại tiếng Việt.

        • 1.4.1. Ngữ pháp phức tạp.

        • 1.4.2.Nhập nhằng trong việc tách từ và phân loại từ.

        • 1.4.3. Sự nhập nhằng , đa nghĩa của đại từ.

        • 1.5. Mục tiêu, giới hạn và hướng tiếp cận của đồ án.

        • PHẦN II. GIẢI QUYẾT VẤN ĐỀ

        • CHƯƠNG 2. PHÂN LOẠI HIỆN TƯỢNG ĐỒNG THAM CHIẾU VÀ TỈNH LƯỢC

          • 2.1. Hiện tượng đồng tham chiếu – Anaphora.

            • 2.1.1.Định nghĩa.

            • 2.1.2. Phân loại.

            • 2.2. Hiện tượng tỉnh lược - Elliptics

              • 2.2.1. Định nghĩa.

              • 2.2.2.Phân loại

              • CHƯƠNG 3 . SƠ LƯỢC CẤU TRÚC TIẾNG VIỆT

                • 3.1. Danh từ và cụm danh từ.

                • 3.2. Động từ và cụm động từ.

Tài liệu cùng người dùng

Tài liệu liên quan