Do an phan giai dong tham chieu va hien tuong tinh luoc

70 6 0
Do an phan giai dong tham chieu va hien tuong tinh luoc

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Phân giải đồng tham chiếu tượng tỉnh lược hội thoại iiiiiiiiiiii 2010 PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP i i i i i i i Thông tin sinh viên i i i i i Họ tên sinh viên: Đỗ Thái Hà i i i i i ii i i Điện thoại liên lạc: 0917290 254 i Lớp: i i i i iiiiiiii Email: hangoit2002@yahoo.com ii Hệ Thống Thông Tin K-50 i i i i Hệ đào tạo: Đại học quy i i i ii i i i Đồ án tốt nghiệp thực tại: Bộ môn Hệ Thống Thông Tin – Viện Công nghệ thông tin truyền thông – Trường Đại học Bách Khoa Hà Nội i i i i i i i i i i i i i i i i i i i i i Thời gian làm ĐATN: Từ ngày i i / iiiii iiiii i i i i /2010 đến ii i i i i i i i i / iiiii iiiii /2010 Mục đích nội dung ĐATN i i i i i i Mục tiêu đồ án đưa phương pháp xử lý cho phân giải đồng tham chiếu tượng tỉnh lược hội thoại tiếng Việt, cho trường hợp hội thoại thông dụng iiiiiiiiiiii i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i Các nhiệm vụ cụ thể ĐATN i i i i i i i  Phân loại tượng đồng tham chiếu tỉnh lược  Phân tích đưa thuật tốn xử lý trường hợp nhỏ tượng phân giải đồng tham chiếu tỉnh lược i i i i i i i i i i i i i i i i i i i i i i iiiiiii i i i i i i i i i Kết hợp thuật toán xử lý để xử lý tất trường hợp phân giải đồng tham chiếu tỉnh lược  i i i i i i i i i i i i i i i i i i i Cài đặt chương trình , kết hợp với hệ thống hội thoại người – máy  Tổng kết, đánh giá hiệu đồ án i i i i i i i  i i i i i i i i i i i i i i i i i i i Lời cam đoan sinh viên: i i i i i i Tôi – Đỗ Thái Hà - cam kết ĐATN cơng trình nghiên cứu thân hướng dẫn Tiến sĩ Lê Thanh Hương i i i i i i i i i i i i i i i i i i i i i i i i i i i i Các kết nêu ĐATN trung thực, khơng phải chép tồn văn cơng trình khác i i i i i i i i i i i i i i i i i i i i i i Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 Phân giải đồng tham chiếu tượng tỉnh lược hội thoại 2010 Hà Nội, ngày tháng năm Tác giả ĐATN i i iiii i ii i Họ tên sinh viên i i i i Xác nhận giáo viên hướng dẫn mức độ hoàn thành ĐATN cho phép bảo vệ: i i i i i i i i i i i i i i i i i i i Hà Nội, ngày tháng năm Giáo viên hướng dẫn i i i Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 iiii i ii i Phân giải đồng tham chiếu tượng tỉnh lược hội thoại 2010 TĨM TẮT NỘI DUNG ĐỒ ÁN TƠT NGHIỆP i i i i i i i Ngôn ngữ tự nhiên đa dạng phong phú ngơn ngữ bạn sử dụng ngơn ngữ Vì việc ánh xạ từ ngôn ngữ tự nhiên vào hệ thống máy tính vấn đề vô phức tạp thu hút quan tâm nghiên cứu nhiều chuyên gia Một hệ thống hội thoại tự động lý tưởng mơ ước chun gia máy tính.Bài tốn xây dựng hệ thống nhiều thách thức chưa có lời giải tồn vẹn Để làm cho máy tính “người” hơn, vấn đề phân giải đồng tham chiếu tượng tỉnh lược hội thoại vấn đề không quan tâm nghiên cứu iiiiiiiiiii i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i iiiiiiiiii i i i i i i i i i i i i i i i i i i Đồ án gồm phần lớn i i i i i Phần I : Tổng quan i i i i Nội dung phần nêu nên nhìn tổng quan đề tài.Các ý lớn phần : i i i i i i i i i i i i i i i i i i i i Nêu lên mơ hình tổng qt : Đề tài nghiên cứu hệ thống nằm hệ thống hội thoại người – máy tiếng Việt Tóm tắt tình hình nghiên cứu giới tình hình nghiên cứu vấ đề Việt Nam Phân tích khó khăn đồ án gặp phải : ngữ pháp phức tạp, từ đa nghĩa, nhập nhằng đại từ quan hệ Mục tiêu hướng tiếp cận đồ án : không hướng vào chiều sâu mà hướng vào chiều rộng – xây dựng chương trình giải tổng hợp trường hợp hay gặp đồng tham chiếu tỉnh lược hội thoại  i i i i  i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i  i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i Phần : Nội dung i i i i i Phần trình bày hướng tiếp cận cụ thể cho khía cạnh vấn đề, tổng hợp thuật toán Các ý lớn phần bao gồm: i i i i i i i i i i i i i i i i i i i i i i i i i i i i i Phân tích ngữ pháp tiếng Việt, quan tâm chủ yếu đến cấu trúc danh từ, động từ, đại từ, cấu trúc câu trần thuật câu nghi vấn Phân loại tượng đồng tham chiếu tỉnh lược, đưa cách tiếp cận cho loại Đưa kiến trúc từ điển kép theo Sematic  i i  i i i i  i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i Phần : Cài đặt hệ thống i i i i i i i Phần sâu vào việc xây dựng cài đặt chương trình.Các ý lớn gồm có : i    i i i i i i i i i i i i i i i i Các thiết kế mơ hình tổng qt hệ thống Kết kiểm thứ đánh giá Hướng phát triển tương lai i i i i i i i i i i i i i i i i i i i i i Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 Phân giải đồng tham chiếu tượng tỉnh lược hội thoại 2010 Lời cảm ơn i i Để hoàn thành tốt đồ án này, em xin cảm ơn thầy giáo, cô giáo môn hệ thống thông tin, thầy giáo, cô giáo khoa Công nghệ thông tin thầy cô trường Đại học Bách Khoa Hà Nội dìu dắt em suốt năm năm đại học i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i Em xin gửi lời cảm ơn sâu sắc tới cô giáo TS Lê Thanh Hương, người định hướng, giúp đỡ em có tri thức, hiểu biết để hồn thành đồ án i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i Con xin cảm ơn bố mẹ, người thân bên con, động viên tạo điều kiện cho trình làm đồ án i i i i i i i i i i i i i i i i i i i i i i i i i i i i Xin cảm ơn bạn bè động viên, giúp đỡ tôi cần i i i i i i i i i i i Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 i i i i Phân giải đồng tham chiếu tượng tỉnh lược hội thoại 2010 Mục lục i PHIẾUi GIAOi NHIỆMi VỤi ĐỒi ÁNi TỐTi NGHIỆP Danhi mụci cáci từi viếti tắti vài thuậti ngữi Tiếngi Anh .8 Danhi mụci cáci bảng PHẦNi Ii i TỔNGi QUAN 11 CHƯƠNGi 1.i TỔNGi QUAN .11 1.1i Đặti vấni đề 11 1.2.i Mơi hìnhi tổngi quát 11 1.3.i Cáci cáchi tiếpi cậni trongi phâni giảii đồngi thami chiếui vài hiệni tượngi tỉnhi lượci trongi hộii thoại 12 1.3.1.i Cáci cáchi tiếpi cậni trêni thếi giới 12 1.3.2.i Nhữngi vấni đềi còni tồni 12 1.3.3.i Phâni giảii đồngi thami chiếui vài hiệni tượngi tỉnhi lượci trongi hộii thoạii tiếngi Việt 13 1.4.i Nhữngi khói khăni chínhi củai bàii toáni phâni giảii đồngi thami chiếui vài tỉnhi lượci trongi hộii thoạii tiếngi Việt 13 1.4.1.i Ngữi phápi phứci tạp 13 1.4.2.Nhậpi nhằngi trongi việci táchi từi vài phâni loạii từ 14 1.4.3.i Sựi nhậpi nhằngi ,i đai nghĩai củai đạii từ .14 1.5.i Mụci tiêu,i giớii hạni vài hướngi tiếpi cậni củai đồi án .15 PHẦNi II.i GIẢIi QUYẾTi VẤNi ĐỀ .16 CHƯƠNGi 2.i PHÂNi LOẠIi HIỆNi TƯỢNGi ĐỒNGi THAMi CHIẾUi VÀi TỈNHi LƯỢC .16 2.1.i Hiệni tượngi đồngi thami chiếui –i Anaphora 16 2.1.1.Địnhi nghĩa 16 2.1.2.i Phâni loại 17 2.2.i Hiệni tượngi tỉnhi lượci -i Elliptics 19 2.2.1.i Địnhi nghĩa 19 2.2.2.Phâni loại 19 CHƯƠNGi 3i i SƠi LƯỢCi CẤUi TRÚCi TIẾNGi VIỆT 20 3.1.i Danhi từi vài cụmi danhi từ 20 3.2.i Độngi từi vài cụmi độngi từ 22 3.3.i Cáci loạii từi khác 25 3.4.i Cáci dạngi câu 28 a.i i Câui trầni thuật 28 b.i Câui nghii vấn 29 c.i i Câui cầui khiến 32 Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 Phân giải đồng tham chiếu tượng tỉnh lược hội thoại 2010 d.i i Câui cảmi thán 32 CHƯƠNGi 4i i XÂYi DỰNGi THUẬTi TOÁNi XỬi LÝi HIỆNi TƯỢNGi ĐỒNGi THAMi CHIẾUi VÀi TỈNHi LƯỢCi TRONGi TIẾNGi VIỆT 33 4.1.i Hiệni tượngi đồngi thami chiếui trongi tiếngi Việti vài hướngi tiếpi cận 33 4.1.1i i Np-i anaphorai 33 4.1.2.i “One”i anaphora 37 4.1.3.i VP-i anaphora 37 4.1.4.i S-i anaphora 38 4.2.i Hiệni tượngi tỉnhi lượci câui vài hướngi tiếpi cận 38 4.2.1.i Tỉnhi lượci ngữi phápi -i Contextuali ellipsisi 38 4.2.2.i Hướngi tiếpi cận .40 4.3.i Tổngi hợp 41 4.3.1.Hướngi giảii quyếti mốii quani hệi chủi ngữi -i độngi từi -i bổi ngữ .41 4.3.2.i Hướngi xâyi dựngi cơi sởi dữi liệui từi điểni 42 4.3.2.1.i Nguyêni nhân .42 4.3.2.2.i Cấui trúci từi điểni 42 4.3.3.Tổngi hợpi cáci phươngi pháp 48 PHẦNi 3.i XÂYi DỰNGi HỆi THỐNG 50 CHƯƠNGi 5.i THIẾTi KẾi HỆi THỐNG 50 5.1.i Giớii hạni bàii toán 50 5.2.i Vịi tríi củai hệi thốngi trongi hệi thốngi hộii thoạii tổngi hợp .50 5.3.i Thiếti kếi cáci usecasei 51 5.3.1.i Biểui đồi tuầni tự .51 5.3.2.Biểui đồi trạngi tháii máy .52 5.4.i Thiếti kếi cáci góii chươngi trình 52 5.4.1.i Góii truyi nhậpi cơi sởi dữi liệui –i XMLdataConnection 53 5.4.2.i Góii Tiềni xửi lýi –i PrepareStructure 54 5.4.3.i Góii pháti hiệni hiệni tượngi ngôni ngữi -i Discover 56 5.4.4.i Góii xửi lýi cáci hiệni tượngi ngơni ngữ 58 5.5.i Thiếti kếi lớp 61 CHƯƠNGi 6.i THỬi NGHIỆMi VÀi ĐÁNHi GIÁi KẾTi QUẢ .63 6.1.i Kiểmi thử 63 6.1.1.i Giaoi diệni củai chươngi trình 63 6.1.2.i Thửi nghiệmi vài kếti 64 6.2.Đánhi giái kếti 66 CHƯƠNGi 7.i KẾTi LUẬNi VÀi HƯỚNGi PHÁTi TRIỂN 68 Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 Phân giải đồng tham chiếu tượng tỉnh lược hội thoại 2010 7.1.i Nhậni xéti ưui vài khuyếti điểm 68 7.1.1.i Ưui điểm 68 7.1.2.Khuyếti điểmi vài tồni .68 7.2.Hướngi pháti triểni choi tươngi lai 69 Tàii liệui thami khảo 71 Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 Phân giải đồng tham chiếu tượng tỉnh lược hội thoại 2010 Danh mục từ viết tắt thuật ngữ Tiếng Anh i i i STT i i i i i i i Từ Giải nghĩa i antecedent Tiền ngữ - từ/câu bị thay Anaphora Phân giải đồng tham chiếu S - Anaphora Phân giải đồng tham chiếu câu VP - Anaphora Phân giải đồng tham chiếu động từ One - anaphora Phân giải đồng tham chiếu số từ NP – anaphora Phân giải đồng tham chiếu danh từ Pronominal Phân giải đồng tham chiếu đại từ Definite NP Phân giải đồng tham chiếu đại từ xác định Elliptics Hiện tượng tỉnh lược 10 Contextual ellipsis 11 Pragmatic ellipsis Tỉnh lược ngữ cảnh 12 Prefer- Constraint Ràng buộc thêm (không bắt buộc) i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i Tỉnh lược ngữ pháp i i i i i i i i i Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 i i Phân giải đồng tham chiếu tượng tỉnh lược hội thoại 2010 Danh mục bảng i i i a.i Lớpi NounConnection 50 b.i Góii VerbConnection 50 a.i Lớpi WordStruct 51 b.i Lớpi SentenceStruct 51 c.i Lớpi PrepareStructure 52 a.i EcllipsisDiscover:IDisCoverInterface 53 b.i Lớpi NPAnaphoraDisCover 53 c.i VPAnaphoraDisCover 54 d.i OneAnaphoraDisCover .54 e.i SAnaphoraDiscover 55 a.Lớpi NPAnaphoraResolve 55 b.i Lớpi VPAnaphoraResolve 56 c.Lớpi SPAnaphoraResolve 56 d.Lớpi OneAnaphoraResolve 56 e.Lớpi EcllipsisResolve 57 f.i Lớpi MergeClassi –i Đâyi lài lớpi tổngi hợpi cáci thuậti toáni đểi xửi lýi chung 57 Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 Phân giải đồng tham chiếu tượng tỉnh lược hội thoại 2010 Danh mục hình vẽ i i i i Hìnhi 1i -i Mơi phỏngi thuậti tốni Hobbs .33 Hìnhi 2i -i Mơi phỏngi quani hệi từi vựng 39 Hìnhi 4i -i Biểui đồi trạngi tháii máyi tổngi quát 51 Hìnhi 5i -i Minhi họai sơi đồi hoạti độngi giaii đoạni nhậni diệni câu .51 Hìnhi 6-i Hìnhi biểui đồi lớpi góii nhậni diệni câu 60 Sinh viên thực : Đỗ Thái Hà _ Hệ thống thông tin K50 10

Ngày đăng: 28/07/2023, 07:51

Tài liệu cùng người dùng

Tài liệu liên quan