xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng việt với hệ hình thức văn phạm tag

52 542 0
xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng việt với hệ hình thức văn phạm tag

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

 TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHUẤT THỊ THỦY XÂY DỰNG CƠ SỞ DỮ LIỆU CHO PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT VỚI HỆ HÌNH THỨC VĂN PHẠM TAG LUC i  2012  TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Khuất Thị Thủy XÂY DỰNG CƠ SỞ DỮ LIỆU CHO PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT VỚI HỆ HÌNH THỨC VĂN PHẠM TAG    : 60.46.35 LUC S KHOA HC  TS. Nguyễn Thị Minh Huyền i  2012 MỤC LỤC DANH MC CH VIT TT 2 DANH M 3 M U 4  m TAG 6 m phi ng cnh 6 1.2.    7 1.3. Gii thi d ling Anh ca d  16 1nh d d liu TAG 19  d liu d c ng  24 2.1. Gii thiu v t n 24  d liu 26  3  m TAG t treebank ting Vit 32  m TAG t treebank ting Vit 32 t qu c 39 KT LUN 42 U THAM KHO 43 PH LC 45 Luận văn tốt nghiệp Học viên: Khuất Thị Thủy 2 DANH MỤC CHỮ VIẾT TẮT API Application Programming Interface LMF Lexical Markup Framework LLP2 Loria LTAG Parser 2 LTAG Lexicalized Tree Adjoining Grammar TAG Tree Adjoining Grammar TAGML Tree Adjoining Grammars Markup Language XML eXtensible Markup Language Luận văn tốt nghiệp Học viên: Khuất Thị Thủy 3 DANH MỤC HÌNH   9   9   9   9   10  Minh h 10  t n 11  Minh ht n 12    i c 12   t ni c 13   cYesterday John saw Marry 13  Dn xut cYesterday John saw Marry 14  Yesterday John saw Marry 14  n xut cYesterday John saw Marry” 15  a cho h ng t 18  a cho h ng t 18  a cho h ng t  ai b ng 19   tr i t 19 Luận văn tốt nghiệp Học viên: Khuất Thị Thủy 4 MỞ ĐẦU t trong nhng trong x    t  t qu c     c s dng trong rt nhiu ng dh ch   v quan h gin nh: nh th nhn tn ng n knh th   ph thuc t nh s ph thuc v ng   Mi b u cn tc c  c t c c c biu din bi mt h m c th m c s dm phi ng c  m hp nht. Hp nht t trong nh phc s dng ph bin hin nay. a   i t m   ki h   loi b ng hp bt quy t tc d) ct qu ct    b  c d lim theo mt h m c th c xng c d lit sc quan tr ca lut nghip cao h u c  d li ng Vit vi h i dung ca lu c b c Luận văn tốt nghiệp Học viên: Khuất Thị Thủy 5 Chtng quan v h m TAG n xu d li ng Anh vi TAG, chu liu cho TAG. a lun v   thu  d ling Vit vi h m TAG b c ng  a luy d d li m TAG t Treebank ting Vi i vi kt qu  d liu c Luận văn tốt nghiệp Học viên: Khuất Thị Thủy 6 Chƣơng 1 Hệ hình thức văn phạm TAG             1.1. Văn phạm phi ngữ cảnh t b bn   - ng ch ng ch  cm; - V: Bng ch  hay bng ch  tr cm; p hu hng;   V - Bng ch n hp hay bng ch  c phm;    -   c gi  u xum; -     V) +     V) *      hay tp quy tc cm; c gc (hay quy tc th hoc quy tc sinh) ca - v - v phi ca quy tc r. Quy tc gc kt (hoc quy tc k   t  li xut hin  v a quy tc trong P ([6]). m phi ng ci quy t  hit k. m phi ng cng c la ch biu din cu t  t   m  hu ht nhng c c t m phi ng cc s d biu din cu kng v  Luận văn tốt nghiệp Học viên: Khuất Thị Thủy 7 ngkng v lo biu dic sinh biu di tc ng  c t vng (cht mu kc ng g chu k i mi t trong t vt tc sinh cha t  v phi. n phm phi ng cnh vu mt hn ch (s c m ca TAG) c t cn nhng   hi hc t th. 1.2. Văn pha ̣ m TAG Tree Adjoining Grammar - TAG)         ;     1.2.1.               , S)  ([7]):      xem  1.1). Luận văn tốt nghiệp Học viên: Khuất Thị Thủy 8 Hình 1.1: Mô tả cây khởi tạo    1.2 Hình 1.2 : Mô tả cây phụ trợ  1.3) Hình 1.3: Cây khơ ̉ i ta ̣ o 1.4) S V S* does S  VP V S* think NP Harry V likes S VP V  peanuts  Hình 1.4: Cây phu ̣ trơ ̣ [...]... kiến thức chung về hệ hình thức văn phạm TAG, cơ sở dữ liệu dùng cho phân tích cú pháp tiếng Anh với hệ hình thức TAG và chuẩn mã hóa dữ liệu dùng cho bộ phân tích Hai chương tiếp theo sẽ trình bày cách xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng Việt với hệ hình thức văn phạm TAG Học viên: Khuất Thị Thủy 23 Luận văn tốt nghiệp Chƣơng 2 Xây dựng cơ sở dữ liệu dựa trên từ điển và quy tắc ngữ pháp. .. văn phạm phi ngữ cảnh thì không Văn phạm TAG hiện được nghiên cứu và sử dụng rộng rãi Phần tiếp theo sẽ trình bày về cơ sở dữ liệu của dự án XTAG – cơ sở dữ liệu cho phân tích cú pháp tiếng Anh dựa trên hệ hình thức TAG Việc tìm hiểu cơ sở dữ liệu này cho phép ta có cái nhìn tổng thể về một cơ sở dữ liệu đầy đủ cho phân tích cú pháp của một ngôn ngữ 1.3 Giới thiệu cơ sở dữ liệu dùng cho phân tích cú. .. thời sự Trên cơ sở một từ được mô tả bởi từ điển dưới dạng mã hóa XML thì phần tiếp theo sẽ trình bày phương pháp dựa trên mục từ cùng với các ràng buộc cú pháp chứa trong mỗi từ 2.2 Xây dựng cơ sở dữ liệu Xây dựng cơ sở cho phân tích cú pháp tiếng Việt với hệ hình thức TAG tức là phải tiến hành xây dựng các cây cơ sở của TAG Với tiếng Anh thì trong câu vị từ luôn là động... cú pháp câu với danh từ, tính từ làm trung tâm Việc xây dựng các cây cơ sở cho phân tích cú pháp tiếng Việt sẽ được trình bày cụ thể trong chương 2 1.4 Định dạng TAGML cho cơ sở dữ liệu TAG Cũng như với mọi dữ liệu khác có yêu cầu lưu trữ, trao đổi cao thì người ta luôn quan tâm tới vấn đề chuẩn hóa mã hóa dữ liệu TAGML chính là một chuẩn mô tả XML các tài nguyên cần thiết cho một bộ phân tích cú pháp. .. được mã hóa theo chuẩn TAGML, tuy nhiên khi đã có các cấu trúc cây của TAG thì có thể chuyển tự động sang dạng TAGML Học viên: Khuất Thị Thủy 31 Luận văn tốt nghiệp Chƣơng 3 Trích rút tự động văn phạm TAG từ treebank tiếng Việt Phương pháp xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng Việt với hệ hình thức văn phạm TAG dựa trên việc trích rút tự động từ treebank tiếng Việt được nhóm tác giả Lê... những bộ phân tích cú pháp sử dụng dữ liệu được mã hóa dưới dạng chuẩn TAGML là bộ công cụ LLP2 (Loria LTAG Parser 2) LLP2 được phát triển tại Trung tâm nghiên cứu LORIA, Cộng hoà Pháp dùng cho phân tích cú pháp với hệ hình thức LTAG Bộ công cụ này được viết bằng Java bao gồm các thành phần:  parser: Chương trnh phân tích cú pháp LTAG ́  tagviewer: Giao diện hiển thị cây cú pháp LTAG  graphtag: quản... vậy, với cú pháp tiếng Anh thì nhóm XTAG đã dựa trên quy tắc ngữ pháp để xây dựng cơ sở dữ liệu Vận dụng cách xây dựng của họ thì đối với tiếng Việt cũng xây dựng tập các cây khởi tạo là các thành phần chính (nòng cốt) của câu, cây phụ trợ là các thành phần tham gia làm phụ tố cho nòng cốt Nhưng khác với tiếng Anh thì tiếng Việt ngoài cú pháp câu với Học viên: Khuất Thị Thủy 18 Luận văn tốt nghiệp động... các cây này phải chuyển về dạng mã hóa TAGML thì khi đó chúng mới trở thành dữ liệu dùng cho những hệ thống phân tích cú pháp với hệ hình thức TAG như LLP2 hay DyAlog Dựa trên các thông tin hình thái, cú pháp từ điển mô tả cho mỗi mục từ thì sẽ xây dựng được các cây khởi tạo đơn giản có dạng (nhãn thành phần cú pháp (từ loại từ trung tâm)); (nhãn thành phần cú pháp (tiểu từ loại từ trung tâm)) hay các... nguyên cần thiết cho một bộ phân tích cú pháp LTAG Các đặc tả dữ liệu mô tả các tài nguyên cú pháp và từ vựng dùng cho phân tích cú pháp TAG được chi tiết trong phụ lục Có hai dạng thông tin cần mô tả khi sử dụng TAGML để đặc tả dữ liệu dùng cho TAG đó là: o Danh sách kho từ vựng o Danh sách các cây cơ sở từ vựng hóa: mô tả cây cơ sở và gắn từ vựng vào các cây cơ sở Để mô tả mục từ vựng dùng thẻ ... phương pháp xây dựng cơ sở dữ liệu đã trình bày 3.1 Trích rút tự động văn phạm TAG từ treebank tiếng Việt Treebank tiếng Việt thuộc đề tài KC01.01/06-10 bao gồm các dữ liệu văn bản được thu thập từ chuyên mục Chính trị - Xă hội của báo Tuổi trẻ Online Kho văn bản của treebank được chia làm ba tập tương ứng với ba mức gán nhãn là tách từ, gán nhãn từ loại và gán nhãn cú pháp Việc trích rút tự động văn phạm . HỌC KHOA HỌC TỰ NHIÊN KHUẤT THỊ THỦY XÂY DỰNG CƠ SỞ DỮ LIỆU CHO PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT VỚI HỆ HÌNH THỨC VĂN PHẠM TAG LUC i . TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Khuất Thị Thủy XÂY DỰNG CƠ SỞ DỮ LIỆU CHO PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT VỚI HỆ HÌNH THỨC VĂN PHẠM TAG . li cho a mt . 1.3. Giới thiệu cơ sở dữ liệu dùng cho phân tích cú pháp ting Anh của dự án XTAG  

Ngày đăng: 08/01/2015, 08:31

Từ khóa liên quan

Mục lục

  • MỤC LỤC

  • DANH MỤC CHỮ VIẾT TẮT

  • DANH MỤC HÌNH

  • MỞ ĐẦU

  • 1.1. Văn phạm phi ngữ cảnh

  • 1.2. Văn phạm TAG

  • 1.2.1. Đinh nghia hinh thưc cua văn phạm TAG

  • 1.2.2. Các phép toán của TAG

  • 1.2.3. Cây dẫn xuất trong TAG

  • 1.2.4. Ưu điểm của văn phạm TAG

  • 1.3. Giới thiệu cơ sở dữ liệu dùng cho phân tích cú pháp tíêng Anh của dự án XTAG

  • 1.4. Định dạng TAGML cho cơ sở dữ liệu TAG

  • 2.1. Giới thiệu về từ điển

  • 2.2. Xây dựng cơ sở dữ liệu

  • Chương 3 Trích rút tự động văn phạm TAG từ treebank tíếng Việt

  • 3.1. Trích rút tự động văn phạm TAG từ treebank tíếng Việt

  • 3.2. Đánh giá kết quả của hai phương pháp

  • KẾT LUẬN

  • TÀI LIỆU THAM KHẢO

  • PHỤ LỤC

Tài liệu cùng người dùng

Tài liệu liên quan