1. Trang chủ
  2. » Luận Văn - Báo Cáo

xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng việt với hệ hình thức văn phạm tag

52 543 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 52
Dung lượng 920,7 KB

Nội dung

 TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHUẤT THỊ THỦY XÂY DỰNG CƠ SỞ DỮ LIỆU CHO PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT VỚI HỆ HÌNH THỨC VĂN PHẠM TAG LUC i  2012  TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Khuất Thị Thủy XÂY DỰNG CƠ SỞ DỮ LIỆU CHO PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT VỚI HỆ HÌNH THỨC VĂN PHẠM TAG    : 60.46.35 LUC S KHOA HC  TS. Nguyễn Thị Minh Huyền i  2012 MỤC LỤC DANH MC CH VIT TT 2 DANH M 3 M U 4  m TAG 6 m phi ng cnh 6 1.2.    7 1.3. Gii thi d ling Anh ca d  16 1nh d d liu TAG 19  d liu d c ng  24 2.1. Gii thiu v t n 24  d liu 26  3  m TAG t treebank ting Vit 32  m TAG t treebank ting Vit 32 t qu c 39 KT LUN 42 U THAM KHO 43 PH LC 45 Luận văn tốt nghiệp Học viên: Khuất Thị Thủy 2 DANH MỤC CHỮ VIẾT TẮT API Application Programming Interface LMF Lexical Markup Framework LLP2 Loria LTAG Parser 2 LTAG Lexicalized Tree Adjoining Grammar TAG Tree Adjoining Grammar TAGML Tree Adjoining Grammars Markup Language XML eXtensible Markup Language Luận văn tốt nghiệp Học viên: Khuất Thị Thủy 3 DANH MỤC HÌNH   9   9   9   9   10  Minh h 10  t n 11  Minh ht n 12    i c 12   t ni c 13   cYesterday John saw Marry 13  Dn xut cYesterday John saw Marry 14  Yesterday John saw Marry 14  n xut cYesterday John saw Marry” 15  a cho h ng t 18  a cho h ng t 18  a cho h ng t  ai b ng 19   tr i t 19 Luận văn tốt nghiệp Học viên: Khuất Thị Thủy 4 MỞ ĐẦU t trong nhng trong x    t  t qu c     c s dng trong rt nhiu ng dh ch   v quan h gin nh: nh th nhn tn ng n knh th   ph thuc t nh s ph thuc v ng   Mi b u cn tc c  c t c c c biu din bi mt h m c th m c s dm phi ng c  m hp nht. Hp nht t trong nh phc s dng ph bin hin nay. a   i t m   ki h   loi b ng hp bt quy t tc d) ct qu ct    b  c d lim theo mt h m c th c xng c d lit sc quan tr ca lut nghip cao h u c  d li ng Vit vi h i dung ca lu c b c Luận văn tốt nghiệp Học viên: Khuất Thị Thủy 5 Chtng quan v h m TAG n xu d li ng Anh vi TAG, chu liu cho TAG. a lun v   thu  d ling Vit vi h m TAG b c ng  a luy d d li m TAG t Treebank ting Vi i vi kt qu  d liu c Luận văn tốt nghiệp Học viên: Khuất Thị Thủy 6 Chƣơng 1 Hệ hình thức văn phạm TAG             1.1. Văn phạm phi ngữ cảnh t b bn   - ng ch ng ch  cm; - V: Bng ch  hay bng ch  tr cm; p hu hng;   V - Bng ch n hp hay bng ch  c phm;    -   c gi  u xum; -     V) +     V) *      hay tp quy tc cm; c gc (hay quy tc th hoc quy tc sinh) ca - v - v phi ca quy tc r. Quy tc gc kt (hoc quy tc k   t  li xut hin  v a quy tc trong P ([6]). m phi ng ci quy t  hit k. m phi ng cng c la ch biu din cu t  t   m  hu ht nhng c c t m phi ng cc s d biu din cu kng v  Luận văn tốt nghiệp Học viên: Khuất Thị Thủy 7 ngkng v lo biu dic sinh biu di tc ng  c t vng (cht mu kc ng g chu k i mi t trong t vt tc sinh cha t  v phi. n phm phi ng cnh vu mt hn ch (s c m ca TAG) c t cn nhng   hi hc t th. 1.2. Văn pha ̣ m TAG Tree Adjoining Grammar - TAG)         ;     1.2.1.               , S)  ([7]):      xem  1.1). Luận văn tốt nghiệp Học viên: Khuất Thị Thủy 8 Hình 1.1: Mô tả cây khởi tạo    1.2 Hình 1.2 : Mô tả cây phụ trợ  1.3) Hình 1.3: Cây khơ ̉ i ta ̣ o 1.4) S V S* does S  VP V S* think NP Harry V likes S VP V  peanuts  Hình 1.4: Cây phu ̣ trơ ̣ [...]... kiến thức chung về hệ hình thức văn phạm TAG, cơ sở dữ liệu dùng cho phân tích cú pháp tiếng Anh với hệ hình thức TAG và chuẩn mã hóa dữ liệu dùng cho bộ phân tích Hai chương tiếp theo sẽ trình bày cách xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng Việt với hệ hình thức văn phạm TAG Học viên: Khuất Thị Thủy 23 Luận văn tốt nghiệp Chƣơng 2 Xây dựng cơ sở dữ liệu dựa trên từ điển và quy tắc ngữ pháp. .. văn phạm phi ngữ cảnh thì không Văn phạm TAG hiện được nghiên cứu và sử dụng rộng rãi Phần tiếp theo sẽ trình bày về cơ sở dữ liệu của dự án XTAG – cơ sở dữ liệu cho phân tích cú pháp tiếng Anh dựa trên hệ hình thức TAG Việc tìm hiểu cơ sở dữ liệu này cho phép ta có cái nhìn tổng thể về một cơ sở dữ liệu đầy đủ cho phân tích cú pháp của một ngôn ngữ 1.3 Giới thiệu cơ sở dữ liệu dùng cho phân tích cú. .. thời sự Trên cơ sở một từ được mô tả bởi từ điển dưới dạng mã hóa XML thì phần tiếp theo sẽ trình bày phương pháp dựa trên mục từ cùng với các ràng buộc cú pháp chứa trong mỗi từ 2.2 Xây dựng cơ sở dữ liệu Xây dựng cơ sở cho phân tích cú pháp tiếng Việt với hệ hình thức TAG tức là phải tiến hành xây dựng các cây cơ sở của TAG Với tiếng Anh thì trong câu vị từ luôn là động... cú pháp câu với danh từ, tính từ làm trung tâm Việc xây dựng các cây cơ sở cho phân tích cú pháp tiếng Việt sẽ được trình bày cụ thể trong chương 2 1.4 Định dạng TAGML cho cơ sở dữ liệu TAG Cũng như với mọi dữ liệu khác có yêu cầu lưu trữ, trao đổi cao thì người ta luôn quan tâm tới vấn đề chuẩn hóa mã hóa dữ liệu TAGML chính là một chuẩn mô tả XML các tài nguyên cần thiết cho một bộ phân tích cú pháp. .. được mã hóa theo chuẩn TAGML, tuy nhiên khi đã có các cấu trúc cây của TAG thì có thể chuyển tự động sang dạng TAGML Học viên: Khuất Thị Thủy 31 Luận văn tốt nghiệp Chƣơng 3 Trích rút tự động văn phạm TAG từ treebank tiếng Việt Phương pháp xây dựng cơ sở dữ liệu cho phân tích cú pháp tiếng Việt với hệ hình thức văn phạm TAG dựa trên việc trích rút tự động từ treebank tiếng Việt được nhóm tác giả Lê... những bộ phân tích cú pháp sử dụng dữ liệu được mã hóa dưới dạng chuẩn TAGML là bộ công cụ LLP2 (Loria LTAG Parser 2) LLP2 được phát triển tại Trung tâm nghiên cứu LORIA, Cộng hoà Pháp dùng cho phân tích cú pháp với hệ hình thức LTAG Bộ công cụ này được viết bằng Java bao gồm các thành phần:  parser: Chương trnh phân tích cú pháp LTAG ́  tagviewer: Giao diện hiển thị cây cú pháp LTAG  graphtag: quản... vậy, với cú pháp tiếng Anh thì nhóm XTAG đã dựa trên quy tắc ngữ pháp để xây dựng cơ sở dữ liệu Vận dụng cách xây dựng của họ thì đối với tiếng Việt cũng xây dựng tập các cây khởi tạo là các thành phần chính (nòng cốt) của câu, cây phụ trợ là các thành phần tham gia làm phụ tố cho nòng cốt Nhưng khác với tiếng Anh thì tiếng Việt ngoài cú pháp câu với Học viên: Khuất Thị Thủy 18 Luận văn tốt nghiệp động... các cây này phải chuyển về dạng mã hóa TAGML thì khi đó chúng mới trở thành dữ liệu dùng cho những hệ thống phân tích cú pháp với hệ hình thức TAG như LLP2 hay DyAlog Dựa trên các thông tin hình thái, cú pháp từ điển mô tả cho mỗi mục từ thì sẽ xây dựng được các cây khởi tạo đơn giản có dạng (nhãn thành phần cú pháp (từ loại từ trung tâm)); (nhãn thành phần cú pháp (tiểu từ loại từ trung tâm)) hay các... nguyên cần thiết cho một bộ phân tích cú pháp LTAG Các đặc tả dữ liệu mô tả các tài nguyên cú pháp và từ vựng dùng cho phân tích cú pháp TAG được chi tiết trong phụ lục Có hai dạng thông tin cần mô tả khi sử dụng TAGML để đặc tả dữ liệu dùng cho TAG đó là: o Danh sách kho từ vựng o Danh sách các cây cơ sở từ vựng hóa: mô tả cây cơ sở và gắn từ vựng vào các cây cơ sở Để mô tả mục từ vựng dùng thẻ ... phương pháp xây dựng cơ sở dữ liệu đã trình bày 3.1 Trích rút tự động văn phạm TAG từ treebank tiếng Việt Treebank tiếng Việt thuộc đề tài KC01.01/06-10 bao gồm các dữ liệu văn bản được thu thập từ chuyên mục Chính trị - Xă hội của báo Tuổi trẻ Online Kho văn bản của treebank được chia làm ba tập tương ứng với ba mức gán nhãn là tách từ, gán nhãn từ loại và gán nhãn cú pháp Việc trích rút tự động văn phạm . HỌC KHOA HỌC TỰ NHIÊN KHUẤT THỊ THỦY XÂY DỰNG CƠ SỞ DỮ LIỆU CHO PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT VỚI HỆ HÌNH THỨC VĂN PHẠM TAG LUC i . TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN Khuất Thị Thủy XÂY DỰNG CƠ SỞ DỮ LIỆU CHO PHÂN TÍCH CÚ PHÁP TIẾNG VIỆT VỚI HỆ HÌNH THỨC VĂN PHẠM TAG . li cho a mt . 1.3. Giới thiệu cơ sở dữ liệu dùng cho phân tích cú pháp ting Anh của dự án XTAG  

Ngày đăng: 08/01/2015, 08:31

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Nguyễn Phương Thái (2008), Xây dựng treebank tiếng Việt, Kỷ yếu hội thảo ICT.rda’08. Hà Nội Sách, tạp chí
Tiêu đề: Xây dựng treebank tiếng Việt
Tác giả: Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Nguyễn Phương Thái
Năm: 2008
2. Đỗ Bá Lâm, Lê Thanh Hương (2008), Xây dựng hệ thống phân tích cú pháp tiếng Việt sử dụng văn phạm HPSG, Kỷ yếu hội thảo ICT.rda’08. Hà Nội Sách, tạp chí
Tiêu đề: Xây dựng hệ thống phân tích cú pháp tiếng Việt sử dụng văn phạm HPSG
Tác giả: Đỗ Bá Lâm, Lê Thanh Hương
Năm: 2008
3. Vũ Xuân Lương, Nguyễn Thị Minh Huyền (2008), Nghiên cứu và xây dựng từ điển tiếng Việt cho máy tính, Kỷ yếu hội thảo ICT.rda’08. Hà Nội Sách, tạp chí
Tiêu đề: Nghiên cứu và xây dựng từ điển tiếng Việt cho máy tính
Tác giả: Vũ Xuân Lương, Nguyễn Thị Minh Huyền
Năm: 2008
4. Vũ Xuân Lương, Nguyễn Thị Minh Huyền, Hồ Tú Bảo (2009), báo cáo kỹ thuật “hướng dẫn mô tả thông tin từ vựng trong từ điển dùng cho máy tính” , SP7.2 - Đề tài KC.01.01.05/06-10 Sách, tạp chí
Tiêu đề: báo cáo kỹ thuật “hướng dẫn mô tả thông tin từ vựng trong từ điển dùng cho máy tính”
Tác giả: Vũ Xuân Lương, Nguyễn Thị Minh Huyền, Hồ Tú Bảo
Năm: 2009
5. Lê Hồng Phương, Nguyễn Thị Minh Huyền, Nguyễn Phương Thái, Phan Thị Hà (2010), Trích rút tự động văn phạm TAG cho tiếng Việt , Tạp chí Tin học và Điều khiển học, vol. 26, no. 2, p. 153-171 Sách, tạp chí
Tiêu đề: Trích rút tự động văn phạm TAG cho tiếng Việ
Tác giả: Lê Hồng Phương, Nguyễn Thị Minh Huyền, Nguyễn Phương Thái, Phan Thị Hà
Năm: 2010
7. Aravind K. Joshi and Yves Schabes (1997), Tree-adjoining grammars, Handbook of formal languages, vol. 3, pg 69 – 123 Sách, tạp chí
Tiêu đề: Tree-adjoining grammars
Tác giả: Aravind K. Joshi and Yves Schabes
Năm: 1997
8. John Chen and K. Vijay-Shanker (2000), Automated extraction of TAGs from the Penn treebank, Proceedings of the Sixth International Workshop on Parsing Technologies Sách, tạp chí
Tiêu đề: Automated extraction of TAGs from the Penn treebank
Tác giả: John Chen and K. Vijay-Shanker
Năm: 2000
10. Le Hong Phuong, Nguyen Thi Minh Huyen, Azim Roussanaly (2012), Vietnamese parsing with an automatically extracted tree-adjoining grammar, Proceedings of IEEE International Sách, tạp chí
Tiêu đề: Vietnamese parsing with an automatically extracted tree-adjoining grammar
Tác giả: Le Hong Phuong, Nguyen Thi Minh Huyen, Azim Roussanaly
Năm: 2012
11. Le Hong Phuong, Nguyen Thi Minh Huyen, Azim Roussanaly, Nguyen Phuong Thai (2010), Automated extraction of tree adjoining grammars from a treebank for Vietnamese, Proceedings of The 10th International Conference on Tree Adjoining Grammars and Related Formalisms, Yale University, New Haven, USA Sách, tạp chí
Tiêu đề: Automated extraction of tree adjoining grammars from a treebank for Vietnamese
Tác giả: Le Hong Phuong, Nguyen Thi Minh Huyen, Azim Roussanaly, Nguyen Phuong Thai
Năm: 2010
12. Patrice Bonhomme, Patrice Lopez (2000), Resources for Lexicalized Tree Adjoining Grammars and XML encoding: TagML, Proceedings of the 2nd International Conference on Language Resources and Evaluation Sách, tạp chí
Tiêu đề: Resources for Lexicalized Tree Adjoining Grammars and XML encoding: TagML
Tác giả: Patrice Bonhomme, Patrice Lopez
Năm: 2000
13. XTAG-Research-Group, (2001), A lexicalized tree adjoining grammar for English, Technical report, Institute for Research in Cognitive Science, University of Pennsylvania Sách, tạp chí
Tiêu đề: A lexicalized tree adjoining grammar for English
Tác giả: XTAG-Research-Group
Năm: 2001
14. Tài liệu kỹ thuật của bộ công cụ LLP2 tại http://www.loria.fr/~azim/LLP2/help/fr/ Link
9. Le Hong Phuong, Laurent Romary, Azim Roussanaly, Nguyen Thi Minh Huyen (2006), A lexicalized tree adjoining grammar for Khác

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w