Bộ công cụ hỗ trợ xây dựng kho ngữ liệu tiếng Việ t vnSynAF

Một phần của tài liệu Phát triển bộ công cụ hỗ trợ xây dựng kho ngữ liệu cho phân tích văn bản tiếng Việt (Trang 36 - 43)

Bộ công cụ vnSynAF là một chương trình ứng dụng độc lập được xây dựng trên nền tảng Eclipse, một môi trường tích hợp phát triển lập trình bằng ngôn ngữ Java. vnSynAF cung cấp một môi trường đồ họa, giúp người sử dụng có thể dễ dàng tạo, chỉnh sửa cây biểu diễn cú pháp của mộ câu tiếng Việt. Công cụ hỗ trợ xây dựng cây phân tích cú pháp bằng giao diện đồ họa, thực hiện bởi các thao tác chuột và bàn phím. Và được hỗ trợ ở nhiều mức khác nhau.

- Dữ liệu đầu vào của công cụ có thể là:

• Một câu văn bản tiếng Việt

o Soạn thảo cây phân tích trực tiếp trên giao diện đồ họa cho câu:

các nút lá là các từ trong câu, các nút trung gian là các thành phần ngữ pháp và các cung

o Nhập câu từ bàn phím qua giao diện nhập câu. Chương trình tự

động tách câu thành các từ và hiển thị trên giao điện soạn thảo cây là các nút lá. Người sử dụng dựng thêm các nút trung gian, các cung để hoàn thiện cây phân tích.

• Một văn bản tiếng Việt thô lưu dưới dạng tệp

Chương trình đọc và hiển thị nội dung của tệp dưới dạng một danh sách các câu (tự động tách câu). Người sử dụng lần lượt chọn từng câu trên

danh sách đó, thực hiện tách từ tự động, hiển thị các từ trên giao diện vẽ cây là các nút kết, vẽ hoàn thiện cây phân tích cú pháp.

• Một tệp văn bản tiếng Việt đã được tách từ và gán nhãn từ loại

Chương trình đọc và hiển thị nội dung của tệp dưới dạng một danh sách các câu được gán nhãn từ loại. Người sử dụng lần lượt chọn từng câu trên danh sách đó, chuyển qua chế độ vẽ cây. Chương trình sẽ tự động hiển thị các nút kết là các từ, các nút không kết là các nhãn và các cung nối tương ứng. Người dùng tiếp tục và xây dựng cây phân tích cú pháp hoàn chỉnh.

- Dữ liệu đầu ra là tệp chứa kết quả cây phân tích các câu được mã hóa bằng XML.

Ngoài chức năng chính là soạn thảo cây phân tích cú pháp, chương trình còn hỗ trợ một số tính năng như: tách từ một tệp văn bản lưu dưới dạng tệp, gán nhãn từ loại cho một tệp đã dược tách từ.

Ví dụ với câu: “Tôi đi học”, sử dụng công cụ vẽ Palette ta xây

dựng được cây phân tích:

Hình 6. Xây dựng cây phân tích cú pháp bằng công cụ vnSynAF Kết quả biểu diễn phân tích dạng xml:

<?xml version="1.0" encoding="UTF-8"?>

<nonterminals label="NP" id="2"/> <nonterminals label="VP" id="3"/> <nonterminals label="S" id="1"/> <terminals label="Tôi" id="4"/>

<terminals label="đi" id="5"/> <terminals label="học" id="6"/>

<edges label="Sbj" source="2" target="3"/> <edges source="3" target="4"/>

<edges source="2" target="1"/> <edges source="1" target="5"/> <edges source="1" target="6"/> </syn:Graph>

Giới thiệu một số giao diện chính của bộ công cụ vnSynAF

Giao diện chính: Gồm các vùng chức năng soạn thảo, hỗ trợ xây dựng cây cú phân tích cú pháp:

o (1) thanh menu: tạo cây mới, mở cây, mở thêm các view

o (2) thanh công cụ hỗ trợ chỉnh sửa hình thức cây hiển thị, lưu cây

o (3) Bộ công cụ vẽ cây

o (4) View hình ảnh cây

o (5) Vùng soạn thảo cây

o (6) Các view hỗ trợ chỉnh sửa nội dung cây, view nhập câu, hiển

Hướng dẫn sử dụng công cụ

vnSynAF hỗ trợ xây dựng cây phân tích ở nhiều mức khác nhau:

• Mức 1 - Xây dựng trực tiếp: lần lượt tạo các nút kết TNode, nút không

kết NTNode, và các cung Connection.

Thực hiện: File > New > Syn Diagram > Đặt tên file biểu diễn đồ họa *.sdi > Đặt tên file lưu dạng biểu diễn phân tích cú pháp *.syn > Tạo cây biểu diễn cú pháp > Lưu lại.

• Mức 2 – Hỗ trợ tạo tự động các nút kết (các nút biểu diễn các từ của

câu) với đầu vào là một câu.

Thực hiện:

- Từ view: Words View (Show view > Other… > VnParser > Words View), nhập một câu cần tạo cây phân tích.

- Chương trình tách câu đó ra thành các từ (Tokenizer).

- Chương trình thể hiện các từ đó lên vùng đồ họa là các nút kết (Show Graph).

- Người dùng tiếp tục hoàn thiện các nút ở mức trên và các cung - Người dùng có thể sửa lại các thành phần của cây

1 2 3 4 5 6

• Mức 3 – Hỗ trợ tạo tự động cây phân tích với đầu vào là một câu (đang xây dựng)

Thực hiện:

- Từ view: Words View (Show view > Other… > VnParser > Words View), nhập một câu cần tạo cây phân tích.

- Chương trình hiển thị câu đó trên vùng đồ họa là một cây phân tích (Show Full Grap)

- Người dùng có thể lại các thành phần của cây rồi lưu cây

• Mức 4 – Hỗ trợ tạo cây phân tích từ một file văn bản.

Thực hiện:

- Từ view: Sentences View (Show view > Other… > VnParser >

Sentences View), chọn một file văn bản chứa các câu cần xây dựng câu phân tích.

- Chương trình đọc văn bản, tách và thể hiện các câu trong văn bản đó trong một view (To Sentences).

- Người dùng lựa chọn câu cần phân tích. Câu này sẽ hiện bên view Words View, chọn mức hỗ trợ 2 hoặc 3 để tạo cây phân tích cho câu.

KẾT LUẬN

Xử lý ngôn ngữ tự nhiên nói chung, trong đó có xử lý ngôn ngữ tiếng Việt vẫn đang là một đề tài nóng, một lĩnh vực mà ngày càng có nhiều nhà nghiên cứu quan tâm. Ngày nay, với sự bùng nổ thông tin tri thức thì tham vọng làm chủ thông tin tri thức đó của con người là lớn hơn bao giờ hết. Để đạt được điều này thì các kết quả nghiên cứu về xử lý ngôn ngữ tự nhiên là rất cần thiết.

Ở Việt nam, việc nghiên cứu xử lý ngôn ngữ tiếng Việt vẫn là đang trong giai đoạn đầu nên rất cần có một cơ sở dữ liệu ngôn ngữ đầy đủ, lớn, chính xác và thống nhất. Kho ngữ liệu ngôn ngữ tiếng Việt cũng là một phần trong đó. Việc xây dựng bộ công cụ hỗ trợ xây dựng kho ngữ liệu VnSynAF bước đầu đã có kết quả ứng dụng được. Tuy nhiên để tốt hơn thì cần có thêm thời gian nghiên cứu. Thứ nhất là về công cụ xây dựng chương trình - Eclipse. Eclispe là công cụ mã nguồn mở cung cấp nhiều thư viện tiện ích giúp xây dựng chương trình ứng dụng bằng ngôn ngữ Java dễ dàng và nhanh chóng. Tuy nhiên nó vẫn còn rất mới ở Việt Nam, còn ít người biết đến. Thứ hai là về công nghệ xử lý ngôn ngữ - các mô đun tự động tách câu, tách từ, gán nhãn từ loại, phân tích cú pháp … Em rất mong có được sự ủng hộ đóng góp quý báu của các chuyên gia, thầy cô và bạn bè.

TÀI LIỆU THAM KHẢO Tiếng Việt

1. Đỗ Bá Lâm, Lê Thanh Hương, Xây dựng hệ thống phân tích cú pháp

tiếng Việt sử dụng văn phạm HPSG, Kỷ yếu hội thảo ICT.rda’08.Hà Nội.

2. Phan Xuân Hiếu,, Lê Minh Hoàng, Nguyễn Cẩm Tú, Gán nhãn từ loại

tiếng Việt dựa trên các phương pháp học máy thống kê, Kỷ yếu hội thảo ICT.rda’08.Hà Nội.

3. Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương, Sử dụng

bộ gán nhãn từ loại xác suất Qtag cho văn bản tiếng việt, Kỷ yếu hội

thảo ICT.rda'03.Hà Nội.

4. Nguyễn Thị Minh Huyền, Phan Thị Hà, Lê Hồng Phương, Lưu Văn

Tăng, Xây dựng sơ đồ mã hóa và công cụ trợ giúp gán nhãn cú pháp

tiếng Việt, Kỷ yếu hội thảo ICT.rda’08.Hà Nội.

5. Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Nguyễn Phương Thái, Xây

dựng treebank tiếng Việt, Kỷ yếu hội thảo ICT.rda’08.Hà Nội.

6. Các báo cáo kỹ thuật, http://www.jaist.ac.jp/~bao/VLSP-text/March2008/ 7. http://eclilpse.org/rcp

8. http://www.uit.edu.vn/forum/index.php? act=Attach&type=post&id=53463

9. http://www.loria/~lehong

Tiếng Anh

10.ISO/CD/24615, Language Resource Management- Syntactic Annotation

11. Le An Ha, A method for word segmentation in Vietnamese, Proceedings of Corpus Linguistics 2003, Lancaster, UK, 2003.

12. H. Nguyen, H. Nguyen, T. Vu, N. Tran, K. Hoang, Internet and Genetics Algorithm-based Text Categorization for Documents in Vietnamese, Research, Innovation and Vision of the Future, the 3rd International Conference in Computer Science, (RIVF 2005), Can Tho, Vietnam, 2005.

13.L. H. Phuong and H. T. Vinh, A Maximum Entropy Approach to Sentence Boundary Detection of Vietnamese Texts, IEEE International Conference on Research, Innovation and Vision for the Future RIVF 2008, Vietnam, 2008.

Một phần của tài liệu Phát triển bộ công cụ hỗ trợ xây dựng kho ngữ liệu cho phân tích văn bản tiếng Việt (Trang 36 - 43)

Tải bản đầy đủ (DOC)

(43 trang)
w