POSTagger (Part-Of-Speech Tagger)

4.2.2.1 Giới thiệu

Tagger Part-Of-Speech (POS Tagger) là một phần của phần mềm đọc văn

bản trong một số ngôn ngữ và gán cho các thành phần của câu mỗi từ (thẻ), chẳng hạn như: danh từ, tính từ, động từ, …

Stanford postagger có thể xử lý được với 1 số ngôn ngữ như: Anh, Ả Rập,

Trung Quốc, Đức, …

Hình 4.7. Giao diện phần mềm Stanford postagger

4.2.2.2 Hoạt động

- Nhập dữ liệu đầu vào (Hình 4.8)

- Nhấn “Tag sentence” để thực hiện việc gán thẻ, thu được kết quả như Hình 4.9

Hình 4.8. Nhập dữ liệu đầu vào

Hình 4.9. Kết quả thu được khi gán thẻ

4.2.2.3 Đánh giá

POS Tagger là một phần mềm nhỏ gọn, hoạt động nhanh. Nhưng việc nhập dữ liệu đầu vào hay xuất kết quả ra chưa được linh hoạt.

4.3. Kết chương

Với việc tìm hiều 2 phần mềm quan trọng (Stanford-parser và POS Tagger)

và bước đầu xây dựng corpus Trung-Việt là cơ sở tốt giúp cho việc phát triển và xây dựng hệ thống dịch Trung-Việt sau này.

KẾT LUẬN

Ø Đánh giá nội dung luận văn

- Luân văn đã nêu khái quát về dịch máy và lịch sử phát triển của dịch máy.

- Luận văn đã tìm hiểu các chiến lược và các cách tiếp cận dịch máy, đồng

thời cũng chỉ ra các ưu/nhược điểm của các chiến lược và các cách tiếp cận đó. - Luận văn đã nêu ra một số đặc trưng của dịch Trung-Việt.

- Luận văn đã bước đầu xây dựng corpus Trung-Việt và tìm hiểu một số công cụ quan trọng giúp cho việc phát triển hệ thống dịch Trung-VIệt.

Ø Những điểm còn hạn chế của luận văn

- Việc xậy dựng corpus Trung-Việt còn nhỏ.

- Việc tìm hiểu đánh giá công cụ là quá ít so với các công cụ cần thiết cho phát triển hệ thống dịch Trung-Việt.

Ø Kiến nghị những hướng phát triển tiếp theo

- Tiếp tục bổ sung xậydựng corpus Trung-Viêt.

- Tìm hiểu, lựa chọn chiện lược dịch máy, cách tiếp cận dịch máy hợp lý và các công cụ hỗ trợ để xây dựng một hệ thống dịch Trung-Việt.

TÀI LIỆU THAM KHẢO

Tiếng Việt

[1] Đinh Điền (1999), Hệ dịch tự động tài liệu tin học Anh-Việt, Báo cáo đề

tài cấo Thành của Thành Đoàn trong chương trình VƯST-KHKT trẻ-TPHCM.

[2] Đinh Điền, Nguyễn Thống Nhất, Nguyễn Thái Ngọc Duy (2003), “Cách

tiếp cận thống kê cho hệ dịch tự động Việt-Anh”, Tạp chí Phát triển Khoa học & Công nghê, ĐHQG TPHCM, số 1&2-2003.

[3] Lê Khánh Hùng (1991), Hệ dịch tự động Anh-Việt, Báo cáo đề tài cấp

Bộ của Viện CNTT, Hà Nội.

[4] Lê Khánh Hùng (2005), “Một sốgiải pháp nâng cao chất lượng dịch

máy”, tài liệu của TS. Lê Khánh Hùng, Viện Ứng dụng Công nghệ.

[5] Lê Khánh Hùng (2005), “Mở rộng mô hình văn phạm”, tài liệu của TS.

Lê Khánh Hùng, Viện Ứng dụng Công nghệ.

[6] Lê Khánh Hùng (2005), “Giải pháp dịch máy”, tài liệu của TS. Lê Khánh

Hùng, Viện Ứng dụng Công nghệ.

Tiếng Anh

[7] Scott Bass, “Machine vs. Human Translation”.

http://www.advancedlanguagetranslation.com/articles/machine_vs_human_tr anslati on. pdf

[8] HồTú Bảo, “Current Status of Machine Translation Research in

Vietnam”. http://www.jaist.ac.jp/~bao/talks/MTinVN.ppt

[9] Berwick R.C., Sandiway Fong (1990), Principle-based parsing: natural

language processing for the 1990s, Artificial in MIT, MIT-Press.

[10] Brill E. (1993), A Corpus-based approach to Language Learning,

[11] Brown R.D. (1996), “Example-Based MT in the Pangloss system”, Processdings of COLING-96.

[12] Chen K.H., Chen H.H.(1996), “Hybrid approach to MT System

design”, Computational Linguistics anh Chinese Language Processing.1(1).

[13] Hovy E.(1993), “How MT works”, Byte Magazine, Jan 1993.

[14] Hutchins J., Somer, H.L. (1992). An Introduction to Machine tránlation Academic Press.

[15] John Hutchins (2005), “Computer based translation in Europe and

North America, and its future prospects”; JAPIO 20th anniversary. (Tokyo: Japan

Patent Information Organization, 2005), pp. 156–160.

http://ourworld.compuserve.com/homepages/WJHutchins

[16] John Hutchins, “An introduction to machine translation”. http://ourworld.compuserve.com/homepages/WJHutchins

[17] Knight K.(1997), “Automatic knowledge acquisition for MT”,

Proceedings of AAAI,ACL.

[18] Knight K., Hovy E.(1994), “Intergrating knowledge-bases and Statistics

in MT”, Proceedings of AMTA-94.

[19] Krulee J.K. (1991), Computer Processing of Natural Language, Prentice Hall.

[20] Nirenburg S., Carbonell J.,Tomita M.,Goodman K., Machine

Translation: A knowledge-Based Approach, Morgan Kaufmann Publishers, San

Mateo, California, USA.

[21] Su K.Y., Chang J.S.(1992), “Why Corpus-Based Statistics-Oriented

Machine Translation”, Proceedings of TMI-92.

[22] Tomita M.(1987), “An eficient Augumented-Context Free Pasing

[23] Watanabe H., Kurohashi S., Aramaki E.(2000), “Finding Structural Correspondences from Bilingual Parsed Corpus for Corpus-based Translation”,

Proceeding of 18th COLING-00.

Trang web

[24] Viện nghiên cứu Trung Quốc:

http://vnics.org.vn/Default.aspx?ctl=Article&aID=208 (15/07/2012)

[25] http://viet.jnlp.org/ tai-nguyen-ngon-ngu-tieng-viet/ khai-yeu-ve-corpus (20/07/2012)

[26] http://nlp.stanford.edu/software/index.shtml (20/07/2012) [27] http://www.chinesenotes.com/grammar.php (10/08/2012)

Các cách tiếp cận lai (hybrid MTs)

Nhận xét về các chiến lược