4.2.2.1 Giới thiệu
Tagger Part-Of-Speech (POS Tagger) là một phần của phần mềm đọc văn
bản trong một số ngôn ngữ và gán cho các thành phần của câu mỗi từ (thẻ), chẳng hạn như: danh từ, tính từ, động từ, …
Stanford postagger có thể xử lý được với 1 số ngôn ngữ như: Anh, Ả Rập,
Trung Quốc, Đức, …
Hình 4.7. Giao diện phần mềm Stanford postagger
4.2.2.2 Hoạt động
- Nhập dữ liệu đầu vào (Hình 4.8)
- Nhấn “Tag sentence” để thực hiện việc gán thẻ, thu được kết quả như Hình 4.9
Hình 4.8. Nhập dữ liệu đầu vào
Hình 4.9. Kết quả thu được khi gán thẻ
4.2.2.3 Đánh giá
POS Tagger là một phần mềm nhỏ gọn, hoạt động nhanh. Nhưng việc nhập dữ liệu đầu vào hay xuất kết quả ra chưa được linh hoạt.
4.3. Kết chương
Với việc tìm hiều 2 phần mềm quan trọng (Stanford-parser và POS Tagger)
và bước đầu xây dựng corpus Trung-Việt là cơ sở tốt giúp cho việc phát triển và xây dựng hệ thống dịch Trung-Việt sau này.
KẾT LUẬN
Ø Đánh giá nội dung luận văn
- Luân văn đã nêu khái quát về dịch máy và lịch sử phát triển của dịch máy.
- Luận văn đã tìm hiểu các chiến lược và các cách tiếp cận dịch máy, đồng
thời cũng chỉ ra các ưu/nhược điểm của các chiến lược và các cách tiếp cận đó. - Luận văn đã nêu ra một số đặc trưng của dịch Trung-Việt.
- Luận văn đã bước đầu xây dựng corpus Trung-Việt và tìm hiểu một số công cụ quan trọng giúp cho việc phát triển hệ thống dịch Trung-VIệt.
Ø Những điểm còn hạn chế của luận văn
- Việc xậy dựng corpus Trung-Việt còn nhỏ.
- Việc tìm hiểu đánh giá công cụ là quá ít so với các công cụ cần thiết cho phát triển hệ thống dịch Trung-Việt.
Ø Kiến nghị những hướng phát triển tiếp theo
- Tiếp tục bổ sung xậydựng corpus Trung-Viêt.
- Tìm hiểu, lựa chọn chiện lược dịch máy, cách tiếp cận dịch máy hợp lý và các công cụ hỗ trợ để xây dựng một hệ thống dịch Trung-Việt.
TÀI LIỆU THAM KHẢO
Tiếng Việt
[1] Đinh Điền (1999), Hệ dịch tự động tài liệu tin học Anh-Việt, Báo cáo đề
tài cấo Thành của Thành Đoàn trong chương trình VƯST-KHKT trẻ-TPHCM.
[2] Đinh Điền, Nguyễn Thống Nhất, Nguyễn Thái Ngọc Duy (2003), “Cách
tiếp cận thống kê cho hệ dịch tự động Việt-Anh”, Tạp chí Phát triển Khoa học & Công nghê, ĐHQG TPHCM, số 1&2-2003.
[3] Lê Khánh Hùng (1991), Hệ dịch tự động Anh-Việt, Báo cáo đề tài cấp
Bộ của Viện CNTT, Hà Nội.
[4] Lê Khánh Hùng (2005), “Một sốgiải pháp nâng cao chất lượng dịch
máy”, tài liệu của TS. Lê Khánh Hùng, Viện Ứng dụng Công nghệ.
[5] Lê Khánh Hùng (2005), “Mở rộng mô hình văn phạm”, tài liệu của TS.
Lê Khánh Hùng, Viện Ứng dụng Công nghệ.
[6] Lê Khánh Hùng (2005), “Giải pháp dịch máy”, tài liệu của TS. Lê Khánh
Hùng, Viện Ứng dụng Công nghệ.
Tiếng Anh
[7] Scott Bass, “Machine vs. Human Translation”.
http://www.advancedlanguagetranslation.com/articles/machine_vs_human_tr anslati on. pdf
[8] HồTú Bảo, “Current Status of Machine Translation Research in
Vietnam”. http://www.jaist.ac.jp/~bao/talks/MTinVN.ppt
[9] Berwick R.C., Sandiway Fong (1990), Principle-based parsing: natural
language processing for the 1990s, Artificial in MIT, MIT-Press.
[10] Brill E. (1993), A Corpus-based approach to Language Learning,
[11] Brown R.D. (1996), “Example-Based MT in the Pangloss system”, Processdings of COLING-96.
[12] Chen K.H., Chen H.H.(1996), “Hybrid approach to MT System
design”, Computational Linguistics anh Chinese Language Processing.1(1).
[13] Hovy E.(1993), “How MT works”, Byte Magazine, Jan 1993.
[14] Hutchins J., Somer, H.L. (1992). An Introduction to Machine tránlation Academic Press.
[15] John Hutchins (2005), “Computer based translation in Europe and
North America, and its future prospects”; JAPIO 20th anniversary. (Tokyo: Japan
Patent Information Organization, 2005), pp. 156–160.
http://ourworld.compuserve.com/homepages/WJHutchins
[16] John Hutchins, “An introduction to machine translation”. http://ourworld.compuserve.com/homepages/WJHutchins
[17] Knight K.(1997), “Automatic knowledge acquisition for MT”,
Proceedings of AAAI,ACL.
[18] Knight K., Hovy E.(1994), “Intergrating knowledge-bases and Statistics
in MT”, Proceedings of AMTA-94.
[19] Krulee J.K. (1991), Computer Processing of Natural Language, Prentice Hall.
[20] Nirenburg S., Carbonell J.,Tomita M.,Goodman K., Machine
Translation: A knowledge-Based Approach, Morgan Kaufmann Publishers, San
Mateo, California, USA.
[21] Su K.Y., Chang J.S.(1992), “Why Corpus-Based Statistics-Oriented
Machine Translation”, Proceedings of TMI-92.
[22] Tomita M.(1987), “An eficient Augumented-Context Free Pasing
[23] Watanabe H., Kurohashi S., Aramaki E.(2000), “Finding Structural Correspondences from Bilingual Parsed Corpus for Corpus-based Translation”,
Proceeding of 18th COLING-00.
Trang web
[24] Viện nghiên cứu Trung Quốc:
http://vnics.org.vn/Default.aspx?ctl=Article&aID=208 (15/07/2012)
[25] http://viet.jnlp.org/ tai-nguyen-ngon-ngu-tieng-viet/ khai-yeu-ve-corpus (20/07/2012)
[26] http://nlp.stanford.edu/software/index.shtml (20/07/2012) [27] http://www.chinesenotes.com/grammar.php (10/08/2012)