2. Nội dung chớnh của bỏo cỏo
2.4 Kết luận và kiến nghị
Kết luận:
Đề tài thực hiện đầy đủ những nội dung và kết quả đó đăng ký, đảm bảo đỳng tiến độ. Sau đõy là một số kết quả dưới hỡnh thức những phần mềm đó được ứng dụng hoặc sẵn sàng ứng dụng:
− Nhận dạng chữ Việt in: Sản phẩm VnDOCR 3.0 là phiờn bản hoàn thiện nhất cho đến nay và được người dựng đỏnh gớ cao.
− Nhận dạng chữ viết tay cú hạn chế: lần đầu tiờn được nghiờn cứu ở Việt Nam. Cỏc kết quả đó đựoc ứng dụng để xõy dựng phần mềm MarkRead - phần mềm nhập liệu tự động cỏc phiếu điều tra, thi trắc nghiệm.
− Tổng hợp tiếng núi: Sản phẩm VnVocice 2.0 đang ứng dụng thử nghiệm trong hệ thống thụng điệp hợp nhất UMS và dang thử nghiệm giỳp người khiếm thị. Giọng đọc trong VnVoice 2.0 đó cú thể chấp nhận để hiểu được văn bản, nhưng cần phải tiếp tục hoàn thiện để đạt đến mức độ tự nhiờn cao hơn nữa. − Nhận dạng tiếng núi: Cỏc kết quả nghiờn cứu được thể hiện trong
VnCommand. Với phần mềm này, mỏy tớnh cú thể nhận dạng được một tập cỏc lệnh (khoảng 100 lệnh), kể cả 10 chữ số. VnDictator: Phần mềm nhận dạng tiếng núi kiểu đọc chớnh tả, đọc chậm (kiểu phỏt thanh viờn) trong mụi trường cú độ nhiễu nhỏ.
Ngoài 2 sản phẩm trờn, đề tài cũn nghiờn cứu phương phỏp và cụng nghệ xõy dựng CSDL tiếng núi, bước đầu xõy dựng CSDL tiếng núi (cỡ nhỏ) phục vụ cho việc nghiờn cứu và thử nghiệm nhạn dạng và tổng hợp tiếng núi. Đồng thời
đề tài cũng tiến hành nghiờn cứu thử nghiệm cỏch tiếp cận khụng kinh điển với hy vọng tạo ra một giải phỏp mới cho vấn đề tổng hợp và nhận dạng tiếng Việt. − Dịch tự động: Phần mềm EVTRAN 2.5 dich Anh–Việt, Việt–Anh (dịch Việt–
Anh là sản phẩm đăng ký của đề tài)
Kiến nghị:
Tuy nhiờn vấn đề xử lý ngụn ngữ tự nhiờn, tổng hợp và nhận dạng tiếng Việt, chữ Việt (đặc biệt là chữ viết tay) là vấn đề khú, những kết quả thu được mới chỉ là những kết qả bước đầu, đặt nền múng cho những nghiờn cứu tiếp theo. Hiện nay trờn thế giới, mặc dầu cỏc hướng nghiờn cứu này được đầu tư tập trung và kộo dài trong rất nhiều năm, nhưng vẫn cũn rất nhiều vấn đề mở, bởi tất cả những bài toỏn liờn quan đến nhận thức con người là vụ tận, cần đặt ra những bước đi cụ thể và giải quyết triệt để cho từng lớp bài toỏn, từ đơn giản đến phức tạp dần.
Đõy là hưúng nghiờn cứu quan trọng đề tài đề nghị Chương trỡnh KC01 tiếp tục hỗ trợ hướng nghiờn cứu này với những định hướng tiếp theo như sau:
a. Hỗ trợ để triển khai ứng dụng cỏc kết quả đó đạt được liờn quan đến nhận dạng
và tổng hợp tiếng Việt vào thực tế, cụ thể một số ứng dụng sau:
− Xõy dựng phần mềm nhập số liệu tự động bằng giọng núi cho cỏc bảng tớnh, chương trỡnh kế toỏn…
− Tớch hợp phần nhận dạng lệnh, chuỗi số, từ khoỏ, khuụn mẫu cõu cho hệ School Voice Portal
− Tớch hợp hệ nhận dạng 10 chữ số tiếng Việt liờn tục độc lập người núi trờn mụi trường điện thoại với card Dialogic trong cỏc hệ thống tra cứu tài khoản qua điện thoại.
− Tớch hợp hệ nhận dạng 10 chữ số tiếng Việt liờn tục độc lập người núi trờn mụi trường điện thoại di động
− Triển khai phần tổng hợp tiếng núi cho người khiếm thị (đọc màn hỡnh, đọc văn bản...)
− Tiếp tục tớch hợp những kết quả lý thuyết và cụng nghệ đó đạt được (trong khuụn khổ nghiờn cứu của đề tài) cũng như bổ sung và hiệu chỉnh cơ sở tri thức ngụn ngữ vào sản phẩm để nõng cao chất lượng trong phiờn bản tiếp theo (dự kiến hoàn tất trong năm 2005) và tiến tới bổ sung cỏc ngụn ngữ khỏc vào hệ thống dich tự động.
b. Hỗ trợ những nghiờn cứu tiếp theo:
Như đó trỡnh bày, tổng hợp nhận dạng tiếng núi và xử lý ngụn ngữ tự nhiờn tiếng Việt là những vấn đề lớn, phức tạp và khú. Cỏc kết quả của đề tài mớớ chỉ là bước đầu, để việc đầu tư của nhà nước cú hiệu quả, đưa ra được những sản phẩm thiết thực, việc tiếp tục nghiờn cứu là cần thiết. Để việc nghiờn cứu hiệu quả hơn đó đến lỳc tỏch ra thành hai đề tài độc lập. Hai đề tài đú cú thể là:
1/ Tổng hợp và Nhận dạng tiếng Việt với cỏc nội dung chớnh:
− Xõy dựng CSDL tiộng (núi) Việt. Đõy là một vấn đề lớn cần được đầu tư nghiờm tỳc của Nhà nước theo kinh nghiệm về xõy dựng CSDL tiếng núi của nước ngoài, vớ dụ như TIMIT (Mỹ). CSDL tiếng núi sẽ phục vụ cho cộng đồng nghiờn cứu về tổng hợp và nhận dạng tiếng Việt.
− Nghiờn cứu về tổng hợp và nhận dạng tiếng Việt, chủ yếu sẽ tập trung vào xõy dựng cỏc mụ hỡnh hiệu quả cho ngụn điệu tiếng Việt và nhận dạng thanh điệu tiếng Việt.
2/ Dịch tự động
− Nghiờn cứu cỏc cỏch tiếp cận để lựa chọn những cỏch tiếp cận phự hợp.
− Nghiờn cứu một cỏch hệ thống về ngụn ngữ tiếng Việt, bổ sung và hiệu chỉnh cơ sở tri thức ngụn ngữ.
− Thiết kế, xõy dựng hệ thống dịch đa ngữ. 2.5. Tài liệu tham khảo
A. Tổng hợp và nhận dạng tiếng Việt
1. Jie Zhu, Fei-li Chen, “The analysis and application of a new endpoint detection method based on distance of aurocorrelated similarity”, SJTU & Bell Labs Communications And Network Joint Laboratory Shanghai Jiao Tong University, Shanghai Jiao Tong University, Shanghai, 2003, P.R.China.
2. Carl D.Mitchell and Anand R.Setlur, “Improve spelling recognition using a tree based fast lexical match”, Lucent Technologies Bell Laboratories 2000 N.Naperville Rd. Naperville, IL 60566, USA, ICASSP 1999, pp.24-29. 3. Lawrence R. Rabiner, Stephen E. Levinson, “A Speaker-Independent,
Syntax-Directed, Connected Word Recognition System Based on Hidden Markov Models and Level Building”, IEEE Transaction on Acoustic, Speech and Signal Processing, Vol ASSP-33, N. 3, June 1985, pp 561-573. 4. M. Ibnkahla, “Application of neural networks to digital communications - a
survey”, Signal Procesing 80(2000), pp.1185-1215.
5. Lawrence Rabiner, “Fundamental of speech recognition”, 1995.
6. A.Samouelian - “Knowledge based approach to consonant recognition”, Department of electrical and Computer Engineering, University of Wollongong, Northfields Avennue, Wollongong, NSW 2522, Australia. 7. Tan Lee and P.C. Ching- “A Neural Network Based Speech Recognition
System for Isolated Cantonese Syllables”, Department of electronic Engineering, The Chinese University of Hong Kong, N.T., Hong Kong, ICASSP - 1997, pp.3269-3272.
8. TungHui Chiang, CCLMDS’96 “Towards a Speaker-Independent Large- Vocabulary Mandarin Dictation System”, ICASSP 1997, pp 1799-1802. 9. Vũ Kim Bảng, “Khỏi niệm ngữ õm học”, Tạp chớ ngụn ngữ số 5 – 1999.
10. Vũ Kim Bảng, “Hệ Phooc mang của 9 nguyờn õm đơn tiếng Hà Nội”- Tạp chớ ngụn ngữ số 15-2002.
B. Nhận dạng chữ Việt in
11. Renộ Sennhauser, Improving the recognition accuracy of text recognition systems using typographical constraints, Elẻctonec PublishingUBLISHING, VOL 6(3), 273-282, September 1993.
12. [Fletcher et al.] L.A. Fletcher, R.Kasturi. A robust algorithm for text string separation from mixed text/graphics images. In IEEE Trans.Pattern. Ana. Machine Intell. 10, Vol.6, 1998, 910-918.
13. Luong Chi Mai, Nguyen Duc Dzung, Ngo Quoc Tao. A new method of OCR based on a structure of character. Proceeding of AMPST 96, Bradford, UK, 1996.
14. Giovanni Seni, V Kripasundar and Rohini K. Srihari, Generalizing edit distance to incorporate domain information: Hand written text recognition as a case study
C. Nhận dạng phiếu điều tra và chữ viết tay cú hạn chế
15. Ngơ Quốc Tạo, Đỗ Năng Tồn, Nguyễn Thị Thanh Tân, "Phiếu điều tra và hệ thống nhập phiếu điều tra tự động", Một số vấn đề chọn lọc của công nghệ thông tin, NXB KHKT Hà Nội 2002.
16. L-ơng Chi Mai, Đỗ Năng Tồn, Ngơ Thành Trung, Về một ph-ơng pháp xác định ng-ỡng tự động trong phân tích trang văn bản, Kỷ yếu hội thảo Quốc gia lần thứ 5, "Một số vấn đề chọn lọc của công nghệ thông tin", NXBKHKT, Hà Nội 2003.
17. Ngụ Quốc Tạo, Phạm Văn Hựng, “Nhận dạng chữ viết tay hạn chế sử dụng cỏc đặc trưng về cấu trỳc chữ”, Kỷ yếu hội thảo Quốc gia lần thứ 5 "Một số vấn đề chọn lọc của Cụng nghệ thụng tin", NXBKHKT, Hà Nội 2003. 18. Ngụ Quốc Tạo, Phạm Văn Hựng, "Một số phương phỏp Nhận dạng chữ viết
tay hận chế", Kỷ yếu Hội thảo khoa học quốc gia lần thứ nhất Nghiên cứu phát triển và ứng dụng Công nghệ thông tin và Truyền thông, 2/2003. 19. Ngơ Quốc Tạo, Đỗ Năng Tồn và cộng sự, "Thiết kế và cài đặt thử
nghiệm hệ nhập phiếu điều tra dạng dấu MarkRead", Hội thảo khoa học quốc gia lần thứ nhất Nghiên cứu phát triển và ứng dụng Công nghệ thông tin và Truyền thông, 2/2003.
D. Dịch Việt – Anh
20. Noam Chomsky, On certain formal properties of grammars, Inform Control, vol 2, p.137-167, 1959.
21. Christian Boitet (2002) A rationale for using UNL as an Interlingua and more in various domains, Geta, Clips, Imag, 385, av. de la bibliothốque, BP 53, F-38041 Grenoble cedex 9, France, Christian.Boitet@ imag.fr, LREC-
02 First International Workshop on UNL, other Interlinguas and their Applications, 1 June 2002
22. Bonnie Dorr and Nizar Habash (2002) Interlingua Approximation: A Generation-Heavy Approach, University of Maryland, Institute for Advanced Computer Studies, {bonnie,habash} @umiacs.umd.edu (UNITRAN)
23. John Hutchins W. (2003) Machine translation: half a century of research and use, UNED summer school at Ávila, Spain, July 2003], http://ourworld.compuserve.com/ homepages/
24. Stephen D. Richardson (2002) Achieving commercial-quality translation with example-based methods, Stephen D. Richardson, William B. Dolan, Arul Menezes, Jessie Pinkham, Microsoft Research, One Microsoft Way, Redmond, WA 98052, {steveri, billdol, arulm, jessiep}@ microsoft. com 25. Arturo Trujillo (1999) Translation Engines: techniques for Machine
Translation. Springer-Verlag, Berlin, 1999.
26. Kevin Knight (1995) Integrating Knowledge Bases and Statistics in MT, Kevin Knight, Ishwar Chander, Matthew Haines, Vasileios Hatzivassiloglou, Eduard Hovy, Masayo Iida, Steve K. Luk, Akitoshi Okumura, Richard Whitney, Kenji Yamada, USC Information Science Institute, 4676 Admiralty Way, Marina del Rey, CA 90292
27. DeryleW. Lonsdale, Alexander M. Franz, and John R. R. Leavitt (1994) Large-Scale Machine Translation: An Interlingua Approach, Center for Machine Translation, Carnegie Mellon University, Pittsburgh, Pa., USA, 15213, Email: lonz@cs.cmu.edu, amf@cs.cmu.edu, jrrl@cs.cmu. edu (KANT)
28. Michele Banko and Eric Brill (2002) Scaling to Very Very Large Corpora for Natural Language Disambiguation, Microsoft Research, 1 Microsoft Way, Redmond, WA 98052 USA, {mbanko, brill}@ microsoft.com
29. Unification and Some New Grammatical Formalisms, Aravind K. Joshi, Department of Computer and Information Science, University of Pennsylvania (Nguồn : Internet)
30. ISHIZAKI Shun, UCHIDA Hiroshi, (1998) On Interlingua for Multilingual Machine Translation, 1998, IPSJ SIGNotes Natural Language Abstract No.070 – 003
31. Lờ Khỏnh Hựng (2003) Văn phạm cảm ngữ đoạn, Bỏo cỏo khoa học tại hội thảo quốc gia lần thứ sỏu “Một số vấn đề chọn lọc của CNTT và TT”, Thỏi nguyờn, 8-2003.
32. Lờ Khỏnh Hựng, Trần Cảnh (2003) Về một số hạn chế của mụ hỡnh văn phạm Chomsky, Tạp chớ Bưu chớnh Viễn thụng, Chuyờn san, 10, 2003. 33. Lờ Khỏnh Hựng (2003) Một Phương phỏp Dịch mỏy Liờn ngữ. Kỷ yếu Hội
thảo Khoa học Quốc gia lần thứ nhất về Nghiờn cứu, Phỏt triển và Ứng dụng CNTT&TT, Hà nội, 2003.
34. Abney S., "Part-of-Speech Tagging and Partial Parsing", in Young S. and Bloothooft (Eds), Corpus-Based Methods in Language and Speech processing, Kluwer Academic Publishers, Dodreht (The Netherlands), 1997.
35. Brill E., "Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging", Computational Linguistics, 21(4), December 199, p.543-565.
36. Cao Xuõn Hạo, Tiếng Việt - mấy vấn đề ngữ õm, ngữ phỏp, ngữ nghĩa, NXB Giỏo dục, 2000.
37. Dermatas E., Kokkinakis G., "Automatic Stochastic Tagging of Natural Language Texts", Computational Linguistics 21.2, 1995, p. 137 - 163.
38. Diệp Quang Ban, Hoàng Văn Thung, Ngữ phỏp tiếng Việt (2 tập), NXB Giỏo dục, 1999.
39. El-Bốze M, Spriet T., "Etiquetage probabiliste et contraintes syntaxiques", Actes de la confộrence sur le Traitement Automatique du Langage Naturel (TALN95), Marseille, France,14-16/6/1995.
40. Hoàng Phờ (chủ biờn), Từ điển tiếng Việt 2002, Nhà xuất bản Đà Nẵng - Trung Tõm Từ Điển Học.
41. Hữu Đạt, Trần Trớ Dừi, Đào Thanh Lan, Cơ sở tiếng Việt, NXB Giỏo dục, 1998.
42. Kuipec J., "Robust Part-of-Speech Tagging Using a Hidden Markov Model", Computer Speech and Language, vol. 6, 1992, p. 225-242.
43. Levinger M., Ornan U., Itai A., "Learning morpho-lexical probabilities from an untagged corpus with an application to Hebrew", Comutational Linguistics, 21(3), 1995, p. 383-404.
44. MacMahon J.G., Smith F.J., "Improving statistical language model performance with automatically generated word hierarchies", Computational Linguistics, 19(2), 1993, p. 313-330.
45. Mason O., Tufis D., "Tagging Romanian Texts: a Case Study for QTAG, a Language Independent Probabilistic Tagger", 1st International Conference on Language Ressources and Evaluation (LREC98), Granada (Spain), 28- 30 May 1998, p. 589-596.
F. Mụ hỡnh từ điển điện tử
46. Cheng-Ming Guo. Machine Tractable Dictionaries, Design and Construction, Ablex Publishing Corporation, Northwood, New Jersey 1995. 47. Donald E. Walker, Antonio Zampolli, Nicoletta Calzolari. Automation the
lexicon, Oxford University Press 1995.
48. Douglas B. Lenat, R.V. Guha. Building large knowledge-based systems: representation and inference in the CYC project, Addison-Wesley Pub. Co., 1989, c1990.
49. Fellbaum, Christiane. WordNet: An electronic lexical database, MIT Press 1998.
50. German Rigau, Eneko Agirre. Disambiguating bilingual nominal entries against WordNet. In Proceedings of The Computational Lexicon Workshop. Seventh European Summer School in Logic, Language and Information, ESSLLI’95, Barcelona, Spain, 1995.
51. Japan Electronic Dictionary Research Institute, Ltd. EDR Electronic Dictionary Technical Guide, 1993.
52. Jordi Atserias, Salvador Climent, Xavier Farreres, German Rigau, Horacio Rodriguez. Combining multi methods for the Automatic construction of multilingual WordNet, in Proceeding of RANLP, Bulgaria, 1997.
53. Latifur R. Khan, Eduard H. Hovy. Improving the Precision of Lexicon-to- Ontology Alignment Algorithms, in Proceedings of the AMTA/SIG-IL First Workshop on Interlinguas, San Diego, CA October, 1997.
54. Piek Vossen. EuroWordNet: a multilingual database with lexical semantic network, Dordrecht: Kluwer Academic, 1998.
55. Vincent B.Y.Ooi. Computer Corpus Lexicography, Edinburgh University Press, 1998.
56. Yorick A. Wilks, Brian M. Slator, and Louise M. Guthrie. Electric Words, MIT Press, 1996.
57. Diệp Quang Ban. Ngữ Phỏp Tiếng Việt, NXB Giỏo Dục 2000 (in Vietnamese).
58. Nguyễn Thị Quy. Vị từ hành động tiếng Việt và cỏc tham tố của nú, NXB Khoa học Xó hội, 1995 (in Vietnamese).
59. Trung tõm Khoa học Xó hội và Nhõn văn Quốc Gia. Ngữ Phỏp Tiếng Việt, NXB Khoa học Xó hội, 2000 (in Vietnamese).
D1-1-ĐGMOI BẢN TỰ ĐÁNH GIÁ
VỀ TèNH HèNH THỰC HIỆN VÀ NHỮNG ĐểNG GểP MỚI CỦA ĐỀ TÀI KH&CN CẤP NHÀ NƯỚC
(Kốm theo Quyết định số 13/2004/QĐ-BKHCN ngày 25/5/2004 của Bộ trưởng Bộ Khoa học và Cụng nghệ)
1. Tờn Đề tài
NGHIấN CỨU PHÁT TRIỂN CễNG NGHỆ NHẬN DẠNG, TỔNG HỢP VÀ XỬ Lí NGễN NGỮ TIẾNG VIỆT
Mó số: KC01-03
2. Thuộc Chương trỡnh: Khoa học và Cụng nghệ trọng điểm cấp Nhà nước giai đoạn 2001 – 2005: “Nghiờn cứu khoa học và phỏt triển Cụng nghệ thụng tin và truyền thụng”, Mó số KC01.
3. Chủ nhiệm Đề tài: GS.TSKH. Bạch Hưng Khang
4. Cơ quan chủ trỡ Đề tài: Viện Cụng nghệ thụng tin, Viện Khoa học và Cụng nghệ
Việt Nam.
5. Thời gian thực hiện (BĐ-KT): từ thỏng 10 năm 2001 – thỏng 6 năm 2004 6. Tổng kinh phớ thực hiện Đề tài: 2 tỷ đồng
Trong đú, kinh phớ từ NSNN: 2 tỷ đồng
7. Tỡnh hỡnh thực hiện Đề tài so với Hợp đồng
7.1/ Về mức độ hoàn thành khối lượng cụng việc
Đó hồn thành cỏc nhiệm vụ đó đăng ký trong hợp đồng: bao gồm 8 sản phẩm với cỏc chức năng cụ thể như sau:
1. Hệ thống tổng hợp tiếng núi VnVoice
− Tổng hợp văn bản chữ in tiếng Việt (với cỏc mó Unicod, TCVN 5712, VNI) thành tiếng núi.
− Đọc rừ ràng cỏc õm tiết tiếng Việt.
− Đọc cỏc khuụn dạng phi từ: biểu thức số, ngày thỏng, giờ điện tử, tiền Việt, cỏc đơn vị đo lường, cỏc xõu viết tắt thụng dụng.
− Đọc cỏc văn bản từ cỏc nguồn: trờn clipboard, văn bản từ bàn phớm gừ vào, văn bản trờn cỏc Website, trong cỏc ứng dụng Microsoft Word, Outlook Express.
− Dựa trờn phương phỏp ghộp nối cỏc đơn vị õm cơ bản, sử dụng phương phỏp PSOLA cho 2 bộ đơn vị: 1/khoảng 300 đơn vị õm cơ bản, dung lượng bộ nhớ 1,5MB RAM, gồm phụ õm đầu và phần vần khụng thanh điệu, tổng hợp thanh điệu, tổng hợp được tất cả cỏc thanh tiếng Việt, bao gồm cả thanh ngó và thanh nặng; 2/ khoảng 900 đơn vị õm cơ bản, dung lượng bộ nhớ 6 MB RAM, gồm phụ õm đầu và phần vần cú thanh điệu.
− Để đỏnh giỏ độ hiểu của tiếng Việt tổng hợp, đề tài đó thực hiện những đỏnh giỏ và kết quả thống kờ trờn 100 đối tượng sau: Nhúm A (50 người, khỏc nhau