Một số kết quả đã đạt đƣợc

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Tính toán độ tương tự ngữ nghĩa văn bản dựa vào độ tương tự giữa từ với từ (Trang 25 - 27)

CHƢƠNG III ĐỘ TƢƠNG TỰ VĂN BẢN-VĂN BẢN

3.1.1.Một số kết quả đã đạt đƣợc

3.1. Xử lý văn bản tiếng Việt

3.1.1.Một số kết quả đã đạt đƣợc

Tiếng nói và chữ viết là hai yếu tố cơ bản nhất của bất kỳ ngôn ngữ nào. Trong sự phát triển của công nghệ thông tin (CNTT) ở Việt Nam, một số việc liên quan đến “tiếng Việt” đã đƣợc làm và ít nhiều có kết quả ban đầu:

(a) Trƣớc hết là các bộ gõ chữ Việt và thành công của việc đƣa đƣợc bộ mã chữ Việt vào bảng mã Unicode, cũng nhƣ việc chọn Unicode cho bộ mã chuẩn tiếng Việt (nhân đây cũng xin nói thêm, do chƣa ý thức về chuẩn, rất nhiều cán bộ CNTT, nhiều cơ quan nhà nƣớc vẫn chƣa chịu đổi thói quen cũ để dùng bộ mã chuẩn Unicode, một việc rất quan trọng của xử lý tiếng Việt). Bảo tồn chữ Nơm trên máy tính cũng là một việc đầy nỗ lực và nhiều ý nghĩa đƣợc nhiều ngƣời theo đuổi lâu nay, cần đƣợc nhà nƣớc tiếp tục ủng hộ lâu dài (http://nomfoundation.org).

(b) Tiếp theo có thể kể đến các chƣơng trình nhận dạng chữ Việt in (OCR: optical character recognition), nhƣ hệ VnDOCR của Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ Việt Nam. Các chƣơng trình nhận dạng chữ in nhằm chuyển các tài liệu in trên giấy thành các tài liệu điện tử (dƣới

dạng các tệp văn bản trên máy tính)

(c) Các phần mềm hỗ trợ việc sử dụng tiếng nƣớc ngoài, tiêu biểu là các từ điển song ngữ trên máy tính, thí dụ nhƣ các từ điển điện tử của Lạc Việt đã đƣợc dùng rộng rãi trên máy tính để tra cứu từ Anh-Việt, Việt-Anh. Điều ta cần phân biệt là các từ điển điện tử này dành cho con ngƣời sử dụng, khác với từ điển điện tử dành cho máy tính sử dụng trong xử lý ngôn ngữ tự nhiên (sẽ đƣợc đề cập ở phần sau).

(d) Các nỗ lực trong việc làm các phần mềm dịch Anh-Việt, Việt-Anh, chẳng hạn nhƣ các hệ dịch EVTRAN và VETRAN.

(e) Một loại việc nữa là Việt hóa các phần mềm mà gần đây tiêu biểu là kết quả Việt hóa Windows và Microsoft Office của Microsoft. Việc này có thể xem nhƣ việc “dịch” các thông báo tiếng Anh cố định trong các phần mềm

thành các thông báo tiếng Việt.

của thiết bị âm thanh,…ngƣời ngƣời ai cũng có thể tạo ra dữ liệu văn bản hay tiếng nói. Vấn đề là làm sao ta có thể xử lý chúng, tức chuyển chúng từ các dạng ta chƣa hiểu đƣợc thành các dạng ta có thể hiểu và giải thích đƣợc, tức là ta có thể tìm ra thơng tin, tri thức hữu ích cho mình. Sau đây là một số bài tốn tiêu biểu của xử lý ngơn ngữ với các mức độ khác nhau về xử lý và sử dụng ngôn ngữ tự nhiên của con ngƣời:

 Nhận dạng tiếng nói (speech recognition): từ sóng tiếng nói, nhận biết và chuyển chúng thành dữ liệu văn bản tƣơng ứng [Jelinek, 1998], [Jurafsky and Martin, 2000].

 Tổng hợp tiếng nói (speech synthesis): từ dữ liệu văn bản, phân tích và chuyển thành tiếng ngƣời nói [Jelinek, 1998], [Jurafsky and Martin, 2000].  Nhận dạng chữ viết (optical character recognition, OCR): từ một văn bản in

trên giấy, nhận biết từng chữ cái và chuyển chúng thành một tệp văn bản trên máy tính.

 Dịch tự động (machine translation): từ một tệp dữ liệu văn bản trong một ngơn ngữ (tiếng Anh chẳng hạn), máy tính dịch và chuyển thành một tệp văn bản trong một ngôn ngữ khác (tiếng Việt chẳng hạn) [Dorr et al, 2000], [Nagao, 1989].

 Tóm tắt văn bản (text summarization): từ một văn bản dài (mƣời trang chẳng hạn) máy tóm tắt thành một văn bản ngắn hơn (một trang) với những nội dung cơ bản [Mani and Maybury, 1999].

 Tìm kiếm thơng tin (information retrieval): từ một nguồn rất nhiều tệp văn bản hay tiếng nói, tìm ra những tệp có nội dung liên quan đến một vấn đề (câu hỏi) ta cần biết (hay trả lời) [Baeza-Yates and Riberio-Neto, 1999]. Điển hình của cơng nghệ này là Google, một hệ tìm kiếm thơng tin trên Web, mà hầu nhƣ chúng ta đều dùng thƣờng xuyên.

 Trích chọn thơng tin (information extraction): từ một nguồn rất nhiều tệp văn bản hay tiếng nói, tìm ra những đoạn bên trong một số tệp liên quan đến một vấn đề (câu hỏi) ta cần biết hay trả lời [Cohen and McCallum, 2003].

 Phát hiện tri thức và khai phá dữ liệu văn bản (knowledge discovery and text data mining): từ những nguồn rất nhiều văn bản thậm chí hầu nhƣ khơng có quan hêj với nhau, tìm ra đƣợc những tri thức trƣớc đấy chƣa ai biết. Đây là một vấn đề rất phức tạp và đang ở giai đoạn đầu của các nghiên cứu trên thế giới [Berry, 2004], [Sirmakessis, 2004].

Cịn nhiều bài tốn và cơng nghệ xử lý ngôn ngữ khác, nhƣ giao diện ngƣời máy bằng ngôn ngữ tự nhiên, các hệ hỏi đáp, các hệ sinh ra ngôn ngữ,…

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Tính toán độ tương tự ngữ nghĩa văn bản dựa vào độ tương tự giữa từ với từ (Trang 25 - 27)