Về xử lý tiếng Việt trong công nghệ thông tin

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	15
Dung lượng	593,62 KB

Nội dung

Gần đây khi có dịp nói chuyện về xử lý ngôn ngữ (XLNN) và xử lý tiếng Việt (XLTV) trong công nghệ thông tin (CNTT) với một số nhà quản lý khoa học và công nghệ hoặc một số đồng nghiệp, chúng tôi thấy có sự khác nhau giữa nhiều người về cách hiểu một số khái niệm cũng như giữa những nhìn nhận về tình hình nghiên cứu-phát triển trong lĩnh vực này

Về xử lý tiếng Việt công nghệ thông tin Hồ Tú Bảo a,b, Lương Chi Mai a a Viện Công nghệ Thông tin, bViện Khoa học Công nghệ Tiên tiến Nhật Tóm tắt: Bài viết nhằm giới thiệu khái niệm tình hình nghiên cứu xử lý ngơn ngữ nói chung, nội dung khó khăn xử lý tiếng Việt (văn tiếng nói) Bài viết dùng tài liệu tham khảo cho nhà quản lý khoa học người làm nghiên cứu khoa học – công nghệ không chuyên lĩnh vực xử lý ngôn ngữ Mở đầu Gần có dịp nói chuyện xử lý ngôn ngữ (XLNN) xử lý tiếng Việt (XLTV) công nghệ thông tin (CNTT) với số nhà quản lý khoa học công nghệ số đồng nghiệp, chúng tơi thấy có khác nhiều người cách hiểu số khái niệm nhìn nhận tình hình nghiên cứu-phát triển lĩnh vực Điều tự nhiên, tự nhiên hầu hết không thật rõ bệnh tim, hay không rõ protein tổng hợp Khi chuẩn bị dự án xử lý tiếng Việt, chúng tơi thấy cần giải thích cho nhiều người không làm chuyên môn xử lý ngôn ngữ rõ câu chuyện lĩnh vực Và thay viết đề cương, bắt đầu việc dự án viết Những khái niệm Tiếng nói chữ viết hai yếu tố ngôn ngữ Trong phát triển công nghệ thông tin (CNTT) Việt Nam, số việc liên quan đến “tiếng Việt” làm nhiều có kết ban đầu: (a) Trước hết gõ chữ Việt thành công việc đưa mã chữ Việt vào bảng mã Unicode, việc chọn Unicode cho mã chuẩn tiếng Việt (nhân xin nói thêm, chưa ý thức chuẩn, nhiều cán CNTT, nhiều quan nhà nước chưa chịu đổi thói quen cũ để dùng mã chuẩn Unicode, việc quan trọng xử lý tiếng Việt) Bảo tồn chữ Nơm máy tính việc đầy nỗ lực nhiều ý nghĩa nhiều người theo đuổi lâu nay, cần nhà nước tiếp tục ủng hộ lâu dài (http://nomfoundation.org) (b) Tiếp theo kể đến chương trình nhận dạng chữ Việt in (OCR: optical character recognition), hệ VnDOCR Viện Công nghệ Thông tin, Viện Khoa học Công nghệ Việt Nam Các chương trình nhận dạng chữ in nhằm chuyển tài liệu in giấy thành tài liệu điện tử (dưới dạng tệp văn máy tính) (c) Các phần mềm hỗ trợ việc sử dụng tiếng nước ngoài, tiêu biểu từ điển song ngữ máy tính, thí dụ từ điển điện tử Lạc Việt dùng rộng rãi máy tính để tra cứu từ Anh-Việt, Việt-Anh Điều ta cần phân biệt từ điển điện tử dành cho người sử dụng, khác với từ điển điện tử dành cho máy tính sử dụng xử lý ngôn ngữ tự nhiên (sẽ đề cập phần sau) (d) Các nỗ lực việc làm phần mềm dịch Anh-Việt,Việt-Anh, chẳng hạn hệ dịch EVTRAN VETRAN (e) Một loại việc Việt hóa phần mềm mà gần tiêu biểu kết Việt hóa Windows Microsoft Office Microsoft Việc xem việc “dịch” thông báo tiếng Anh cố định phần mềm thành thông báo tiếng Việt Tuy liên quan đến tiếng Việt, tất việc kể thuộc lĩnh vực xử lý ngôn ngữ tự nhiên nói chung xử lý tiếng Việt nói riêng theo nghĩa thông thường CNTT, vốn chủ yếu nhằm vào vấn đề liên quan đến xử lý văn (text) tiếng nói (speech) [Jurafsky and Martin, 2000] Để làm sáng tỏ điều ta thử xem xét lại khái niệm “xử lý thông tin”, khái niệm cốt lõi công nghệ thông tin khái niệm rộng “xử lý ngôn ngữ” Về chất, xử lý thơng tin q trình biến đổi liệu từ dạng thành dạng khác để thu thông tin tri thức Trong giai đoạn đầu, CNTT tập trung vào liệu dạng số, biểu diễn dạng cấu trúc (structured) vectơ (vector) hay bảng biểu (tables) Trong nửa kỷ phát triển, CNTT “xử lý” nhiều kiểu liệu khác, hình ảnh (image), âm (voice, speech), văn (text), kí hiệu hình thức (symbols), đồ thị (graph),… gần nhiều kiểu liệu phức tạp liệu sinh học (genomic data) Phương pháp xử lý ngày phong phú, từ tính tốn (computing) đến suy luận (reasoning), nhiều kiểu khác Xử lý ngơn ngữ xử lý thông tin đầu vào “dữ liệu ngôn ngữ” (dữ liệu cần biến đổi), tức liệu “văn bản” hay “tiếng nói” Các liệu liên quan đến ngơn ngữ viết (văn bản) nói (tiếng nói) dần trở nên kiểu liệu người có lưu trữ dạng điện tử Đặc điểm kiểu liệu khơng có cấu trúc nửa cấu trúc (non-structured semi-structured) chúng lưu trữ khuôn dạng cố định bảng biểu Theo đánh giá công ty Oracle, có đến 80% liệu khơng cấu trúc lượng liệu lồi người có [Oracle Text] Với đời phổ biến Internet, sách báo điện tử, máy tính cá nhân, viễn thông, thiết bị âm thanh, … người người tạo liệu văn hay tiếng nói Vấn đề ta xử lý chúng, tức chuyển chúng từ dạng ta chưa hiểu thành dạng ta hiểu giải thích được, tức ta tìm thơng tin, tri thức hữu ích cho Giả sử có câu sau tiếng nước ngoài: - “We meet here today to talk about Vietnamese language and speech processing.” - “Aujourd'hui nous nous réunissons ici pour discuter le traitement de langue et de parole vietnamienne.” - “Mы встрачаемся здесь сегодня, чтобы говорить о вьетнамском языке и обработке речи.” - “今日我々はここに集まりベトナム語処理について議論します.” - “오늘 우리는 여기에 모여서 베트남어와 발언처리에 대하여 의론하겠습니다.” Và giả sử năm thứ tiếng trên, tị mị muốn biết câu nói Nếu có dịch, có chương trình máy tính dịch (biến đổi) chúng tiếng Việt, ta hiểu nghĩa câu là: - “Hôm gặp để bàn xử lý ngơn ngữ tiếng nói tiếng Việt.” Nếu câu lưu trữ tệp tiếng Anh, Pháp, Nga, Nhật, Hàn Việt ta nhìn thấy trên, ta có liệu “văn bản” Nếu đọc câu này, ghi âm lại, ta chuyển chúng vào máy tính dạng tệp tín hiệu (signal) “tiếng nói” Tín hiệu sóng âm hai âm tiết tiếng Việt nhìn thấy sau Tuy nhiên, văn thật (một báo khoa học chẳng hạn) có đến hàng nghìn câu, ta khơng phải có mà hàng triệu văn Web nguồn liệu văn khổng lồ, với thư viện điện tử − tương gần sách báo xưa nguồn âm chuyển hết vào máy tính (chẳng hạn chương trình nhận dạng chữ, thu nhập âm thanh, gõ thẳng vào máy) − sớm chứa toàn kiến thức nhân loại Vấn đề “xử lý” (chuyển đổi) khối liệu văn tiếng nói khổng lồ qua dạng khác để người có thơng tin tri thức cần thiết từ chúng? Điều quan trọng đa số nguồn tri thức quý giá lại tiếng nước đa số người Việt cịn nghe hay đọc chúng Có thể hình dung phần mềm gõ chữ Việt cho phép ta trực tiếp tạo tệp văn máy tính (như chúng tơi gõ máy tính để viết này), cịn chương trình nhận dạng chữ VnDOCR cho phép ta biến đổi văn in giấy thành tệp văn máy tính Tuy nhiên, sản phẩm chưa động chạm đến cốt lõi xử lý ngôn ngữ Theo nghĩa “xử lý ngôn ngữ” nêu − tức biến đổi liệu ngơn ngữ − nêu số tốn tiêu biểu xử lý ngơn ngữ với mức độ khác xử lý sử dụng ngôn ngữ tự nhiên người: Nhận dạng tiếng nói (speech recognition): từ sóng tiếng nói, nhận biết chuyển chúng thành liệu văn tương ứng [Jelinek, 1998], [Jurafsky and Martin, 2000] Tổng hợp tiếng nói (speech synthesis): từ liệu văn bản, phân tích chuyển thành tiếng người nói [Jelinek, 1998], [Jurafsky and Martin, 2000] Nhận dạng chữ viết (optical character recognition, OCR): từ văn in giấy, nhận biết chữ chuyển chúng thành tệp văn máy tính Dịch tự động (machine translation): từ tệp liệu văn ngơn ngữ (tiếng Anh chẳng hạn), máy tính dịch chuyển thành tệp văn ngôn ngữ khác (tiếng Việt chẳng hạn) [Dorr et al., 2000], [Nagao, 1989] Tóm tắt văn (text summarization): từ văn dài (mười trang chẳng hạn) máy tóm tắt thành văn ngắn (một trang) với nội dung [Mani and Maybury, 1999] Tìm kiếm thơng tin (information retrieval): từ nguồn nhiều tệp văn hay tiếng nói, tìm tệp có nội dung liên quan đến vấn đề (câu hỏi) ta cần biết (hay trả lời) [Baeza-Yates and Ribeiro-Neto, 1999] Điển hình cơng nghệ Google, hệ tìm kiếm thơng tin Web, mà dùng thường xuyên Cần nói thêm hữu hiệu hàng đầu vậy, Google có khả cho tìm kiếm câu hỏi dạng từ khóa (keywords) ln “tìm” cho nhiều tài liệu không liên quan, nhiều tài liệu liên quan tồn Google lại tìm khơng Hình bên hình Google đưa trang Web liên quan đến câu hỏi “protein-protein interaction” Trích chọn thơng tin (information extraction): từ nguồn nhiều tệp văn hay tiếng nói, tìm đoạn bên số tệp liên quan đến vấn đề (câu hỏi) ta cần biết hay trả lời Hình bên phải minh họa kết trích chọn thông tin với câu hỏi “protein-protein interaction” Một hệ trích chọn thơng tin “lần” vào trang Web liên quan, phân tích bên trích thơng tin cần thiết, nói gọn tiếng Anh để phân biệt với tìm kiếm thơng tin “find things but not pages” [Cohen and McCallum, 2003] Phát tri thức khai phá liệu văn bảm (knowledge discovery and text data mining): Từ nguồn nhiều văn chí khơng có quan hệ với nhau, tìm tri thức trước chưa biết Đây vấn đề phức tạp giai đoạn đầu nghiên cứu giới [Berry, 2004], [Sirmakessis, 2004] Còn nhiều tốn cơng nghệ xử lý ngơn ngữ khác, giao diện người máy ngôn ngữ tự nhiên, hệ hỏi đáp, hệ sinh ngôn ngữ, … Ứng dụng công nghệ xử lý ngôn ngữ phong phú Có thể lấy vài thí dụ gần Tin Internet ngày 21/4/2005, hãng Samsung đưa thị trường điện thoại di động P207 nhận biết câu nói đơn giản người sử dụng điện thoại di động “Hãy gọi cho tôi” hay “Tôi gọi lại”, chuyển chúng thành dạng văn (tin nhắn) cho người dùng điện thoại di động gửi nhắn tin Đây ứng dụng QuickPhrase VoiceSignal Technologies, tất nhiên cho tiếng Hàn Ta hình dung việc ghi lại tín hiệu câu nói đơn giản, so sánh tín hiệu với tín hiệu nhiều câu nói ghi trước chọn câu gần (http://www.vnexpress.net/Vietnam/Vi-tinh/San-pham-moi/2005/04/ 3B9D D713/) Tin ngày 22/4/2005 (http://www2.tuoitre.com.vn/Tianyon/Index.aspx?ArticleID=75496&ChannelID=17) cho biết công ty CombiWith (Nhật) công bố tung ảnh biết nói người đơn Nhật có ảnh người thân biết nói với giọng họ Có thể hình dung việc tổng hợp tiếng nói người ảnh dựa việc học giọng nói từ nhiều mẫu câu nói người Tất nhiên, lại tiếng Nhật cơng nghệ cho tiếng Việt khác Cũng vậy, có nhiều phần mềm dịch tự động Web, Babel Fish Translation AltaVista (http://babelfish.altavista.com/), dịch Anh-Nhật, Nhật-Anh Excite tiếng Nhật (http://www.excite.co.jp/world/english/), hay Language Tools dịch nhiều thứ tiếng Google (http://www.google.com/language_tools?hl=en) Có thể phân loại tốn: - 1-3 thuộc lĩnh vực xử lý tiếng nói xử lý ảnh (speech and image processing), - 4-5 thuộc lĩnh vực xử lý văn (text processing), - 6-8 thuộc lĩnh vực khai phá văn Web (text and Web mining) Phân loại tương đối, lĩnh vực có nhiều phần chung Về chất, xử lý tiếng nói dựa hay ảnh kỹ thuật phân tích nhận dạng tín hiệu (signal processing and recognition) Xử lý văn khai phá văn Web lại dựa kỹ thuật xử lý ngôn ngữ tự nhiên (natural language processing hay computational linguistics) mà quan trọng việc hiểu (understanding) dùng tri thức ngôn ngữ mức độ khác [Jurafsky and Martin, 2000] Nếu tốn 1-5 có đối tượng xử lý tệp văn hay tiếng nói, tốn 6-8 có đối tượng xử lý tập hợp nhiều tệp văn hay tiếng nói Cần nhấn mạnh thêm phát triển Internet, việc tìm kiếm trích chọn thơng tin, phát tri thức từ sở liệu lớn nội dung thời xu phát triển CNTT giới [Berry, 2004], [Chakrabarti, 2003], [Cole et al., 1997], [Sirmakessis, 2004] Các toán 1-3, 5-8 liên quan việc “xử lý” ngôn ngữ, (g) “xử lý” hai ngôn ngữ khác Khi đầu vào hay đầu toán 1-8 tiếng Việt, ta có vấn đề xử lý tiếng Việt Về phát triển xử lý ngơn ngữ tiếng nói CNTT Có thể nói xử lý ngơn ngữ tự động máy tính vấn đề khó CNTT Cái khó nằm chỗ cho máy hiểu ngôn ngữ người, từ việc hiểu nghĩa từ hoàn cảnh cụ thể, đến việc hiểu nghĩa câu, hiểu văn Ta lấy lại thí dụ Marvin Minsky (1992), đa đề ngành trí tuệ nhân tạo (artificial intelligence): “Xét từ “sợi dây” chẳng hạn Ngày không máy tính hiểu nghĩa từ người Cịn biết dùng sợi dây để kéo vật, đẩy vật sợi dây Ta gói gói hàng thả diều sợi dây, ăn sợi dây Trong vài phút, đứa trẻ nhỏ hàng trăm cách dùng không dùng sợi dây, không máy tính làm việc này.” Mấu chốt chất phức tạp ngôn ngữ người, đặc biệt đa nghĩa nhập nhằng nghĩa ngơn ngữ Thêm nữa, có khác biệt sâu sắc người ngầm hiểu dùng nhiều lẽ thường (common sense) ngơn ngữ, biết “lửa” nóng cịn “chim” biết bay, hay sợi dây khơng dùng để đẩy hay khều vật, khó làm cho máy hiểu lẽ thường Công nghệ ngôn ngữ, xử lý văn bản, đại thể bao gồm bước (tầng, layer) sau [Allen, 1994], [Jurafsky and Martin, 2000]: Tầng ngữ âm (phonetic and phonological layer): Nghiên cứu ngữ âm (linguistic sounds), mơ hình hóa việc từ cách nói thông thường phát âm nào, chất điệu, ngôn điệu, ngữ điệu (prosody, intonation), trường độ âm tiết, độ nhấn, biến thanh, … Tầng hình thái (morphological layer): Nghiên cứu thành phần có nghĩa từ (word), từ tạo hình vị (morphemes) từ tách câu Thí dụ, từ “tiếng Việt” tạo thành từ “t-iế-ng V-iệ-t”, ngữ (phrase) “xử lý tiếng Việt” tạo thành gồm hai từ “xử lý” “tiếng Việt” Trong tiếng Việt, toán quan trọng phân tách từ (word segmentation) Một thí dụ quen thuộc câu “Ơng già nhanh q” phân tách thành (Ông già) (đi) (nhanh quá) (Ông) (già đi) (nhanh quá) cách khác Tầng ngữ pháp (morphological layer): Nghiên cứu quan hệ cấu trúc từ, xem từ với để tạo câu Quá trình thường cụ thể bước sau: (a) Xác định từ loại (POS tagging): Xem từ câu loại (danh từ, động từ, giới từ, …) Trong thí dụ trên, “Ơng già” danh từ, “đi” động từ, “nhanh” trạng từ, “quá” thán từ (b) Xác định cụm từ (chunking): Thí dụ “Ơng già” cụm danh từ, “đi” cụm động từ, “nhanh quá” cụm trạng từ Như câu có hai phân tích (Ơng già) (đi) (nhanh quá) (Ông) (già đi) (nhanh quá) (c) Xác định quan hệ ngữ pháp(parsing): (Ông già) (đi) (nhanh quá) quan hệ chủ ngữ-vị ngữ-trạng ngữ Tầng ngữ nghĩa (semantic layer): Nghiên cứu xác định nghĩa từ tổ hợp chúng để tạo nghĩa câu Thí dụ phân tích (Ơng già) (đi) (nhanh quá), động từ “đi” có nghĩa “bước đi”, hay “chết” hay “điều khiển” (khi đánh cờ), … tương ứng ta có nghĩa khác câu Tầng ngữ dụng (pragmatic layer): Nghiên cứu mối quan hệ ngôn ngữ ngữ cảnh xử dụng ngôn ngữ (context-of-use) Ngữ dụng nghiên cứu việc ngơn ngữ dùng để nói người vật Việc phân tích câu nói hay câu văn tầng từ ngữ âm (1) đến tầng ngữ pháp (3) gọi phân tích sơ (shallow parsing) Nếu phân tích thêm tầng ngữ nghĩa (từ (1) đến (4)) ta có phân tích đầy đủ (fully parsing) Trong vấn đề xử lí ngơn ngữ, có vấn đề cần đến phân tích đầy đủ (như dịch tự động), có vấn đề với phân tích sơ xử lí (như tìm kiếm thơng tin, phân tích văn cho tổng hợp tiếng nói, mơ hình ngơn ngữ nhận dạng tiếng nói…) Nhận dạng tiếng nói q trình nhận dạng mẫu, với mẫu đơn vị nhận dạng, từ âm vị Khó khăn tốn tiếng nói ln biến thiên theo thời gian có khác biệt lớn tiếng nói người nói khác nhau, tốc độ nói, ngữ cảnh mơi trường âm học khác Các nghiên cứu nhận dạng tiếng nói dựa ba nguyên tắc bản: − Tín hiệu tiếng nói biểu diễn xác giá trị phổ khung thời gian ngắn (short-term amplitude spectrum) Nhờ ta trích đặc điểm tiếng nói từ khoảng thời gian ngắn dùng đặc điểm làm liệu để nhận dạng tiếng nói − Nội dung tiếng nói biểu diễn dạng chữ viết, dãy ký hiệu ngữ âm Do ý nghĩa phát âm bảo toàn phiên âm phát âm thành dãy ký hiệu ngữ âm − Nhận dạng tiếng nói trình nhận thức Ngơn ngữ nói có nghĩa, thông tin ngữ nghĩa (semantics) ngữ dụng (pragmatics) có giá trị q trình nhận dạng tiếng nói, đặc biệt thông tin âm học không rõ ràng Lĩnh vực nghiên cứu nhận dạng tiếng nói rộng liên quan đến nhiều ngành khác nhau, xử lý tín hiệu số (digital signal proccessing), vật lý hay âm học (acoustic), nhận dạng mẫu, lý thuyết thơng tin khoa học máy tính (information and computer science theory), ngôn ngữ học (linguistics), sinh lý học (physiology), tâm lý học ứng dụng (applied psychology) Các hệ thống nhận dạng tiếng nói phân chia thành hai loại khác nhau: hệ thống nhận dạng từ rời rạc hệ thống nhận dạng từ liên tục Trong hệ thống nhận dạng tiếng nói liên tục, người ta lại phân biệt hệ thống nhận dạng có kích thước từ điển nhỏ hệ thống nhận dạng với kích thước từ điển trung bình lớn Tổng hợp tiếng nói (text-to-speech, TTS) có mục tiêu ngược với mục tiêu nhận dạng tiếng nói Kiến trúc hệ thống TTS giống kiến trúc đọc chữ người, bao gồm môđun xử lý ngôn ngữ tự nhiên (bộ tiền xử lý nhằm tổ chức câu thành danh sách, phân tích hình thái, phân tích ngữ cảnh, phân tích câu cú pháp, ngơn điệu, …), có khả sinh phiên âm phù hợp với cách phát âm trình đọc văn với ngữ điệu, ngôn điệu; mơđun xử lý tín hiệu số, mơđun chuyển thơng tin tượng trưng nhận thành tiếng nói (mơđun letter-to-sound môđun sinh ngôn điệu) Khi hai khối xử lý ngơn ngữ tự nhiên xử lý tín hiệu số định nghĩa rõ ràng, việc nghiên cứu hai q trình thực riêng rẽ, độc lập với Khối xử lý tín hiệu số phải xét đến hạn chế phát âm, biến đổi ngữ âm (phần động, chuyển tiếp âm) quan trọng việc hiểu lời nói phần tĩnh lời nói Tổng hợp tiếng nói đạt theo hai phương pháp thuộc hai trường phái tổng hợp tiếng nói có nội dung mục tiêu khác nhau: − Phương pháp thứ thực dạng quy tắc mô tả âm vị, ảnh hưởng lẫn âm vị phát âm (tổng hợp qui luật) − Phương pháp thứ hai lưu giữ đơn vị âm bản, biến đổi đơn vị âm đồng thời tạo sở liệu tiếng nói, sử dụng chúng đơn vị âm học để tạo thành lời nói (phương pháp tổng hợp theo xích chuỗi) Trong xử lý tiếng Việt chập chững bước đầu, nghiên cứu ứng dụng xử lý ngơn ngữ nói chung giới nhiều nước khác có lịch sử nửa kỷ, trải qua nhiều giai đoạn, điều quan trọng nhiều đường cách thức xử lí ngơn ngữ trải nghiệm thừa nhận Lịch sử xử lý ngơn ngữ chia giai đoạn sau [Jurafsky and Martin, 2000]: Các lý thuyết tảng xây dựng năm 1940 1950: Hai kiểu mô hình tảng giai đoạn có ảnh hưởng sâu sắc đến xử lý ngơn ngữ mơ hình máy tự động (automaton) mơ hình lý thuyết thơng tin hay xác suất: Máy tính điện tử bắt nguồn từ mơ hình máy Turing (1936), lý thuyết ngơn ngữ hình thức, mã hóa, entropy, … Hai nhánh tách rời từ cuối năm 1950 đến đầu năm 1970: Hai kiểu xử lý khác biệt rõ rệt: (a) kiểu hình thức (symbolic paradigm) cho văn lý thuyết ngơn ngữ hình thức Chomsky trí tuệ nhân tạo, (b) kiểu ngẫu nhiên (stochastic paradigm) cho tiếng nói phương pháp Bayes Bốn kiểu xử lý ngôn ngữ phổ biến thập kỷ 70 đến thập kỷ 80: (i) mơ hình ngẫu nhiên đóng vai trị lớn, tiêu biểu mơ hình Markov ẩn (HMM, Hidden Markov Model) xử lý tiếng nói; (ii) kiểu dựa logic (logic-based paradigm); (iii) hiểu ngôn ngữ tự nhiên (natural language understanding); (iv) mơ hình hóa đối thoại liên tục (discourse modeling) Cũng thời gian xuất toán tài nguyên chuẩn (Penn Treebank, WordNet, MUC, etc.) Chủ nghĩa kinh nghiệm mơ hình hữu hạn trạng thái từ thập kỷ 80 đến thập kỷ 90: Ở giai đoạn huấn luyện mơ hình hữu hạn trạng thái đời thập kỷ 60 Các mô hình xác suất tiếp cận dựa vào liệu (data-driven approach) xuất hầu hết nhiệm vụ xử lý ngôn ngữ [Manning and Schutze, 1999], [Jelinek, 1998] Xử lý văn tiếng nói gặp mười năm qua: Đây giai đoạn tiến vượt bậc với mơ hình thống kê tiếp cận dựa vào liệu, với việc tăng trưởng nhanh chóng tốc độ nhớ máy tính, ứng dụng dựa Web [Jurafsky and Martin, 2000] Công nghệ xử lý tiếng nói khơng thể dựa kỹ thuật xử lý tín hiệu, mà cịn phải dựa việc hiểu ngôn ngữ Do tham số mơ hình thống kê mơ hình hữu hạn trạng thái huấn luyện từ kho ngữ liệu lớn, nhiều mơ hình kiểu tiếp tục đời ứng dụng rộng rãi Maximum Entropy (MaxEnt), Maximum Entropy Markov Model (MEMM), Conditional Random Fields (CRF), … [Cohen and McCallum, 2003] Như trình bày sơ trên, xử lí ngơn ngữ việc khó, phức tạp, làm lâu dài theo nhiều bước tuần tự, đạt kết bước sau bước trước có kết Chẳng hạn chương trình dịch tự động giới theo đuổi hàng chục năm chặng đường đến đích cuối xa Nếu muốn làm dịch tự động Anh-Việt, bắt buộc qua tầng xử lý ngơn ngữ kể trên, nói chung hy vọng thời gian ngắn nhiều so với người trước [Dorr et al., 2000] Trên giới, nhiều tổ chức quốc tế, nhiều hiệp hội xử lí ngơn ngữ tự nhiên thành lập với hoạt động phong phú hàng năm, với lực lượng nghiên cứu đông đảo: ACL (Association Computational Linguistics), NAACL (North American Association on Computational Linguistics), EACL (Euro Association on Computational Linguistics), PACLIC (Pacific Association on Computational Linguistics), ICCL (International committee Computational Linguistics) Rất đáng ý nhiều nguồn tài nguyên, ngữ liệu phong phú tạo ra, chia sẻ dù dạng thương mại với giá hợp lí, tiêu biểu LDC (Linguistic Data Consortium, http://ww.ldc.upenn.edu) Nhiều phủ đầu tư lớn cho xử lý ngôn ngữ CNTT (Mỹ, Nhật bản, Trung quốc, Singapore, etc.) Hãy thử nhìn đến nước quanh Việt Nam Ở Trung quốc, nghiên cứu xử lý ngơn ngữ có từ lâu phát triển với đầu tư mạnh mẽ từ phủ Họ làm nhiều công cụ, tài nguyên phong phú, Wordnet cho tiếng Trung quốc, hệ dịch tiếng Trung quốc qua tiếng số nước, ngân hàng ngữ liệu cho phân tích cú pháp 10 Chinese Bank Ngay với nước láng giềng Thailand, xử lý ngôn ngữ Thái phần đầu tư lớn phủ National Electronics and Computer Technology Center (NECTEC), National research council of Thailand (NRCT), Thai Research Foundation (TRF) với kết ban đầu dịch máy, POS tagging Thailand có phịng thí nghiệm lớn nghiên cứu NLP, Thai Computational Linguistics Laboratories (http://www.tcllab.org) Là người sau lĩnh vực xử lí ngơn ngữ, việc hiểu cơng nghệ ngơn ngữ, xu công nghệ, nguồn ngữ liệu, kinh nghiệm học từ nước khác lĩnh vực quan trọng Biết, học khai thác chúng giúp ta cân nhắc chọn đường hợp lí xử lý tiếng Việt Tình hình vấn đề xử lý tiếng Việt Hãy thử nhìn lại tình hình Ngoài việc làm bước đầu làm kể phần đầu, có cố gắng nhiều nội dung khác xử lý ngôn ngữ tiếng Việt Trong giảng Trí tuệ Nhân tạo, Lý thuyết Nhận dạng, Xử lý Tín hiệu, Khai phá Dữ liệu nhiều đại học, nội dung kỹ thuật xử lý ngơn ngữ nhiều đề cập Về xử lý tiếng nói tiếng Việt, theo chúng tơi biết, hai tập thể làm nghiên cứu có kết gần Viện Công nghệ Thông tin Trung tâm nghiên cứu quốc tế Thông tin đa phương tiện, truyền thông ứng dụng (MICA) – Đại học Bách khoa Hà nội; số kết số trường Đại học đề tài tiến sĩ, thạc sĩ, mang tính chất tìm hiểu, chưa hệ thống định hướng rõ ràng Nghiên cứu xử lý ngôn ngữ (văn bản) theo đuổi số tập thể từ lâu (Đại học Bách khoa Đại học Khoa học Tự nhiên thành phố Hồ Chí Minh, Đại học Bách Khoa Đà Nẵng, Đại học Bách khoa Đại học Khoa học Tự nhiên Hà Nội, Trường Đại học Công nghệ, Viện Ứng dụng Công nghệ, Viện Công nghệ Thông tin, công ty Lạc Việt,…) vấn đề dịch máy, toán xử lý tiếng Việt [Dien et al., 2001; Dien, 2003], [Huyen et al., 2003], gần tóm tắt văn [Minh, 2004; Minh et al., 2004], [Huong, 2004], tìm kiếm trích chọn thơng tin [Bao and Funakoshi, 1998], phân loại chia nhóm văn [Bao and Binh, 2001], khai phá Web [Hieu, 2005], gióng hàng văn [Huyen et al., 2003], mơ hình từ điển điện tử [Bao et al., 2003], xây dựng kho ngữ liệu [Dien, 2002], … gần đề tài nhà nước “Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp xử lý ngôn ngữ tiếng Việt” giai đoạn 2001-2004 chương trình quốc gia KC-01 [Khang, 2004] Bên ngồi Việt Nam, có nỗ lực xử lý tiếng Việt, nhóm dịch Anh-Việt tiến sỹ Phạm Hải bè bạn (Mỹ) khởi đầu từ đầu năm 1990, tiến sỹ Lê Tăng Hồ phần mềm tổng hợp tiếng Việt VVV (Canada), … đặc biệt cán nghiên cứu sinh Việt Nam Viện Khoa học Công nghệ Tiên tiến Nhật (JAIST) với nghiên cứu sinh xử lý ngôn ngữ, hợp tác theo kế hoạch thống Số nghiên cứu sinh xử lý ngôn ngữ tốt 11 nghiệp Lê Thanh Hương (Anh) [Huong, 2004], Nguyễn Thị Minh Huyền (Pháp), Hồ Bảo Quốc (Pháp), Nguyễn Lê Minh (Nhật) [Minh, 2004], số tốt nghiệp 1-2 năm tới ước tính khoảng 10 người Ngồi kết ban đầu, sau vài đặc điểm hoạt động xử lý ngơn ngữ chúng ta: - Thường tập trung vào làm sản phẩm cho người dùng cuối với nhiều kỳ vọng vào sản phẩm dịch máy, loại sản phẩm khó làm cần làm dài hạn với phương pháp hợp lý - Ít nghiên cứu tảng, thiếu phát triển “hạ tầng sở” cho xử lý ngôn ngữ công cụ tài nguyên: từ điển (dùng cho máy), kho ngữ liệu, …, thứ cộng đồng quốc tế xác định thiếu xử lý ngôn ngữ - Phần đông nghiên cứu ngắn hạn đơn lẻ mức đề tài thạc sỹ, tiến sỹ với nhiều hạn chế thời hạn điều kiện Đa số xây dựng mơ hình, thử kiểm tra tập ngữ liệu nhỏ Những kết đạt xa với mức sử dụng thực tế - Rất nhiều nhóm bắt đầu với khảo sát chưa đầy đủ, tiến hành cơng việc cịn thiếu kiến thức Do vấn đề phức tạp, hội đồng đánh gía thẩm định đề tài xử lý ngơn ngữ cịn chưa có chun gia, chưa thật rõ hết chưa thể làm được, người làm đường ngắn hay đường vòng, … - Đáng băn khoăn nỗ lực chưa liên kết, thiếu chia sẻ, phân cơng, hợp tác theo lộ trình có kế hoạch, thiếu “kim nam” xử lý tiếng Việt, khơng có tính kế thừa kết tầng xử lý ngơn ngữ tự nhiên Nếu hình dung công việc tầng xử lý ngôn ngữ đánh số từ A đến Z, hầu hết việc làm cho người dùng cuối quãng từ R, S, … trở đi, mà muốn làm việc cần kết tất bước từ A đến tận P, Q Hiềm nỗi việc từ A, B, … đến P, Q muốn làm tốt địi hỏi nhóm người làm vài năm Vì vậy, phải làm từ A đến tận P, Q, có lẽ khơng làm sản phẩm R, S, …, Z đủ tốt Dù hay năm, mười, hai mươi năm sau Kết luận Chúng ta biết xử lý tiếng Việt người Việt làm, khơng thể mua từ bên Ngoài ra, xử lý tiếng Việt công việc phải làm đường dài gồm nhiều chặng ngắn với đích chọn lựa kỹ lưỡng, cần nhà nước hỗ trợ Trước mắt, kế hoạch 2006-2010, hai mục tiêu dự án đầu là: 12 Xây dựng phát triển số sản phẩm tiêu biểu xử lý tiếng Việt tìm kiếm thơng tin Internet tiếng Việt cho đơng đảo người sử dụng máy tính Internet Xây dựng công cụ nguồn tài nguyên thiết yếu, với vai trò hạ tầng sở, để thực mục tiêu dự án phát triển lâu dài công nghệ thông tin nước nhà Mặc dù việc phải tạo sản phẩm cho người dùng cuối cấp bách đích cuối ta cần đến, phải ý đầu tư cho việc tạo công cụ tài nguyên cho xử lý tiếng Việt, có ta làm sản phẩm dùng năm sau Lời cám ơn Xin chân thành cám ơn ý kiến thảo luận, góp ý cho thảo tài liệu đồng nghiệp: Ngô Trung Việt, Phạm Ngọc Khôi, Nguyễn Lê Minh, Phan Xuân Hiếu, Lê Anh Cường, Lê Minh Hồng, Đỗ Bá Phước, Ngơ Thanh Nhàn, Trần Hữu Dũng, Nguyễn Hoàng, Hồ Văn Tiến Tài liệu tham khảo Allen, J (1994) Natural Language Understanding The Benjamin/Cummings Publishing Co Baeza-Yates, R., Ribeiro-Neto, B (1999) Modern Information Retrieval, Addison Wesley Bao, H.T., Thang, N.T., Chien, N.P., Mai, L.C (2001) Towards a Practical Framework for Vietnamese Natural Language Processing, Vietnam-Japan Symposium on Fuzzy Systems and Applications, NCST, Hanoi, 7-9 December, 297-304 Bao, H.T., Funakoshi, K (1998) Information Retrieval Using Rough Sets, Journal of Japanese Society for Artificial Intelligence, JSAI, Vol 13, N 3, 424-433 Bao, H.T., Binh, N.N (2002) Nonhierarchical Document Clustering by a Tolerance Rough Set Model, International Journal of Intelligent Systems, John Wiley & Sons, Vol 17, No 2, 199-212 Bao, H.T., Tuan, N.A., Son, N.C (2003) Issues in Construction of a Vietnamese Machine Tractable Dictionary, First National Symposium on Research, Development, and Applications of Information and Communication Technology, 253-263 13 Berry, M.W (2004) Survey of Text Mining: Clustering, Classification, and Retrieval, Springer Chakrabarti, S (2003) Mining the Web, Morgan Kaufmann Publishers Cohen, W., McCallum, A (2003) Information Extraction from the World Wide Web, Tutorial in ACM Conference on Knowledge Discovery and Data Mining 2003, KDD-03, Washington D.C., Aug 2003 Cole, R., Mariani, J., Uszkoreit, H., Varile, G., Zaenen, A., Zampolli, A., Zue, V (1997) Language Technology – A Survey of the State of the Art Dale, R., Moisl, H., Somers, H (2000) Handbook of Natural Language Processing, Marcel Dekker Dien, D., Kiem, H., Toan, N.V (2001) Vietnamese Word Segmentation, Proceedings of the Sixth Natural Language Processing Pacific Rim Symposium (NLPRS2001), Tokyo (Japan, 27-30 November 2001, p 749-756 Dien, D (2002) Building a Training Corpus for Word Sense Disambiguation in English-toVietnamese Machine Translation, Workshop Machine Translation in Asia at COLING 2002 Dien, D., Kiem, H (2003) POS-Tagger for English-Vietnamese Bilingual Corpus, Proceedings of HLT-NAACL 2003 (Human Language Technology- North American Chapter of the Association for Computational Linguistics) Door, B.J., Jordan, P.W., Benoit, J.W (2000) A Survey of Current Paradigms in Machine Translation EDR Electronic Dictionary Technical Guide (1993) Japan Electronic Dictionary Research Institute Jelinek, F (1998) Statistical Methods for Speech Recognition The MIT Press Jurafsky, D., Martin, J H (2000) Speech and Language Processing An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition, Prentice Hall Hieu, P.X., Horiguchi, S., Bao, H.T (2005) Conditional Models for Automatic Data Integration from the Web, International Journal on Business Intelligence and Data Mining (in press) Huong, L.T (2004) Investigation into an Approach to Automatic Text Summarisation, Ph.D dissertation, Middlesex University, U.K Huyen, N.T.M., Laurent Romary, Luong, V.X (2003) A Case Study in POS Tagging of Vietnamese Texts, Annual Conference on Natural Language Processing TALN 2003, Batzsur-Mer, 11-14 June, 2003 Khang, B.H et al (2004) Báo cáo Tổng kết Khoa học Kỹ thuật Đề tài Nghiên cứu Phát triển Công nghệ Nhận dạng, Tổng hợp Xử lý Ngơn ngữ Tự nhiên Chương trình KC-01 14 Mani, I., Maybury, M.T (1999) Advanced in Automatic Text Summarization, The MIT Press Manning C D., Schutze H (1999) Foundations of Statistical Natural Language Processing MIT Press Minh, N.L., Shimazu, A., Horiguchi, S., Bao, H.T (2004) Example-Based Sentence Reduction Using Hidden Markov Model, ACM Transactions on Asian Language Information Processing, Vol 3, Issue 3, 146-158 Minh, N.L., Shimazu, A., Horiguchi, S., Bao, H.T., Fukushi, M (2004) Probabilistic Sentence Reduction Using Support Vector Machines, The 20th International Conference on Computational Linguistics COLING 2004, 23-27 August, Geneva, 743-749 Minh, N.L (2004) Statistical Machine Learning Approaches to Cross-language Text Summarization, Ph.D dissertation, JAIST 2004 Nagao, M (1989) Machine translation: how far can it go? Oxford University Oracle Text − An Oracle White Paper (2001) http://www.oracle.com/technology/products/text/pdf/text_bwp.pdf Sirmakessis S (2004) Text Mining and Its Applications, Springer 15 ... đến xử lý văn (text) tiếng nói (speech) [Jurafsky and Martin, 2000] Để làm sáng tỏ điều ta thử xem xét lại khái niệm ? ?xử lý thông tin? ??, khái niệm cốt lõi công nghệ thông tin khái niệm rộng ? ?xử lý. .. lý? ?? ngơn ngữ, (g) ? ?xử lý? ?? hai ngôn ngữ khác Khi đầu vào hay đầu tốn 1-8 tiếng Việt, ta có vấn đề xử lý tiếng Việt Về phát triển xử lý ngơn ngữ tiếng nói CNTT Có thể nói xử lý ngơn ngữ tự động... Khoa học Tự nhiên Hà Nội, Trường Đại học Công nghệ, Viện Ứng dụng Công nghệ, Viện Công nghệ Thông tin, công ty Lạc Việt, …) vấn đề dịch máy, toán xử lý tiếng Việt [Dien et al., 2001; Dien, 2003],

Ngày đăng: 25/04/2013, 08:38

Xem thêm