Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
Theo tìm hiểu của chúng tôi, trong nước hiện nay đã có một số công trình nghiên cứu liên quan như sau:
1. “Ứng dụng xử lý ngôn ngữ tự nhiên trong hệ tìm kiếm thông tin trên văn bản tiếng Việt”, Hồ Bảo Quốc, Đồng Thị Bích Thủy, Hội thảo quốc gia về
Công nghệ thông tin – Thái Nguyên – Việt Nam 8/2003.
2. “An Introduction to Vietnamese Information Retrieval”, Marie-France
BRUANDET, Jean-Pierre CHEVALLET, Dong Thi Bich Thuy, Bao-Quoc Ho.
Ngoài các nghiên cứu này, hiện tại còn có đề tài nghiên cứu khoa học trọng điểm đại học quốc gia TPHCM (2005) đang trong giai đoạn phát triển: “Xây dựng chương trình trợ giúp tìm kiếm thông tin bằng tiếng Việt” do PGS.TS Phan Thị Tươi đại học Bách Khoa TPHCM làm chủ nhiệm đề tài.
1.4.2 Trên thế giới:
Đối với tiếng Việt: hiện có hai đề tài liên quan đến tìm kiếm xuyên ngữ
bằng tiếng Việt:
1. “Cross Language Medical Information Retrieval”, Trần Đức Tuấn, Nicolas Goercebu - Đại học Rennes.(đang trong giai đoạn chạy thử
nghiệm)
2. “CLIR in English and Vietnamese”, Nguyễn Văn Bé Hai, Ross Wilkinson, Justin Zabel - RMIT.
Đối với các ngôn ngữ khác: có rất nhiều công trình nghiên cứu đã được công bố cũng nhưứng dụng đã được đưa vào sử dụng từ rất sớm:
Liên tục trong các năm 1997, 1998 L.Ballesteros và Bruce Croft[1][5][6] đã đưa ra các bài báo liên quan đến các vấn đề trong hướng tiếp cận dựa trên từđiển: “Phương pháp dựa trên từ điển cho hệ thống tìm kiếm xuyên ngữ”, “Kỹ thuật dịch ngữ và mở rộng câu truy vấn cho hệ thống tìm kiếm xuyên ngữ”, “Giải quyết việc khử nhập nhằng cho
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
tìm kiếm xuyên ngữ”. Trong đó, họđã sử dụng từđiển song ngữ Anh-Tây Ban Nha để
tìm kiếm các tài liệu tiếng Anh và tiếng Tây Ban Nha.
Bên cạnh Ballesteros, Davis và Hull, trong năm 1998 này Yamabana [7] đã xây dựng hệ thống tìm kiếm xuyên ngữ Anh – Nhật theo hướng tiếp cận dựa trên dịch máy và kết hợp với việc lựa chọn từ dựa trên tần số rút trích từ ngữ liệu không song song.
Năm 2002, Atsushi Fujii và Tetsuya Ishikawa [8] đã công bố hệ thống tìm kiếm xuyên ngữ Nhật – Anh.theo hướng tiếp cận dựa trên ngữ liệu đơn ngữ. Trong hệ thống này ngoài việc dịch một từ thông thường, Atsushi còn dịch các từ ghép.
1.5 Kết luận:
Các kỹ thuật dựa trên vốn từ được điều khiển đã phát triển rất tốt, nhưng cấu trúc đầy
đủ của từđiển đồng nghĩa tựđộng vẫn còn quá đơn giản. Hơn nữa, những kỹ thuật tìm kiếm khái niệm đa ngữ như kỹ thuật mở rộng câu truy vấn có thể khai thác thông tin
được mã hóa trong từđiển mà con người không can thiệp được ở mức index hoặc thời gian truy vấn vì thế giới hạn việc ước lượng tính hiệu quả trong ngôn ngữ của cùng một kỹ thuật trong cùng một phạm vi. Nếu không có một cấu trúc từđiển tựđộng hiệu quả, miền giới hạn của những kỹ thuật tìm kiếm dựa vào khái niệm sẽ vẫn còn rất lớn.
Sự non nớt của những kỹ thuật dựa vào ngữ liệu cho thấy những từ điển đồng nghĩa trên thực tế vẫn là một thành phần quan trọng với bất kỳ hệ thống tìm kiếm đa ngôn ngữ nào, bất chấp mô hình so khớp chính xác hay mô hình tìm kiếm dựa trên sắp xếp
được sử dụng. Hơn nữa, sự tích hợp từ điển với những kỹ thuật dựa trên thống kê ngữ
liệu là một phạm vi của những nghiên cứu hiện tại trong ngôn ngữ học tính toán, và có một số tính năng được tận dụng khi kết hợp hai kỹ thuật lại. Bởi vì những từđiển đồng nghĩa phức tạp nhất dùng cho việc tìm kiếm đa ngữ hiện tại bịđiều khiển bởi những hệ
thống từ vựng nên những hiệu quả của nghiên cứu đang diễn ra là đòn bẩy cho nghiên cứu của chúng ta.
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
Những phạm vi khác nhau của những ngữ liệu song song có sẵn và ngữ liệu có sẵn những đánh giá thích hợp vẫn là một trở ngại lớn nhất cho việc đánh giá những kỹ
thuật dựa vào ngữ liệu. Chúng ta không biết rằng một thể hiện của một ngữ liệu song song lớn ứng với một tập các câu truy vấn có liên quan với những đánh giá thích hợp là sẵn có. Nếu không có một ngữ liệu như thế thì một thiết kế thực nghiệm tốt nhất có thể có được thiết lập là để huấn luyện trên một ngữ liệu song song từ phạm vi giống với phạm vi của ngữ liệu đánh giá. Thật không may, chúng ta không biết được bất kỳ
kỹ thuật nào để ước lượng độ hiệu quả, hoặc độ sai lệch khi kết hợp giữa sự huấn luyện và phạm vi đánh giá. Nếu không có ngữ liệu song song có sẵn những đánh giá thích hợp và không có cách tính ước lượng hiệu quả của một phạm vi khác thì sẽ
không thể đưa ra những khảo sát cuối cùng từ những nghiên cứu có quy mô lớn như
những nghiên cứu của Davis và Dunning .
Việc thực hiện những kỹ thuật đơn ngữ trong điều kiện thí nghiệm tương tự dường như
là một điểm chuẩn làm cận trên của hiệu quả tìm kiếm. Không có một bằng chứng nào cho thấy những kỹ thuật đa ngữ có thể vượt qua hẳn những kỹ thuật đơn ngữ. Fluhr và Radwan đã chỉ ra rằng việc hạ thấp biên của độ hiệu quả của một hệ thống tìm kiếm đa ngữ so với độ hiệu quả của hướng tiếp cận theo module (theo hướng tiếp cận này dịch máy hoàn toàn tự động được dùng để tiền xử lý câu truy vấn) là hợp lý. Sự hoà hợp của hai quan điểm này làm việc so sánh những kỹ thuật tìm kiếm đa ngữ qua những thí nghiệm khác nhau dễ dàng hơn. Tuy nhiên, nguồn tài nguyên yêu cầu ởđây để nhận ra khả năng tiềm tàng của những hệ thống dịch máy hiện đại hoàn toàn tựđộng để có thể
giới hạn tiện ích của phương pháp này trong những nghiên cứu nhỏ hơn.
Một sự khác biệt quan trọng giữa tìm kiếm đơn ngữ và tìm kiếm đa ngữ là có nhiều nghĩa xuất hiện tạo ra điểm giới hạn chủ yếu. Cụ thể là tính nhiều nghĩa của từ trở
thành một vấn đề lớn trong tìm kiếm đa ngữ hơn là trong tìm kiếm đơn ngữ khi kích cỡ
của phạm vi tăng. Ba nhà nghiên cứu thực hiện với những thí nghiệm rất khác nhau đã công bố rằng tính nhiều nghĩa của từ có thể được giảm bớt bằng cách sử dụng thông tin ngữ pháp và ngữ nghĩa trong đó loại đơn giản nhất là cụm từ. Điều này cho thấy
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
việc khử nhập nhằng nghĩa của từ (cũng như cụm từ) chỉ ra khả năng có hạn trong ngữ
cảnh đơn ngữ, nhưng đó là một bước đi có lợi cho nghiên cứu xa hơn.
Vấn đề quan trọng trong ứng dụng của bất cứ kỹ thuật xử lý ngôn ngữ tự nhiên nào cho việc tìm kiếm đa ngữ là cải thiện độ chính xác mà không bị ảnh hưởng của độ bao phủ. Điều này giải thích cho sự khảo sát những kỹ thuật tương đối đơn giản được thiết kế làm giảm hẳn những ý nghĩa trong phạm vi đó. Một trong những khó khăn thường gặp trong khi dịch câu truy vấn là đối với những câu truy vấn ngắn có thể làm tăng nguy cơ gây ra hiệu quả ngược lại vì tính nhiều nghĩa của từ bằng cách giới hạn ngữ
cảnh theo nghĩa của từ. Để giải quyết vấn đề này, ta sử dụng thông tin có cấu trúc từ
không gian tài liệu để làm tăng phạm vi cụ thể của việc dịch câu truy vấn.
Trong ba hướng tiếp cận của tìm kiếm xuyên ngữ có thể nói hướng tiếp cận dựa trên từ điển là khả thi nhất trong bối cảnh hiện nay của tiếng Việt. Nhưđã nêu trong phần ưu và khuyết điểm của hướng tiếp cận này, ta có thể nhận thấy tiếp cận dựa trên từđiển không đòi hỏi một nguồn tài nguyên lớn hay khó tìm kiếm. Thêm vào đó, nguồn tài nguyên từđiển điện tửở nước ta cũng khá phong phú. Chúng ta có thể tận dụng các từ điển này cho việc xây dựng một từ điển máy đọc cho hệ tìm kiếm xuyên ngữ. Đây cũng là lý do mà chúng tôi lựa chọn hướng tiếp cận dựa trên từđiển cho hệ thống tìm kiếm xuyên ngữ. Mặc dù hiệu quả của nó chưa cao, nhưng chính việc khắc phục khuyết điềm này sẽ là động lực cho các nghiên cứu tiếp theo.
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
Chương 2: CƠ SỞ LÝ THUYẾT
Trong chương này, chúng tôi trình bày các cơ sở lý thuyết mà dựa vào đó xây dựng hệ
thống. Chúng tôi không có tham vọng trình bày chi tiết, đầy đủ tất cả các hướng tiếp cận mà chỉ trình bày tổng quan một số hướng tiếp cận và từđó nhận xét, đánh giá từng hướng tiếp cận để có thểđưa ra các lựa chọn thích hợp nhất cho hệ thống. Chúng tôi sẽ
trình bày các nội dung:
9 Từđiển máy đọc - MRD (Machine Readable Dictionary).
9 Các phương pháp tách từ.
9 Các phương pháp khử nhập nhằng.
2.1 Giới thiệu về MRD (Machine Readable Dictionary) 2.1.1 Sơ lược lịch sử phát triển MRD trên thế giới: 2.1.1 Sơ lược lịch sử phát triển MRD trên thế giới:
2.1.1.1 Lịch sử của những tài nguyên từ vựng máy đọc:
Những hệ thống xử lý ngôn ngữ (NLP – Natural Language Processing) trước đây có khuynh hướng sử dụng những từđiển đồng nghĩa và từđiển ngữ pháp có từ và cú pháp
đơn giản. Về cơ bản, những từđiển này chỉ chứa số lượng từ tương đối (ít hơn 1.000 từ so với 20.000 từ thông dụng mà người bình thường sử dụng) và chấp nhận là đã
đúng ở trong một vài cấu trúc cú pháp. Những ràng buộc này làm những nhà nghiên cứu tập trung vào những điều khó khăn trước mắt của NLP chẳng hạn như phân tích hình thái, dịch theo ngữ pháp và ngữ nghĩa.
Mười năm trở lại đây, những nhà nghiên cứu bắt đầu nhận ra được vấn đề “đầu vào không giới hạn” (unrestrictedinput) với mục tiêu cuối cùng là cho phép hệ thống NLP nhận bất cứ đầu vào nào của ngôn ngữ đang xét. Điều này là một thách thức lớn khi xét đến kho thành ngữ sẵn có trong tiếng Anh và một số ngôn ngữ khác đặc biệt là văn nói.
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
Tuy nhiên để hệ thống NLP có thể giải quyết được vấn đề đầu vào không giới hạn, những nhà nghiên cứu cần hiểu rõ cả về từ ngữ và ngữ pháp của ngôn ngữ đang xét. Sau đây chúng ta xét những tài nguyên từ vựng đã được phát triển.
2.1.1.2 Những tài nguyên từ vựng trong năm 1980:
Câu hỏi đặt ra là: “Nguồn tài nguyên từ vựng dễ hiểu nhất nào trong NLP là sẵn có?”.Vào năm 1980, câu trả lời sẽ là từđiển.
Một MRD thường chỉ ở dạng băng từ sắp xếp chữ trên máy tính từ một từ điển đã
được in trước đó mặc dù nó có chứa một vài thông tin từ điển không có trong phiên bản in. (Dạng băng từ sắp xếp chữ trên máy tính này bao gồm tất cả thông tin cần có khi chuyển một từ điển thành bản in, chẳng hạn như lời hướng dẫn, thay đổi font, ký hiệu đặc biệt, …)
Trong những năm gần đây, máy tính góp phần quan trọng vào sự phát triển từđiển và MRD. Những giai đoạn triển khai này được mô phỏng bằng những phiên bản máy đọc
đầu tiên của những từ điển dùng cho người dùng có trình độ cao như: Oxford Advanced Leaner’s Dictionary (OALD), Longman Dictionary of Contemporary English (LDOCE) và Collins Cobuild English Language Dictionary (COBUILD).
Mỗi từđiển khác nhau vềđộ liên quan đến máy tính khi chúng được đưa vào sản xuất:
OALD (Oxford Advanced Leaner’s Dictionary):
OALD là dạng máy đọc trong những năm cuối thập niên 70, về cơ bản nó giống băng từ xếp chữ. Ở đây máy tính không có vai trò gì trong việc chuẩn bị từ điển thực sự.
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
Loại băng từ máy tính này có vào đầu những năm 80 cũng là dạng máy đọc, người sáng chếđã sử dụng máy tính hỗ trợ kiểm tra sự sẵn sàng của nó đểđảm bảo về sựđúng đắn của những định nghĩa từ. Thông tin từđiển thêm vào cũng có trong băng từ nhưng không có trong từđiển in.
COBUILD (Collins Cobuild English Language Dictionary):
COBUILD liên quan đến máy tính trong cả 4 giai đoạn phát triển của nó: thu thập dữ liệu, chọn mục từ, cấu trúc những định nghĩa mục từ và sắp xếp mục từ. Những thủ tục máy tính cũng được dùng để đảm bảo sựđúng đắn và hoàn hảo của mục từ.
2.1.1.3 Những tài nguyên từ vựng trong năm 1990:
Câu hỏi đặt ra là: “Nguồn tài nguyên từ vựng dễ hiểu nhất nào trong NLP là sẵn có?”. Vào năm 1990, câu trả lời sẽ là ngữ liệu.
Ngữ liệu là sự lựa chọn chiến thuật của tài liệu xử lý ngôn ngữ tự nhiên (toàn văn bản, mẫu từ những văn bản hoặc đôi khi không nối câu, từ một hay nhiều ngôn ngữ) được lưu trữ ở dạng máy đọc. Một ví dụ của ngữ liệu là ngữ liệu văn nói tiếng Anh, bao gồm 50.000 từ của văn nói tiếng anh của người Anh được ghi âm từ kênh phát thanh BBC. Nó tập hợp từ nghiên cứu hỗ trợ viết bằng tiếng Anh.
Từ điển COBUILD được phát triển bởi một nhóm nghiên cứu của khoa Anh ngữ
trường đại học Birmingham (cộng tác với Collins Publishers). Không giống những nhà phát triển từđiển trước đây, nhóm COBUILD sử dụng cách tiếp cận khách quan hơn
để chọn từ, thay vì dựa vào trực giác. Họ xác định những gì là chính yếu trong từđiển tiếng Anh (chẳng hạn như những từ thông dụng nhất trong ngôn ngữ mà người học cần làm quen) và để làm việc này họ phân tích thống kê một ngữ liệu.
Đầu tiên, Dự án COBUILD liên quan đến tập hợp những văn bản xuất hiện tự nhiên từ
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
Anh. Tuy nhiên, trước khi việc thu thập dữ liệu này diễn ra, cần xác định một chiến lược thu thập. Vì mục đích của dự án là tạo ra một từđiển cho người học nâng cao nên cần xác định những khía cạnh mà tiếng Anh có liên quan đến nhu cầu người sử dụng trên thế giới:
Cách viết và đọc
Ngôn ngữ chung và rộng rãi (không dùng từ kỹ thuật)
Sử dụng hiện hành (từ 1960)
Ngôn ngữ tự nhiên (không mang kịch tính)
Văn xuôi, một ít tiểu thuyết (không có thơ)
Ngôn ngữ người lớn (từ 16 tuổi trở lên)
Tiếng Anh chuẩn (không có tiếng địa phương)
Sử dụng chủ yếu là tiếng Anh của người Anh (một số là tiếng Anh của người Mỹ hoặc nước khác)
Tập văn bản này lấy kết quả từ ngữ liệu Birmingham Main Corpus 7.3 triệu từ được dùng để:
(1) chọn những từ xuất hiện trong từ điển (từ Main Corpus, 132.000 từ gốc
được xác định là có thểđưa vào từđiển).
(2) cung cấp dữ liệu từđiển chẳng hạn bằng cách tìm từđó xuất hiện trong những ngữ cảnh khác nhau.
Một ngữ liệu đảo với 20 triệu từ cũng được tạo ra được dùng trong trường hợp một số
từ không được thêm vào Main Corpus. Ví dụ, nếu một từ nào đó không xuất hiện trong Main Corpus, nhưng nó vẫn được thêm vào trong từđiển, lúc này ngữ liệu đảo sẽ là ví dụ của cách sử dụng nó.
Ngữ liệu hiện nay có ở Birmingham tập trung vào sự phát triển của ngữ liệu MONITOR, được đưa ra bởi Antoinette Renouf ở Sinclair (1987) rằng: “Ngữ liệu này
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa
mà có thể đọc bằng máy tính. Một phần dữ liệu sẽ được lưu trữ tại thời điểm nào đó nhưng nơi chứa sẽ bị xóa sau khi xử lý. Đối tượng này là để “giám sát” dữ liệu, từ