Giới thiệu về MRD (Machine Readable Dictionary)

Một phần của tài liệu Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa (Trang 35)

2.1.1.1 Lịch sử của những tài nguyên từ vựng máy đọc:

Những hệ thống xử lý ngôn ngữ (NLP – Natural Language Processing) trước đây có khuynh hướng sử dụng những từđiển đồng nghĩa và từđiển ngữ pháp có từ và cú pháp

đơn giản. Về cơ bản, những từđiển này chỉ chứa số lượng từ tương đối (ít hơn 1.000 từ so với 20.000 từ thông dụng mà người bình thường sử dụng) và chấp nhận là đã

đúng ở trong một vài cấu trúc cú pháp. Những ràng buộc này làm những nhà nghiên cứu tập trung vào những điều khó khăn trước mắt của NLP chẳng hạn như phân tích hình thái, dịch theo ngữ pháp và ngữ nghĩa.

Mười năm trở lại đây, những nhà nghiên cứu bắt đầu nhận ra được vấn đề “đầu vào không giới hạn” (unrestrictedinput) với mục tiêu cuối cùng là cho phép hệ thống NLP nhận bất cứ đầu vào nào của ngôn ngữ đang xét. Điều này là một thách thức lớn khi xét đến kho thành ngữ sẵn có trong tiếng Anh và một số ngôn ngữ khác đặc biệt là văn nói.

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Tuy nhiên để hệ thống NLP có thể giải quyết được vấn đề đầu vào không giới hạn, những nhà nghiên cứu cần hiểu rõ cả về từ ngữ và ngữ pháp của ngôn ngữ đang xét. Sau đây chúng ta xét những tài nguyên từ vựng đã được phát triển.

2.1.1.2 Những tài nguyên từ vựng trong năm 1980:

Câu hỏi đặt ra là: “Nguồn tài nguyên từ vựng dễ hiểu nhất nào trong NLP là sẵn có?”.Vào năm 1980, câu trả lời sẽ là từđiển.

Một MRD thường chỉ ở dạng băng từ sắp xếp chữ trên máy tính từ một từ điển đã

được in trước đó mặc dù nó có chứa một vài thông tin từ điển không có trong phiên bản in. (Dạng băng từ sắp xếp chữ trên máy tính này bao gồm tất cả thông tin cần có khi chuyển một từ điển thành bản in, chẳng hạn như lời hướng dẫn, thay đổi font, ký hiệu đặc biệt, …)

Trong những năm gần đây, máy tính góp phần quan trọng vào sự phát triển từđiển và MRD. Những giai đoạn triển khai này được mô phỏng bằng những phiên bản máy đọc

đầu tiên của những từ điển dùng cho người dùng có trình độ cao như: Oxford Advanced Leaner’s Dictionary (OALD), Longman Dictionary of Contemporary English (LDOCE) và Collins Cobuild English Language Dictionary (COBUILD).

Mỗi từđiển khác nhau vềđộ liên quan đến máy tính khi chúng được đưa vào sản xuất:

OALD (Oxford Advanced Leaner’s Dictionary):

OALD là dạng máy đọc trong những năm cuối thập niên 70, về cơ bản nó giống băng từ xếp chữ. Ở đây máy tính không có vai trò gì trong việc chuẩn bị từ điển thực sự.

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Loại băng từ máy tính này có vào đầu những năm 80 cũng là dạng máy đọc, người sáng chếđã sử dụng máy tính hỗ trợ kiểm tra sự sẵn sàng của nó đểđảm bảo về sựđúng đắn của những định nghĩa từ. Thông tin từđiển thêm vào cũng có trong băng từ nhưng không có trong từđiển in.

COBUILD (Collins Cobuild English Language Dictionary):

COBUILD liên quan đến máy tính trong cả 4 giai đoạn phát triển của nó: thu thập dữ liệu, chọn mục từ, cấu trúc những định nghĩa mục từ và sắp xếp mục từ. Những thủ tục máy tính cũng được dùng để đảm bảo sựđúng đắn và hoàn hảo của mục từ.

2.1.1.3 Những tài nguyên từ vựng trong năm 1990:

Câu hỏi đặt ra là: “Nguồn tài nguyên từ vựng dễ hiểu nhất nào trong NLP là sẵn có?”. Vào năm 1990, câu trả lời sẽ là ngữ liệu.

Ngữ liệu là sự lựa chọn chiến thuật của tài liệu xử lý ngôn ngữ tự nhiên (toàn văn bản, mẫu từ những văn bản hoặc đôi khi không nối câu, từ một hay nhiều ngôn ngữ) được lưu trữ ở dạng máy đọc. Một ví dụ của ngữ liệu là ngữ liệu văn nói tiếng Anh, bao gồm 50.000 từ của văn nói tiếng anh của người Anh được ghi âm từ kênh phát thanh BBC. Nó tập hợp từ nghiên cứu hỗ trợ viết bằng tiếng Anh.

Từ điển COBUILD được phát triển bởi một nhóm nghiên cứu của khoa Anh ngữ

trường đại học Birmingham (cộng tác với Collins Publishers). Không giống những nhà phát triển từđiển trước đây, nhóm COBUILD sử dụng cách tiếp cận khách quan hơn

để chọn từ, thay vì dựa vào trực giác. Họ xác định những gì là chính yếu trong từđiển tiếng Anh (chẳng hạn như những từ thông dụng nhất trong ngôn ngữ mà người học cần làm quen) và để làm việc này họ phân tích thống kê một ngữ liệu.

Đầu tiên, Dự án COBUILD liên quan đến tập hợp những văn bản xuất hiện tự nhiên từ

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Anh. Tuy nhiên, trước khi việc thu thập dữ liệu này diễn ra, cần xác định một chiến lược thu thập. Vì mục đích của dự án là tạo ra một từđiển cho người học nâng cao nên cần xác định những khía cạnh mà tiếng Anh có liên quan đến nhu cầu người sử dụng trên thế giới:

ƒ Cách viết và đọc

ƒ Ngôn ngữ chung và rộng rãi (không dùng từ kỹ thuật)

ƒ Sử dụng hiện hành (từ 1960)

ƒ Ngôn ngữ tự nhiên (không mang kịch tính)

ƒ Văn xuôi, một ít tiểu thuyết (không có thơ)

ƒ Ngôn ngữ người lớn (từ 16 tuổi trở lên)

ƒ Tiếng Anh chuẩn (không có tiếng địa phương)

ƒ Sử dụng chủ yếu là tiếng Anh của người Anh (một số là tiếng Anh của người Mỹ hoặc nước khác)

Tập văn bản này lấy kết quả từ ngữ liệu Birmingham Main Corpus 7.3 triệu từ được dùng để:

(1) chọn những từ xuất hiện trong từ điển (từ Main Corpus, 132.000 từ gốc

được xác định là có thểđưa vào từđiển).

(2) cung cấp dữ liệu từđiển chẳng hạn bằng cách tìm từđó xuất hiện trong những ngữ cảnh khác nhau.

Một ngữ liệu đảo với 20 triệu từ cũng được tạo ra được dùng trong trường hợp một số

từ không được thêm vào Main Corpus. Ví dụ, nếu một từ nào đó không xuất hiện trong Main Corpus, nhưng nó vẫn được thêm vào trong từđiển, lúc này ngữ liệu đảo sẽ là ví dụ của cách sử dụng nó.

Ngữ liệu hiện nay có ở Birmingham tập trung vào sự phát triển của ngữ liệu MONITOR, được đưa ra bởi Antoinette Renouf ở Sinclair (1987) rằng: “Ngữ liệu này

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

mà có thể đọc bằng máy tính. Một phần dữ liệu sẽ được lưu trữ tại thời điểm nào đó nhưng nơi chứa sẽ bị xóa sau khi xử lý. Đối tượng này là để “giám sát” dữ liệu, từ

những khía cạnh khác nhau, để lưu lại những sự kiện thay đổi tự nhiên của ngôn ngữ.”

Dữ liệu văn bản được thu thập thường xuyên, chủ yếu từ CD-ROMS xếp chữ của những tờ báo và tạp chí. (Rõ ràng điều này không thể hiện là mẫu cấu trúc tỉ mỉ bằng tiếng Anh của Main Corpus). Một phương pháp “drag-net” đang được dùng để kiểm soát MONITOR Corpus về từ mới, cách dùng mới hoặc nghĩa của những từ cũ, từ

không còn được dùng nữa, … Ví dụ, sự xuất hiện và phát triển của những từ và cụm từ

mới như “grunge”, “risc” và “Mother of all …” có thểđược lưu ý.

Đến năm 1992, Meijs đưa ra một từ điển đơn ngữ phức tạp nhưng hợp lý bao gồm những thông tin8 sau:

1. Dạng của từ gốc.

2. Từ loại: danh từ, động từ, tính từ, …

3. Thông tin ngữ pháp kèm thêm: khả năng đếm, bổ ngữ trực tiếp hay hiểu ngầm, …

4. Biến cách: số nhiều, thì quá khứ, dạng bất qui tắc, … 5. Âm vị: cách đọc và nhấn âm. 6. Nghĩa của từ, bằng cách định nghĩa hoặc tham khảo đến đồng nghĩa. 7. Ví dụ bằng cách khác nhau của một từ có thể sử dụng. 8. Thành ngữ và những cụm từđặc biệt trong đó có từ gốc. 9. Dẫn xuất, từ ghép, … 10. Cách sử dụng ghi chú, cách dùng đặc biệt, … 2.1.2 Vai trò và cấu trúc của MRD: 2.1.2.1 Vai trò của MRD:

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Đối với tiếng Anh và một số ngôn ngữ phổ biến khác trên thế giới thì việc xử lý tự động ngôn ngữ tự nhiên ngày càng trở nên phổ biến và đạt được những thành tựu đáng kể. Tuy nhiên, đối với tiếng Việt của chúng ta, các kết quả này còn hạn chế do nhiều nguyên nhân khác nhau và trong đó có nguyên nhân do thiếu những cơ sở dữ liệu cơ

bản dạng điện tử cần thiết cho việc xử lý ngôn ngữ tựđộng bằng máy tính. Một trong những cơ sở dữ liệu đó chính là cơ sở dữ liệu từđiển tiếng Việt chuyên dùng cho máy tính để xử lý tiếng Việt.

Việc xử lý ngôn ngữ tự nhiên bằng máy tính bao gồm nhiều bài toán khác nhau, như: phân tích hình thái, cú pháp, ngữ nghĩa,… cho các cấp độ từ, ngữ, câu, văn bản,…nhưng tất cả các công việc xử lý ấy đều cần truy cập đến cơ sở dữ liệu từđiển

điện tử (cơ sở dữ liệu về từ trong ngôn ngữ đó). Vì vậy, việc tiên quyết cho mọi bài toán xử lý ngôn ngữ chính là cần phải xây dựng được từđiển điện tử mà máy tính có thể “đọc” được (trong chuyên môn, từ điển này được gọi tắt là MRD: Machine Readable Dictionary).

2.1.2.2 Cấu trúc của MRD:

Trong phạm vi nghiên cứu của luận văn, chúng tôi muốn nêu lên một số vấn đề cần giải quyết trong việc xây dựng từđiển MRD cho tiếng Việt, tiếng Anh và tiếng Hoa9, như: cấu trúc vĩ mô, cấu trúc vi mô của từ điển, đặc điểm về hình thái, ngữ pháp và ngữ nghĩa của những đơn vị “mục từ” (entry) trong từ điển, tính quốc tế của những tiêu chí lựa chọn mục từ sao cho từđiển này có thể kế thừa, giao tiếp với các hệ xử lý ngôn ngữ tự động thông dụng (tiếng Anh) trên thế giới. Trong phần này, chúng tôi cũng sẽđề cập đến cách thức xây dựng tựđộng MRD và cách tổ chức cấu trúc dữ liệu cho MRD.

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Ở đây, ta cần phân biệt từ điển MRD với các từ điển điện tử dành cho người (như từ điển của Lạc Việt, Vi Tính Đồng Nai,..) dù là chúng ở dạng điện tử (máy đọc được), nhưng không phải dùng cho máy, mà dùng cho người sử dụng.

Từ điển MRD (dành cho máy “đọc”) có cách tổ chức cấu trúc và lưu trữ những loại thông tin không giống như từ điển dành cho người dùng. Chẳng hạn, trong MRD không cần chứa các thông tin về ngữ âm (phonetics), về từ nguyên (etymology), giải thích, câu ví dụ, … nhưng nó lại chứa các thông tin được coi là hiển nhiên, những thông tin không cần nêu ra trong từđiển dành cho người sử dụng (vì những thông tin này con người hoàn toàn suy ra được bằng tri thức về thế giới thực hay bằng vốn sống).

Từđiển MRD cần có cách tổ chức nhất quán, chặt chẽ, chính xác, đầy đủ về cấu trúc và về lượng thông tin để máy tính hoàn toàn dựa vào đó mà xử lý công việc được giao một cách máy móc. Vì vậy, để xây dựng được từ điển MRD này, chúng ta phải giải quyết triệt để về tiêu chí lựa chọn mục từ (cấu trúc vĩ mô). Đây là vấn đề vô cùng nan giải vì nó liên quan đến tiêu chí nhận diện ranh giới từ (đặc biệt là tiếng Việt, một thứ

tiếng của loại hình ngôn ngữ đơn lập). Thông tin được lưu trữ trong mỗi mục từ (cấu trúc vi mô) phải hoàn toàn chính xác, nhất quán về chính tả, về bộ mã ký tự, về cách trình bày. Tuyệt đối không thể ghi nhập nhằng như từđiển của người dùng. Ngoài ra, việc tổ chức MRD sao cho nó có tính liên thông với các từ điển MRD khác, tương thích với các hệ xử lý ngôn ngữ khác trên thế giới. Việc tổ chức MRD tiếng Việt này cũng cần có tính mở để chúng ta có thể cập nhật, thay đổi một cách dễ dàng và nhanh chóng.

Cuối cùng, việc xây dựng, quản lý, cập nhật một cơ sở dữ liệu khá lớn (hàng mấy vạn từ) với yêu cầu chính xác cao như thế phải được xây dựng một cách tựđộng trên cơ sở

các kho dữ liệu, các từđiển điện tử có sẵn có liên quan.

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Từ từđiển MRD, chúng ta có thể khai thác để phục vụ rất nhiều bài toán xử lý ngôn ngữ tự nhiên khác nhau:

Nhờ cấu trúc vĩ mô (danh sách từ của ngôn ngữ), cho phép ta xử lý tự động các bài toán: gán nhãn ranh giới từ, kiểm lỗi chính tả.

Nhờ các trường thông tin lưu trong cấu trúc vi mô, chúng ta có thể xử lý các bài toán như: phân tích hình thái từ; gán nhãn từ loại; phân tích cú pháp; phân tích ngữ nghĩa.

Nhờ trường tần suất sử dụng, chúng ta có thể rút ra danh sách các từ, các cấu trúc ngữ pháp được sử dụng thường xuyên nhất (danh sách tối thiểu) để

phục vụ việc giảng dạy ngoại ngữ.

Để có thể khai thác tốt từ điển MRD, chúng ta nhất thiết phải tuân theo các qui tắc biểu diễn, lưu trữ nhất quán, đơn trị khi xây dựng từ điển. Nghĩa là không thể giải thích theo kiểu nước đôi, kiểu tương tự, mang tính hàm ý,... Tuy những cách giải thích này chấp nhận được đơn vị con người (tự hiểu, tự suy ra dựa trên tri thức về thế giới thực), nhưng không thể chấp nhận được đối với máy (xử lý máy móc).

2.1.4 Xây dựng từđiển tựđộng:

Đối với các tiếng biến hình (như tiếng Anh, Pháp, Nga,..), việc xây dựng danh sách tất cả các từ trong ngôn ngữ có thể thực hiện được dễ dàng thông qua việc quét trên ngữ

liệu lớn (đúng chính tả), xem xem những từ nào không có từđiển sẽđược thêm vào từ điển. Tuy nhiên, đối với các thứ tiếng đơn lập như tiếng (Việt, Hoa, Thái, ..), chúng ta không thể làm theo cách thức trên được. Trong các thứ tiếng đơn lập này, để xác định

được từ mới chưa có trong từđiển, ta cần phải tách từ. Mà muốn tách từ, ta cần có từ điển chứa những từ cần tách. Đây là vấn đề “quả trứng – con gà”. Để giải quyết vấn đề

lưỡng nan này, gần đây đã có mô hình của J.S.Chang, Y.C.Lin và K.Y.Su [9] dùng để

tách từ cho ngữ liệu lớn dựa trên một ngữ liệu nhỏ cho tiếng Hoa để từđó xây dựng tự động từđiển tiếng Hoa. Từ ngữ liệu nhỏ (seed corpus) gồm 1.000 câu đã được tách từ,

Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa

Viterbi để lặp đi lặp lại sự điều chỉnh các thông số tách từ cho đến khi các thông số

này hội tụ. Các tác giả cũng áp dụng thành công phương pháp này để gán nhãn từ loại cho tiếng Hoa với độ chính xác đến 73%.

Ngoài cách tiếp cận dựa trên ngữ liệu như trên, người ta còn khai thác các từđiển điện tử của người bằng cách: cấu trúc hoá (đánh dấu các truờng) cho từ điển của người rồi sau đó rút trích thông tin từ những trường có liên quan. Hiện nay, nguồn tài nguyên từ điển điện tử là khá phong phú, đây là một thuận lợi để chúng ta có thể xây dựng các MRD “máy đọc” khá hoàn chỉnh phục vụ các hệ thống NLP. Đây chính là lí do mà chúng tôi chọn phương pháp này cho đề tài.

2.1.5 Cấu trúc vĩ mô và vi mô của từđiển MRD:

Cấu trúc vĩ mô là cấu trúc bao gồm toàn thể các mục từ được sắp xếp trong từ điển theo một trật tự xác định (còn được gọi là cấu trúc tổng thể hay cấu trúc bảng từ).

Cấu trúc vi mô là cấu trúc bao gồm toàn bộ những thông tin được trình bày một cách có hệ thống trong mỗi mục từ (còn gọi là cấu trúc mục từ).

Để xây dựng cấu trúc vĩ mô cho từđiển MRD một cách tựđộng, chúng ta phải lần lượt giải quyết các vấn đề sau: tiêu chí lựa chọn mục từ, thứ tự sắp xếp các mục từ, yếu tố

liên thông với cơ sở dữ liệu từđiển quốc tế.

Vấn đề lựa chọn mục từ để đưa vào từ điển phụ thuộc vào tiêu chí lựa chọn mục từ,

Một phần của tài liệu Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt – Anh – Hoa (Trang 35)

Tải bản đầy đủ (PDF)

(133 trang)