1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng và khai thác kho ngữ liệu song ngữ anh việt điện tử

292 8 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

ĐẠI HỌC QUỐC GIA THÀNH PHỒ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC XÃ HỘI & NHÂN VĂN Đinh Điền Luận án tiến sĩ XÂY DỰNG VÀ KHAI THÁC KHO NGỮ LIỆU SONG NGỮ ANH - VIỆT ĐIỆN TỬ Chuyên ngành Ngôn ngữ học so sánh Mã ngành: 5.04.27 NGƯỜI HƯỚNG DẪN KHOA HỌC GS.TS Nguyễn Đức Dân - TP HỒ CHÍ MINH - 2005 – MỞ ĐẦU So sánh đối chiếu để tìm điểm tương đồng dị biệt cấp độ khác ngôn ngữ nhiệm vụ ngành ngôn ngữ học so sánh Nhưng để so sánh, ta phải có liệu ngôn ngữ mà ta cần so sánh Để có liệu ngôn ngữ này, tất nhiên phải thu thập, tổng hợp từ nhiều nguồn khác thực tế sử dụng ngôn ngữ, sau đó, ta tiến hành bước phân tích, so sánh, đối chiếu dựa kho liệu ngôn ngữ Chính vậy, mà mục đích luận án nghiên cứu xây dựng mô hình kho ngữ liệu song ngữ điện tử để nhà ngôn ngữ học so sánh sau sử dụng mô hình việc xây dựng khai thác tự động kho ngữ liệu khác Chính từ kho ngữ liệu xây dựng theo mô hình đó, hoàn toàn khai thác tự động nhằm tìm quy luật điểm tương đồng dị biệt ngôn ngữ phương diện khác cấp độ khác Trên tinh thần đó, sẽõ xây dựng thử nghiệm kho ngữ liệu song ngữ Anh-Việt dạng điện tử (gọi EVC: English – Vietnamese Corpus) cho nhà ngôn ngữ học so sánh khai thác để so sánh đối chiếu AnhViệt phương diện hình thái, ngữ pháp ngữ nghóa cấp độ (bước đầu cấp độ từ) Ngoài ra, kho ngữ liệu có công dụng khác như: giảng dạy ngoại ngữ, huấn luyện cho hệ xử lý tự động máy tính,… Tuy nhiên, để xây dựng kho ngữ liệu song ngữ vậy, trước hết cần phải giải loạt vấn đề khác biệt loại hình ngôn ngữ tiếng Anh tiếng Việt, vấn đề ngôn ngữ học – ngữ liệu ngôn ngữ học – thống kê Ngoài ra, phải sử dụng đến nhiều kết nghiên cứu chuyên ngành trí tuệ nhân tạo ngành tin học, mô hình xử lý tự động liên ngành ngôn ngữ học – máy tính LÝ DO CHỌN ĐỀ TÀI Trên tinh thần so sánh phương diện tiếng Anh tiếng Việt, chọn đề tài “Xây dựng khai thác kho ngữ liệu song ngữ Anh-Việt điện tử” lý sau (chúng xin giải thích từ/cụm từ gạch phần tên đề tài trích ra): a “Xâây dựng … kho ngữ liệu …” : Ngữ liệu song ngữ “nguyên liệu thô” bắt buộc phải có trước muốn tiến hành nghiên cứu so sánh đối chiếu cấp độ hai ngôn ngữ Để nghiên cứu so sánh đối chiếu Anh-Việt, việc phải xây dựng kho “nguyên liệu thô” Tuy nhiên, việc “xây dựng” không đơn tập hợp ngữ liệu thô mà phải tiến hành xử lý chúng (chuẩn hoá, gán nhãn ngôn ngữ,…), để từ nhà nghiên cứu sau (không cần biết nhiều chuyên môn tin học) tiến hành khai thác từ ngữ liệu cách có hiệu b “Khai thác kho ngữ liệu …” : Mục đích việc xây dựng kho ngữ liệu nhằm cho nhà nghiên cứu sau “khai thác” chúng để phục vụ cho nghiên cứu ngôn ngữ học so sánh, ngôn ngữ học – máy tính, ngôn ngữ học – thống kê,… Vì vậy, ý đến phần khai thác từ kho ngữ liệu song ngữ cách nhanh chóng, xác hoàn toàn tự động Các kết khai thác từ kho ngữ liệu, ứng dụng vào nhiều lónh vực khác nhau: từ việc so sánh ngôn ngữ Anh-Việt ngành ngôn ngữ học so sánh, nghiên cứu, thống kê ngôn ngữ tiếng Anh tiếng Việt, việc giảng dạy tiếng Anh cho người Việt tiếng Việt cho người nước ngoài, việc cung cấp ngữ liệu huấn luyện cho hệ xử lý ngôn ngữ tự động máy tính c “… ngữ liệu song ngữ Anh-Việt…” : Để nghiên cứu so sánh đối chiếu Anh-Việt, chắn phải có ngữ liệu song ngữ Anh-Việt Nếu ta xây dựng ngữ liệu đơn ngữ, việc giúp ích cho việc nghiên cứu ngôn ngữ mà (hoặc tiếng Anh tiếng Việt) Nhưng ta xây dựng ngữ liệu song ngữ, có nghóa ta bao hàm việc xây dựng ngữ liệu đơn ngữ cho hai thứ tiếng (ở tiếng Anh tiếng Việt), đồng thời ta lại có ngữ liệu để so sánh hai ngôn ngữ Ngoài ta, có xử lý (như tách từ tiếng Việt, đánh dấu nhãn ngữ nghóa, phân tích cú pháp, …) cho tiếng Việt mà đến ta chưa thể thực tự động hoàn toàn tiếng Anh kèm Chính vậy, việc xây dựng ngữ liệu song ngữ Anh-Việt cách mà ta lợi dụng tiếng Anh xử lý tự động (còn tiếng Việt chưa xử lý tự động được) để áp dụng sang cho tiếng Việt d “…song ngữ Anh-Việt …” : Trong bối cảnh nay, tiếng Anh thứ tiếng quốc tế, thứ tiếng Internet, thứ tiếng phổ biến Khoa học – Kỹ thuật (KHKT) Ngoài ra, riêng tiếng Anh thứ tiếng mà có nhiều công trình ngành ngôn ngữ học ngành có liên quan đến ngôn ngữ học nghiên cứu nó, chọn tiếng Anh Bên cạnh đó, chọn tiếng Việt, tiếng “mẹ đẻ” Chúng nghiên cứu so sánh tiếng Anh tiếng Việt nhằm để giúp cho việc dịch tự động Anh-Việt có mô hình dịch xác Bên cạnh đó, so sánh Anh-Việt giúp cho việc giảng dạy tiếng Anh cho người Việt tiếng Việt cho người nước hiệu Ngoài ra, phần vừa phân tích, chọn song ngữ Anh-Việt cách để lợi dụng kết nghiên cứu xử lý tự động tiếng Anh để phục vụ cho việc xử lý tiếng Việt e “… song ngữ Anh-Việt điện tử …”: Trước đây, ngữ liệu song ngữ chủ yếu tồn giấy, nên việc lưu trữ, tìm kiếm, cập nhật vô khó khăn chậm chạp Với phát triển ngành công nghệ thông tin, từ có Internet, kho ngữ liệu song ngữ “điện tử hoá” để dễ dàng lưu trữ, tìm kiếm, cập nhật cách nhanh chóng xác Đây lý chọn dạng lưu trữ ngữ liệu song ngữ dạng “điện tử” f Bước đầu, giới hạn văn lónh vực KHKT để nghiên cứu vì: văn phong lónh vực rõ ràng (plain), mơ hồ (ambiguous), dạng trung hoà, bình thường (rất xuất hiện tượng đánh dấu, tu từ, cường điệu, ẩn dụ, hoán dụ, nhân cách hoá, ) Lónh vực KHKT lónh vực mà ngành ngôn ngữ học –máy tính nhắm tới để xử lý tự động g Cuối cùng, lý sâu xa việc chọn đề tài “xây dựng kho ngữ liệu song ngữ Anh-Việt điện tử” để có kho ngữ liệu nhằm “huấn luyện” cho máy tính công nghệ “máy học”1 (hay “học máy”) Từ kho ngữ liệu này, máy tính “tự học” để rút qui luật chuyển dịch tự động hai ngôn ngữ Anh Việt Đây hướng tiếp cận (gọi “tiếp cận dựa ngữ liệu” – “corpus-based approach”) giới nhằm nâng cao chất lượng hệ xử lý ngôn ngữ tự nhiên so với hệ xử lý theo tiếp cận cũ trước (gọi “tiếp cận dựa luật” – “rule-based approach”) “Máy học” thuật ngữ dịch từ thuật ngữ “machine learning” có lónh vực trí tuệ nhân tạo Đây công nghệ dùng máy tính để bắt chước cách thức học tập người để học tập cách thức xử lý vấn đề học qui luật từ kiện MỤC TIÊU NGHIÊN CỨU Với tựa đề luận án “Xây dựng khai thác kho ngữ liệu song ngữ Anh-Việt điện tử”, nên mục tiêu nghiên cứu luận án là: “nghiên cứu mô hình để xây dựng kho ngữ liệu song ngữ Anh-Việt điện tử cho nhà ngôn ngữ học sau khai thác kho từ ngữ liệu song ngữ kết thống kê nhằm phục vụ cho công việc nghiên cứu họ (so sánh ngôn ngữ, giảng dạy, xử lý máy tính,…) Vì vậy, trình xây dựng kho ngữ liệu, phải tính đến cách thức xử lý, thông tin xử lý, … để việc khai thác sử dụng sau nhà ngôn ngữ học có hiệu Đây mục tiêu khó khăn cần phải đạt Điều có nghóa kho ngữ liệu song ngữ Anh-Việt phải chuẩn hoá, cấu trúc hoá (liên kết câu, liên kết từ) gán nhãn ngôn ngữ (chứa thông tin hình thái, ngữ pháp ngữ nghóa) Trong thời hạn cho phép luận án tiến só, bước đầu đặt mục tiêu “thu thập xử lý kho ngữ liệu văn Khoa học-Kỹ thuật”, chủ yếu thuộc lónh vực Tin học điện tử Tuy nhiên, việc mở rộng sang lónh vực khoa học hay kỹ thuật khác không gặp khó khăn tính chất việc xử lý tự động chương trình máy tính Tóm lại, luận án này, có nhiệm vụ cụ thể sau: a Đưa mô hình hợp lý khả thi cho kho ngữ liệu song ngữ Anh-Việt: làm sở cho việc xây dựng kho ngữ liệu song ngữ sau b Xây dựng thử nghiệm kho ngữ liệu song ngữ Anh-Việt: thu thập , chuẩn hoá, cấu trúc hoá gán nhãn ngôn ngữ cho ngữ liệu KHKT cấp độ từ c Khai thác từ kho ngữ liệu nói kết thống kê nhằm ứng dụng vào việc so sánh/thống kê/giảng dạy ngôn ngữ huấn luyện máy tính ĐỐI TƯNG NGHIÊN CỨU Đối tượng nghiên cứu luận án “một mô hình hợp lý khả thi để xây dựng khai thác kho ngữ liệu song ngữ Anh-Việt điện tử có gán nhãn ngôn ngữ”, cụ thể bao gồm đối tượng nghiên cứu sau: a Xác định cấu trúc hợp lý khả thi cho kho ngữ liệu song ngữ Anh-Việt điện tử: kho ngữ liệu chứa nhiều thông tin ngôn ngữ (nhãn ngôn ngữ) để phục vụ cho nhiều toán khai thác khác sau này, nên phải nghiên cứu xác định cấu trúc hợp lý (hợp lý mặt ngôn ngữ mặt tin học) để chứa đựng xử lý đầy đủ khối lượng thông tin Ngoài ra, cấu trúc phải cấu trúc thực công cụ tin học (không thể phân tích ngôn ngữ sâu) b Xác định hệ thống nhãn hợp lý khả thi: kho ngữ liệu song ngữ AnhViệt kho ngữ liệu có gán nhãn ngôn ngữ, phải xác định gán hệ thống nhãn ngôn ngữ nào, hệ thống gồm nhãn cụ thể nhãn Nếu hệ thống nhãn chi tiết (càng mịn) giúp nhà ngôn ngữ học sau khai thác nhiều thông tin hơn, độ xác việc gán nhãn tự động giảm đồng nghóa với việc công sức hiệu đính tăng lên khiến tính khả thi việc gán nhãn giảm Ngược lại, hệ thống nhãn nhãn (càng thô) thông tin khai thác sau đi, tính khả thi việc gán nhãn tăng lên (và điều chấp nhận số ứng dụng chuyên biệt đó) c Xác định phương pháp đối chiếu chuẩn nhãn ngôn ngữ tiếng Anh nhãn ngôn ngữ tiếng Việt: ngữ liệu song ngữ sở ánh xạ nhãn ngôn ngữ tiếng Anh tiếng Việt, mà tiếng Anh tiếng Việt lại có nhiều điểm khác nhau, nên phải xác định phương pháp đối chiếu chuẩn hợp lý mặt ngôn ngữ khả thi mặt tin học PHẠM VI NGHIÊN CỨU Luận án nghiên cứu số vấn đề xây dựng khai thác ngữ liệu song ngữ Anh-Việt điện tử với giới hạn sau: a Nghiên cứu vấn đề liên quan đến việc xây dựng kho ngữ liệu song ngữ, cụ thể bao gồm: thu thập xử lý kho ngữ liệu song ngữ thuộc KHKT Việc thu thập ngữ liệu bao gồm việc xác định tiêu chí quán việc chọn mẫu ngữ liệu xác định tỉ lệ khối lượng mẫu ngữ liệu Việc xử lý ngữ liệu giới hạn mức chuẩn hoá, liên kết câu, liên kết từ/ngữ, gán nhãn hình thái (ranh giới từ/ngữ), nhãn ngữ pháp (từ loại, tiểu từ loại, nhãn ngữ pháp biến đổi từ) nhãn ngữ nghóa (semantic) cho từ tiếng Anh từ tiếng Việt b Nghiên cứu vấn đề liên quan đến việc khai thác kho ngữ liệu song ngữ, cụ thể bao gồm: tìm kiếm, thống kê theo hình thái từ/ngữ, từ pháp từ ngữ nghóa từ Khai thác để đối chiếu Anh-Việt cấp độ từ/ngữ phương diện hình thái, từ pháp ngữ nghóa Khai thác mức độ ngữ (phrase) để phục vụ nghiên cứu đồng (concordance), collocation, …Khai thác để kiểm nghiệm thực tế giả thuyết ngôn ngữ trước c Nghiên cứu vấn đề thuộc lónh vực ngôn ngữ học hay ngành có liên quan đến ngôn ngữ học, như: ngôn ngữ học – tri nhận, ngôn ngữ học – máy tính, ngôn ngữ học – ngữ liệu, ngữ nghóa từ vựng Luận án không sâu vào vấn đề máy tính, như: chi tiết kỹ thuật liên quan đến việc mã hoá liệu từ điển ngữ liệu song ngữ bên máy tính, nguyên tắc lưu đồ hoạt động chương trình máy tính để xử lý ngữ liệu (chương trình kiểm lỗi tả, chương trình gán nhãn cú pháp tiếng Anh tự động , ),… vấn đề không thuộc ngành ngôn ngữ học Tất vấn đề tuý liên quan đến máy tính nói kế thừa từ công trình [8] d Nghiên cứu ngữ liệu song ngữ câu thông thường hay văn Khoa học-Kỹ thuật (chủ yếu Tin học – Điện tử) văn phong đơn giản, mơ hồ, không giàu ngôn ngữ hình tượng Do đó, việc liên kết từ cho ngữ liệu song ngữ, xét đến trật tự từ phương diện bình thường, trung hoà, dạng không đánh dấu không xét trường hợp đặc biệt, dạng đánh dấu, biện pháp tu từ, nhấn mạnh, ẩn dụ, hoán dụ, nhân cách hoá,… e Nghiên cứu yếu tố thuộc hình thái, cú pháp ngữ nghóa cấp độ từ, không xét yếu tố ngữ âm hay yếu tố ngữ dụng, tâm lý, giới tính, xã hội,… f Chỉ xét đến ngôn ngữ đồng đại (hiện nay), không xét ngôn ngữ lịch đại Tuy phạm vi nghiên cứu luận án giới hạn cho văn song ngữ Anh-Việt thuộc lónh vực Tin học – Điện tử, việc mở rộng cho văn thuộc lónh vực KHKT khác, như: hoá học, khí, y học,… điều hoàn toàn khả thi mà thay đổi nguyên tắc xây dựng Vì mô hình xây dựng kho ngữ liệu song ngữ Anh-Việt xử lý tự động chế tự huấn luyện (self-training), nên đưa vào kho ngữ liệu văn KHKT thuộc lónh vực khác, máy tính tự huấn luyện lại để gán nhãn ngôn ngữ phù hợp với đặc điểm văn phong lónh vực Thậm chí việc mở rộng lan sang đến lónh vực kinh tế, thương mại, … lan tới lónh vực văn học giới chưa thể xử lý lónh vực [68] Ngoài ra, áp dụng kết nghiên cứu luận án sang để xây dựng kho ngữ liệu song ngữ thuộc lónh vực KHKT cho cặp ngôn ngữ khác, như: Pháp-Việt, Nhật-Việt, Hoa-Việt, chắn độ xác mô hình xử lý tự động cho tiếng Pháp, Nhật, Hoa giảm so với tiếng Anh PHƯƠNG PHÁP NGHIÊN CỨU Trong luận án này, sử dụng phương pháp sau để nghiên cứu việc xây dựng khai thác ngữ liệu song ngữ Anh-Việt điện tử: a Phương pháp so sánh đối chiếu hai chiều ngôn ngữ học so sánh đối chiếu tiếng Anh với Việt Việc so sánh đối chiếu thực nhiều mặt khác (hình thái, cú pháp, ngữ nghóa) cấp độ từ b Phương pháp thống kê ngành ngôn ngữ học – thống kê để xác định số thông số cần thiết cho việc xây dựng khai thác ngữ liệu song ngữ AnhViệt Việc thống kê thực hoàn toàn tự động máy tính c Phương pháp phân loại ý niệm ngôn ngữ học-tri nhận: trình xem xét nhân tố thuộc ngữ nghóa, dựa theo mô hình quan hệ ý niệm WordNet từ điển ý niệm LLOCE d Phương pháp máy học (machine learning): dùng để xử lý ngữ liệu song ngữ Anh-Việt Đây kỹ thuật tiên tiến lónh vực trí tuệ nhân tạo (Artificial Intelligence) ngành máy tính nhằm dạy cho máy cách thức học để rút qui luật giống người Đây điểm khác biệt cách xử lý so với cách xử lý trước nhà nghiên cứu ngôn ngữ học nghiên cứu ngữ liệu tiếng Việt e Phương pháp dựa ngữ liệu (corpus-based method): tất giá trị, thông số rút từ nguồn ngữ liệu Đối tượng xử lý ngữ liệu Trên giới, phương pháp áp dụng việc nghiên cứu tiếng Anh, Pháp, Nga, Nhật, Hoa,… chưa áp dụng cho tiếng Việt Chính vậy, sử dụng phương pháp cho tiếng Việt, phải tính đến đặc thù riêng tiếng Việt để đạt hiệu cao 277 có số tính từ quan hệ mà khái niệm phản nghóa lại theo ý nghóa kỹ thuật nhiều hơn, ví dụ: mechanical / electrical (cơ / điện) Vì tính từ quan hệ phản nghóa, nên chúng không liên kết thành cụm (cluster) tính từ mô tả Trong WordNet, tổ chức nhóm synset tính từ quan hệ, synset có trỏ trỏ tới danh từ thích hợp Về cú pháp: ngữ danh từ, danh từ dạng danh động từ (gerund) tính từ mô tả dạng vị ngữ, ví dụ: “economic restructuring” → “The restructuring is economic” Nếu tính từ mô tả danh từ có mối quan hệ ngữ pháp chặt chẽ, hiển nhiên, tính từ mô tả khó dạng vị ngữ, ví dụ: “presidential election” president đối từ (object) hành động bầu (elect), nên nói “the election is presidential”, “manual labor” quan hệ không rõ ràng “labor with / by hand” (lao động với/bằng tay), nên ta chuyển thành “this labor is manual” 278 3.6 HỆ THỐNG NHÃN NGỮ NGHĨA CORELEX 3.6.1 DANH SÁCH NHÃN NGỮ NGHĨA CƠ BẢN TRONG CORELEX N Loại Synset tương ứng Mã số 10 ABS* abstraction 00012670 11 ACT act, human action, human activity 00016649 12 AGT causal agent, cause, causal agency 00004473 13 ANM animal, animate being, beast, brute, creature, fauna 00008030 14 ART artifact, artefact 00011607 15 ATR attribute 00017586 16 CEL cell 00003711 17 CHM compound, chemical compound− chemical element, ele 08805286 18 COM communication 00018599 19 CON consequence, effect, outcome, result, upshot 06465491 20 ENT* entity 00002403 21 EVT event 00016459 22 FOD food, nutrient 00011263 23 FRM shape, form 00014558 24 GRB biological group 05115837 25 GRP* group, grouping (any other group) 00017008 26 GRS social group − people 05116476 27 HUM person, individual, someone, mortal, human, soul 00004865 28 LFR* life form, organism, being, living thing 00002728 29 LME linear measure, long measure 08322690 30 LOC* location (any other location) 00014314 31 LOG region 1(geographical location) 05450515 32 MEA* measure, quantity, amount, quantum 00018966 33 MIC microorganism 00740781 34 NAT natural object − water, − land, 05720524 35 PHM* phenomenon 00008894 279 36 PHO* object, inanimate object, physical object 00019295 37 PLT plant, flora, plant life 00009469 38 POS possession 00017394 39 PRO process 08239006 40 PRT part, piece 05650477 41 PSY psychological feature 00012517 42 QUD definite quantity 08310215 43 QUI indefinite quantity 08310433 44 REL* relation 00017862 45 SPC space 00015245 46 STA state 00015437 47 SUB* substance, matter 00010368 48 TME time period, period of time,amount of time− time unit, 09065837 Ví dụ: phân tích danh từ “book” WordNet, ta nhận tới nghóa khác Nhưng đưa nét nghóa ta nhãn COM (thông tin) ART (vật nhân tạo) Hai nhãn hình thành lớp ngữ nghóa CoreLex Sau kết hợp với lớp ngữ nghóa CoreLex khác lọc lại, ta 126 lớp CoreLex Dưới số lớp số 126 lớp 3.6.2 DANH SÁCH MỘT SỐ LỚP NGỮ NGHĨA CỦA CORELEX Tên lớp Nhãn ngữ nghóa Số phần tử (danh từ) abs ABS arg ART + GRP caa ART + ATR + COM hue ACT + EVT + HUM+ STA 62 hup HUM + PSY 34 sub SUB tmv ACT + EVT +TME 17 733 36 280 DANH SÁCH MỘT SỐ KHO NGỮ LIỆU CHÍNH Trong phụ lục này, liệt kê kho ngữ liệu phổ biến có đề cập đến luận án Số Tên Mô tả Liên hệ PennTreeBank (PTB) Được gán nhãn từ pháp cú pháp 4,5 triệu từ tiếng Anh Nguồn ngữ liệu từ WallStreetJournal ACL/DCI Brown Ngữ liệu gán từ pháp, cú pháp triệu từ tiếng Anh Nguồn từ văn Anh-Mỹ từ 1961 SUSANNE* Được gán từ pháp, cú pháp từ gốc Oxford 128.000 từ tiếng Anh Trích từ ngữ liệu Brown British National Corpus Toàn gán nhãn từ pháp BNC, (BNC) Gồm 100 triệu triệu từ gán nhãn cú pháp Oxford ICAME từ tiếng Anh (nói+viết) Nguồn từ đàm thoại hàng ngày SEMCOR (Semantic Được gán nhãn ngữ nghóa ĐH COncoRdance) WordNet (mã synset ID) Nguồn ngữ Princeton 250.000 từ liệu lấy từ Brown Lancaster-Oslo Corpus Toàn gán từ pháp (LOB) triệu từ tiếng phần gán nhãn cú pháp ICAME Anh Lancaste-Leeds Trích từ LOB, gán nhãn thành ĐH TreeBank 45.000 từ phần cú pháp Lancaster Longman-Lancaster Ngữ liệu không nhãn nhiều lónh vực Longman 30 triệu từ tiếng Anh Nguồn từ văn từ 1900-1980 Dic TOSCA Được gán nhãn từ pháp cú pháp Nijmegen 1.500.000 từ tiếng Anh Ngôn ngữ viết từ 1976 – 1986 10 Canadian Hansard 90 triệu từ Anh-Pháp Tiếng Anh gán nhãn từ pháp cú pháp Ngữ liệu trích từ văn Quốc hội Canada ACL/DCI 281 11 HKUST triệu từ Anh-Hoa 12 Crater (ITU) Được xây dựng dựa theo cách thức ĐH KHCN Canadian Hansard HongKong Ngữ liệu song song tam ngữ lónh ĐH Pháp-Anh-Tây Ban Nha vực viễn thông, gán Lancaster nhãn từ pháp, từ gốc liên kết từ 13 Ngữ liệu Đức-AnhPháp 12 triệu từ Đây ngữ liệu song song tam ngữ lónh vực KHKT văn phòng sáng chế Châu Âu (EPO) Munich 14 Dự án JEIDA Ngữ liệu Anh-Nhật Của hiệp hội Phát triển Công nghiệp Điện tử Nhật (JEIDA), muốn xây dựng ngữ liệu song ngữ Anh-Nhật từ báo bề KHKT môi trường * SUSANNE (Surface and Underlying Structural ANalyses of Naturalistic English) có cấu trúc sau: N06:0180.12 - NN1u Baldness baldness [S[Ns:s.Ns:s] N06:0180.15 - VBDZ was be [Vsu N06:0180.18 - VVGt attacking attack Vsu] N06:0180.21 - APPGm his his [Ns:o N06:0180.24 - NN1c pate pate Ns:o]S] Trong đó: - Cột 1: trường tham chiếu ngữ liệu, “tên file:dòng:vị trí” - Cột 2: trường trạng thái, ‘-‘: bình thường, ‘A’: viết tắt,’E’:lỗi,’S’:ký hiệu - Cột 3: nhãn từ pháp (gồm 354 nhãn), ví dụ: ‘AT’ : định từ,… - Cột 4: từ biến cách, ví dụ: “attacking” - Cột 5: từ gốc, ví dụ “attack” - Cột 6: nhãn cú pháp 282 THUẬT NGỮ (GLOSSARIES) Ánh xạ (mapping): thuật ngữ Toán học, để liên kết từ điểm không gian tới điểm không gian khác Bản ghi (record): cấu trúc liệu chứa mục thông tin đối tượng Nếu xem sở liệu bảng, ghi hàng Chuỗi (string): hay gọi chuỗi ký tự, dãy ký tự Dịch máy (machine translation): thuật ngữ ngành Tin học, để việc dịch thuật ngôn ngữ máy tính Ký tự (character): bao gồm mẫu tự/chữ (alphabet/letter), như: a, b, c ; ký số (digit), như: 0,1,2; ký hiệu (symbol), như: +, - % ^, khoảng trắng, Mối kết hợp (relations): mối quan hệ thực thể hệ thống thông tin Máy học (machine learning): thuật ngữ ngành Tin học, để phương pháp dùng máy tính để học tập, rút qui luật từ kiện Ngôn ngữ tự nhiên (natural language): thuật ngữ ngành Tin học, để ngôn ngữ Anh, Pháp, Việt, Thuật ngữ dùng để phân biệt với thuật ngữ “ngôn ngữ nhân tạo", như: Pascal, C++, Morse, … Ngữ liệu (corpus): tập hợp liệu ngôn ngữ, chứng sử dụng ngôn ngữ Ngữ liệu huấn luyện (training corpus): ngữ liệu dùng ngành Tin học để “huấn luyện” cho máy tính biết cách rút qui luật ngôn ngữ Ngữ liệu vàng (golden corpus): ngữ liệu huấn luyện gán nhãn (ngôn ngữ) xác Thực thể (entity): đối tượng cần xem xét hệ thống thông tin 283 Synset (synonym set): tập từ đồng nghóa WordNet Ví dụ: {letter, message,…} {letter, alphabet,…} synset WordNet Mỗi synset thể ý niệm riêng biệt Tính từ ngắn (short adjective): tính từ tiếng Anh có nhiều hai vần (syllable), ví dụ: big, heavy, long, … Tính từ dài (long adjective): tính từ tiếng Anh có nhiều hai vần (syllable) hay tính từ có chứa vần –ful, -ous, Ví dụ: intelligent, careful, delicious,… Trạng từ ngắn (short adverb): trạng từ tiếng Anh có nhiều hai vần (syllable), ví dụ: slow, … Trạng từ dài (long adverb): trạng từ tiếng Anh có nhiều hai vần (syllable) hay trạng từ có chứa vần –ly Ví dụ: fluently, carefully, quickly,… Trí tuệ nhân tạo (artificial intelligence): chuyên ngành Tin học chuyên nghiên cứu việc mô trình suy luận, phân tích người máy tính Trường (field): mục cấu trúc liệu Nếu xem sở liệu bảng, trường cột Từ tả: khoảng cách hai chỗ văn tự; tức đơn vị viết liền thành khối, tiếng Việt, “chữ” Từ điển MRD (Machine Readable Dictionary) từ điển chuyên dùng cho máy tính Từ điển mà máy “đọc hiểu” Từ ngữ âm: đơn vị thống với tượng ngữ âm Đối với Việt ngữ, âm tiết, hay “tiếng”, “tiếng một” Từ từ điển học: đơn vị mà vào đặc điểm ý nghóa phải xếp riêng từ điển 284 DĨA CD PHẦN MỀM VCL-EVC Đây dóa CD kèm luận án Dóa chứa công cụ, ngữ liệu, liệu cần thiết để phục vụ việc thu thập, chuẩn hoá, gán nhãn khai thác ngữ liệu đơn ngữ song ngữ Phần mềm nhóm VCL (Vietnamese Computational Linguistics) thực iv MỤC LỤC Trang Lời cam đoan i Lời cảm tạ ii Lời nói đầu iii Muïc luïc .iv Danh mục từ viết tắt vi Danh mục bảng vii Danh mục hình vẽ viii MỞ ĐẦU .1 Lý chọn đề tài 2 Mục tiêu nghiên cứu Đối tượng nghiên cứu Phạm vi nghiên cứu .7 Phương pháp nghiên cứu .9 Quan điểm nghiên cứu 10 Ý nghóa khoa học thực tiễn đề tài 11 CHƯƠNG 1: TỔNG QUAN VỀ NGỮ LIỆU 13 1.1 Giới thiệu ngữ liệu ngôn ngữ học – ngữ liệu 13 1.2 Lịch sử nghiên cứu ngữ liệu .18 1.3 Cơ sở lý luận ngôn ngữ học – ngữ liệu 23 1.4 Các ứng dụng ngữ lieäu 36 CHƯƠNG 2: ĐỐI CHIẾU NHÃN NGÔN NGỮ 39 2.1 Đối chiếu nhãn hình thái từ 39 2.2 Đối chiếu nhãn ngữ pháp từ 51 2.3 Đối chiếu nhãn ngữ nghóa từ 61 2.4 Tổ chức từ điển – hình thức hoá nhãn 86 v CHƯƠNG 3: XÂY DỰNG NGỮ LIỆU SONG NGỮ .95 3.1 Tập hợp ngữ liệu song ngữ Anh – Vieät 95 3.2 Chuẩn hoá ngữ liệu song ngữ Anh – Việt .101 3.3 Gán nhãn ngôn ngữ cho ngữ liệu song ngữ Anh-Việt 106 3.4 Thiết kế kho ngữ liệu Anh-Việt EVC 132 CHƯƠNG 4: KHAI THÁC NGỮ LIỆU SONG NGỮ 146 4.1 Khai thác phục vụ ngôn ngữ học – thống kê .146 4.2 Khai thác phục vụ ngôn ngữ học so sánh 153 4.3 Khai thác phục vụ giảng dạy ngoại ngữ 161 4.4 Khai thác phục vụ ngôn ngữ học – máy tính .163 KẾT LUẬN .182 Các kết đạt 182 Các hướng nghiên cứu 183 Lời keát 184 CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ 185 TÀI LIỆU THAM KHAÛO 187 PHUÏ LUÏC 195 Hệ thống nhãn hình thái từ .195 Hệ thống nhãn ngữ phaùp 208 Hệ thống nhãn ngữ nghóa từ 216 Danh saùch số kho ngữ liệu 280 Thuật ngữ (glossaries) 282 Dóa CD phần mềm VCL-EVC 284 vi DANH MỤC CÁC TỪ VIẾT TẮT Số Viết tắt BTL Diễn giải tiếng Anh Bitext Transfer Learning Diễn giải tiếng Việt Học Chuyển đổi từ Song ngữ EDic English Dictionary Từ điển tiếng Anh EGT English Grammar Tagger Bộ Gán nhãn ngữ pháp tiếng Anh EVC English Vietnamese Corpus Ngữ liệu Anh –Việt FTBL Fast TBL TBL Nhanh KFTBL K-Best Fast TBL FTBL K-kết tốt LDOCE Longman Dictionary Of Từ điển tiếng Anh Contemporary English đại Longman Longman Lexicon Of Từ vựng tiếng Anh Contemporary English đại Longman Machine Translation Dịch Máy Parts-Of-Speech Từ loại LLOCE MT 10 POS 11 SUSANNE Surface and Underlying 12 TBL Phân tích cấu trúc chìm Structural ANalyses of bề mặt tiếng Anh Naturalistic English tự nhiên Transformation-Based Học dựa cải biến Learning 13 VDic 14 Vietnamese Dictionary Từ điển tiếng Việt vii DANH MỤC CÁC BẢNG Trang Bảng 1.1 Nghiên cứu dựa ngữ liệu không dựa ngữ liệu 17 Bảng 1.2 So sánh ngôn ngữ học – ngữ liệu với ngôn ngữ học lý thuyết 35 Bảng 2.1 Sự khác biệt hình thái từ biến cách tiếng Anh 47 Bảng 2.2 Đối chiếu từ pháp Anh-Việt cho hình thái gốc tiếng Anh 57 Bảng 2.3 Hậu tố biến cách đối chiếu từ pháp Anh-Việt 58 Bảng 2.4 Bảng mã ngữ nghóa LDOCE 66 Bảng 2.5 Thống kê số lượng mục từ, nghóa từ loại LDOCE 67 Bảng 2.6 Ma trận từ vựng WordNet 69 Bảng 2.7 Một số mục từ EDic 89 Bảng 2.8 Một số mục từ cuûa VDic 94 Bảng 3.1 Thống kê nguồn ngữ liệu song ngữ Anh-Việt thô 100 Bảng 3.2 Khảo sát nguồn ngữ liệu thuộc sách Tin học CADASA 105 Bảng 3.3 Khảo sát số lượng câu theo độ dài (ngữ liệu tin học CADASA) .105 Bảng 3.4 Danh sách nghóa ràng buộc từ thực câu 124 Bảng 3.5 Ví dụ câu tiếng Anh gán nhãn EVC 142 Bảng 3.6 Ví dụ câu tiếng Việt gán nhãn EVC 142 Bảng 4.1 So sánh từ vựng hoá Anh-Việt 154 Bảng 4.2 Thông tin phân tích ngôn ngữ câu tiếng Anh 158 Bảng 4.3 Thí dụ luật chuyển đổi cố định .159 Bảng 4.4 Liên kết từ để khử mơ hồ ranh giới từ cho tiếng Việt .167 Bảng 4.5 Liên kết từ để khử mơ hồ từ loại cho tiếng Anh .168 Bảng 4.6 Thông tin phân tích ngôn ngữ danh ngữ tiếng Anh 174 Bảng 5.1 Sự phân lớp danh từ WordNet .240 Bảng 5.2 Sự phân chia lớp động từ WordNet 263 Bảng 5.3 Một số tính từ có mức ñoä 270 viii DANH MỤC CÁC HÌNH VẼ Trang Hình 2.1 Đối chiếu hình thái từ Anh-Việt qua mối liên kết từ 49 Hình 2.2 Qui cách kết hợp hình vị phụ tố tiếng Anh 50 Hình 2.3 Cây phân cấp mã ngữ nghóa LDOCE 67 Hình 2.4 Mạng synset với kiểu quan hệ .74 Hình 2.5 Đối chiếu nhãn ngữ nghóa từ Anh-Việt trường hợp từ loại 82 Hình 3.1 Trích đoạn phần trang Bộ sách Viễn thông .99 Hình 3.2 Trích đoạn phần trang Bộ Bách Khoa toàn thư trẻ em 99 Hình 3.3 Khảo sát số lượng câu theo độ dài ngữ liệu tin học CADASA 105 Hình 3.4 Sơ đồ khối mô hình tách từ tiếng Việt WFST-NN .114 Hình 3.5 Sơ đồ huấn luyện cho gán nhãn từ pháp tiếng Anh 117 Hình 3.6 Sơ đồ gán nhãn từ pháp tiếng Anh EVC 119 Hình 3.7 Các quan hệ cú pháp ràng buộc ngữ nghóa 123 Hình 3.8 Cây định việc chọn nghóa phù hợp 124 Hình 3.9 Gán nhãn ngữ nghóa thông qua mối liên kết từ EVC 130 Hình 3.10 Mô hình quan niệm liệu kho ngữ liệu EVC 139 Hình 3.11 Hình ảnh liên kết từ cặp câu Anh-Việt EVC 141 Hình 3.12 Thống kê theo chiều dài câu, vốn từ lượt từ .143 Hình 3.13 Thống kê theo nhãn từ pháp ngữ liệu tiếng Anh .144 Hình 3.14 Thống kê theo nhãn từ pháp ngữ liệu tiếng Việt 144 Hình 3.15 Thống kê theo nhãn ngữ nghóa ngữ liệu tiếng Anh 145 Hình 3.16 Kết tìm kiếm theo nhãn ngữ nghóa (COM: truyền thông) 145 Hình 4.1 So sánh từ pháp Anh-Việt 155 Hình 4.2 So sánh trật tự từ Anh-Việt .156 ix Hình 4.3 So sánh cú pháp tiếng Anh với tiếng Việt 159 Hình 4.4 Chuyển đổi cú pháp Anh-Việt danh ngữ 174 Hình 4.5 Khả chuyển đổi cú pháp luật .175 Hình 4.6 Lộ trình di chuyển từ câu R đến câu Q 177 Hình 4.7 Mô hình dịch Anh-Việt BTL 180 Hình 5.1 Các loại quan hệ kéo theo 260 Hình 5.2 Cấu trúc tính từ lưỡng cực 268  

Ngày đăng: 01/07/2023, 21:46

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w