Đánh giá bộ nhãn ngữ nghĩa LLOCE

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	6
Dung lượng	307,51 KB

Nội dung

Xây dựng bộ ngữ liệu bằng phương pháp thủ công sẽ tốn nhiều thời gian và công sức. Vì vậy, việc nghiên cứu xây dựng bộ ngữ liệu tự động đang được các nước quan tâm. Tuy nhiên đối với Tiếng Việt thì vấn đề này chưa được giải quyết. Bài viết trình bày mô hình khảo sát tính hiệu quả của bộ nhãn ngữ nghĩa thuộc từ điển LLOCE (Longman Lexicon Of Contemporary English) trong quá trình gán nhãn ngữ nghĩa tự động cho ngữ liệu song ngữ Anh-Việt. Mời các bạn cùng tham khảo!

Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Đánh giá nhãn ngữ nghĩa LLOCE ∗‡ Email: ∗ Hồ Xuân Vinh∗ , Nguyễn Thị Thanh Thảo† , Đinh Điền‡ Khoa Công nghệ thông tin - Đại Học Khoa Học Tự Nhiên TP Hồ Chí Minh Khoa Cơng nghệ thơng tin - Cao Đẳng Kinh Tế Kỹ Thuật TP Hồ Chí Minh hovinh39@gmail.com, † nguyenthithanhthao@hotec.edu.vn, ‡ ddien@fit.hcmus.edu.vn † Nói đến nhãn ngữ nghĩa ta liệt kê sau: Tóm tắt—Theo đà phát triển phương pháp dịch máy, dịch máy thống kê dựa ngữ nghĩa (semanticsbased Statistical Machine Translation) đánh giá có triển vọng nhiều Tuy nhiên, phương pháp đòi hỏi ngữ liệu song ngữ lớn mà có gán nhãn ngữ nghĩa (semantic-tag) Xây dựng ngữ liệu phương pháp thủ công tốn nhiều thời gian cơng sức Vì vậy, việc nghiên cứu xây dựng ngữ liệu tự động nước quan tâm Tuy nhiên Tiếng Việt vấn đề chưa giải Trong báo, trình bày mơ hình khảo sát tính hiệu nhãn ngữ nghĩa thuộc từ điển LLOCE (Longman Lexicon Of Contemporary English) trình gán nhãn ngữ nghĩa tự động cho ngữ liệu song ngữ Anh-Việt Từ khóa—LLOCE, sense tag, semantic annotation, nhãn ngữ nghĩa • • I GIỚI THIỆU • Xử lý ngơn ngữ tự nhiên(Natural Language Processing-NLP) lĩnh vực quan tâm đến tương tác người máy mặt ngôn ngữ Khởi động từ năm 1950 với phép thử Turing toán dịch máy, nhiều toán phát nghiên cứu Độ khó tỉ lệ thuận theo thời gian, nhiều vấn đề khơng có thuật tốn tối ưu tồn tại, đơn giản ngơn ngữ ln mang tính nhập nhằng dường khơng thể tìm luật tổng quát cho máy tra cứu thực Riêng toán dịch máy, hướng tiếp cận mơ hình hóa theo dạng kim tự tháp từ thấp lên cao: dựa từ (word-based), dựa cụm từ (phrase-based), dựa cú pháp (syntax-based) dựa ngữ nghĩa (semantic-based) Người ta nhận thấy rằng, lên cao độ xác tăng, nhiên phát triển sôi động tầng phrase-based Sẽ hiệu nằm đỉnh tháp, đồng nghĩa với việc tồn ngữ liệu song ngữ gán nhãn ngữ nghĩa toàn Độ hiệu phương pháp trước đẩy lên giới hạn Để có ngữ liệu gán nhãn quý giá đó, cần có nhãn để gán Do đó, chúng tơi quan tâm đến tầng ngữ nghĩa với câu hỏi chính: cần chọn nhãn ngữ nghĩa để gán nhãn liệu có đạt đặc tính mà chúng tơi đề xuất hay không? Ngoại trừ ngôn ngữ giàu tài nguyên Tiếng Anh (đơn cử Wordnet [1], [2], [3], [4]), hầu hết ngơn ngữ cịn lại khơng có nhãn ngữ nghĩa cho riêng Những năm gần đây, nhiều nỗ lực từ phía ngơn ngữ học lẫn tin học xây dựng nhãn riêng dựa WordNet EuroWordNet [5] (khối Châu Âu), Japanese Wordnet [6](Nhật) Như liệt kê trên, Wordnet với nhãn mịn (ngay người khó phân biệt số nhãn từ điển này) có chi phí xây dựng mắc, có nhãn tiềm khác phục vụ cho mục đích gán nhãn Khơng phổ biến Wordnet, nhiên LLOCE có nhãn khơng q thơ từ vựng tương đối lớn, chúng tơi chọn nhãn làm đối tượng khảo sát đặt tiêu chí mà nhãn cần đạt yêu cầu Sau tiến hành thí nghiệm, kết thống kê đối chứng với điều kiện ban đầu, giúp ta có nhận xét tính thực tiễn nhãn ứng dụng phù hợp Bài báo khảo sát LLOCE khả khử nhập 336 ISBN: 978-604-67-0635-9 LLOCE (Longman Lexicon of Contemporary English): từ điển chủ đề, chủ đề chia thành nhiều nhóm, nhóm chứa nhiều lớp ngữ nghĩa với từ thuộc lớp nghĩa Tên lớp nhãn ngữ nghĩa Từ điển bao gồm 14 chủ đề, 129 nhóm, 2.449 lớp ngữ nghĩa với 16.000 mục từ LDOCE (Longman Dictionary of Contemporary English): từ phân loại dựa từ loại, mã cú pháp, mã ngữ nghĩa, mã chủ đề mã phong cách Từ điển bao gồm 100 chủ đề, 19 mã ngữ nghĩa, 13 mã ngữ nghĩa phái sinh, 45.000 mục từ với 65.000 nghĩa WordNet: hệ thống tri thức khổng lồ ngữ nghĩa Tiếng Anh với 117.000 ý niệm khác Được xây dựng đơn vị tập từ đồng nghĩa, chứa đựng quan hệ ngôn ngữ phức tạp tương tác đa chiều 336 Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) nhằng( hay tính đa nghĩa) từ 90.000 cặp câu song ngữ Anh –Việt Ngữ liệu ngôn ngữ xử lý tách từ độc lập, sau đưa qua từ điển LLOCE để xử lý lần Sử dụng toolkit GIZA++ (Och Ney, 2003[7]) với 60.000 cặp câu đầu làm hạt giống, 30.000 cặp câu cịn lại làm đối tượng khảo sát chính, chúng tơi kì vọng độ xác gióng hàng tăng cao với ngữ liệu Dữ liệu sau gióng hàng gán nhãn độc lập giao với Chúng thống kê kết giao nhãn từ gióng, đặc biệt quan tâm đến cặp có chung từ nhãn trở lên Theo hiểu biết chúng tôi, chưa có khảo sát tương tự nhãn khác, đánh giá dựa số liệu, chưa có đối tượng so sánh Chúng đưa nhận xét, đánh giá kết đưa định hướng tương lai áp dụng kết Trong phần lại báo, giới thiệu cấu trúc từ điển LLOCE tính chất cần khảo sát Chúng tơi trình bày ngữ liệu song ngữ Anh - Việt sử dụng mơ hình khảo sát tính hiệu nhãn Cuối cùng, kết sau thí nghiệm đánh giá, lý giải đề xuất hướng phát triển tương lai cho nhãn II NGỮ LIỆU VÀ TÀI NGUYÊN Wordnet hệ thống nhãn ngữ nghĩa lớn nay, nhiên chi phí xây dựng tốn Chúng tơi tiến hành khảo sát tính chất nhãn LLOCE để tìm hiểu xem giải pháp thay hay khơng Chúng tơi đốn cặp từ gióng, chúng tồn từ vựng LLOCE, khả khử nhập nhằng, tức có nhãn đồng cặp từ từ 70% trở lên Nếu đúng, đối tượng phù hợp cho ngôn ngữ nghèo tài nguyên xây dựng nhãn ngữ nghĩa cho riêng A Từ điển LLOCE tính chất nhãn phù hợp 1) Từ điển LLOCE: LLOCE (Longman Lexicon Of Contemporary English)[8] từ điển ý niệm xây dựng dựa từ điển ý niệm LDOCE Từ điển LLOCE không xếp mục từ tiếng Anh theo thứ tự từ điển, mà xếp thành chủ đề, chủ đề chia thành nhiều nhóm, nhóm chia thành nhiều lớp (tạm gọi lớp ngữ nghĩa) lớp gồm mục từ có quan hệ nghĩa (nghĩa biểu vật hay nghĩa biểu niệm) với (như: đồng nghĩa, gần nghĩa, ) Tên lớp nhãn ngữ nghĩa lớp có mối liên hệ ngữ nghĩa (qua đường kết nối bên trong) với lớp khác (có thể thuộc chủ đề khác) từ điển Tổng số LLOCE gồm 14 chủ đề, 129 nhóm, 2449 lớp ngữ nghĩa với 16.000 mục từ Ví dụ: chủ đề A “Sự sống vật thể sống” (Life and living things); chủ đề B “Cơ thể: chức chăm sóc” (The Body: its Functions and Welfare); chủ đề L “Không gian thời gian” Chủ đề A tiếp tục phân thành 10 nhóm con: “Sự sống chết” chứa lớp từ A1 đến A20; “Các sinh vật nói chung”, có chứa lớp từ A30 đến A43; “Động vật động vật có vú” chứa lớp từ A50 đến A61 Mỗi lớp ngữ nghĩa LLOCE thường gắn với từ loại mang ý nghĩa cụ thể Trong lớp chứa số từ thoả điều kiện từ loại ngữ nghĩa chung lớp Trong LLOCE sử dụng từ loại là: danh từ, động từ tính từ Ví dụ: Lớp A1 gắn với động từ, có ý nghĩa: “Tồn tạo tồn tại”, lớp bao gồm động từ sau: exist, be(tồn tại), create(tạo ra), animate(tạo sống), Mỗi lớp thường liên kết chéo (cross-reference) với lớp ngữ nghĩa khác theo quan hệ logic – ngữ nghĩa Từ điển LLOCE dịch sang tiếng Việt[9], tồn nhãn cho hai ngôn ngữ Anh Việt 2) Tính chất nhãn phù hợp: Từ năm 2010 trở đi, cách tiếp cận thông dụng NLP Máy học, nhãn phải phù hợp với việc huấn luyện Một nhãn tốt không nên nhỏ làm mát nhiều thơng tin nghĩa hữu ích Tuy nhiên q lớn, cần phải có ngữ liệu lớn tương ứng để huấn luyện, phải đánh nhãn tay để đảm bảo độ xác Bên cạnh đó, ta quan tâm đến khả khử nhập nhằng nhãn sử dụng lợi ràng buộc song ngữ với giả định: giao nhãn từ hai ngôn ngữ Hai yếu tố then chốt kích thước khả khử nhập nhằng lý chọn LLOCE tiếng Anh nhãn khơng q mịn Wordnet (2.449 so với 117.000 nhãn), cộng với từ điển Tiếng Việt tương ứng, phù hợp cho việc gán nhãn tay Câu hỏi cịn để ngỏ có đủ chi tiết để khử nhập nhằng trường hợp song ngữ hay không Đây tính chất quan trọng cần quan tâm sau thí nghiệm Với đặc trưng nhãn LLOCE, chúng tơi kì vọng khoảng 70% cặp từ sau gióng gán nhãn B Ngữ liệu song ngữ 91.983 cặp câu song ngữ Anh-Việt trích từ ngữ liệu sau: 337 337 • 60.032 cặp lấy từ Trung tâm Dữ liệu Đa ngữ Kim từ điển (KMDC) Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) chữ từ nên khơng thực tách Sau đó, chúng tơi tách từ lần kĩ thuật tham lam LRMM (Left Right Maximum Matching) với LLOCE: duyệt chữ câu, chữ tìm từ vựng dài từ điển LLOCE bắt đầu chữ chứa từ liền Ngữ liệu nối chữ cấu thành từ dấu ‘_’ Ví dụ: ‘có thể’ thành ‘có_ thể’, ‘tam thừa’ thành ‘tam_thừa’ Để thực bước lọc này, thống kê từ vựng dài từ điển LLOCE ngơn ngữ Kết sau: • LLOCE Tiếng Anh: “come down on smb like a ton of bricks” với chữ, tỉ lệ từ cấu tạo từ chữ trở lên chiếm 29,83% • LLOCE Tiếng Việt: “thay đổi từ trạng thái sang trạng thái khác theo trình tự đều” với 17 chữ, tỉ lệ từ cấu tạo từ chữ trở lên chiếm 92,44% Có thể thấy “từ vựng” từ điển khác với quan niệm thông thường Đối với từ điển gốc, chứa cụm từ thành ngữ Với Tiếng Việt, có khái niệm khơng từ vựng hóa, khiến người dịch phải giải thích cụm từ khơng có từ vựng tương ứng Tiếng Việt, khác biệt đặc trưng văn hóa ngơn ngữ, chẳng hạn “Ơng Táo” Tiếng Việt không tồn Tiếng Anh Bảng I cho thấy cặp câu song ngữ biến đổi sau qua lớp tách từ Nếu làm ngược lại, tách từ LLOCE trước kết khơng cao, ví trường hợp ‘của chúng tơi’ tách thành ‘của_chúng tơi’ thay ‘của chúng_tơi’ Hình Sơ đồ mơ hình khảo sát nhãn LLOCE • 31.951 cặp lấy từ câu ví dụ vốn từ điển LLOCE Tiếng Anh, sau dịch thủ công Bộ môn Phiên dịch- Khoa Ngữ văn Anh trường Đại học Khoa học xã hội nhân văn TP.HCM với từ vựng tương ứng từ điển Do ngữ liệu xác so với 60.032 câu III MƠ HÌNH Mục tiêu mơ hình gióng hàng từ song ngữ với gán nhãn độc lập cho ngôn ngữ Kết đánh giá việc kiểm tra từ không gán nhãn, từ gán nhãn khả khử nhập nhằng Hình mơ tả bước mơ hình: • Tiền xử lý ngữ liệu Anh – Việt cơng cụ tách từ từ điển LLOCE • Gióng hàng GIZA++ • Gán nhãn cho cặp từ gióng thống kê kết B Gióng hàng song ngữ Mơ hình IBM mơ hình dịch thống kê đề xuất để tính xác suất P (f |e) P (a|f, e) thông qua P (f, a|e) với e, f , a ngôn ngữ đích, ngơn ngữ nguồn kết gióng bên Hồn tồn dựa thống kê, mơ hình không cần cung cấp tri thức đặc thù ngơn ngữ để giải tốn dịch Đặc biệt, xác suất P (f, a|e) dùng mơ hình dịch mơ hình gióng hàng Lưu ý mơ hình giải trường hợp gióng 0:1, 1:0, 1:1 1:n Mơ hình dịch: A Tiền xử lý tách từ Để đạt hiệu cao gióng hàng, cần thực tách từ ngữ liệu trước Tách từ tức nối chữ thuộc từ dấu ‘_’ Ví dụ: ‘họa phẩm’ thành ‘họa_ phẩm’, ‘khách sạn’ thành ‘khách_ sạn’ Với Tiếng Việt, sử dụng công cụ tách từ nhóm phát triển riêng áp dụng đặc trưng để tách: BMM: Backward-Maximum Matching, FMM: Forward-Maximum Matching, ORTH: Orthographic Feature, STL: Surface Token Lower-case STU: Surface Token Upper-case Tiếng Anh có đặc trưng P (f |e) = P (f, a|e) (1) a Mơ hình gióng hàng: P (a|e, f ) = P (f, a|e) = P (f |e) P (f, a|e) a P (f, a |e) (2) Mô hình IBM gồm IBM1, IBM2, IBM3, IBM4 IBM5 Mỗi phiên sau bổ sung cải tiến cho 338 338 Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thơng Cơng Nghệ Thơng Tin (ECIT 2015) VÍ DỤ MỘT CẶP CÂU Bảng I TIẾNG ANH VÀ TIẾNG VIỆT TỪ QUA Bảng II KẾT QUẢ MẪU SAU KHI GIÓNG HÀNG NGỮ LIỆU GIZA++ LẦN TÁCH Nguyên mẫu Công cụ tách từ LLOCE LRMM An articulated vehicle is usually a large one in which the front part with the engine can be separated from the large carrying part and which can bend or turn easily where the two parts join An articulated vehicle is usually a large one in which the front part with the engine can be separated from the large carrying part and which can bend or turn easily where the two parts join An articulated vehicle is usually a large one in which the front part_with the engine can_be separated from the large carrying part and which can bend or turn easily where the two parts join Một xe có khớp nối thường xe lớn phần phía trước chứa động tách khỏi phận lớn dùng để chở dễ dàng rẽ quay lại nhờ hai phận nối lại với Một xe có khớp nối thường xe lớn phần phía trước chứa động_cơ có_thể tách khỏi bộ_phận lớn dùng để chở dễ_dàng rẽ quay lại nhờ hai bộ_phận nối lại với Một xe có_khớp_nối thường xe_lớn phần phía_trước chứa động_cơ có_thể tách_khỏi bộ_phận lớn dùng để chở dễ_dàng rẽ quay_lại nhờ hai_bộ_phận nối_lại_với_nhau 10 bảng Anh đủ tiền xăng cho cuộc_hành_trình của_chúng_tơi NULL £ 10 will cover our petrol for the journey {NULL - là}, {£ - bảng Anh}, {10 - 10}, {our của_chúng_tôi}, {petrol - đủ, tiền, xăng}, {for - cho}, {journey - cuộc_hành_trình}, { - } Bảng III KẾT QUẢ MẪU SAU KHI GIAO BỘ NHÃN CỦA CÁC CẶP TỪ GIÓNG HÀNG TRONG TRƯỜNG HỢP CÓ NHÃN CHUNG VÀ NHÃN CHUNG TRỞ LÊN j = j = j = P (aj )P (fj |eaj ) (I + 1)J j Nhãn chung trở lên view – thấy(F263),- cảnh(F265) journey - hành trình(M75) page – trang(G153),- giấy(G153) official – thức(C189) bankrupt – phá sản(J120),- mất(N105) if – nếu(G288) lucid – dễ hiểu(F270),-có thể hiểu được(G40) area – vùng(C79) a lot – nhiều(N96),- quá(N96) C Gán nhãn cho cặp từ gióng thống kê P (aj )P (fj |eaj ) P (fj |eaj ) I +1 Nhãn chung family – gia đình(C11) kết tốt so với huấn luyện 30.000 câu Kết thu có dạng Bảng II Những từ Tiếng Việt khơng có từ tương ứng với Tiếng Anh nối với NULL Hầu hết từ hư từ thiếu sót phiên trước P (f, a|e) = P (J|I) SONG NGỮ BẰNG 1) Tiền xử lý: Trong từ điển LLOCE Tiếng Anh Tiếng Việt, nhãn có định dạng: # ,, ., Trường hợp từ đa nghĩa cao từ vựng từ điển (Tiếng Anh: 1,673 nhãn/từ, Tiếng Việt: 1,715 nhãn/từ) tìm đủ tập nhãn từ, bắt buộc phải duyệt hết từ điển, dẫn đến thời gian chạy tăng cao Do chúng tơi xếp chúng theo định dạng khác để việc tìm nhãn từ có chi phí tuyến tính: # ,, , 2) Gán nhãn: Chúng tơi tiến hành duyệt cặp từ gióng hàng liệt kê nhãn tương ứng chúng Sau tiến hành giao tập hợp đếm số nhãn chung đếm số trường hợp từ không thuộc từ vựng từ điển Bảng III cho số ví dụ cặp từ có nhãn chung nhãn chung trở lên Trong Bảng III, trường hợp nhãn chung trở lên, lấy ví dụ đầu tiên, sau gióng hàng, ‘view’ gióng với từ ‘thấy’ ‘cảnh’ Cặp ‘view-thấy’ có nhãn chung F263, cặp ‘view-cảnh’ có nhãn chung F265 Như ta khơng tìm nhãn cho cặp từ gióng này, đồng nghĩa tính nhập nhằng (3) P (fj |eaj ) IBM1 – sử dụng xác suất từ vựng (thông số cơng thức 3) • IBM2 – bổ sung từ vựng kết hợp vị trí tuyệt đối từ • IBM3 – bổ sung fertilities(khả mà từ gióng với từ khác) • IBM4 – bổ sung gióng hàng theo vị trí ngược tương đối • IBM5 – phiên gióng hàng đầy đủ IBM4 Với mơ hình xác suất, độ xác phụ thuộc vào độ độ lớn liệu, liệu nhiều độ xác cao Khi chạy GIZA++, sử dụng mô hình IBM4 cài đặt sẵn 60.000 cặp câu sử dụng làm hạt giống, kết hợp với 30.000 cặp câu lấy từ LLOCE, tập hợp 90.000 cặp câu đạt • 339 339 Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) ‘view’ chưa giải Xét thêm ví dụ cuối: cặp ‘a lot-nhiều’ ‘a lot-quá’ có chung nhãn N96, ‘a lot’ gióng hàng với từ giữ lại nhãn nhất, tính nhập nhằng từ ‘a lot’ giải SỐ IV KẾT QUẢ - THẢO LUẬN Ở bước tiền xử lý tách từ, ta gọi đơn vị từ cách khoảng trắng token Nếu token nối với dấu ‘_’ trở thành token Bảng IV cho thấy tỉ lệ token đạt bước tách từ so với số token gốc Đối với Tiếng Anh, từ đa phần từ đơn, cộng với tỉ lệ từ có tiếng trở lên từ vựng từ điển chiếm 29,83%, sau tách từ, khơng có thay đổi lớn Tiếng Việt ngược lại, tỉ lệ từ ghép lớn, tỉ lệ từ vựng có tiếng trở lên từ điển 92,44% nên đến 25,34% token bị so với số token gốc SỐ Bảng IV LƯỢNG VÀ TỈ LỆ CÁC TOKEN SAU KHI THỰC HIỆN TỪ Nguyên mẫu Công cụ tách từ Tỉ lệ LLOCE LRMM Token Tỉ lệ Token Token Tỉ lệ 276.927 100% 276.927 100% 271.892 99,18% 30k-Viet 371.663 100% 324.618 81,34% 294.027 79,11% 90k-Eng 873.804 100% 873.804 100% 858.179 99,21% 90k-Viet 1.135.844 100% 948.064 83,47% 847.356 74,66% Bảng V LƯỢNG VÀ TỈ LỆ CÁC CẶP SAU KHI GIĨNG HÀNG ĐƯỢC GÁN NHÃN VÀ KHƠNG GÁN NHÃN 90.000 Anh-Việt 30.000 Anh-Việt Cặp từ khơng có nhãn 344.746(40.17%) 104.783(38,54%) Cặp từ có nhãn 513.433(59,83%) 167.109(61,46%) 30.000 Anh-Việt 334.019 (65,06%) 109.179 (65,33%) Cặp từ có nhãn chung 178.215 (34.71%) 57.348 (34,32%) Cặp từ có nhãn chung trở lên 1.199 (0,23%) 582 (0,35%) 90.000 Anh-Việt 30.000 Anh-Việt Cặp từ phía có nhãn chung trở lên 1.199 (0,23%) 582 (0,35%) Cặp từ có nhãn chung trở lên loại 595 (0,11%) 278 (0,17%) Cặp từ có nhãn chung trở lên lớn loại 604 (0,12%) 304 (0,18%) Theo phân tích đầu báo, quan tâm đến khả khử nhập nhằng nhãn ngữ nghĩa Kết hợp số liệu Bảng VI Bảng VII, tạm thời khơng xét đến cặp khơng gán nhãn, ta có 34,82% số cặp khơng nhập nhằng(34.71% cặp từ có nhãn chung 0.11% cặp từ có nhãn chung loại) Các trường hợp khác khơng phân định nhãn, xem thất bại việc khử nhập nhằng Bộ 30.000 câu lấy từ LLOCE có tỉ lệ cặp gán nhãn khơng thấp, mà cịn thấp 60.000 câu (34,49% so với 35,00%) Tổng quan hơn, tính đến tồn cặp từ gióng tỉ lệ không gán nhãn 90.000 câu lên đến 79,17%, cho thấy độ bao phủ thấp từ điển, có 30.000 câu thuộc lĩnh vực Tuy nhiên, theo hiểu biết chúng tơi, chưa có kết khảo sát với nhãn khác nên chưa thể kết luận kết phản ánh tính chất nhãn, tình hình chung hầu hết nhãn Trong tương lai, quy trình cần áp dụng với nhãn LDOCE, WordNet với liệu song ngữ để ta có góc nhìn tổng qt có sở so sánh nhãn Để lý giải cho kết thu được, kiểm tra lại tồn quy trình có số nhận xét sau: Kết thu sau gióng hàng gán nhãn thú vị Bảng V cho thấy 40,17% cặp từ 90.000 câu song ngữ không tồn từ điển nên không gán nhãn Trung bình có 9,3 token/cặp câu, giả sử dấu câu chiếm token, số lượng từ khơng tồn LLOCE chiếm 29,41% Con số cho thấy từ điển khơng chứa đựng đầy đủ từ vựng thông dụng Hơn nữa, LLOCE dịch sang Tiếng Việt chưa liệt kê hết tất từ tương ứng, trường hợp từ A bên Tiếng Anh dịch sang từ B hay C bên Tiếng Việt, người dịch chọn B mà Một số khái niệm không tồn Tiếng Việt giới hạn lại tính khả dụng từ vựng LLOCE Tiếng Việt SỐ 90.000 Anh-Việt Cặp từ phía có nhãn khác phía có nhãn Bảng VII THỐNG KÊ TỈ LỆ CẶP TỪ CÓ NHÃN TRỞ LÊN CÓ CHUNG LOẠI VÀ CÓ CHUNG TỪ LOẠI TRỞ LÊN SO VỚI TỔNG SỐ CẶP TỪ ĐƯỢC GÁN NHÃN BƯỚC TÁCH 30k-Eng Bảng VI LƯỢNG VÀ TỈ LỆ CÁC CẶP ĐƯỢC GÁN NHÃN XẾP THEO SỐ LOẠI NHÃN CHUNG TĂNG DẦN 340 340 Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Nhiều trường hợp từ điển không phủ hết từ tương ứng Tiếng Việt Từ “sinh học” khơng có từ vựng, “bộ mơn sinh học” lại có, chúng • Tiếng Việt với đặc trưng nhiều từ ghép trở thành trở ngại lớn tra từ điển “Run machine”E chia thành “run/chạy” “machine/máy” khơng tìm từ “máy” từ điển Tuy nhiên, lại xuất cụm “cho chạy máy” • Một số từ Tiếng Anh khơng có từ Tiếng Việt tương ứng, dẫn đến phải dùng cụm từ thay để giải nghĩa, làm giảm số từ khả dụng từ vựng Tiếng Việt • Bộ từ vựng từ điển khơng xác từ vựng bao gồm cụm từ, thành ngữ cộng với số lượng mục từ có 16.000 khiến cho gần nửa cặp từ gióng khơng có nhãn tương ứng để gán • Việc áp dụng kĩ thuật tham lam cho bước tách từ thứ hai làm cho kết bị sai lệch • Số lượng cặp từ phụ thuộc vào chất lượng số lượng ngữ liệu tham gia gióng hàng Có thể 90.000 cặp câu chưa đủ lớn để có kết xác LLOCE nhãn kích cỡ trung bình so với nhãn giới thiệu phần đầu Tuy nhiên, kết thu sau thí nghiệm thấp kì vọng ban đầu nhiều Trong tương lai, để giải vấn đề trên, chúng tơi đề nghị hướng sau: • Xây dựng ngữ liệu song ngữ lớn • Thêm từ vựng cho từ điển để phục vụ cho việc gán nhãn Có thể bổ sung dựa theo hướng: từ vựng nhãn LDOCE WordNet, hai dựa từ điển Hồng Phê để tìm danh sách từ chưa đánh nhãn, sau gán nhãn dựa nhãn có sẵn bổ sung nhãn dựa quy định phân loại nhãn LLOCE • Xây dựng liệu lớn chọn WordNet làm nhãn thay • Phát triển phân lớp xác định cặp từ nhập nhằng lựa chọn nhãn chung cặp có từ nhãn chung trở lên • Kiểm tra liệu song ngữ 90.000 cặp câu với nhãn LDOCE, WordNet để có sở đánh giá khả bao phủ khả khử nhập nhằng nhãn • V KẾT LUẬN – ĐỀ NGHỊ Chúng tơi trình bày mục tiêu nhãn ngữ nghĩa lý lựa chọn LLOCE làm đối tượng thử 341 341 nghiệm Mơ hình kiểm nghiệm khả gán nhãn đề xuất với lớp tách từ, gióng hàng GIZA++ thống kê tỉ lệ cặp từ có nhãn chung Kết thu thấp dự đoán ban đầu xét khả khử nhập nhằng (34,82% so với dự đốn 70%), đặc biệt hiệu suất cịn thấp với ngữ liệu song ngữ trích xuất từ từ điển Chúng tơi chưa kết luận khả LLOCE khơng có liệu tương ứng nhãn lại để đối xứng Tuy nhiên nói LLOCE tỏ yếu cho việc gán nhãn câu thông dụng số lượng từ vựng khiêm tốn khác biệt hai phiên Tiếng Việt Tiếng Anh Trong tương lai, quy trình cần thử nghiệm với WordNet, LDOCE để có nhìn tổng quan độ bao phủ khả khử nhập nhằng tập nhãn TÀI LIỆU THAM KHẢO [1] G A Miller et al., “Five papers on wordnet,” 1993 [Online] Available: /bib/miller/Miller1993/5papers.pdf [2] E Niemann and I Gurevych, “The people’s web meets linguistic knowledge: Automatic sense alignment of wikipedia and wordnet,” in Proceedings of the Ninth International Conference on Computational Semantics, ser IWCS ’11 Stroudsburg, PA, USA: Association for Computational Linguistics, 2011, pp 205–214 [Online] Available: http://dl.acm.org/citation.cfm?id=2002669.2002691 [3] F M Suchanek, G Kasneci, and G Weikum, “Yago: A large ontology from wikipedia and wordnet,” Web Semantics: Science, Services and Agents on the World Wide Web, vol 6, no 3, pp 203 – 217, 2008, world Wide Web Conference 2007Semantic Web Track [Online] Available: http://www.sciencedirect.com/science/article/pii/S1570826808000437 [4] E Agirre, E Alfonseca, K Hall, J Kravalova, M Pas¸ca, and A Soroa, “A study on similarity and relatedness using distributional and wordnet-based approaches,” in Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, ser NAACL ’09 Stroudsburg, PA, USA: Association for Computational Linguistics, 2009, pp 19–27 [Online] Available: http://dl.acm.org/citation.cfm?id=1620754.1620758 [5] P Vossen, “Eurowordnet: A multilingual database of autonomous and language-specific wordnets connected via an inter-lingualindex,” International Journal of Lexicography, vol 17, no 2, pp 161–173, 2004 [Online] Available: http://ijl.oxfordjournals.org/content/17/2/161.abstract [6] F Bond, H Isahara, S Fujita, K Uchimoto, T Kuribayashi, and K Kanzaki, “Enhancing the japanese wordnet,” in Proceedings of the 7th Workshop on Asian Language Resources, ser ALR7 Stroudsburg, PA, USA: Association for Computational Linguistics, 2009, pp 1–8 [Online] Available: http://dl.acm.org/citation.cfm?id=1690299.1690300 [7] F J Och and H Ney, “A systematic comparison of various statistical alignment models,” Comput Linguist., vol 29, no 1, pp 19–51, Mar 2003 [Online] Available: http://dx.doi.org/10.1162/089120103321337421 [8] Đinh Điền, “Xây dựng khai thác ngữ liệu song ngữ anh việt,” Ph.D dissertation, ĐH Khoa học Xã hội & Nhân văn - ĐHQG Tp.HCM, 2005 [9] T M Arthur, Longman Lexicon Of Contemporary English (bản dịch tiếng Việt: “từ vựng tiếng Anh đại” Trần Tất Thắng chủ biên) NXB Giaó Dục, 1997 ... lớp (tạm gọi lớp ngữ nghĩa) lớp gồm mục từ có quan hệ nghĩa (nghĩa biểu vật hay nghĩa biểu niệm) với (như: đồng nghĩa, gần nghĩa, ) Tên lớp nhãn ngữ nghĩa lớp có mối liên hệ ngữ nghĩa (qua đường... vựng LLOCE, khả khử nhập nhằng, tức có nhãn đồng cặp từ từ 70% trở lên Nếu đúng, đối tượng phù hợp cho ngôn ngữ nghèo tài nguyên xây dựng nhãn ngữ nghĩa cho riêng A Từ điển LLOCE tính chất nhãn. .. từ điển Do ngữ liệu xác so với 60.032 câu III MƠ HÌNH Mục tiêu mơ hình gióng hàng từ song ngữ với gán nhãn độc lập cho ngôn ngữ Kết đánh giá việc kiểm tra từ không gán nhãn, từ gán nhãn khả khử

Ngày đăng: 27/04/2022, 10:16