1. Trang chủ
  2. » Cao đẳng - Đại học

Gán nhãn ngữ nghĩa trong song ngữ Anh-Việt

6 6 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 6
Dung lượng 573,02 KB

Nội dung

Bài viết đề xuất một giải pháp cho việc gán nhãn ngữ nghĩa một cách tự động trên kho ngữ liệu song ngữ Anh-Việt, tận dụng những dịch chuyển từ vựng trong ngôn ngữ chéo, nhưng vẫn đảm bảo yếu tố cốt lõi về mặt ngữ nghĩa của nó. Hệ thống sử dụng kho ngữ liệu song ngữ Anh-Việt để xây dựng các tập hợp liên kết có khả năng kết hợp từ nhiều từ khác nhau được phát hiện trong kho ngữ liệu. Mời các bạn cùng tham khảo!

Thảo Quốc Gia 2015vềvềĐiện ĐiệnTử, Tử,Truyền TruyềnThông Thông TinTin (ECIT 2015) HộiHội Thảo Quốc Gia 2015 Công CôngNghệ NghệThông Thông (ECIT 2015) Gán nhãn ngữ nghĩa song ngữ Anh-Việt Huỳnh Quang Đức Trần Lê Tâm Linh Trung tâm Tin học, Trường Cao đẳng Nghề Sóc Trăng, Tỉnh Sóc Trăng Trung tâm Khoa học tốn học, Trường Đại học Khoa học Tự nhiên Thành phố Hồ Chí Minh Email: dhuynhquang@gmail.com, tranletamlinh@yahoo.com.vn Abstract – Tiếp cận nội dung gán nhãn ngữ nghĩa song ngữ nghiên cứu nhiều ngôn ngữ phổ biến (như Tiếng Anh, tiếng Pháp) Tuy nhiên, việc gán nhãn ngữ nghĩa cho ngơn ngữ phổ biến tiếng Việt hạn chế, đặc biệt tận dụng tương đồng ngữ nghĩa song ngữ Anh-Việt Trong nội dung nghiên cứu này, đề xuất giải pháp cho việc gán nhãn ngữ nghĩa cách tự động kho ngữ liệu song ngữ Anh-Việt, tận dụng dịch chuyển từ vựng ngôn ngữ chéo, đảm bảo yếu tố cốt lõi mặt ngữ nghĩa Hệ thống sử dụng kho ngữ liệu song ngữ Anh-Việt để xây dựng tập hợp liên kết có khả kết hợp từ nhiều từ khác phát kho ngữ liệu, đồng thời hệ thống sử dụng thuật tốn học khơng giám sát để gán nhãn ngữ nghĩa tiếng Anh dựa vào tương đồng ngữ nghĩa liên kết từ tiếng Việt thông qua ngữ liệu song ngữ Anh-Việt Sau đó, hệ thống tự động chiếu nhãn từ tiếng Anh sang tiếng Việt thông qua liên kết có sẵn chi phí thời gian, địi hỏi phải có đội ngũ chun nghiệp đánh dấu nhãn ngữ nghĩa ngôn ngữ Những phương pháp học khơng giám sát đơn ngữ có thuận lợi giả định liệu có giá trị, khả tổng quát thực tiễn thấp [2] [12] Sử dụng kho ngữ liệu song ngữ lợi điểm hai ngơn ngữ khai thác cách phù hợp Khả gán nhãn ngữ nghĩa cách tự động [1] phần lớn liệu kho ngữ liệu song ngữ thuật tốn học khơng giám sát thực được, mà không nhiều thời gian tiết kiệm chi phí Trong nội dung nghiên cứu này, chúng tơi sử dụng đồng thời việc gán nhãn ngữ nghĩa hai ngôn ngữ Anh-Việt với nhãn nghĩa thống kê có sẵn Mục đích phương pháp tiếp cận hướng đến là: Thứ nhất, cung cấp số lượng lớn liệu gán nhãn ngữ nghĩa tiếng Anh mà không cần đánh dấu tay chuyên gia Thứ hai, đồng thời gán nhãn ngữ nghĩa tiếng Việt với kết hợp hệ thống nhãn đánh dấu tiếng Anh Vấn đề cần quan tâm nghiên cứu quan sát chuyển đổi đáp ứng qua lại sở đặc trưng mặt ngữ nghĩa [11] Một từ có nhiều nghĩa tiếng Anh thường dịch sang nghĩa cụ thể tiếng Việt với lựa chọn tùy vào người dịch nghĩa ngữ cảnh Vì vậy, dịch nghĩa phù hợp xem nghĩa dẫn cho ví dụ ngữ cảnh Mặc khác, ví dụ kết nối ngữ nghĩa dịch với vài quán số quan hệ từ tiếng Việt Ngồi ra, số từ gặp tập hợp với nghĩa nhất, ưu tiên việc dịch khác yêu cầu ngữ cảnh tạo từ tương đồng ngữ nghĩa mà khác với sắc thái Keywords - ngữ liệu song ngữ; học khơng giám sát; kho ngữ liệu; dịch máy; I GIỚI THIỆU Hệ thống gán nhãn ngữ nghĩa công cụ quan trọng xử lý ngôn ngữ tự nhiên, đặc biệt phát triển nhanh chóng liệu Internet Hiện nay, nhà nghiên cứu tập trung giải câu hỏi trọng tâm ngôn ngữ học tính tốn khử nhập nhằng ngữ nghĩa ngơn ngữ tự nhiên, giúp máy tính hiểu rõ ý nghĩa câu nói người, nhằm giải vấn đề thực tế sống đại, gồm nhiều lĩnh vực khác như: khai thác thơng tin, trả lời câu hỏi, tóm tắt văn bản, dịch máy … Việc phân tích ngữ nghĩa văn mức độ câu, người ta quan tâm đến đặc điểm kiện như: ai, làm việc gì, đâu, nào, … câu hỏi đặc điểm việc gán nhãn ngữ nghĩa cho ngơn ngữ [6] Bên cạnh đó, yếu tố quan trọng như: Kỹ thuật máy học, lan truyền hệ thống ngữ nghĩa WordNet giá trị kho ngữ liệu lớn quan tâm việc khử nhập nhằng ngữ nghĩa xử lý ngôn ngữ tự nhiên Phần lớn hệ thống học giám sát việc học từ kho ngữ liệu gán nhãn ngữ nghĩa cách xác, thực tay chuyên gia ngôn ngữ học thực hiện, đồng thời việc học đánh giá ngữ liệu huấn luyện cần số lượng lớn ngữ liệu đánh dấu [9] Điều tốn ISBN: 978-604-67-0635-9 Ví dụ, kho ngữ liệu song ngữ Anh-Việt, từ tiếng Việt “đơng” dịch tương ứng với từ “winter” tiếng Anh đoạn văn bản, đồng thời dịch thành từ “east” đoạn văn khác Trong từ tiếng Anh như: winter, east thân có nhập nhằng riêng từ Nhưng tận dụng ưu điểm thực tế mà hai ví dụ từ tiếng Anh xuất tương ứng với từ đông tiếng Việt để suy đoán hai từ tiếng Anh có vài yếu tố riêng biệt nghĩa đoạn văn cụ thể Chúng ta sử dụng suy luận để định nghĩa tiếng Anh muốn nói đến Điều phù hợp với mục tiêu ban đầu chiếu lựa chọn nghĩa từ winter tiếng Anh ví dụ sang từ tiếng Việt đông ngữ cảnh này, tương tự từ east dịch sang từ đơng, việc gán nhãn 71 71 Thảo Quốc Gia 2015vềvềĐiện ĐiệnTử, Tử,Truyền TruyềnThông Thông TinTin (ECIT 2015) HộiHội Thảo Quốc Gia 2015 Công CôngNghệ NghệThông Thông (ECIT 2015) ngữ nghĩa hai ngôn ngữ song song với thống kê đơn nghĩa hoàn toàn phù hợp thực III PHƯƠNG PHÁP TIẾP CẬN Để thuận tiện việc tiếp cận phương pháp nghiên cứu, kho ngữ liệu song ngữ Anh-Việt thống kê ngữ nghĩa tiếng Anh, giả định cần thiết việc dịch trực tiếp, xem mặc định kho ngữ liệu tiếng Anh ngôn ngữ mục tiêu để gán nhãn ngữ nghĩa kho ngữ liệu tiếng Việt ngôn ngữ ngồn xác định nhãn nghĩa tương đồng cho ngôn ngữ mục tiêu Trong phần trước, chúng tơi ví dụ từ tiếng Việt đông dịch sang hai từ khác tiếng Anh winter east hai ngữ cảnh khác Quá trình thực hướng tiếp cận mô tả chi tiết sau: Trong nội dung nghiên cứu, sử dụng kho ngữ liệu song ngữ Anh-Việt với phần lớn liệu lấy từ ngữ liệu song ngữ EVC LLOCE Sau tiến hành xác định ngữ nghĩa cặp câu song ngữ Anh-Việt thông qua độ tương đồng ngữ nghĩa dịch chuyển từ vựng ngôn ngữ chéo để xác định nhãn ngữ nghĩa danh từ tiếng Anh Cuối chiếu nhãn ngữ nghĩa từ tiếng Anh sang tiếng Việt với nhãn từ điển ý niệm song ngữ LLOCE (Longman Lexicon Of Contemporary English) - LLOCV (Longman Lexical Of Contemporary Vietnamese) A Xác định danh từ Xác định từ ngữ liệu tiếng Anh (ngữ liệu khả - ngôn ngữ mục tiêu) có nghĩa dịch thích hợp ngữ liệu tiếng Việt (ngữ liệu nguồn) Ví dụ cho trường hợp tập khả kho ngữ liệu tiếng Anh {winter, east}, từ kho ngữ liệu tiếng Việt {đông} Chúng giả sử lấy câu đoạn dịch song song kho ngữ liệu, liệu song song có sẵn phù hợp từ trang Web mạng Internet Sau đó, nhận dạng đánh dấu từ liên kết, thu câu mức độ liên kết từ Với từ tiếng Việt chẳng hạn w, thu thập từ ví dụ v mà liên kết Vị trí từ ví dụ lưu lại để phần sau chiếu trở lại nhãn ngữ nghĩa cuối từ v sang w Ví dụ ta có cặp câu song ngữ Anh-Việt với liên kết hình Các phần cịn lại nghiên cứu bao gồm:  Công việc liên quan: Một số cơng trình nghiên cứu có liên quan đến gán nhãn ngữ nghĩa đa ngữ  Đề xuất phương pháp tiếp cận: Mô tả nội dung thực để gán nhãn ngữ nghĩa kho ngữ liệu song ngữ Anh-Việt  Đánh giá kết phương pháp tiếp cận vấn đề: Trình bày yêu cầu cần thiết đánh giá kết thực nghiệm mà sử dụng để gán nhãn ngữ nghĩa  Thảo luận vấn đề tận dụng lợi điểm kho ngữ liệu song ngữ Kết luận hướng phát triển thời gian tới II CƠNG TRÌNH LIÊN QUAN Trong nghiên cứu Paul Rayson cộng xây dựng cơng cụ phân tích ngữ nghĩa sử dụng nhãn ý niệm LLOCE chia thành 21 chủ đề, 21 chủ đề chia thành 232 loại ý niệm khác [14] Trong đó, tác giả dựa vào nhiều loại tri thức khác để xác định nhãn ngữ nghĩa cho từ câu như: từ loại (POS tag), từ có nhiều chữ (MWEs), từ điển tần suất, phạm vi văn (domain of discourse) … Thời tiết chuyển sang đông The weather turned to the winter Dựa từ điển ý niệm LLOCE, Scott Piao et all phát triển hệ thống gán nhãn ngữ nghĩa nhiều ngôn ngữ như: tiếng Anh, tiếng Bồ Đào Nha, tiếng Trung Quốc tiếng Ý [15] với kiến trúc hệ thống dựa vào luật ngữ cảnh (context rules), từ vựng từ (word lexicon), từ vựng nhiều từ (mwe lexicon) Trong có sử dụng TreeTagger cho tiếng Ý Bồ Đào Nha Stanford POS tagger cho tiếng Trung Quốc Hình Một ví dụ liên kết danh từ Sự liên kết xảy từ đơng từ winter cặp câu song ngữ trên, có nghĩa hệ thống dịch từ đông tiếng Việt thành từ winter tiếng Anh, từ thời tiết tiếng Việt dịch thành từ weather tiếng Anh B Gom nhóm – Xây dựng tập khả Bên cạnh đó, chúng tơi tham khảo cách thức tổ chức từ điểm ý niệm LLOCE xây dựng Mc Arthur năm 1981 (Mc Arthur, 1981) với cách tổ chức nhãn gắn thêm yếu tố phụ nhằm giúp tăng độ xác nhãn ngữ nghĩa thực gán nhãn cho văn Ví dụ như: giới tính (sex) nhãn ghi thêm m/f (male/female) +/(positive/negative) bổ sung vào nhãn “happy” “sad” với mã “E4.1+” “E4.1-” Gom nhóm từ ngôn ngữ mục tiêu tạo thành tập khả nghĩa dịch hình thức tả ngôn ngữ nguồn Tức sử dụng kho ngữ liệu để xây dựng tập khả tất từ (danh từ) mà có liên kết với nhiều từ khác (từ hai từ trở lên) phát kho ngữ liệu Chúng thu thập loại từ vi tiếng Việt gồm tập hợp tất loại từ tiếng Anh mà liên kết với từ kho ngữ liệu gọi tập khả vi Ví dụ trường hợp ta có từ câu tiếng Việt đơng bao gồm loại từ tiếng Anh winter, east, frozen Trong tập khả ta thấy xuất thêm từ frozen mà hai ví dụ trước ta thấy khơng có, điều lý giải sau: Trong đánh giá kết thực nghiệm [15] tác giả lỗi từ vựng xảy trình dịch từ tiếng Anh sang ngôn ngữ khác như: Từ tiếng Anh father với nhãn S4m, S9, S2m từ dad, dada, baba, da, daddy với nhãn S4m, papa (S4m) … Sở dĩ có từ frozen tập khả số trường hợp kho ngữ liệu có đoạn dịch câu “thời gian thời tiết chuyển sang đông” thành câu “this time the weather 72 72 HộiHội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) nghĩa trên, theo cách tự nhiên việc nhận đặc điểm vai trò ngữ nghĩa từ thuộc lớp ngữ nghĩa đối số phân bố mối quan hệ cho việc ưu tiên lựa chọn độ đo Đặc biệt, lớp có vai trị ngữ nghĩa phù hợp có xác suất cao so với từ đứng trước Cụ thể, kết nối lựa chọn thông qua công thức: has shifted frozen” Ngồi ra, tập khả cịn chứa thêm từ khác, kho ngữ liệu song ngữ AnhViệt chương trình cịn phát câu dịch có từ đơng dịch sang từ khác câu tiếng Anh đoạn khác Ví dụ: Với câu tiếng Việt “Tại thành phố Hồ Chí Minh số lượng người đông” dịch ngữ liệu tiếng Anh thành câu “The number of people are crowded in Ho Chi Minh City”, tập khả từ đông bổ sung thâm từ crowded AR ( p, c)  trước person sau insect … person insect … Hình Sự phân bố xác suất trước sau thông qua đối số Bảng thể so sánh từ lựa chọn để gán nhãn ngữ nghĩa thuộc lớp LLOCE với đối số theo quan điểm người BẢNG SỰ KẾT HỢP DANH TỪ PHÙ HỢP Verb turn go become be C Tính xác suất xác định nhãn ngữ nghĩa Xem xét tất cặp từ có nghĩa có phạm vi tập mục tiêu chọn từ có nghĩa cung cấp tương đồng ngữ nghĩa từ khác nhóm thơng qua độ tin cậy mặt nghĩa Ví dụ phạm vi tập khả {winter, east, frozen} tập nguồn {đông}, ta xem xét cặp (winter, đông), (east, đông), (frozen, đông), cặp gán giá trị độ tin cậy mặt ngữ nghĩa Trong bước này, tập khả xem vấn đề gán nhãn ngữ nghĩa đơn ngữ thống kê ngữ nghĩa ngôn ngữ mục tiêu Chúng ta quan tâm đến tập khả {winter, east, frozen} Đối với người việc chọn nghĩa từ nằm cạnh hiểu ý nghĩa đặc trưng từ Nhưng với máy tính việc xác định nghĩa thực thống kê thơng qua thuật tốn tính xác suất Điều Philip Resnik khai thác hiệu thuật toán khử nhập nhằng ngữ nghĩa thông qua mối quan hệ [13]: Noun winter east frozen crowded AR(verb,noun) 4,94 4,15 3,02 2,11 Semanitc classes L238 L13 B140 N250 Ví dụ với từ winter có nghĩa khác thuộc 18 lớp ngữ nghĩa từ điển LLOCE, để tính xấp xỉ phù hợp động từ cho từ winter, lựa chọn kết hợp từ go tính toán 18 lớp ngữ nghĩa trả giá trị cao nhất, trường hợp winter có nghĩa lớp nhãn ngữ nghĩa tạo cho từ winter Cách tiếp cận định đối số phù hợp thơng qua thuật tốn khử nhập nhằng thông qua ưu tiên lựa chọn mô tả sau: Cho n danh từ có quan hệ R với động từ p, cho tập {s1, s2 … sk} nghĩa có Khi đó: cho i chạy từ đến k tính: Ci = {c | c gốc nghĩa si};  max ( AR ( p, c)) ; cCi S R ( p)  D(Pr(c | p) || Pr(c) c Pr(c|buzz) Pr(c) Hình Một số bước thuật toán xây dựng tập khả Pr(c | p) Pr(c) (2) Quan sát hình 3, ta thấy phân bố tỷ lệ xác suất thay đổi từ xuất với từ cho trước Thuật toán 1: CAS - Create Ability Set Đầu vào: Văn song ngữ Anh-Việt Đầu ra: Tập khả từ tiếng Việt dịch sang tiếng Anh Bước 1: Tìm danh từ vi Gọi tập ứng viên V; Bước 2: Tạo tập rỗng S để lưu tập khả cho từ vi; Bước 3: k = 1; Bước 4: Mỗi từ vi V thực Tạo tập rỗng Sk Mỗi cặp câu song ngữ thực Tìm cặp (we, wv) có wv = = vi bổ sung từ tiếng Anh vào Sk; Lưu lại liên kết; Bước 5: Thêm (vi, Sk) vào S; Bước 6: k = k + 1; Bước 7: Quay lại bước   Pr(c | p) * log Pr(c | p) * Pr(c | p) * log S R ( p) Pr(c) gán điểm số đại diện ngữ nghĩa si Trong nghiên cứu phù hợp ngữ nghĩa [5] cách đơn giản sử dụng kết điểm số tính tốn Nếu n có nghĩa chọn nghĩa đó, ngược lại lựa chọn nghĩa si mà có tốt Minh họa cụ thể vào cách tiếp cận mà nghiên cứu Cho tập hợp khả {w1, w2 … wn}, thuật toán xây dựng cặp (wi,wj) với i ≠ j xác định nghĩa (1) Trong đó, S R ( p) độ đo thông tin, từ p cho biết lớp nguyên lý đối số nó, Pr(c) khả tính xấp xỉ cao Pr(c | p) , trường hợp từ p có khả đối số nó, nên khả lựa chọn c Với cách định 73 73 HộiHội Thảo Quốc Gia 2015 Công CôngNghệ NghệThông Thông (ECIT 2015) Thảo Quốc Gia 2015vềvềĐiện ĐiệnTử, Tử,Truyền TruyềnThông Thông TinTin (ECIT 2015) cho cặp từ (wi,wj) với tương đồng ngữ nghĩa lớn Và nghĩa đại diện số tương ứng với mức độ hợp lý nghĩa từ Sau xây dựng tất cặp tập hợp khả năng, bắt đầu so sánh cặp, với nghĩa từ ký hiệu số xi,k cho từ wi kết hợp với độ tin cậy c(xi,k)  [0, 1], gắn với nhãn ngữ nghĩa cụ thể Ví vụ cho trường hợp này, với cặp câu song ngữ sau: “thời tiết chuyển sang đông từ tháng 10” liên kết với câu “the weather turned to the winter from October ”, tức cặp (đơng, winter) có độ tin cậy cao cặp (east, đông) Phần cuối bước này, hệ thống đánh dấu biến đổi quan trọng dịch nhờ vào tương đồng ngữ nghĩa nhiều từ tập khả từ-trên 16.000 mục từ có quan hệ nghĩa [3] Hệ thống tiếp cận gán nhãn ngữ nghĩa cho danh từ với lớp ngữ nghĩa cặp câu song ngữ AnhViệt, tức gán nhãn ngữ nghĩa thuộc 2449 lớp ngữ nghĩa từ điển song ngữ LLOCE-LLOCV (xem hinh 5, hình 6) LLOCE A B C L2 L1 M N L … … L3 … L21 L22 L23 L24 Thuật toán 2: CP - Calculate Probability Bước 1: Tạo tập C; Bước 2: Với cặp (vi, Sk) S thực Tạo tập Ci; Với từ tiếng Anh En Sk Tạo tập Ck; Với cặp câu song ngữ kho ngữ liệu Tìm cặp (wv,we) có wv == vi we == En Thêm từ tiếng Anh đứng trước we vào Ck Thêm (vi, En, Ck) vào C; Tính xác suất xi,k chuẩn hóa với độ tin cậy c(xi,k) Bước 3: Với cặp câu song ngữ Với từ tiếng Anh Sk Xác định xi, k lớn nhất; Xác định độ tương đồng nhãn LLOCE; Gán nhãn cho danh từ tiếng Anh; L231 L232 L238 L239 … … … winter Hình Một nhánh nhãn LLOCE Hệ thống thu thập liệu song ngữ từ nhiều nguồn khác như: kho ngữ liệu song ngữ EVC, kho ngữ liệu song ngữ dành cho dịch máy, kho ngữ liệu LLOCE Sau đó, đánh giá xử lý tách câu, xác định câu dịch nhau, tiến hành gióng hàng từ gán nhãn từ loại [4] Sau đó, xây dựng tập khả dịch từ kết gióng hàng Kiến trúc hệ thống tổng qt mơ hình xem chi tiết hình LLOCV Hình Một số bước thuật tốn tính xác suất D Chiếu nhãn Chiếu nhãn ngữ nghĩa từ tập khả sang tập nguồn kho ngữ liệu song ngữ Chúng tận dụng ưu điểm việc gán nhãn ngữ nghĩa tiếng Anh mức độ kết nối từ để chiếu nhãn ngữ nghĩa với tương đồng tiếng Việt Ví dụ, với cặp câu song ngữ Anh-Việt “the weather turned to the winter from October” “thời tiết chuyển sang đông từ tháng 10”, sau bước thực trên, ta thu câu tiếng Anh với nhãn ngữ nghĩa gán sau “the weather turned to the winter/L238 from October” kết câu tiếng Việt “thời tiết chuyển sang đông/L238 từ tháng 10” Nhãn L238 hệ thống nhãn ngữ nghĩa LLOCE – LLOCV trình bày phần A B C L … L2 L1 M N L3 … … L21 L22 L23 L24 L231 L232 … … L238 L239 mùa đơng … Hình Một nhánh nhãn LLOCV Do chưa có kho ngữ liệu song ngữ Anh-Việt đủ lớn đạt tiêu chuẩn gán nhãn ngữ nghĩa danh từ chuyên gia để làm sở đánh giá so sánh kết hệ thống tiếp cận Nên kết thực nghiệm mô tả cách thức tiến hành số lượng nhãn ngữ nghĩa gán kho ngữ liệu song song Anh-Việt mà tự xây dựng máy học thống kê Chất lượng câu dịch tự động phụ thuộc vào so sánh độ tương đồng ngữ nghĩa [12] thống kê dịch chuyển từ vựng IV ĐÁNH GIÁ PHƯƠNG PHÁP TIẾP CẬN Để đánh giá cho phương pháp tiếp cận này, dựa vào hệ thống nhãn ngữ nghĩa từ điển ý niệm LLOCE (1) song ngữ Anh-Việt Từ điển LLOCE tổ chức xếp thành chủ đề-14 chủ đề, chủ đề chia thành nhiều nhóm-129 nhóm, nhóm chia thành nhiều lớp-2449 lớp (được gọi lớp ngữ nghĩa) lớp gồm mục (1) Tham khảo thêm đường link http://ucrel.lancs.ac.uk/usas/ hệ thống sử dụng nhãn ngữ nghĩa LLOCE 74 74 Thảo Quốc Gia 2015vềvềĐiện ĐiệnTử, Tử,Truyền TruyềnThông Thông TinTin (ECIT 2015) HộiHội Thảo Quốc Gia 2015 Công CôngNghệ NghệThông Thông (ECIT 2015) ngôn ngữ chéo [10] Chúng thực nghiệm cho phương pháp tiếp cận với kho ngữ liệu tự xây dựng từ nhiều nguồn khác song ngữ Anh-Việt tổng hợp bảng BẢNG NHÃN NGỮ NGHĨA ĐƯỢC GÁN Ngữ liệu EVC Dịch máy LLOCE Ngữ liệu song ngữ Giza++ LLOCE Tiền xử lý Gán nhãn ngữ nghĩa Dịch chuyển từ vựng Số nhãn gán 311 Tương đồng ngữ nghĩa Hình Kiến trúc tổng quát hệ thống gán nhãn Độ xác 64,95% Độ bao phủ 52,88% Trong khuôn khổ nội dung nghiên cứu này, chúng tơi trình bày cách tiếp cận sử dụng thuật tốn học khơng giám sát để gán nhãn vai trò ngữ nghĩa cho danh từ câu song ngữ Anh-Việt Khai thác dịch chuyển từ vựng ngôn ngữ chéo để gán nhãn, bên cạnh đó, tận dụng số đặc trưng ngữ cảnh song ngữ để hỗ trợ định gán nhãn vai trị ngữ nghĩa thích hợp câu Với cách tiếp cận này, việc quan sát kết đạt nhận thấy từ mà có dịch chuyển tương tự thường dùng để chia vài yếu tố ngữ nghĩa giúp cho thuật toán cố nghĩa từ tương đồng ngữ nghĩa với từ khác đảm bảo độ xác cao Trong thực bước tiền xử lý, sử dụng công cụ tách từ vnTokenizer, POS tagger cho văn tiếng Việt, POS tagger cho văn tiếng Anh Sau đó, sử dụng cơng cụ GIZA++ cho giai đoạn gióng hàng mức từ Tiếp theo tiến hành xác định nhận dạng danh từ cần gán nhãn (loại bỏ nhãn không cần thiết động từ, trạng từ, tính từ …) Quá trình gán nhãn ngữ nghĩa dựa vào độ tương đồng ngữ nghĩa dịch chuyển từ vựng ngôn ngữ chéo để xác định nhãn hợp lý q trình tính tốn xác suất để thống kê ngữ nghĩa BẢNG KHO NGỮ LIỆU ANH-VIỆT Ngữ liệu EVC Ngữ liệu dịch máy Ngữ liệu LLOCE Nhãn 202 Về kiểm tra chất lượng tập khả lựa chọn dịch từ tiếng Việt (ngôn ngữ nguồn) chúng tơi thấy cịn số từ bên ngồi khơng liên quan đến nghĩa cần dịch, ví dụ từ tiếng Việt {xe đạp} có tập khả {bicycle, tricycle, bike, motocycle, velocipede, cyclist}, từ {văn phịng} có tập khả {office, living room, meeting, placement} Ngữ liệu gán nhãn Số cặp câu song ngữ 60.032 20.000 31.951 Phần trăm từ vựng 61,63% 50,27% 61,41% BẢNG KẾT QUẢ ĐÁNH GIÁ THỰC NGHIỆM LLOCV Nguồn ngữ liệu Số danh từ gán 220.087 109.777 65.711 Để đánh giá cho phương pháp tiếp cận, giữ lại 600 cặp câu song ngữ, 382 danh từ kho ngữ liệu huấn luyện (mà khơng sử dụng q trình huấn luyện trước) chúng tơi thu kết qua Bảng Tách từ Gán nhãn từ loại Số lượng danh từ 357.098 218.367 107.009 V KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Số từ Mặc dù kết thực nghiệm chúng tơi khơng có kho ngữ liệu để so sánh đánh giá, hiệu suất cách tiếp cận đáng ghi nhận với việc xây dựng hệ thống học không giám sát gán nhãn ngữ nghĩa, dựa độ tương đồng ngữ nghĩa từ vựng ngôn ngữ chéo, yếu tố việc dịch thống kê, độ tương đồng dịch máy, dịch rõ ràng người Do đó, kết thực nghiệm quan tâm đến vấn đề độ bao phủ (recall) độ xác (precision) thực mơ hình dịch máy thống kê để đánh giá độ tương đồng gán nhãn Trong kết đạt có vài câu dài với khác biệt chất ngôn ngữ, số ngoại lệ, ký hiệu riêng dịch từ ngôn ngữ sang ngơn ngữ khác, hệ thống khơng tự động gióng hàng gán nhãn cho cặp câu Thời gian tới cố gắng tăng độ dài câu dịch đến mức độ chấp nhận sử dụng số kỹ thuật để tách câu dài hay với cú pháp đặc biệt thành 1.601.183 1.109.564 704.564 Dữ liệu Bảng sau chúng tơi chuẩn hóa theo chuẩn kho ngữ liệu song ngữ, mã ký tự theo bảng mã Vietnam unicode, phong ký tự Time New Roman Sau đó, căp câu song ngữ gióng hàng kiểm tra bán tự động Việc làm giúp cải thiện hiệu suất gán nhãn giảm bớt phát sinh lỗi trình gióng hàng phương pháp thống kê gây Ví dụ cho trường hợp chuẩn hóa cặp câu song ngữ sau: D5335: He swims every day during the summer D5335: Anh bơi ngày suốt mùa hè Để kiểm tra trình gán nhãn danh từ kho ngữ liệu thực kho ngữ liệu bảng với kết gán nhãn bảng 75 75 Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) câu ngắn với liên kết đặc biệt, để cần thiết kết hợp lại thành câu hoàn chỉnh với ý nghĩa ban đầu Vấn đề thứ hai chúng tơi quan tâm việc xây dựng kho ngữ liệu song ngữ Anh-Việt với văn dịch song song xác chuyên gia, để làm sở đánh giá hiệu suất gán nhãn hệ thống mà chúng tơi tiếp cận, việc cải tiến hiệu suất tiếp cận ưu tiên hàng đầu việc gán nhãn ngữ nghĩa thời gian tới chúng tơi Bên cạnh đó, hệ thống sử dụng dịch tự động, nên số từ vừa nhập nhằng tiếng Anh, vừa nhập nhằng tiếng Việt, hệ thống dựa vào thống kê theo xác suất nên thiếu thống tin ngữ cảnh việc lựa chọn từ vựng để dịch Thời gian tới xây dựng mở rộng kho ngữ liệu văn song ngữ Anh-Việt mà dịch chuyên gia kết hợp thêm nhiều yếu tố ngôn ngữ nguồn, giúp lựa chọn từ vựng dịch từ tiếng Việt sang tiếng Anh đạt hiệu cao Mặc dù nội dung báo nhiều hạn chế góp phần cung cấp thêm hướng tiếp cận việc gán nhãn ngữ nghĩa xử lý ngôn ngữ tiếng Việt nhằm hỗ trợ việc dịch tự động, truy vấn thơng tin, tóm tắc văn bản… Thời gian tới, cố gắng nghiên cứu nâng cao hiệu suất cho hệ thống gán thêm nhãn cho động từ, tính từ trạng từ nhằm hồn chỉnh hệ thống gán nhãn ngữ nghĩa cho từ câu [2] LỜI CẢM ƠN [12] [3] [4] [5] [6] [7] [8] [9] [10] [11] Chúng xin chân thành cám ơn PGS.TS Đinh Điền hỗ trợ định hướng chuyên môn cho nghiên cứu đồng nghiệp Phd.Lab Khoa Công nghệ Thông tin Trường Đại học Khoa học Tự nhiên thành phố Hồ Chí Minh việc hỗ trợ sử dụng cơng cụ tính tốn cho kết thực nghiệm [13] [14] TÀI LIỆU THAM KHẢO [1] [15] Daniel Gildea, Daniel Jurafsky 2002 Automatic Labeling of Semantic Roles, 2002 Association for Computational Linguistics Volume 23, number 76 76 Dekang Lin 2000 Word Sense Disambiguation with a Similarity Smoothed Case Library, Computers and the Humanities, 34: 147-152, 2000 Đinh Điền, 2006 Xử lý ngôn ngữ tự nhiên Nhà xuất Đại học Quốc gia thành phố Hồ Chí Minh-2006 Dinh Dien, Hoang Kiem 2003 POS-Tagger for English-Vietnamese Bilingual Corpus, Proceedings of the HLT-NAACL 2003 Workshop on Building and Using Parallel Texts: Data Driven Machine Translation and Beyond George Miller, Martin Chodorow, Shari Landes, Claudia Leacock, and Robert Thomas 1994 Using a semantic concordance for sense identification In ARPA Workshop on human Language Technology, Plainsboro, NJ, March Lluís Marquez, Xavier Carreras, Kenneth C.Litkowski, Suzanne Stevenson 2008 Semantic Role Labeling: An Introduction to the Special Issue, 2008 Association for Computational Linguistics Volume 34, number Mc Arthur, Tom (1981) Longman Lexcicon of Contemporary English Longman London Mona Diab 2000 An Unsupervised Method for Multilingual Word Sense Tagging Using Parallel Corpora: A Preliminary Investigation In SIGLEX2000: Word Sense and Multi-linguality, Hong Kong, October Mona Diab, Philip Resnik 2002 An Unsupervised Method for Word Sense Tagging using Parallel Corpora, Proceeding of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), Philadelphia, July 2002, pp 255-262 Mikhail Kozhevnikov, Ivan Titov 2013 Cross-lingual Transfer of Semantic Role Labeling Models, Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, pages 1190– 1200, Sofia, Bulgaria, August 4-9 2013 Nancy Ide 2000 Cross-Lingual Sense Determination: Can It Work? Computers and the Humanities, 34: 223-234, 2000 Philip Resnik 1999 Semantic Similarity in a Taxonomy: An Information-Based Measure and its Application to Problems of Ambiguity in Natural Language, Journal of Artificial Intelligence Research 11 (1999) 95-130 Philip Resnik 1997 Selectional Preference and Sense Disambiguation In ANLP Workshop on Tagging Text with Lexical Semantics, Washington, D.C., April Rayson, Paul, Dawn Archer, Scott Piao, Tony McEnery (2004) The UCREL semantic analysis system In proceedings of the workshop on Beyon Named Entity Recognition Semantic labelling for NLP tasks in association with 4th International Conference on Language Resources and Evaluation (LREC 2004), Lisbon, Portugal, pp.7-12 Scott Piao, Prancesca Bianchi, Carmen Dayrell, Angela D’Egidio, Paul Rayson 2015 Development of the Multilingual Semantic Annotation System The 2015 Conference of the North American Chapter of the Association for Computatioal Linguistics - Human Language Technologies (NAACL HLT 2015), May 31 to June in Denver Colorado ... đồng ngữ nghĩa nhiều từ tập khả từ-trên 16.000 mục từ có quan hệ nghĩa [3] Hệ thống tiếp cận gán nhãn ngữ nghĩa cho danh từ với lớp ngữ nghĩa cặp câu song ngữ AnhViệt, tức gán nhãn ngữ nghĩa. .. chi tiết sau: Trong nội dung nghiên cứu, sử dụng kho ngữ liệu song ngữ Anh-Việt với phần lớn liệu lấy từ ngữ liệu song ngữ EVC LLOCE Sau tiến hành xác định ngữ nghĩa cặp câu song ngữ Anh-Việt thông... EVC Dịch máy LLOCE Ngữ liệu song ngữ Giza++ LLOCE Tiền xử lý Gán nhãn ngữ nghĩa Dịch chuyển từ vựng Số nhãn gán 311 Tương đồng ngữ nghĩa Hình Kiến trúc tổng quát hệ thống gán nhãn Độ xác 64,95%

Ngày đăng: 28/04/2022, 09:40

HÌNH ẢNH LIÊN QUAN

Hình 1. Một ví dụ về liên kết danh từ - Gán nhãn ngữ nghĩa trong song ngữ Anh-Việt
Hình 1. Một ví dụ về liên kết danh từ (Trang 2)
Hình 2. Một số bước cơ bản của thuật toán xây dựng tập khả năng - Gán nhãn ngữ nghĩa trong song ngữ Anh-Việt
Hình 2. Một số bước cơ bản của thuật toán xây dựng tập khả năng (Trang 3)
Quan sát hình 3, ta thấy phân bố tỷ lệ xác suất sẽ thay đổi khi từ tiếp theo xuất hiện với một từ cho trước. - Gán nhãn ngữ nghĩa trong song ngữ Anh-Việt
uan sát hình 3, ta thấy phân bố tỷ lệ xác suất sẽ thay đổi khi từ tiếp theo xuất hiện với một từ cho trước (Trang 3)
tiết trong hình 7. - Gán nhãn ngữ nghĩa trong song ngữ Anh-Việt
ti ết trong hình 7 (Trang 4)
gióng hàng. Kiến trúc hệ thống tổng quát của mô hình xem chi - Gán nhãn ngữ nghĩa trong song ngữ Anh-Việt
gi óng hàng. Kiến trúc hệ thống tổng quát của mô hình xem chi (Trang 4)
BẢNG 2. KHO NGỮ LIỆU ANH-VIỆT - Gán nhãn ngữ nghĩa trong song ngữ Anh-Việt
BẢNG 2. KHO NGỮ LIỆU ANH-VIỆT (Trang 5)
BẢNG 3. NHÃN NGỮ NGHĨA ĐƯỢC GÁN - Gán nhãn ngữ nghĩa trong song ngữ Anh-Việt
BẢNG 3. NHÃN NGỮ NGHĨA ĐƯỢC GÁN (Trang 5)
Hình 7. Kiến trúc tổng quát hệ thống gán nhãn - Gán nhãn ngữ nghĩa trong song ngữ Anh-Việt
Hình 7. Kiến trúc tổng quát hệ thống gán nhãn (Trang 5)
Dữ liệu trong Bảng 2 sau đó được chúng tôi chuẩn hóa theo  chuẩn  kho  ngữ  liệu  song  ngữ,  mã  ký  tự  theo  bảng  mã  Vietnam unicode, phong ký tự Time New Roman - Gán nhãn ngữ nghĩa trong song ngữ Anh-Việt
li ệu trong Bảng 2 sau đó được chúng tôi chuẩn hóa theo chuẩn kho ngữ liệu song ngữ, mã ký tự theo bảng mã Vietnam unicode, phong ký tự Time New Roman (Trang 5)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN