Xây dựng mô hình và thuật toán hợp nhất dữ liệu từ điển phục vụ xử lý ngôn ngữ tự nhiên

8 10 0
Xây dựng mô hình và thuật toán hợp nhất dữ liệu từ điển phục vụ xử lý ngôn ngữ tự nhiên

Đang tải... (xem toàn văn)

Thông tin tài liệu

Bài viết đề xuất giải pháp khai phá các nguồn dữ liệu từ điển đang tồn tại để xây dựng nguồn dữ liệu từ điển đồng nhất, có kích thước và số cặp ngôn ngữ lớn hơn nhằm phục vụ khai thác và sử dụng hiệu quả hơn. Giải pháp chúng tôi đề xuất trong phạm vi bài báo này dừng lại ở đề xuất mô hình toán học và thuật toán hợp nhất các từ điển để tạo nguồn dữ liệu từ điển lớn hơn về kích thước, đầy đủ hơn về nghĩa diễn giải và nhiều hơn về số cặp ngôn ngữ.

Huỳnh Cơng Pháp, Cao Xn Tuấn, Nguyễn Văn Bình Đinh Thị Mỹ Hạnh 215 Xây dựng mơ hình thuật toán hợp liệu từ điển phục vụ xử lý ngôn ngữ tự nhiên Huỳnh Công Pháp, Cao Xuân Tuấn, Nguyễn Văn Bình, Đinh Thị Mỹ Hạnh Khoa Công nghệ thông tin Truyền thông – Đại học Đà Nẵng hcphap@sict.udn.vn, nvbinh@sict.udn.vn, cxtuan@sict.udn.vn, dtmhanh@ac.udn.vn Tóm tắt Dữ liệu từ điển có vai trị quan trọng ứng dụng cho nhiều toán khác lĩnh vực xử lý ngôn ngữ tự nhiên như: dịch máy, tìm kiếm, tách từ, gióng hàng Tuy nhiên, thực trạng từ điển tồn rãi rác, riêng biệt, cấu trúc liệu đa dạng, kích thức nhỏ số cặp ngơn ngữ hạn chế Theo đó, việc khai thác sử dụng từ điển chưa hiệu cịn gặp nhiều khó khăn Người dùng phải truy xuất nhiều từ điển đồng thời để tra cứu từ tập hợp từ lĩnh vực khác Trong báo này, đề xuất giải pháp khai phá nguồn liệu từ điển tồn để xây dựng nguồn liệu từ điển đồng nhất, có kích thước số cặp ngôn ngữ lớn nhằm phục vụ khai thác sử dụng hiệu Giải pháp đề xuất phạm vi báo dừng lại đề xuất mơ hình tốn học thuật toán hợp từ điển để tạo nguồn liệu từ điển lớn kích thước, đầy đủ nghĩa diễn giải nhiều số cặp ngơn ngữ Từ khóa: Hợp liệu; mơ hình; thuật tốn hợp liệu; từ điển đa ngữ; hợp từ điển; khai phá liệu văn Giới thiệu Dữ liệu ln đóng vai trò định đến chất lượng hoạt động công cụ hệ thống xử lý ngôn ngữ tự nhiên Dữ liệu lĩnh vực xử lý ngôn ngữ tự nhiên bao gồm loại phổ biến kho ngữ liệu, treebanks, từ điển Trong đó, liệu từ điển có vai trị quan trọng để phục vụ dịch tự động phát triển công cụ xử lý ngôn ngữ tự nhiên, chẳng hạn công cụ hỗ trợ học tập, tra cứu, cơng cụ tách từ dựa thuật tốn maximum matching, cơng cụ gióng hàng Với tính chất quan trọng nên liệu từ điển xây dựng phát triển mạnh, tồn nhiều dạng khác từ điển giấy, máy từ điển, từ điển máy tính Trong đó, liệu từ điển máy tính dạng phát triển mạnh phổ biến Mặc dù vậy, xét từ điển riêng lẻ, kích thước số cặp ngơn ngữ cịn hạn chế so với yêu cầu sử dụng thực tế yêu cầu để xây dựng hệ thống xử lý ngôn ngữ tự nhiên chất lượng hiệu Thật vậy, từ điển đa ngữ xem lớn Gregg Cox chứa khoảng triệu từ với 225 ngôn ngữ, hay từ điển trực tuyến Logos chứa khoảng triệu từ với 250 ngôn ngữ [8] Trong đó, số lượng ngơn ngữ nói giới ước tính khoảng 6500 ngơn ngữ nhu cầu sử dụng liệu hệ thống xử lý ngôn ngữ tự nhiên dịch tự động thống kê vượt xa nhiều số từ điển kể [2] Hơn nữa, loại từ điển xây dựng với cấu trúc liệu, định dạng liệu, lĩnh vực từ vựng nội dung giải nghĩa khác Do đó, vấn đề đặt làm để khai thác 216 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC sử dụng hiệu nguồn liệu từ điển tồn nhằm phục vụ tốt nhu cầu người sử dụng yêu cầu xây dựng hệ thống xử lý ngôn ngữ tự nhiên chất lượng Giải pháp đề xuất báo tìm cách hợp nguồn liệu từ điển tồn để tạo nguồn liệu từ điển lớn kích thước, số cặp ngôn ngữ, đầy đủ lĩnh vực, nội dung giải nghĩa, đồng thời có cấu trúc định dạng chuẩn đồng nhằm phục vụ tốt cho việc khai thác sử dụng người sử dụng hệ thống xử lý ngôn ngữ tự nhiên Giải pháp hợp nguồn liệu từ điển bao gồm khía cạnh: hợp mặt cấu trúc định dạng liệu; hợp mặt liệu ngơn ngữ Trong đó, hợp mặt cấu trúc định dạng đề xuất cấu trúc liệu định dạng lưu trữ tối ưu, chuẩn cho phép chuyển đổi nguồn liệu khác để xây dựng nguồn liệu có cấu trúc định dạng đồng cho phép khai thác hiệu thuận lợi Hợp mặt liệu cặp ngơn ngữ q trình trộn, liên kết nguồn liệu để xây dựng nguồn liệu lớn kích thước, đầy đủ nghĩa diễn giải nhiều số cặp ngôn ngữ Tổng quan từ điển xây dựng tài nguyên liệu lớn 2.1 Tổng quan từ điển liệu từ điển Từ điển xem công cụ xử lý ngôn ngữ tự nhiên phổ biến hữu dụng người việc hỗ trợ tra cứu học ngoại ngữ Đối với nhiều hệ thống xử lý ngôn ngữ tự nhiên hệ thống dịch, tách từ, gióng hàng, liệu từ điển đóng vai trị vơ quan trọng, định đến chất lượng hiệu hoạt động chúng Từ điển phân loại theo nhiều cách khác Xét phương diện phiên tồn tại, từ điển phân thành hai loại sau: từ điển giấy từ điển điện tử Từ điển giấy chủ yếu phục vụ cho người việc tra cứu học tập, nhược điểm việc tra cứu từ nhiều thời gian tìm kiếm người học phải làm thủ cơng Trong đó, từ điển điện tử, đa số dạng phần mềm máy tính phổ biến có nhiều ưu điểm từ điển giấy Từ điển máy tính khơng phục vụ cho người tra cứu mà sử dụng cho nhiều mục đích khác lĩnh vực xử lý ngôn ngữ tự nhiên Xét khía cạnh ngơn ngữ, từ điển chia thành loại từ điển đơn ngữ (monolingual), từ điển song ngữ (bilingual) từ điển đa ngữ (multilingual) Trong đó, từ điển đơn ngữ lớn như: từ điển tiếng Hà Lan Woordenboek der Nederlandsche Taal xem từ điển đơn ngữ lớn hiện, xây dựng 134 năm (từ 1864 đến 1998) với 40 tập chứa hàng triệu từ; từ điển tiếng Đức Deutsches Wörterbuch, từ điển tiếng Anh Oxford English Dictionary chứa khoảng 600.000 từ Các từ điển song ngữ lớn phải kể đến từ điển tiếng Anh-Đức xuất Langenscheidt chứa khoảng 400.000 từ giải nghĩa, từ điển Dai Kan-Wa jiten tiếng Trung – Nhật có 50.000 ký tự 500.000 từ ghép Các từ điển đa ngữ lớn Gregg Cox chứa 5.000.000 từ 225 ngôn ngữ từ điển trực tuyến Logos chứa 8.000.000 từ 250 ngơn ngữ [8] Đối với tiếng Việt, có phần mềm từ điển phổ biến như:  Lạc Việt từ điển: xem từ điển phổ biến cộng đồng người Việt Hiện nay, Lạc Việt từ điển khơng phiên máy tính mà cịn có phiên ứng dụng điện thoại di động Lạc Việt từ điển có gồm Anh – Việt, Việt – Anh Việt – Việt với số lượng 400.000 từ cụm từ [9]  Từ điển Tflat: số ứng dụng từ điển sử dụng nhiều Tflat xây dựng cho phiên online offline, bao gồm nhiều chức tra cứu, lưu, dịch câu văn, tra cứu nhanh, phát âm Tflat chứa 400.000 từ Anh-Việt, 150.000 từ Việt-Anh [10] Huỳnh Cơng Pháp, Cao Xn Tuấn, Nguyễn Văn Bình Đinh Thị Mỹ Hạnh 217  Từ điển Vlook: từ điển Anh – Việt phổ biến nay, Vlook có giao diện đơn giản hỗ trợ tra từ không cần kết nối internet với gần 60,000 từ có 40,000 từ có phiên âm khoảng 3,000 từ thông dụng từ điển Oxford  Từ điển Vdict: từ điển phổ biến có giao diện đơn giản, bao gồm từ điển: Anh – Việt, Việt – Anh, Việt – Việt, Pháp – Việt, Việt – Pháp Anh – Anh Từ điển Vdict chứa 450.000 từ cụm từ Ngồi cịn có số phần mềm từ điển thương mại tiếng Evatran 2.0, English study 4.0, Babylon 2.2 Tổng quan xây dựng tài nguyên liệu lớn Tài nguyên liệu phục vụ ngôn ngữ tự nhiên bao gồm nhiều loại, bao gồm loại liệu từ điển, kho ngữ liệu, treebanks Việc nghiên cứu xây dụng nguồn tài nguyên lớn phục vụ xử lý ngôn ngữ tự nhiên thực phổ biến Cho đến nay, có nhiều giải pháp nghiên cứu triển khai, giải pháp phổ biến gồm:  Xây dựng từ điển kho ngữ liệu đa ngữ cách trích rút liệu từ các nguồn tài nguyên đa ngữ website đa ngữ, văn đa ngữ [1][3][4][5][6]  Xây dựng kho ngữ liệu cách gọi hệ thống dịch tự động để dịch liệu có kho ngữ liệu sang ngơn ngữ mới, sau đề xuất giải pháp cho chuyên gia xem, chỉnh sửa để thu liệu có chất lượng ngơn ngữ tương đồng với liệu gốc [1][2] Các giải pháp cho phép tạo từ điển, kho ngữ liệu tương đối lớn từ điển German dictionary Deutsches Wörterbuch, Oxford English Dictionar, Gregg Cox; kho ngữ liệu British National Corpus, EuroParl, BTEC, ANC, ICE Tuy nhiên, đề cập trên, nguồn tài nguyên hạn chế độ lớn độ bao phủ so với yêu cầu thực tế Giải pháp xây dựng từ điển lớn đồng Như đề cập trên, có nhiều từ điển lớn xây dựng sử dụng phổ biến Tuy nhiên, xét nhu cầu sử dụng thực tế, số lượng ngôn ngữ (khoảng 6500 ngôn ngữ) đa dạng lĩnh vực sống từ điển nhỏ để khai thác xây dựng hệ thống xử lý ngôn ngữ tự nhiên lớn đầy đủ Hơn nữa, nguồn tài nguyên lại tồn riêng rẻ, rãi rác nên việc khai thác, sử dụng chia dùng chung trở nên khó Do đó, nguồn tài nguyên liệu từ điển hữu ích giá trị chúng hợp lại tạo thành nguồn tài nguyên đồng định dạng cấu trúc Trong báo này, đề xuất giải pháp hợp từ điển tồn để xây dựng từ điển lớn kích thước, đa dạng cặp ngơn ngữ lĩnh vực với khía cạnh hợp nhất: liệu, ngôn ngữ cấu trúc/định dạng Liên quan đến vấn đề hợp nguồn tài nguyên liệu từ điển, chưa có cơng trình đề xuất giải pháp liên quan đến vấn đề xây dựng nguồn liệu từ điển lớn cách hợp nguồn liệu từ điển tồn Bởi lẽ, việc hợp nguồn liệu từ điển vấn đề khó cấu trúc định dạng từ điển nguồn tài nguyên xử lý ngôn ngữ tự nhiên đa dạng phức tạp [4], liên quan đến nhiều khía cạnh nghiên cứu khác 218 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC gióng từ, câu văn bản, hợp liệu ngôn ngữ, chuyển đổi cấu trúc định dạng liệu Fig Mơ tả hợp từ điển Do đó, báo chúng tơi tập trung vào nhóm giải pháp liên quan đến vấn đề hợp nguồn tài nguyên liệu từ điển:   Giải pháp cấu trúc định dạng lưu trữ liệu từ điển lớn, đồng Giải pháp hợp liệu Đề xuất cấu trúc định dạng liệu từ điển lớn đồng 3.1 Dữ liệu xem thành phần quan trọng từ điển Dữ liệu từ điển đánh giá có chất lượng tốt có số lượng từ vựng lớn, có diễn giải nghĩa đầy đủ, rõ ràng có hỗ trợ nhiều cặp ngôn ngữ Bên cạnh chất lượng liệu, tốc độ xử lý tra cứu từ vựng phần mềm từ điển xem yếu tố quan trọng định đến chất lượng hiệu phần mềm từ điển Do đó, cách thức tổ chức liệu cấu trúc định dạng lưu trữ liệu từ điển quan trọng ảnh hưởng lớn đến tốc độ trình truy xuất thao tác từ điển, đặc biệt từ điển có kích thước số từ vựng lớn Cấu trúc định dạng liệu từ điển xây dựng tốt yếu tố quan trọng định đến khả bảo trì mở rộng liệu từ điển tương lai Do đó, vấn đề quan trọng đặt toán xây dựng liệu từ điển lớn bao gồm hai khía cạnh: là, giải pháp thu thập liệu; hai là, cách thức tổ chức liệu từ điển lớn phục vụ hiệu trình truy xuất khai thác chúng Do đó, nghiên cứu cách thức tổ chức cấu trúc định dạng liệu từ điển tồn để làm sở đề xuất cấu trúc định dạng liệu phù hợp cho việc tổ chức lưu trữ liệu từ điển lớn hợp mục tiêu mà báo hướng đến 3.1.1 Cấu trúc định dạng dict.tab Dict.tab cấu trúc định dạng liệu chuẩn từ điển Startdict, phát triển Hu Zheng cộng [11] Stardict từ điển nguồn mở miễn phí chạy nhiều tảng khác Nhiều nhà phát triển từ điển sử dụng cấu trúc định dạng dict.tab liệu, mã nguồn Stardict để xây dựng từ điển cho riêng Dict.tab thực chất tệp văn có định dạng liệu tổ chức dạng sau: headword1 1\n2\n3 Huỳnh Cơng Pháp, Cao Xn Tuấn, Nguyễn Văn Bình Đinh Thị Mỹ Hạnh 219 headword2 4\\5\n6 headword3 789 Theo định dạng trên, liệu từ điển với cấu trúc định dạng dict.tab biểu diễn gồm hàng, hàng biểu diễn từ gốc (headword) định nghĩa từ gốc (definition) cách dấu tab Định nghĩa từ chứa ký tự đặc biệt \n (sang dòng mới), \\ (biểu diễn dấu \) Định dạng cấu trúc dict.tab dễ tổ chức hạn chế tốc độ truy xuất liệu Thật vậy, thực thao tác tím kiếm từ nghĩa đó, q trình tìm kiếm thực duyệt danh sách từ đầu đến cuối tập tin tốn thời gian tài nguyên hệ thống 3.1.2 Cấu trúc định dạng dict.org Dict.org cấu trúc định dạng liệu từ điển chuẩn phổ biến nhiều tổ chức cá nhân sử dụng để xây dựng từ điển lớn [12] Cấu trúc dict.org tổ chức thành tệp tin gồm tệp tin mục tệp tin chứa nghĩa từ So với tổ chức liệu dạng dict.tab, cách tổ chức dạng liệu dạng dict.org giúp tốc độ tra cứu từ điển nhanh yếu tố quan trọng thiết kế sở liệu cho từ điển  Cấu trúc tập tin mục: Tập tin mục bao gồm tên từ, vị trí bắt đầu nghĩa từ tập tin chứa nghĩa độ dài nghĩa Mỗi dòng tập tin mục chứa liệu từ dòng phân cách ký tự xuống dịng Cấu trúc có định dạng sau: headword1{tab}offset1{tab}len1 headword2{tab}offset2{tab}len2 Trong đó: ─ headword: từ gốc ─ {tab}: khoảng trống tab ─ offset: vị trí bắt đầu nghĩa từ tập tin chứa nghĩa ─ len: độ dài nghĩa giải thích từ tập tin chứa nghĩa Với, offset len mã hóa sử dụng 64 ký tự (hệ số 64) sau: ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/  Cấu trúc định dạng tệp tin chứa nghĩa: Cấu trúc định dạng tệp tin chứa nghĩa biểu diễn sau: @headword ─ Từ loại (danh từ, động từ, …) o Định nghĩa o Định nghĩa ─ Từ loại o Định nghĩa Trong đó, headword từ gốc theo sau loại từ giải nghĩa tương ứng Một từ thuộc nhiều từ loại khác Ví dụ từ like ngoại động từ, tính từ, danh từ, phó từ 220 3.1.3 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC Đề xuất cấu trúc định dạng từ điển hợp lớn Như đề cập trên, vấn đề quan trọng then chốt từ điển lớn không chất lượng nội dung liệu, mà cấu trúc định dạng lưu trữ liệu Nếu cấu trúc định dạng liệu từ điển xây dựng tốt tốc độ truy xuất, khả khai thác liệu hiệu đảm bảo Trong số hai cấu trúc định dạng liệu từ điển đề xuất cấu trúc định dạng dict.org tối ưu phù hợp so với dict.tab Do đó, chúng tơi đề xuất sử dụng cấu trúc định dạng dict.org cấu trúc định dạng chuẩn cho giải pháp từ điển lớn đồng Với cách chọn cấu trúc định dạng chuẩn sử dụng phổ biến mang lại hiệu tối ưu lẽ kế thừa đồng dễ dàng từ điển có Giải pháp hợp nội dung liệu từ điển 3.2 3.2.1 Giải pháp hợp liệu từ điển cặp ngôn ngữ Giả sử có từ điển A B có cặp ngơn ngữ X-Y, A có n cặp từ, B có m cặp từ, biểu diễn sau: A = {(𝑥𝑖 , 𝑦𝑖 )}𝑛𝑖=1 , B = {(𝑥𝑖 , 𝑦𝑖 )}𝑚 𝑖=1 Trong đó, xi tập từ nguồn ngôn ngữ tiếng X; yi tập hợp nghĩa ngôn ngữ tiếng Y Kết hợp hai từ điển A B từ điển C với cặp ngôn ngữ X-Yđược biểu diển sau: C = A U B = {(𝑥𝑖 , 𝑦𝑖 )}𝑘𝑖=1 , với k ≤ 𝑛 + 𝑚 Đối với trường hợp này, cần giải khả đặt ra:  Các cặp từ hai từ điển trùng hoàn toàn nội dung: ∃(𝑥 , 𝑦 )| (x, 𝑦 ) ∈ 𝐴 and (x, y) ∈ 𝐵 Đối với trường hợp này, cặp từ đích cặp từ từ điển A từ điển B  Các cặp từ hai từ điển trùng từ gốc ngôn ngữ X: ∃(x, y) | x ∈ 𝐴 and x ∈ 𝐵 Đối với trường hợp này, cặp từ đích xây dựng bao gồm: từ gốc từ gốc A B; phần giải nghĩa giao giải nghĩa tương ứng A B, biểu diễn: (x, y) = (xA, yA U yB) | xA, yA ∈ 𝐴 and y𝐵 ∈ 𝐵  Các cặp từ hai từ điển hoàn toàn khác (𝑥 , 𝑦 )| (x, 𝑦 ) ∈ 𝐴 and (x, y) ∉ 𝐵 Đối với trường hợp này, cặp từ đích xây dựng bao gồm hợp cặp từ A B, biểu diễn: C = {(xA, yA), (xB, yB)} | (xA, yA) ∈ 𝐴 and (xB, yB) ∈ 𝐵 Huỳnh Cơng Pháp, Cao Xn Tuấn, Nguyễn Văn Bình Đinh Thị Mỹ Hạnh 3.2.2 221 Giải pháp hợp liệu từ điển khác cặp ngôn ngữ Giả sử có từ điển A có n cặp từ ngơn ngữ X-Y từ điển B có m cặp từ ngôn ngữ W-Z: A = {(𝑥𝑖 , 𝑦𝑖 )}𝑛𝑖=1 , B = {(𝑤𝑖 , 𝑧𝑖 )}𝑚 𝑖=1 Trong đó, xi tập từ nguồn ngơn ngữ tiếng X; yi tập hợp nghĩa ngôn ngữ tiếng Y; wi tập từ nguồn ngôn ngữ tiếng W; zi tập hợp nghĩa ngôn ngữ tiếng Z Kết hợp hai từ điển A B từ điển đa ngữ C với tập hợp cặp ngôn ngữ X-Y, W-Z, X-W, X-Z, Y-W, Y-Z biểu diển sau: 𝑘 C= {{(𝑥𝑖 , 𝑦𝑖 )}𝑛𝑖=1 , {(𝑤𝑖 , 𝑧𝑖 )}𝑚 𝑖=1 , {(𝑥𝑖 , 𝑤𝑖 )}𝑖=1 , 𝑝 𝑞 {(𝑥𝑖 , 𝑧𝑖 )}ℎ𝑖=1 }, {(𝑦𝑖 , 𝑤𝑖 )}𝑖=1 }, {(𝑦𝑖 , 𝑧𝑖 )}𝑖=1 }} Như việc hợp từ điển trường hợp phúc tạp nhiều so với trường hợp hai từ điển có cặp ngôn ngữ Đối với việc xây dựng liệu đích cặp ngơn ngữ X-Y W-Z, giải pháp đơn giản chọn tất cặp từ cặp ngôn ngữ X-Y W-Z 3.3 Đề xuất thuật toán hợp liệu từ điển Từ mơ hình tốn học hợp liệu từ điển trên, đề xuất thuật toán tổng quát cho toán hợp từ điển trình bày đây: 1: Input: A = (𝑥𝑖 𝑛 , 𝑦𝑖 𝑛 ), B = (𝑤𝑖 𝑚 , 𝑧𝑖 𝑚 ) 2: Output: C = A U B 3: foreach (𝑥𝑖 , 𝑦𝑖 ) ∈ 𝐴 4: for j : 1→ m 5: if (𝑥𝑖 = wj) and (yi =zj) then 6: C  (xi, yi) 7: else 8: if (𝑥𝑖 = wj) and (yi ≠ zj) then 9: C  (xi, yi U zj) 10: else 11: if (𝑥𝑖 ≠ wj) then 12: { 13: C  (xi, yi) 14: C  (wj, zj) 15: } Trên đề xuất thuật toán hợp từ điển dạng tổng quát, A, B từ điển nguồn, C từ điển đích xây dựng từ hợp từ điển nguồn A B Thuật tốn áp dụng cho việc hợp N từ điển nguồn để tạo nên từ điển đích cách chia cặp từ điển nguồn 222 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC Kết luận Ứng dụng liệu từ điển lĩnh vực xử lý tự nhiên phổ biến đa dạng như: tra cứu, dịch máy, tìm kiếm, tách từ, gióng hàng Tuy nhiên, liệu từ điển hạn chế chất lượng kích thước, ngơn ngữ phổ biến tiếng Việt tiếng dân tộc thiểu số Hiện có nhiều nghiên cứu khác nhằm thu thập xây dựng liệu từ điển trích rút liệu từ website, kho ngữ liệu, văn đa ngữ mang lại nhiều thành công tạo nhiều từ điển đa dạng Mặc dù vậy, thực trạng tồn từ điển khơng có gắn kết với mà chúng nằm riêng rẽ, tách biệt nên việc khai thác sử dụng từ điển chưa hiệu gặp nhiều khó khăn Trong phạm vi báo hội thảo này, đề xuất mô hình thuật tốn nhằm hợp từ điển tồn để xây dựng nguồn liệu từ điển lớn đồng cấu trúc, định dạng nhằm phục vụ tốt lĩnh vực xử lý ngơn ngữ tự nhiên Mơ hình thuật tốn tổng qt có vai trị quan trọng, tạo tiền đề cho phát triển nghiên cứu để xây dựng thử nghiệm chương trình hồn chỉnh hợp từ điển Tài liệu tham khảo [1] Koehn Ph.: Europarl: A Parallel Corpus for Statistical Machine Translation In Proc of the 10th Machine Translation Summit, Phuket, Thaïland, pp 79–86 (2005) [2] Huynh C-P.: Des suites de test pour la TA un système d’exploitation de corpus alignés de documents et métadocuments multilingues, multiannotés et multimedia PhD thesis-National Polytechnic Institute of Grenoble, 228 p (2010) [3] Nikos M., Papavassiliou V.: Automatic acquisition of bilingual language resources Proceedings of the 10th International Conference of Greek Linguistics, Komotini, Greece (2011) [4] Huynh C-P: New approach for collecting high quality parallel corpora from multilingual Websites iiWAS11 Conference Proceedings of the 13th International Conference on Information Integration and Web-based Applications & Services (2011) [5] Dosam H.: A Dictionary Development System based on Web International Information Institute (Tokyo) Information 14.11 (2011) [6] Amel F., Paroubek P.: Twitter as a comparable corpus to build multilingual affective lexicons The 7th Workshop on Building and Using Comparable Corpora (2014) [7] Huynh C-P: Solutions of Creating Large Data Resources in Natural Language Processing ACIIDS Conference (2016) [8] http://www.worldslargestdictionary.com/ [9] http://tratu.coviet.vn/ [10] http://tflat.vn [11] http://www.stardict.org/ [12] www.dict.org ... cặp ngôn ngữ Tổng quan từ điển xây dựng tài nguyên liệu lớn 2.1 Tổng quan từ điển liệu từ điển Từ điển xem công cụ xử lý ngôn ngữ tự nhiên phổ biến hữu dụng người việc hỗ trợ tra cứu học ngoại ngữ. .. Trên đề xuất thuật toán hợp từ điển dạng tổng quát, A, B từ điển nguồn, C từ điển đích xây dựng từ hợp từ điển nguồn A B Thuật tốn áp dụng cho việc hợp N từ điển nguồn để tạo nên từ điển đích cách... đề xây dựng nguồn liệu từ điển lớn cách hợp nguồn liệu từ điển tồn Bởi lẽ, việc hợp nguồn liệu từ điển vấn đề khó cấu trúc định dạng từ điển nguồn tài nguyên xử lý ngôn ngữ tự nhiên đa dạng phức

Ngày đăng: 17/12/2021, 08:59

Hình ảnh liên quan

Từ các mơ hình tốn học hợp nhất dữ liệu từ điển ở trên, chúng tơi đã đề xuất thuật tốn tổng quát cho bài tốn hợp nhất từ điển như trình bày dưới đây:   - Xây dựng mô hình và thuật toán hợp nhất dữ liệu từ điển phục vụ xử lý ngôn ngữ tự nhiên

c.

ác mơ hình tốn học hợp nhất dữ liệu từ điển ở trên, chúng tơi đã đề xuất thuật tốn tổng quát cho bài tốn hợp nhất từ điển như trình bày dưới đây: Xem tại trang 7 của tài liệu.

Tài liệu cùng người dùng

Tài liệu liên quan