1. Trang chủ
  2. » Công Nghệ Thông Tin

Các tiêu chí ngôn ngữ trong việc xây dựng kho ngữ liệu tiếng Việt

7 32 1

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Bài viết trình bày các tiêu chí lấy mẫu ngôn ngữ trong việc xây dựng kho ngữ liệu cân bằng bao gồm: Lựa chọn văn bản, tính đại diện, tính cân bằng, chủ đề, kích thước và tính đồng nhất. Chúng tôi áp dụng các tiêu chí này vào việc xây dựng kho ngữ liệu tiếng Việt (Vietnamese Corpus 1.0 – VnC 1.0) với kích thước 100 triệu từ bao gồm 10 % văn bản nói và 90 % văn bản viết được thu thập chủ yếu từ năm 2000 đến nay.

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020 DOI: 10.15625/vap.2020.00146 CÁC TIÊU CHÍ NGƠN NGỮ TRONG VIỆC XÂY DỰNG KHO NGỮ LIỆU TIẾNG VIỆT Võ Diệp Như, Đinh Điền Trung tâm Ngơn ngữ học Tính tốn, Đại học Khoa học Tự nhiên, ĐHQG TP HCM vodiepnhu@gmail.com, ddien@fit.hcmus.edu.vn TÓM TẮT: Trong lĩnh vực xử lý ngôn ngữ tự nhiên, việc sử dụng mơ hình máy học để phụ vụ giải toán chiếm ưu Tuy nhiên, để có kết tốt, cần có ngữ liệu huấn luyện đạt yêu cầu, mang tính đại diện cho ngơn ngữ Vì kho ngữ liệu cần đảm bảo tính đại diện, tính cân bằng, cụ thể lấy mẫu ngơn ngữ có kích thước phù hợp theo tiêu chí xây dựng kho ngữ liệu Trong phạm vi báo, chúng tơi trình bày tiêu chí lấy mẫu ngơn ngữ việc xây dựng kho ngữ liệu cân bao gồm: lựa chọn văn bản, tính đại diện, tính cân bằng, chủ đề, kích thước tính đồng Chúng tơi áp dụng tiêu chí vào việc xây dựng kho ngữ liệu tiếng Việt (Vietnamese Corpus 1.0 – VnC 1.0) với kích thước 100 triệu từ bao gồm 10 % văn nói 90 % văn viết thu thập chủ yếu từ năm 2000 đến Từ khóa: Kho ngữ liệu, xây dựng kho ngữ liệu, thu thập ngữ liệu, ngôn ngữ học ngữ liệu I GIỚI THIỆU Việc sử dụng khai thác kho ngữ liệu mang lại nhiều kết quả, ứng dụng hữu ích nhiều lĩnh vực, từ nghiên cứu ngôn ngữ, giảng dạy ngôn ngữ lĩnh vực khác kinh tế thương mại, đời sống xã hội hay công tác điều tra, Đặc biệt phải kể đến ứng dụng ngơn ngữ học - máy tính Việc khai thác kho ngữ liệu thực tế, rút trích quy luật ngôn ngữ theo nhiều phương pháp (thống kê, máy học,…) để áp dụng quy luật vào trường hợp tương tự nhằm giải toán thực tế Tuy nhiên, để kết đạt độ xác mong muốn, thể đặc trưng sử dụng ngôn ngữ cộng đồng người sử dụng khoản thời gian định kho ngữ liệu cần phải đủ lớn Ngồi mẫu ngơn ngữ thu thập cần cân theo tiêu chí định Đây thách thức lớn xây dựng kho ngữ liệu chung (general corpus) Trong báo này, giới thiệu phần số kho ngữ liệu cân bằng; phần trình bày tiêu chí ngơn ngữ việc xây dựng kho ngữ liệu; phần trình bày kết thực nghiệm sử dụng tiêu chí việc xây dựng kho ngữ liệu tiếng Việt; phần tổng kết phần nêu định hướng việc phát triển, chuẩn hoá cập nhật kho ngữ liệu II CÁC KHO NGỮ LIỆU CÂN BẰNG Trên giới, kho ngữ liệu cân xây dựng cho nhiều ngôn ngữ, cơng trình tiêu biểu kể đến kho ngữ liệu quốc gia cho tiếng Anh người Anh có tên BNC gồm 100 triệu từ xây dựng từ năm 1991 Oxford University Press (OUP), Longman Group UK vài đối tác khác Đây kho ngữ liệu văn điện tử gồm văn nói văn viết thời kỳ từ cuối kỷ thứ XX Anh Kho ngữ liệu xây dựng theo tiêu chí ngơn ngữ học ngữ liệu, tính cân bằng, tính đại diện, kỹ thuật lấy mẫu Vì vậy, BNC bao gồm nhiều văn thuộc thể loại, lĩnh vực, phong cách khác hình hình bên [12] Hình Các lĩnh vực thể loại văn viết BNC Võ Diệp Như, Đinh Điền 27 Hình Các kiểu giao tiếp ngữ cảnh giao tiếp văn nói BNC Bên cạnh đó, số kho ngữ liệu cân bằng, mang tính đại diện cho ngơn ngữ khác như: Kho ngữ liệu quốc gia Mỹ - The American National Corpus (ANC), bắt đầu xây dựng vào 1998 phục vụ cho việc nghiên cứu tiếng Anh - Mỹ [5]; kho ngữ liệu quốc gia khác gồm kho ngữ liệu ngôn ngữ: tiếng Ba Lan, tiếng Séc, tiếng Nga, tiếng Ý, tiếng Đức,…; [9] kho ngữ liệu cân SINCA (Academia Sinica Balanced Corpus) kho ngữ liệu tiếng Hoa cân gán nhãn từ loại [11]; kho ngữ liệu web cân tiếng Anh AMALGUM (A Machine Annotated Lookalike of GUM) [13]; … Đối với kho ngữ liệu tiếng Việt, chưa có cơng trình liên quan đến kho ngữ liệu quốc gia hay kho ngữ liệu chung, cân bằng, phải kể đến số kho ngữ liệu như: công trình đề tài KC.01 VLSP năm 2009 xây dựng kho ngữ liệu tiếng Việt gồm 90.000 câu, có 70.000 câu gán thơng tin ranh giới từ, 10.000 câu có gán thêm thơng tin từ loại 10.000 câu có gán thêm thơng tin cú pháp [15] Cơng trình xây dựng ngữ liệu tiếng Việt kho ngữ liệu đơn ngữ VCor (Vietnamese Corpus) gồm 17 triệu câu với 346 triệu từ 443 triệu chữ (tiếng/âm tiết) thuộc 42 lĩnh vực gom thành 18 chủ đề (khoa học, kinh tế, văn hoá, xã hội, ) Ngữ liệu thu thập tự động từ trang báo điện tử (www.tuoitre.vn, www.vnexpress.net, ) từ năm 2000 đến 2010 Kho ngữ liệu đơn ngữ có thích VTB (Vietnamese Tree Bank) gồm 300 ngàn câu có thích ranh giới từ, từ loại nhãn thực thể thuộc nhiều lĩnh vực khác Nguồn ngữ liệu thô thu thập từ trang báo điện tử (www.tuoitre.vn, www.vnexpress.net, ) từ năm 2000 đến 2010 thích thủ cơng nhân viên cộng tác viên ngôn ngữ học Trung tâm Dữ liệu Đa ngữ Kim Từ Điển Ngữ liệu phân phối có điều kiện Trung tâm Ngơn ngữ học Tính tốn [3] Kho ngữ liệu tiếng Việt Vietlex (Vietlex Corpus) chứa khoảng 80.000.000 âm tiết (tương đương gần triệu câu) xây dựng từ năm 1998, thu thập từ tác phẩm văn học báo chí, tác phẩm khoa học, văn pháp luật, viết chuyên ngành,… thích ranh giới từ [7] Kho ngữ liệu Large Vietnamese text corpus đơn ngữ tác giả Dieu-Thu Le Uwe Quasthoff (2016) gồm 4,05 tỉ từ thu thập từ Wikipedia, báo điện tử trang web khác từ 2007 đến năm 2014 thích ranh giới từ [2] III CÁC TIÊU CHÍ NGƠN NGỮ Theo Sinclair (1991) kho ngữ liệu (corpus) “Tập mẫu văn lựa chọn cách có hệ thống theo tiêu chí định nhằm đại diện cho thể loại ngôn ngữ cụ thể với mục đích nghiên cứu ngơn ngữ” [10] Như vậy, lựa chọn mẫu văn để xây dựng kho ngữ liệu, cần phải thu thập mẫu (sample) có kích thước phù hợp Các mẫu lựa chọn cách có hệ thống theo tiêu chí (criteria) định cho mẫu phải đảm bảo tính đại diện (representative), tính cân (balance) [4] Các tiêu chí ngơn ngữ cần quan tâm xây dựng kho ngữ liệu bao gồm tiêu chí chung, tiêu chí ngồi tiêu chí trong: A Các tiêu chí chung Tiêu chí chung thu thập ngữ liệu Việc lựa chọn tiêu chí lấy mẫu định lớn đến thời gian xây dựng kho ngữ liệu, chi phí nhân lực thực hiện, độ phức tạp khả sai lệch trình lấy mẫu ngơn ngữ Một số tiêu chí chung mà cần xét đến trước lấy mẫu bao gồm [3]: - Dạng thức văn (dạng nói hay viết, văn điện tử); - Thể loại văn (sách, tạp chí, thơng báo thư từ); - Lĩnh vực văn (hàn lâm hay thông dụng); - Địa điểm (tiếng Việt miền Nam, Bắc hay Trung; nước hay hải ngoại); - Ngôn ngữ, ngôn ngữ biến thể ngôn ngữ kho ngữ liệu; - Thời điểm văn tạo (với mốc 1945, 1975, ) CÁC TIÊU CHÍ NGƠN NGỮ TRONG VIỆC XÂY DỰNG KHO NGỮ LIỆU TIẾNG VIỆT 28 Khi bắt đầu xây dựng kho ngữ liệu, việc lựa chọn tiêu chí đơn giản nên ưu tiên giai đoạn tiến hành lấy mẫu văn loại bỏ tiêu chí phức tạp, chồng chéo để tiết kiệm thời gian nhân lực Bên cạnh đó, cần phải dự kiến khả thu mẫu ngữ liệu thực tế từ tiêu chí để có định phù hợp Ví dụ, lựa chọn tiêu chí dạng thức văn bản, dự kiến thu thập văn nói, lúc cần xem xét yếu tố chủ quan khách quan thực tế như: Có điều kiện để phiên âm văn nói hay khơng? Có thể tiến hành ghi âm văn nói hay tìm nguồn video/audio thể văn nói đời sống hay khơng? Khi xây dựng kho ngữ liệu tiếng Việt phiên (Vietnamese Corpus 1.0 - VnC 1.0), lựa chọn mẫu văn theo tiêu chí chung trình bày bảng Bảng Các tiêu chí chung xây dựng kho ngữ liệu VnC 1.0 STT Tiêu chí chung Dạng thức văn Thể loại văn Lĩnh vực văn Địa điểm Ngôn ngữ, ngôn ngữ biến thể ngôn ngữ Thời điểm văn tạo Tiêu chí chung thu thập ngữ liệu VnC 1.0 Văn viết (văn số hố), văn nói (văn phiên âm từ video) Sách, định/quy định, báo cáo, văn kiện, kịch bản, luận văn Hàn lâm thông dụng Địa điểm: ba miền Bắc, Trung, Nam Việt Nam Đơn ngữ - tiếng Việt Các văn xuất bản: trước năm 1945; 1945 - 1975; 1975 2000; chủ yếu từ năm 2000 đến Lấy mẫu Những tiêu chí chung xác định số thành tố (component) tiến hành lấy mẫu ngôn ngữ Việc lấy mẫu cho thành tố theo tiêu chí cần phù hợp, cần lấy mẫu mà cộng đồng sử dụng ngơn ngữ hai hình thức việc tiếp nhận (reception) bao gồm nghe đọc; việc sản xuất ngôn ngữ (production) bao gồm nói viết [16] Kiểu lấy mẫu văn VnC 1.0 thể bảng Khi chọn mẫu văn viết từ sách, truyện, tiểu thuyết, ấn phẩm in ấn cần lưu ý: - Lựa chọn nhiều mẫu, mẫu cần có độ dài hợp lý, tối thiểu vài trang - Ưu tiên lấy mẫu văn viết đầy đủ, không bị mát thông tin để đảm bảo kết nghiên cứu sau rút trích hết nội dung, ý nghĩa đặc điểm ngôn ngữ nằm mẫu - Mẫu văn lựa chọn từ nguồn nhiều tác giả viết cần có thống chủ đề, phong cách tác giả Đối với sách viết nhiều tác giả (hình thức viết cộng tác), sách khơng có thơng tin phần tác giả viết, nên lựa chọn tác giả có phong cách viết Đối với sách gồm nhiều tác phẩm nhiều tác giả, cần lựa sách có tác phẩm chủ đề Ngồi cịn lấy mẫu thể loại văn viết khác như: mẫu quảng cáo, viết báo tạp chí, thơ, thư từ, kịch bản, luận,… Khi chọn mẫu văn nói chúng ta nên phiên âm tồn lời nói người nói từ lúc bắt đầu đến lúc kết thúc ngữ cảnh đó: đoạn phiên âm giao tiếp trực tiếp hàng ngày, trò chuyện qua điện thoại, giảng, vấn, tranh luận,… Tính đại diện Trong trình xây dựng kho ngữ liệu, việc đảm bảo tính đại diện thách thức lớn cho trình thu thập ngữ liệu Theo Sinclair (2004): “Các nhà xây dựng kho ngữ liệu cần phải tạo kho ngữ liệu mang tính đại diện cho ngôn ngữ mà chúng thể tốt” [14] Các bước quan trọng việc xác định tính đại diện mẫu văn [14]: Quyết định tiêu chí cấu trúc (structural criteria) để xây dựng kho ngữ liệu từ áp dụng để tạo khung sườn cho phận cấu thành nên kho ngữ liệu; Mỗi phận cấu thành cần rút tóm tắt tổng thể loại văn tìm thấy đó, sử dụng tiêu chí ngồi (external criteria); Đặt loại văn theo thứ tự ưu tiên, có tính đến tất yếu tố mà ta nghĩ làm tăng giảm tầm quan trọng loại văn bản; Ước tính mục tiêu kích thước cho loại văn bản, liên quan với mục tiêu kích thước tổng thể thành tố, số loại văn bản, tầm quan trọng loại, tính thực tế việc thu thập số lượng loại; Võ Diệp Như, Đinh Điền 29 Khi kho ngữ liệu hình thành, cần trì việc so sánh kích thước thực tế ngữ liệu kế hoạch ban đầu; Ghi lại bước để người dùng có điểm tham chiếu Bước xem bước quan trọng trình xây dựng kho ngữ liệu, người xây dựng thường xuất phát từ nhu cầu nghiên cứu họ, mục tiêu nghiên cứu phổ biến cộng đồng Nhưng kho ngữ liệu hình thành chia sẻ, khơng thể dự đoán cộng đồng sử dụng kho ngữ liệu cho mục tiêu nghiên cứu nào, có nghiên cứu mà kết rút trích từ kho ngữ liệu bất thường, người nghiên cứu tra cứu lại thông tin lấy mẫu, kiến trúc tiêu chí việc lựa chọn văn kho ngữ liệu, để tìm hiểu nguyên nhân dẫn đến kết trước kết luật kết nghiên cứu hay sai Tính cân Khái niệm cân chí cịn mơ hồ tính đại diện, thực tế nhiều kho ngữ liệu chung bị cân khơng có đủ ngơn ngữ nói Ngồi việc thu thập mẫu ngữ liệu theo dạng thức thể loại văn đề cập mục cách cân bằng, phải xét đến yếu tố [14]: - Xét người sản xuất tiếp nhận văn bản, cần đảm bảo cân yếu tố xã hội tác giả: giới tính, tuổi, địa vị xã hội,…; đối tượng tiếp nhận văn bản: cơng chúng, nhóm người, mức độ trang trọng, - Xét nội dung văn bản: phổ thơng đại chúng, tổng qt hay chun ngành Ví dụ: tài liệu chuyên ngành: nhân văn, khoa học kỹ thuật, pháp luật, giáo dục, kinh tế, ; văn thường thức phổ thông: y tế, khoa học tự nhiên, - Xét thời gian xuất bản/sản xuất văn (niên đại) để đảm bảo xuất từ phổ thời gian đủ lớn - Xét vùng miền, địa phương: nơi văn viết đời/xuất bản, nơi văn nói nói để đảm bảo tỉ lệ hợp lý từ phổ thông từ địa phương, phương ngữ theo vùng miền Chủ đề Rất khó xác định số lượng chủ đề thu thập ngữ liệu Tuy nhiên, dựa vào danh sách chủ đề phổ biến để định hướng lấy mẫu ngữ liệu [3] dựa điều kiện thu thập ngữ liệu thực tế để lên kế hoạch lựa chọn chủ đề phù hợp Một tiêu chí bao hàm nhiều chủ đề Nhiều tiêu chí giao số chủ đề Ví dụ: lựa chọn văn cho VnC 1.0, lấy mẫu theo dạng thức văn viết theo lĩnh vực văn hàn lâm, quan tâm đến chủ đề nhân văn, y học, khoa học tự nhiên, giáo dục, pháp luật, trị, khoa học xã hội, kỹ thuật, tin học, cơng nghệ Kích thước kho ngữ liệu Trên thực tế, khơng có kích thước tối đa cho kho ngữ liệu, nhiên, có đánh đổi việc lựa chọn tiêu chí hình thành thành tố để xây dựng kho ngữ liệu số lượng thành tố kích thước kho ngữ liệu Nếu lựa chọn tiêu chí, kho ngữ liệu khơng thể đảm bảo tính đại diện cân bằng, ngược lại việc lựa chọn nhiều tiêu chí, xác định nhiều thành tố dẫn đến việc kích thước kho ngữ liệu lớn, thành tố phải đại diện số lượng đủ lớn văn để đặc điểm trở thành dấu hiệu (evident) ngôn ngữ thực Nếu kích thước kho ngữ liệu lớn kết thống kê không lệch nhiều so với thực tế Như vậy, để tiết kiệm thời gian chi phí bỏ xây dựng kho ngữ liệu, cần xác định, định hướng kích thước tối thiểu kho ngữ liệu, thường phụ thuộc vào: định hướng nghiên cứu khai thác kho ngữ liệu người dùng theo mục đích ban đầu xây dựng kho ngữ liệu hay dự kiến nghiên cứu tương lai (ví dụ: khai thác danh sách từ loại, tần số từ phục vụ cho việc giảng dạy ngôn ngữ); phương pháp họ sử dụng để nghiên cứu ngữ liệu Cạnh đó, sau khoảng thời gian, cần bổ sung ngữ liệu để đáp ứng nhu cầu nghiên cứu [14] Tính đồng Khi lựa chọn mẫu văn bản, cần lưu ý lựa chọn văn phổ biến thể loại lĩnh vực đó, đảm bảo độ bao phủ, không lựa chọn văn đặc biệt để đảm bảo tính đồng Cụ thể lấy mẫu văn thể loại báo thể thao, có văn đưa kết trận đấu bóng đá, điều vơ tình làm sai lệch thông tin ngôn ngữ mà muốn hướng đến thu thập Trên thực tế, báo thể thao chứa từ phổ biến theo chủ đề như: trận đấu, trọng tài, vận động viên,… Khi vơ tình thu thập nhiều mẫu văn đưa kết trận bóng đá, thơng tin ngơn ngữ mà rút trích từ thể loại văn đưa kết luận sai lệch văn báo thể thao tần số danh từ số lượng cao B Tiêu chí ngồi, tiêu chí thu thập ngữ liệu Tiêu chí ngồi (external criteria) tiêu chí phi ngơn ngữ, liên quan đến chức giao tiếp văn Có thể xác định mà khơng cần đọc văn bản, không đưa đánh giá mặt ngôn ngữ Ví dụ: giới tính, độ tuổi, nghề nghiệp tác giả, ngữ cảnh, Trong đó, tiêu chí (internal criteria) tiêu chí ngơn ngữ: từ vựng, cú pháp,… Nếu kho ngữ liệu thu thập dựa tiêu chí ngồi có khả làm mát thơng tin khác biệt văn bản, tính chất ngơn ngữ Ngược lại thu thập ngữ liệu dựa tiêu chí làm mát thơng CÁC TIÊU CHÍ NGÔN NGỮ TRONG VIỆC XÂY DỰNG KHO NGỮ LIỆU TIẾNG VIỆT 30 tin mối quan hệ ngôn ngữ ngữ cảnh Tuy nhiên, bắt đầu xây dựng kho ngữ liệu, lựa chọn mẫu theo tiêu chí ngồi chủ yếu [16] Trong giai đoạn phát triển kho ngữ liệu, tiêu chí xét đến để tăng giá trị cho kho ngữ liệu, số trường hợp xây dựng kho ngữ liệu cho nghiên cứu cụ thể, tiêu chí chọn để thu thập ngữ liệu Ở giai đoạn thu thập ngữ liệu cho việc xây dựng kho ngữ liệu VnC 1.0 lựa chọn mẫu ngữ liệu dựa tiêu chí ngồi đảm bảo tiêu chí chung Cụ thể loại văn thể bảng Những tiêu chí ngồi thu thập ngữ liệu đặc trưng theo dạng thức văn Bảng Các tiêu chí ngồi thu thập ngữ liệu q trình xây dựng VnC 1.0 STT Loại văn Thu thập văn viết Tiêu chí ngồi thu thập Loại văn Các tiêu chí Lĩnh vực văn - Văn viết thông tin: tài liệu chuyên ngành, báo cáo, văn kiện, báo điện tử, luận văn, thường thức phổ thông - Văn viết hư cấu: thơ, truyện ngắn/tiểu thuyết, tiểu sử tác giả, hồi ký Một tác giả; Nhiều tác giả; Nhiều tác giả viết tác phẩm Văn viết; Văn nói; Văn viết để nói: kịch Số tác giả sáng tác văn Thể loại văn Giới tính tác giả Kiểu lấy mẫu Thu thập văn nói Vùng/miền Kiểu giao tiếp Ngữ cảnh giao tiếp Sách; Báo điện tử; Báo cáo; Văn kiện Quốc hội; Các văn khác - Nam/Nữ - Nhiều giới tính (trường hợp nhiều tác giả viết tác phẩm) - Khơng rõ giới tính (ví dụ viết báo điện tử) - Toàn văn (dùng chủ yếu thu thập viết báo điện tử) - Một phần văn (dùng chủ yếu dùng thu thập tiểu thuyết) - Không rõ Bắc – Trung – Nam Đối thoại – Độc thoại Truyền đạt thông tin/Giáo dục; Kinh doanh; Bài phát biểu; Phỏng vấn; Sở thích IV XÂY DỰNG KHO NGỮ LIỆU TIẾNG VIỆT Từ tiêu chí ngơn ngữ trình bày trên, chúng tơi tiến hành lựa chọn tiêu chí đơn giản, phù hợp khả thi việc thu thập mẫu ngữ liệu để xây dựng kho ngữ liệt tiếng Việt VnC 1.0 (Vietnamese Corpus 1.0) Kho ngữ liệu có kích thước 100 triệu từ bao gồm văn nói (khoảng 10 triệu từ) văn viết (khoảng 90 triệu từ) Mục tiêu xây dựng kho ngữ liệu đơn ngữ tiếng Việt đủ lớn, phản ánh đặc điểm sử dụng ngôn ngữ người Việt Nam sống ba miền chủ yếu từ năm 2000 (90 %), văn viết/nói trước chiếm khoảng 10 % A Thống kê ngữ liệu văn Từ kho ngữ liệu xây dựng, sau kết thu thập ngữ liệu văn kho ngữ liệu VnC: Văn viết Dựa tiêu chí xác định bảng 2, tiến hành thu thập ngữ liệu văn viết chia thành 31 nhóm theo thể loại lĩnh vực Kết thu thập thống kê bảng 3, ngữ liệu tiền xử lý gán nhãn ranh giới từ tự động công cụ gán nhãn ranh giới từ tiếng Việt Trung tâm Ngôn ngữ học Tính tốn xây dựng (CLC Toolkit) [6] Trong điều kiện thực tế, việc thu thập ngữ liệu văn viết khác hạn chế lấy mẫu văn từ: báo địa phương, tạp chí, luận học sinh phổ thông, thư từ cá nhân/công việc Bảng Kết thu thập ngữ liệu văn viết STT 10 Thể loại văn viết theo lĩnh vực Tài liệu chuyên ngành: nhân văn Tài liệu chuyên ngành: y học Tài liệu chuyên ngành: khoa học tự nhiên Tài liệu chuyên ngành: giáo dục pháp luật trị Tài liệu chuyên ngành: khoa học xã hội Tài liệu chuyên ngành: kỹ thuật, tin học, công nghệ Quy định Quảng cáo Tiểu sử/tự truyện Kinh tế, tài Số văn 24 17 20 109 520 165 42 Số từ 85.985 228.752 316.649 780.687 279.886 94.859 187.963 127.895 3.501.712 3.784.372 Số câu 4.013 13.176 13.308 41.821 14.701 4.702 9.665 9.928 191.172 175.754 Tỉ lệ từ (%) 0,10 0,25 0,35 0,87 0,31 0,11 0,21 0,14 3,90 4,21 Võ Diệp Như, Đinh Điền STT 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 31 Thể loại văn viết theo lĩnh vực Khoá luận đại học Kịch kịch Tập thơ 1/nhiều tác giả Tiểu thuyết truyện ngắn Văn kiện quốc hội Báo cáo thường niên Văn hướng dẫn/DIY Văn khác Báo quốc gia: tài liệu văn hoá/nghệ thuật Báo quốc gia: thương mại tài Báo quốc gia: cá nhân/biên tập thể chế/thư ngỏ Báo quốc gia: tài liệu khác Báo quốc gia: phóng tin tức & nước Báo quốc gia: tài liệu khoa học Báo quốc gia: tài liệu suy nghĩ, lối sống niềm tin Báo quốc gia: tài liệu thể thao Thường thức, phổ thông: vấn đề y tế, sức khoẻ Thường thức, phổ thơng: giáo dục pháp luật trị Thường thức, phổ thông: khoa học xã hội Thường thức, phổ thông: kỹ thuật, tin học, công nghệ Văn tôn giáo Số văn 17 397 618 247 59 857 91.236 4.536 8.136 1.238 8.883 7.422 939 1.058 4.666 8.232 780 1.872 1.013 10 Số từ 53.755 11.186 156.256 20.349.859 1.245.251 265.242 479.771 34.878.628 2.092.885 2.436.608 645.685 5.712.911 3.942.901 400.075 518.349 1.715.152 3.111.866 297.435 763.994 387.814 936.569 Số câu 2.514 1.328 27.297 1.530.977 45.151 17.065 24.973 1.952.804 110.985 210.252 33.563 462.701 200.052 20.722 29.102 100.711 165.463 14.749 46.431 23.741 58.509 Tỉ lệ từ (%) 0,06 0,01 0,17 22,66 1,39 0,30 0,53 38,84 2,33 2,71 0,72 6,36 4,39 0,45 0,58 1,91 3,47 0,33 0,85 0,43 1,04 Văn nói Đối với ngữ liệu văn nói, chúng tơi tiến hành thu thập mẫu ngữ liệu từ video/audio giao tiếp thực tế theo thể loại Kết thu thập ngữ liệu văn nói sau chúng tơi tiến hành phiên âm, tiền xử lý gán nhãn ranh giới từ thể bảng Khi phiên âm văn nói theo vùng miền, phân công người phiên âm người địa phương theo miền để tăng tính xác phiên âm, không bị mát thông tin phương ngữ phiên âm Đó khó khăn chúng tơi số lượng kích thước mẫu văn nói miền Trung phiên âm hạn chế (chiếm 0,001 % tổng thể kích thước văn nói) Bảng Kết thu thập ngữ liệu văn nói STT Thể loại văn nói Đối thoại - Độc thoại Bắc Đối thoại - Độc thoại Trung Đối thoại - Độc thoại Nam Đối thoại (không phân biệt Bắc - Trung - Nam) Chương trình truyền hình Phát biểu phiên họp Quốc hội Số văn 582 13 694 1,495 118 Số từ 1,458,930 6,930 2,542,896 5,427,581 59,5734 98,235 Số câu 231,576 1,005 358,154 935,790 71,775 3,882 Tỉ lệ từ (%) 0.14 0.00 0.25 0.54 0.06 0.01 V KẾT LUẬN Chúng trình bày tiêu chí lấy mẫu ngơn ngữ trình xây dựng kho ngữ liệu cho kho ngữ liệu đại điện cho cộng đồng sử dụng ngôn ngữ này, mẫu ngôn ngữ cân Dựa tiêu chí lấy mẫu, kho ngữ liệu thật có giá trị cao mặt ngơn ngữ, đại diện cho ngôn ngữ, nguồn ngữ liệu phục vụ cho nghiên cứu khai thác giải toán thực tế, tăng độ xác cho mơ hình huấn luyện, … Kết thực nghiệm áp dụng tiêu chí vào xây dựng kho ngữ liệu thực tế phiên (VnC 1.0), kho ngữ liệu bao gồm văn nói văn viết Mỗi dạng thức văn thu thập theo tiêu chí ngồi, bao gồm nhiều thể loại, lĩnh vực, ngữ cảnh cộng đồng người Việt Nam sử dụng tiếng Việt nước chủ yếu từ năm 2000 đến VI HƯỚNG PHÁT TRIỂN Chúng áp dụng lựa chọn tiêu chí ngơn ngữ việc xây dựng kho ngữ liệu tiếng Việt cân bằng, mang tính đại diện Trong tương lai, tiếp tục cập nhật mẫu văn theo thể loại có đồng thời thu thập thêm lại văn nói (các chương trình thảo luận, tư vấn, phim tài liệu, tin tức, giảng, tranh luận, họp), văn viết (báo địa phương, tạp chí, luận học sinh phổ thông, thư từ cá nhân/công việc) để tiếp tục tăng tính cân bằng, kích thước kho ngữ liệu tính đại diện 32 CÁC TIÊU CHÍ NGƠN NGỮ TRONG VIỆC XÂY DỰNG KHO NGỮ LIỆU TIẾNG VIỆT TÀI LIỆU THAM KHẢO [1] Adam Przepiórkowski, Rafał L Górski, Barbara Lewandowska-Tomaszczyk, Marek Łazi´nski, “Towards the National Corpus of Polish”, In Proceedings of the 6th International Conference on Language Resources and Evaluation, 2018 [2] Dieu-Thu Le, Uwe Quasthoff, “Construction and Analysis of a Large Vietnamese Text Corpus”, In Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16), pp 412–416, 2016 [3] Đinh Điền, Ngôn ngữ học ngữ liệu, Nxb ĐHQG Tp HCM, Tp HCM, 2018 [4] Douglas Biber, “Representativeness in: Corpus Design”, In: Zampolli A., Calzolari N., Palmer M (eds) Current Issues in Computational Linguistics: In Honour of Don Walker Linguistica Computazionale, Vol Springer, Dordrecht, 1994 [5] http://www.anc.org/ (truy cập ngày 25/04/2020) [6] http://www.clc.hcmus.edu.vn/?page_id=471&lang=en (truy cập ngày 23/1/2020) [7] http://www.vietlex.com/help/about_corpus.htm (truy cập ngày 17/06/2020) [8] https://www.korpus.cz/ (truy cập ngày 18/05/2020) [9] https://www.lancaster.ac.uk/fass/projects/corpus/cbls/corpora.asp#_Toc92298862 (truy cập ngày 18/05/2020) [10] John Sinclair, Corpus Concordance Collocation, Oxford University Press, 1991 [11] Keh-Jiann Chen, Chu-Ren Huang, Li-Ping Chang, Hui-Li Hsu, “SINICA CORPUS: Design Methodology for Balanced Corpora”, In Proceedings of the 11th Pacific Asia Conference on Language, Information and Computation, pp 167-176, 1996 [12] Lou Burnard, Reference Guide for the British National Corpus (XML Edition), http://www.natcorp.ox.ac.uk/docs/URG/, 2007 [13] Luke Gessler, Siyao Peng, Yang Liu, Yilun Zhu, Shabnam Behzad, Amir Zeldes, “AMALGUM - A Free, Balanced, Multilayer English Web Corpus”, In Proceedings of The 12th Language Resources and Evaluation Conference, pp 5267-5275, 2020 [14] Martin Wynne, Developing Linguistic Corpora : a Guide to Good Practice, Oxbow Books, 2005 [15] Nguyen Phuong-Thai, Vu Xuan-Luong, Nguyen Thi-Minh-Huyen and Nguyen Van-Hiep and Le Hong-Phuong, “Building a Large Syntactically-Annotated Corpus of Vietnamese” In Proceedings of the Third Linguistic Annotation Workshop, Association for Computational Linguistics, pp 182-185, 2009 [16] Sue Atkins, Jeremy Clear and Nicholas Ostler, “Corpus Design Criteria”, Literary and Linguistic Computing, Vol 7, No 1, pp 1-16, 1992 LANGUAGE SAMPLING CRITERIA FOR VIETNAMESE CORPUS CONSTRUCTION Vo Diep Nhu, Dinh Dien ABSTRACT: In the field of Natural Language Processing (NLP), the use of machine learning models to help solve problems is more dominant However, to get good results, satisfactory corpus (training data) that is representative of the language is required Therefore, the corpus must be ensured to be representative and balanced, specifically, to sample a language of appropriate size according to the criteria when building the corpus In this paper, we present linguistic sampling criteria in building a balanced corpus including text selection, representativeness, balance, topic, size, and homogeneity We apply these criteria to building a Vietnamese corpus (Vietnamese Corpus 1.0 - VnC 1.0) with the size of 100 million words, including 10 % of spoken text and 90 % of written documents are collected mainly from the year 2000 to present ... [4] Các tiêu chí ngơn ngữ cần quan tâm xây dựng kho ngữ liệu bao gồm tiêu chí chung, tiêu chí ngồi tiêu chí trong: A Các tiêu chí chung Tiêu chí chung thu thập ngữ liệu Việc lựa chọn tiêu chí. .. CÁC TIÊU CHÍ NGƠN NGỮ TRONG VIỆC XÂY DỰNG KHO NGỮ LIỆU TIẾNG VIỆT 30 tin mối quan hệ ngôn ngữ ngữ cảnh Tuy nhiên, bắt đầu xây dựng kho ngữ liệu, lựa chọn mẫu theo tiêu chí ngồi chủ yếu [16] Trong. .. CÁC TIÊU CHÍ NGÔN NGỮ TRONG VIỆC XÂY DỰNG KHO NGỮ LIỆU TIẾNG VIỆT 28 Khi bắt đầu xây dựng kho ngữ liệu, việc lựa chọn tiêu chí đơn giản nên ưu tiên giai đoạn tiến hành lấy mẫu văn loại bỏ tiêu

Ngày đăng: 30/09/2021, 15:23

Xem thêm:

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w