1. Trang chủ
  2. » Cao đẳng - Đại học

Trích chọn collocation tiếng Việt từ kho ngữ liệu văn bản

13 9 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Collocation đóng vai trò quan trọng trong các ứng dụng xử lý ngôn ngữ tự nhiên cũng như biên soạn từ điển. Tuy nhiên, ở Việt Nam hiện nay, nghiên cứu về collocation là một lĩnh vực khá mới mẻ. Bài báo này tập trung vào nghiên cứu một số phương pháp trích chọn collocations nhằm tìm ra mô hình hiệu quả cho việc trích chọn collcations trong tiếng Việt.

117 TẠP CHÍ KHOA HỌC  SỐ 2/2016 TRÍCH CHỌN COLLOCATION TIẾNG VIỆT TỪ KHO NGỮ LIỆU VĂN BẢN Đỗ Thị Ngọc Quỳnh1 Trường Đại học Thủ đô Hà Nội Tóm tắt: Collocation đóng vai trị quan trọng ứng dụng xử lý ngôn ngữ tự nhiên cũng biên soạn từ điển Tuy nhiên, Việt Nam nay, nghiên cứu collocation lĩnh vực mẻ Bài báo tập trung vào nghiên cứu số phương pháp trích chọn collocations nhằm tìm mơ hình hiệu cho việc trích chọn collcations tiếng Việt Các phương pháp nêu bao gồm số phương pháp thống kê cổ điển thường sử dụng như: frequency, t-test, chi-square, mutual information, đồng thời đề xuất số phương pháp tổng hợp nhằm tăng độ xác q trình trích chọn Khơng dừng lại phương pháp, cũng tiến hành nghiên cứu ảnh hưởng việc tiền xử lý liệu lên độ xác chương trình trích chọn Dữ liệu thử nghiệm bao gồm liệu thô, chưa qua xử lý, liệu qua gán nhãn từ loại liệu phân tích cú pháp Thơng qua việc chạy chương trình với đầu vào liệu khác nhau, so sánh độ xác phương pháp, chúng tơi đề xuất mơ hình trích chọn hiệu cho tiếng Việt sử dụng độ đo ngơn ngữ Từ khóa: collocation, t-test, chi-square, mutual information, độ đo ngôn ngữ, cụm từ cố định GIỚI THIỆU Collocations hiểu thể hai nhiều từ tương ứng với cách nói thơng thường Chúng biết đến lớp nhóm từ nằm thành ngữ kết hợp từ tự [4] Tuy nhiên, khó để phân địch rạch ròi cụm từ collocation Thành ngữ cụm từ thể ngôn ngữ không mặt ngữ pháp, đặc biệt, nghĩa chúng kết hợp nghĩa thành phần, khơng thể đốn ý nghĩa thành ngữ từ chứa Hơn nữa, nghĩa thành ngữ thường mạnh nghĩa cụm từ thành ngữ Nhận ngày 10.01.2016, gửi phản biện duyệt đăng ngày 25.01.2016 Liên hệ tác giả: Đỗ Thị Ngọc Quỳnh; Email: dtnquynh@daihocthudo.edu.vn 118 TRƯỜNG ĐẠI HỌC THỦ ĐÔ HÀ NỘI Đã có nhiều nghiên cứu collocation tiến hành tiếng Anh chưa có định nghĩa tiêu chuẩn collocation, điều phụ thuộc vào quan điểm mục đích nhà nghiên cứu Trong báo này, chấp nhận định nghĩa: collocation kết hợp từ thường xuất phạm vi bình thường văn bản, vị trí ngữ pháp tương đối cố định Collocations có ứng dụng rộng rãi lĩnh vực ngơn ngữ [2, 21, 23], biên soạn từ điển [11] vấn đề xử lý ngôn ngữ tự nhiên [4, 16, 18, 25, 27] Do đó, việc khai thác collocations lựa chọn ngôn ngữ thực cần thiết, giúp cải thiện tính xác tính chất việc áp dụng xử lý ngơn ngữ tự nhiên, giúp việc tìm hiểu ngơn ngữ dễ dàng Ngồi ra, việc biên dịch collocation cải thiện chất lượng dịch máy Các kiến thức collocations cải thiện hiệu suất hệ thống tìm kiếm thơng tin Phương pháp thống kê cho thấy diện đáng ý khai thác collocation Đo tần số sử dụng để xác định loại cụ thể collocations Thơng tin tương hỗ sử dụng để trích xuất cặp từ có xu hướng xảy cửa sổ kích thước cố định (thường từ), có chiết xuất từ khơng liên quan trực tiếp Việc sử dụng t-test để tìm từ có xuất mơ hình hợp tác tốt phân biệt hai từ đề xuất trước Người ta áp dụng tỷ lệ khả thử nghiệm để khai phá collocation CÁC NGHIÊN CỨU LIÊN QUAN Một ví dụ điển hình collocation ví dụ Halliday: strong vs powerful tea ([10] Halliday 1966: P150) Đó quy ước tiếng Anh để nói strong tea khơng phải powerful tea, người nói tiếng Anh hiểu Sự kết hợp từ mà không theo quy tắc ngữ pháp ngữ nghĩa định nghĩa collocations Do đó, xếp từ hiểu kết hợp từ mà không tuân theo quy tắc ngữ pháp ngữ nghĩa tất văn Theo số quan điểm, collocations cố định không linh hoạt Nghĩa collocation không thường suy từ nghĩa từ thành phần thay từ với từ đồng nghĩa hồn tồn thay đổi ý nghĩa collocation Collocations hiểu kết hợp ngữ dụng mang phong cách riêng đơn vị từ vựng: heavy rain, light breeze, great difficulty, grow steadily, meet requirement, reach consensus, pay attention, ask a question Không giống thành ngữ (kick the bucket, lend a hand, pull someone’s leg), ý nghĩa chúng minh bạch dễ dàng để giải mã Khác với từ hay gặp thường xuyên, (big house, cultural TẠP CHÍ KHOA HỌC  SỐ 2/2016 119 activity; read a book) collocations thành ngữ đánh giá mang phong cách riêng (Mel'cuk năm 2003) Như nhiều nhà nghiên cứu (Cruse, 1986; Benson, 1990; McKeown and Radev, 2000), collocations mô tả quy tắc chung cú pháp ngữ nghĩa Chúng cứng nhắc khơng thể đốn trước cần phải ghi nhớ Chúng tạo thành gọi bán thành phẩm ngôn ngữ (Hausmann, 1985) hay đảo độ tin cậy (Lewis, 2000) mà người nói xây dựng lời phát biểu họ Trong báo logic mờ, Raj Kishor Bisht HSDhami [3] cho thấy cách để kiểm tra khả liệu kết hợp từ coi xếp từ theo collocations hay khơng Fuzzy logic cho phép hình thành mơ hình dựa logic cách sử dụng lý đằng sau phương pháp có Các mơ hình có đơn giản dựa logic thực tốt so với mơ hình thống kê có Trong nghiên cứu collocation, tiếng Đức ngôn ngữ nghiên cứu nhiều thứ hai Đầu tiên nghiên cứu Breidt (1993) gần hơn, Krenn Evert (Krenn Evert năm 2001; Evert Krenn, 2001 Evert năm 2004) Breidt sử dụng MI t-score sau so sánh kết thay đổi thông số khác nhau, chẳng hạn kích thước cửa sổ, diện so với vắng mặt lemmatization, kích thước văn diện so với vắng mặt POS thơng tin cú pháp Sau đó, Krenn Evert (2001) sử dụng đoạn chunk-er tiếng Đức để trích xuất cặp cú pháp PNV Cơng việc họ thiết lập sở phương pháp thức hệ thống giá khai thác collocation Zinsmeister Heid (2003, 2004) tập trung vào việc kết hợp NV ANV xác định cách sử dụng phân tích cú pháp ngẫu nhiên Ngồi cịn có số phương pháp để trích xuất nghiên cứu xếp từ ngôn ngữ khác So với 20 năm trước đây, lĩnh vực xử lý ngôn ngữ tự nhiên đạt nhiều thành tích (như ghi nhãn, phát chủ đề, thông tin phục hồi ) Tuy nhiên, hầu hết số thực cho ngôn ngữ phương Tây giá trị chúng bị áp dụng cho ngôn ngữ khác Chỉ gần đây, nhà nghiên cứu Việt Nam ý ngôn ngữ học loại tiêu chuẩn Việt Nam Các điều khoản kho liệu cần thiết không xây dựng tiêu chuẩn định khơng có tài liệu phổ biến Đó khó khăn cho người khơng chun tìm hiểu nghiên cứu lĩnh vực Trong tài liệu [26] (về phát đề án phân loại tài liệu web tiếng Việt), tác giả cho nhãn hiệu dựa N-gram thử nghiệm để trích xuất cụm từ có ý nghĩa (collocation) từ n-gram sở số liệu thống kê thử nghiệm Bài viết cung cấp 120 TRƯỜNG ĐẠI HỌC THỦ ĐÔ HÀ NỘI vài phương pháp thống kê để xác định xếp từ, chẳng hạn thông tin tương hỗ, giả thuyết thử nghiệm kỹ thuật (công nghệ thử nghiệm giả thuyết), giả thuyết Null (null hypothesis) vào thử nghiệm độc lập n-gram để kiểm tra tính hợp lệ lý thuyết Trong đó, tác giả sử dụng phương pháp thử nghiệm giả thuyết cho n-gram (n

Ngày đăng: 09/06/2021, 09:06

Xem thêm:

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w