Bài toán xác định collocation trong Tiếng Việt

Một phần của tài liệu NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH COLLOCATION TRONG TIẾNG VIỆT (Trang 50 - 53)

Khái niệm collocationcụm từ cố định Tiếng Việt tuy rất gần nhau, nhƣng với Bài

toán xác định collocation trong Tiếng Việt, collocation đƣợc hiểu theo nghĩa rộng hơn

cụm từ cố định. Bắt nguồn từ đặc trƣng của collocation (cụm từ gồm hai hay nhiều từ

thƣờng xuyên cùng xuất hiện), Bài toán xác định collocation trong Tiếng Việt trở thành

bài toán trích chọn ra các n-gram gồm nhiều từ thƣờng xuyên xuất hiện cùng với nhau. Collocation trong Bài toán xác định collocation trong Tiếng Việt bao gồm: từ ghép, cụm từ cố định, hay thậm chí là cụm từ tự do... nếu chúng cùng xuất hiện với tần suất rất lớn trong kho ngữ liệu.

Từ hơn 20 năm trƣớc, lĩnh vực Xử lý ngôn ngữ tự nhiên đã đạt đƣợc nhiều thành tựu (nhƣ gán nhãn từ loại, phát hiện chủ đề, hoặc thu hồi thông tin...). Tuy nhiên, hầu hết những công trình này đƣợc thực hiện cho các ngôn ngữ phƣơng Tây và giá trị của chúng bị mất mát tƣơng đối khi đƣợc áp dụng vào các ngôn ngữ khác [7].

Chỉ rất gần đây, những nhà nghiên cứu Việt Nam mới bắt đầu bị thu hút vào lĩnh vực Xử lý ngôn ngữ tự nhiên. Nên có rất ít các công trình nghiên cứu chính thức về ngôn ngữ học cùng với các chuẩn từ loại Tiếng Việt, các công trình phân tích văn bản Tiếng Việt cơ sở nhƣ gán nhãn từ loại, phân tích cú pháp... đƣợc đƣa ra. Những kho ngữ liệu cần

42

thiết đƣợc xây dựng không theo một tiêu chuẩn nhất định, và cho đến nay hầu nhƣ không có tài nguyên nào đƣợc chia sẻ công khai [7]. Đây là khó khăn cho những ngƣời không chuyên muốn tìm hiểu, nghiên cứu về lĩnh vực này.

Trong Luận văn Cao học của Thạc sỹ Nguyễn Cẩm Tú [27] (về vấn đề Phát hiện chủ đề ẩn cho việc phân lớp và phân cụm tài liệu web tiếng Việt), đã sinh ra các nhãn dựa vào

Ngram testing để trích ra các cụm từ có ý nghĩa (hay các collocation) từ các n-gram trên

cơ sở các phép thử thống kê. Luận văn này có kể đến tên một vài phƣơng pháp thống kê để xác định collocation, nhƣ Đo thông tin tƣơng hỗ (mutual information), các kỹ thuật Kiểm thử Giả thuyết (hypothesis testing technologies), Giả thuyết Không (null

hypothesis) về tính độc lập của các từ trong n-gram và các các cách Kiểm thử để kiểm tra

tính hợp lệ của Giả thuyết Không...

Trong đó, tác giả đã sử dụng phƣơng pháp Kiểm thử Giả thuyết với n-gram (n<=2), dựa vào Kiểm thử khi-bình phƣơng để tìm ra các collocation. Giá trị khi-bình phƣơng của chúng đƣợc tính toán từ một tập hợp dữ liệu lớn (dữ liệu Vnexpress (199MB) và Wikipedia (270MB) với khoảng 200 chủ đề), và có đƣa vào giá trị ngƣỡng để xác định collocation (mà tác giả gọi là coloThreshold).

43

44

Chƣơng 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ

Một phần của tài liệu NGHIÊN CỨU BÀI TOÁN XÁC ĐỊNH COLLOCATION TRONG TIẾNG VIỆT (Trang 50 - 53)

Tải bản đầy đủ (PDF)

(63 trang)