GIAI ĐOẠN 1: TRÍCH CHỌN CÁC COLLCOATIONS CÓ DẠNG- 123docz.net

hai từ thành phần là kết quả của giai đoạn một. Danh sách các từ xuất hiện xung quanh hai từ thành phần tạo thành bigram gốc sẽ được lưu lại cùng với tần suất và vị trí tương đối của chúng so với bigram. Một bước lọc thống kê sẽ được đưa vào để loại bỏ các từ có xác suất xuất hiện nhỏ hơn một ngưỡng nhất định. Từ kết quả của bước lọc, chúng tôi thu được danh sách các collocations là n-gram. Chi tiết về các bước xử lý được thực hiện tại mỗi giai đoạn sẽ được chúng tôi trình bày chi tiết ở phần còn lại của chương.

3.1. GIAI ĐOẠN 1: TRÍCH CHỌN CÁC COLLCOATIONS CÓ DẠNG BIGRAM. BIGRAM.

Do mục đích của chương trình là trích chọn các collocations là cụm danh từ và do độ phức tạp, thời gian chạy chương trình khá lớn; trong giới hạn của luận văn này, chúng tôi chỉ tập trung trích chọn các collocation có dạng N+A hoặc N+N. Dữ liệu đầu vào đã được đưa qua một bộ phân tích cú pháp, sau đó được đi qua một chương trình do chúng tôi tự phát triển nhằm lọc ra các cụm danh từ và gán nhãn các từ theo từ loại. Tập nhãn sử dụng gồm 4 nhãn: {N, A, V, U} trong đó, N: danh từ, A: tính từ, V: động từ và U cho các từ còn lại. Sau khi được phân tích cú pháp và thông qua bước tiền xử lý dữ liệu, file dữ liệu đầu vào cho bước 1 là file văn bản gồm các cụm danh từ, mỗi cụm danh từ trên một dòng và mỗi từ được gán một trong bốn nhãn trong tập nhãn đã đề cập ở trên. Quá trình trích chọn các collocation từ tập bigram dựa trên hai giả định: - Hai từphải xuất hiện cùng nhau lặp đi lặp lại, trên mức bình thường trong văn bản. - Hai từ phải thuộc cùng một cụm danh từ.

Dựa vào hai giả định này, chương trình thực hiện các bước lọc dựa trên thống kê để trích chọn ra các bigram có khả năng tạo thành collocations. Kết thúc giai đoạn một, chúng ta sẽ nhận được danh sách các bigram cùng thông tin về tần suất, vị trí tương đối của hai từ được lưu trữ dưới dạng một file văn bản có phần mở rộng “.txt” và danh sách các unigram và thông tin về tần suất xuất hiện của nó trong tập bigram; danh sách này cũng được lưu trữ dưới dạng file văn bản có phần mở rộng “.txt”. Quá trình trích chọn và lọc các bigram được chia làm 2 bước chính:

GIAI ĐOẠN 1: TRÍCH CHỌN CÁC COLLCOATIONS CÓ DẠNG

Khái quát về dữ liệu sử dụng

Bước 2: Lọc các bigram không hợp lệ