Vì cả bốn phương pháp đều nhận đầu vào là một file chứa thông tin về các bigrams và tần suất xuất hiện của chúng, chúng tôi xây dựng một module riêng chỉ đảm nhiệm việc trích chọn bigram, và kết quả của quá trình trích chọn sẽ được dùng làm đầu vào cho cả 4 phương pháp. Như đã đề cập ở phần trên, chúng tôi tiến hành chạy thử nghiệm cả 4 phương pháp trên 3 bộ dữ liệu. Các bộ dữ liệu đều xuất phát từ cùng một nguồn, nên có thể nói về cơ bản chúng giống nhau. Điểm khác nhau duy nhất giữa ba tập dữ liệu là thông tin về nhãn từ loại và thông tin cú pháp. Tuy nhiên, nhìn vào công thức của cả bốn phương pháp, chúng ta thấy không chỗ nào đề cập đến thông tin về cú pháp hay thông tin từ loại. Công thức được sử dụng trong cả 3 trường hợp đều như nhau nhưng kết quả thực nghiệm lại khác nhau. Điều này có thể được giải thích đơn giản là do chúng tôi áp dụng ba cách trích chọn bigram khác nhau cho 3 tập dữ liệu. Nói cách khác, các thông tin thêm vào ở mỗi tập dữ liệu được đưa vào mô hình trích chọn bigram để lọc ra các bigram không phù hợp. Chi tiết về các mô hình trích chọn bigram cho từng bộ dữ liệu sẽ được trình bày chi tiết ở phần bên dưới.
17
2.4.2.1. Mô hình trích chọn bigrams cho bộ dữ liệu đã được tách từ
Với đầu vào là một file văn bản đơn thuần, chương trình sinh các bigram thỏa mãn hai điều kiện sau:
- Hai từ tạo thành bigram phải nằm trong cùng 1 câu và có khoảng cách giữa chúng không quá window_size từ nhất định.
- Hai từ tạo thành bigram phải không được là một trong số các từ: {là, hả, hử, à, ừ, và, không, rất, sẽ, đã, rồi, được, đây, đó, nay, này, kia, sao, tại, ở, về, thì, rằng, để, nhiều, ít, chỉ, với, bằng, của, cho, các, có, vẫn, những, lại, mà, kia, quá, một, cũng, như, đây, đấy, đó, sau, khi, một, trong, cả, tới, từ, đến, bị}
Vì các từ tạo thành collocation có quan hệ với nhau, nên ta giới hạn hai từ tạo thành bigram phải nằm trong cùng một cửa sổ có độ lớn window_size từ. Các nghiên cứu về collocations trong tiếng Anh cho thấy, độ lớn cửa sổ thích hợp nhất cho hai từ tạo thành bigram là 5 từ. Với tiếng Việt, chưa nghiên cứu nào đưa ra độ lớn cửa sổ thích hợp nhất cho việc trích chọn collocation trong tiếng Việt; vì vậy, với nỗ lực tìm ra độ lớn cửa sổ phù hợp nhất cho việc trích chọn bigram trong tiếng Việt, trong phạm vi luận văn này, chúng tôi cho window_size chạy từ 1 đến 5. 5 file bigram được chiết xuất đều được dùng làm đầu vào cho các phương pháp được nêu ở chương 3. Thêm vào đó, qua thực nghiệm chúng tôi xác định được các từ được đưa ra trong điều kiện thứ 2 làm giảm đáng kể độ chính xác của chương trình trích chọn; do đó, chúng tôi quyết định loại bỏ các từ đó trong quá trình sinh bigrams. Cũng dựa trên thực nghiệm, chúng tôi nhận thấy việc lọc ngưỡng tần số cho file bigram đầu vào sẽ cải thiện đáng kể độ chính xác các phương pháp, do đó các file bigram trong giới hạn luận văn này đều được lọc ngưỡng tần số bằng 10. Kết quả sau khi chạy chương trình là 2 file: file bigram chứa thông tin về bigram (hai từ tạo thành cách nhau bởi dấu cách trắng) cùng tần suất xuất hiện của nó trong văn bản, và file unigram chứa thông tin về các từ đơn lẻ và tần suất xuất hiện của chúng trong file bigram kết quả.
2.4.2.2. Mô hình trích chọn bigrams cho bộ dữ liệu đã được gán nhãn
Một số nghiên cứu cho tiếng Đức[15, 35] hay nghiên cứu cho tiếng Anh của Justeson và Katz[28] đã khẳng định việc trích chọn các collocations theo các mẫu cho trước sẽ đem lại hiệu quả cao hơn. Do đó, chúng tôi tiến hành thử nghiệm phương pháp này cho tiếng Việt, với các mẫu trích chọn có dạng: VN, VA, NA và NN. Trong đó N là danh từ, A là tính từ, V là động từ. Tập dữ liệu đầu vào đã được gán nhãn với bộ nhãn sử dụng được miêu tả trong bảng 2-7. Do chúng tôi trích chọn các bigram dựa trên mẫu, nên độ lớn cửa sổ không cần giới hạn trong bước này. Giả sử một bigram có
18
cấu trúc dạng w1w2; khi đó, w1w2 là kết quả sau khi chạy chương trình khi và chỉ khi nó thỏa mãn 2 điều kiện sau:
- w1 là một động từ hoặc 1 danh từ
- w2 là một danh từ hoặc tính từ xuất hiện đầu tiên sau w1 trong cùng một cụm danh từ (tương ứng với w1 là danh từ) hoặc động từ (tương ứng với w1 là động từ) và không có động từ nào xen ngang giữa w1 và w2.
Kết quả sau khi chạy chương trình là 2 file: file bigram chứa thông tin về bigram cùng tần suất xuất hiện của nó trong văn bản; và file unigram chứa thông tin về các unigram và tần suất xuất hiện của nó trong danh sách bigram. Các bigram có tần suất nhỏ hơn 10 sẽ bị loại khỏi danh sách kết quả.
2.4.2.3. Mô hình trích chọn bigrams cho bộ dữ liệu đã được phân tích cú pháp
Mô hình trích chọn bigram cho bộ dữ liệu đã được phân tích cú pháp cũng tương tự như mô hình trích chọn bigram cho bộ dữ liệu đã gán nhãn. Tuy nhiên, với bộ dữ liệu đã gán nhãn: các bigram có dạng VN và VA phải có hai từ thành phần thuộc cùng một cụm động từ; các bigram có dạng NA hoặc NN phải có hai từ thành phần thuộc cùng một cụm danh từ; và trong cả hai trường hợp, không có động từ xen ngang giữa hai từ. Kết quả sau khi chạy chương trình cũng là hai file: file bigram chứa thông tin về bigram cùng tần suất xuất hiện của nó trong văn bản; và file unigram chứa thông tin về các unigram và tần suất xuất hiện của nó trong danh sách bigram. Các bigram có tần suất nhỏ hơn 10 cũng bị loại khỏi danh sách kết quả.