Hàm testWithFormatedData(formatedDataPath, labeledWord, approxUnchangeFeature, rateWithMaxInFile, rateWithMaxInCorpora)
Hàm này đĩng vai trị rất quan trọng khi khảo sát, kiểm tra, đánh giá. Nĩ cho phép ta tùy chỉnh mức giới hạn thay đổi về số lƣợng các trƣờng hợp từ ở file đầu ra. Tức là tùy chỉnh độ hội tụ của hàm mở rộng bộ dữ liệu huấn luyện bằng tham số approx Unchange - -Feature.
Với tham số rateWithMaxInFile, hàm này cho phép ta chỉnh ngƣỡng mà nếu thấp hơn ngƣỡng đĩ thì trƣờng hợp trong file sẽ bị gán nghĩa bằng nghĩa của trƣờng hợp cùng trong file cĩ xác suất lớn nhất. Đây là một tỉ lệ, nghĩa là nếu xác suất lớn nhất là
maxFileProb thì ngƣỡng sẽ bằng (maxFileProb * rateWithMaxInFile).
Tham số rateWithMaxInCorpora lại cho ta chỉnh ngƣỡng theo xác suất lớn nhất của tồn bộ bộ dữ liệu. Những trƣờng hợp nào cĩ xác suất nhỏ hơn ngƣỡng (maxCorporaProb * rateWithMaxInCorpora) sẽ khơng đƣợc đƣa vào tập dữ liệu để huấn luyện tiếp nếu đĩ là khi đang trong vịng lặp. Nếu vịng lặp đã kết thúc trƣờng hợp nào cĩ xác suất nhỏ hơn ngƣỡng thì sẽ khơng cĩ mặt ở file dữ liệu đầu ra.
Chƣơng 5: Cơng cụ khảo sát, kiểm tra phƣơng pháp mở rộng bộ dữ liệu xử lý nhập nhằng nghĩa
30
formatedDataPath là đƣờng dẫn đến thƣ mục cĩ chứa dữ liệu đã đƣợc định dạng theo định dạng đƣợc định nghĩa ở mục 4.2. Thƣ mục này chính là thƣ mục newDataPath, đƣợc tạo từ hàm createFormatedData đã trình bày ở mục 5.2.1
labeledWord là từ đang đƣợc gán nghĩa, hay là từ đang đƣợc xử lý nhập nhằng Sau khi hàm này chạy xong thì nĩ sẽ ghi kết quả của cuộc thử nghiệm ra các file
word_1_1.result, word_1_2.result, word_2.result vào thƣ mục formatedDataPath, trong đĩ word là từ đang đƣợc xử lý nhập nhằng (labeledWord).
o Word_1_1.result chứa kết quả thực nghiệm khi chỉ huấn luyện hàm phân lớp bằng bộ huấn luyện đƣợc trích từ bộ dữ liệu chuẩn ban đầu và kiểm thử bằng file kiểm tra thứ nhất.
o Word_1_2.result chứa kết quả thực nghiệm khi chỉ huấn luyện hàm phân lớp bằng bộ huấn luyện đƣợc trích từ bộ dữ liệu chuẩn ban đầu và kiểm thử bằng file kiểm tra thứ hai.
o Word_2.result chứa kết quả thực nghiệm khi huấn luyện hàm phân lớp bằng bộ dữ liệu đã đƣợc mở rộng bằng thuật tốn đã nêu ở trên và kiểm thử bằng cả hai file kiểm tra.
Chi tiết về định dạng của các file kết quả đƣợc định nghĩa ở phần 4.3, cách thực hiện thí nghiệm cụ thể đƣợc trình bày trong chƣơng 6.