Ngưỡng phán quyết

Một phần của tài liệu Phát hiện kế thừa văn bản tiếng Việt dựa trên từ vựng và từ điển đồng nghĩa (Trang 35 - 37)

Trong quá trình tính toán độ tương đồng từ vựng, nếu tính tương đồng giữa văn bản T và giả thiết H càng cao thì phán quyết YES càng có độ tin cậy cao. Tuy nhiên, nếu hệ thống đưa ra một ngưỡng có giá trị gần 1 sẽ dẫn đến việc bỏ sót các cặp mẫu T- H nhãn YES nhưng có độ tương đồng thấp hơn ngưỡng. Ngược lại, nếu ngưỡng quá thấp thì sẽ lấy cả các cặp mẫu NO nhưng có độ tương đồng cao hơn ngưỡng. Do đó, để xác định giá trị ngưỡng threshold tốt nhất theo mẫu, bài toán tìm ngưỡng đưa về bài toán tối ưu: U V ∗ K# ( () − ℎ%ℎ() → X2 ∈Y<Z Trong đó: • Training là tập ví dụ học, • xi = (Ti, Hi) cặp (văn bản, giả thuyết) trong ví dụ học,

• yi = chỉ số phán quyết kế thừa tương ứng với xi : nếu phán quyết YES thì yi = 1, ngược lại yi = -1,

• sim (xi) là độ tương đồng giữa Ti với Hi được tính theo các phương pháp tương đồng ngữ nghĩa,

• sign: là hàm dấu, nhận giá trị 1 nếu đối số dương, nhận giá trị -1 nếu đối số âm,

24

• threshold là ngưỡng phán quyết.

Lời giải cho bài toán tối ưu nói trên tương đối rõ ràng: xếp dãy sim (xi) trên trục số, đếm ngược từ 1 trở xuống (bộ đếm lúc đầu là 0), nếu gặp mẫu YES tăng bộ đếm lên 1 còn nếu gặp mẫu NO thì giảm bộđếm đi 1. Mỗi lần gặp một giá trị sim (xi) thì bộ đếm có 1 giá trị nào đó. Trong quá trình đếm, tồn tại 1 (hoặc một vài giá trị sim (xi)) làm bộđếm cực đại. Ngoài ra, tương ứng với 1 giá trị sim(xi) là cực đại hàm thì tồn tại khoảng giá trị từ giá trị này tới giá trị sim(xi) nhỏ hơn và gần nó nhất. Dựa trên tính chất này mà các hệ thống đòi hỏi phải có quá trình tinh chỉnh. Sự tinh chỉnh được tiến hành theo 2 cách sau:

1) Tinh chỉnh theo bộ kiểm tra

Chia ngẫu nhiên bộ dữ liệu thành 5 phần: 3 phần làm dữ liệu học, 1 phần làm dữ liệu tinh chỉnh ngưỡng và phần còn lại làm đánh giá phán quyết.

2) Tinh chỉnh độđo tương tự của các từ trong từđiển đồng nghĩa

Tinh chính liên quan tới hai khía cạnh: a. Độ tổn thất dùng từđồng nghĩa

Ví dụ: các từ “thiệt mạng”, “chết”, “hy sinh”, “đột tử”, “ngỏm”, “nghẻo”, .. đều có cùng một nghĩa. Tuy nhiên, trong những ngữ cảnh trang trọng người ta hay sử dụng từ “hy sinh” thay cho từ chết. Do đó, các từ tuy đồng nghĩa song có luôn có sự tổn thất nghĩa nhất định trong từng ngữ cảnh sử dụng phù hợp. Sử dụng tham sốα làm độđo tổn thất dùng từđồng nghĩa.

b. Độđo tương tự giữa hai cặp từđồng nghĩa

Các cặp từ đồng nghĩa không mang giá trị giống nhau phụ thuộc vào số lượng nghĩa (synset) của hai từđồng nghĩa này. Trong đó, nếu hai từđồng nghĩa có số lượng nghĩa ít thì tương tự nhiều hơn, ngược lại có số lượng nghĩa nhiều thì càng tương tự ít. Với: (v, w) là hai từ đồng nghĩa trong từ điển đồng nghĩa thì độ tương tự giữa hai từ này được xác định theo công thức:

([, ) = # \

25 Trong đó:

• nv và nw tương ứng là số nghĩa của v và w.

• α là tham sốđể tinh chỉnh.

Trong quá trình thực nghiệm, tham số\ là độ đo tổn thất từđồng nghĩa được thay đổi trong quá trình tinh chỉnh. Ban đầu khởi tạo \ = 1 ứng với trường hợp những từ tiếng Việt không có từđồng nghĩa.

Một phần của tài liệu Phát hiện kế thừa văn bản tiếng Việt dựa trên từ vựng và từ điển đồng nghĩa (Trang 35 - 37)