Phát biểu bài toán

Một phần của tài liệu Phát hiện kế thừa văn bản tiếng Việt dựa trên từ vựng và từ điển đồng nghĩa (Trang 37 - 40)

Dựa trên hướng tiếp cận trong phần cơ sở thực tiễn ở trên, em phát biểu bài toán phát hiện kế thừa văn bản với tiếng Việt như sau:

Đầu vào: Tập các cặp văn bản-giả thuyết sử dụng trong hội nghị RTE-3 đã được dịch ra tiếng Việt.

Đầu ra: Mô hình từ vựng và ngữ nghĩa để đưa ra phán quyết kế từa đối với từng cặp văn bản-giả thuyết.

26

Hình 4: Mô hình giải quyết bài toán

Khóa luận cải tiến giải pháp phát hiện kế thừa văn bản tiếng Anh dựa trên độ tương đồng từ vựng của Valentin Jijkoun và cộng sự theo hai khía cạnh như đã được đề cập trong mục 3.4.1. Thứ nhất, khóa luận sử dụng tri thức từ từ điển đồng nghĩa tiếng Việt song bổ sung thêm hai trọng số sử dụng từđồng nghĩa là độ đo tổn thất khi dùng từđồng nghĩa và trọng số nghĩa giao nhau của hai từ đồng nghĩa. Thứ hai, khóa luận tường minh việc xác định ngưỡng phán quyết kế thừa và cách thức tinh chỉnh ngưỡng kế thừa. Mô hình phát hiên kế thừa văn bản tương ứng được trình bày trên Hình 4. Tập dữ liệu huấn luyện Tập dữ liệu kiểm tra Ngưỡng kế thừa Nhãn kế thừa Tinh chỉnh ngưỡng kế thừa Tập dữ liệu tinh chỉnh Tiền xử lý Tính độ tương đồng từ vựng Từđiển Ngưỡng kế thừa từ vựng

27 Các bước thực hiện dựa theo mô hình ở trên:

1) Tiền xử lý

Đầu vào: Tập các cặp câu văn bản giả thuyết

Đầu ra: Tập các cặp câu văn bản-giả thuyết đã được tách từ.

2) Xây dựng mô hình tính toán độ tương đồng từ vựng kết hợp với từđiển đồng nghĩa tiếng Việt

Đầu vào: - Tập các cặp câu văn bản-giả thuyết đã được tách từ. - Từđiển đồng nghĩa

Đầu ra: Độ tương đồng từ vựng của cặp câu văn bản – giả thuyết.

X lý:

Tiến hành tính độ tương đồng từ vựng để xem câu giả thuyết h có kế thừa văn bản t hay không. Việc tính độ tương đồng này sẽ dựa theo công thức và thuật toán nhưđã trình bày ở trên. Ngoài ra, đểđem lại độ chính xác cao hơn thì em sử dụng thêm từ điển đồng nghĩa. Nếu có một từ u nào đó xuất hiện trong giả thuyết và nó không xuất hiện trong văn bản, nhưng nếu trong văn bản xuất hiện một từđồng nghĩa với từ u thì cũng tính như từ u có xuất hiện trong văn bản.

Kết hợp lại ta có một độđo tương đồng.

3) Tinh chỉnh ngưỡng kế thừa

Dựa vào tập đầu vào là tập huấn luyện thì sau khi qua bước này sẽ tính được giá trị độđo. Sau đó, dựa vào nhãn đã được gán từ trước (Yes/No) cho tập huấn luyện này và giá trị độ đo vừa tính được, hệ thống tạo ra ngưỡng kế thừa. Ngưỡng kế thừa là giá trị độ tương đồng từ vựng sao cho với giá trị này thì tổng các cặp văn bản-giả thuyết được gán giá trịđúng là lớn nhất.

Ngưỡng này được tính bởi quá trình thống kê toàn bộ độ tương đồng với mỗi cặp T-H trong tập đào tạo. Giá trị ngưỡng được xác định sao cho có thể phân loại tốt nhất các cặp văn bản – giả thuyết kế thừa và các cặp văn bản – giả thuyết không kế thừa lấy từ tập đào tạo. Giá trị của ngưỡng được tinh chỉnh trong quá trình huấn luyện đểđưa ra phán quyết chính xác nhất có thể.

4) Phán quyết kế thừa

Đầu vào: Tập dữ liệu cần kiểm tra (tập các cặp văn bản – giả thuyết) và mô hình vừa tính được ở bước 2.

28

X:

Từ mô hình ở trên, hệ thống tính được giá trị độ đo cho từng cặp văn bản- giả thuyết. Nếu cặp văn bản – giả thuyết nào có giá trị này lớn hơn hoặc bằng ngưỡng kế thừa thì cặp văn bản – giả thuyết đó sẽ được gán nhãn kế thừa là “Yes”, ngược lại sẽđược gán nhãn kế thừa là “No”.

Một phần của tài liệu Phát hiện kế thừa văn bản tiếng Việt dựa trên từ vựng và từ điển đồng nghĩa (Trang 37 - 40)

Tải bản đầy đủ (PDF)

(51 trang)