THUậT TOÁN QUY HOạCH ĐộNG

Một phần của tài liệu Gióng hàng văn bản song ngữ anh việt (Trang 40 - 42)

Thuật toán quy hoạch động được sử dụng cho gióng hàng tối ưu giữa hai trình tự. Thuật toán tìm kiếm sự liên kết bằng cách đưa ra một ma trận để tính điểm một cặp là phù hợp và không phù hợp (ma trận chấm điểm). Bằng cách tìm kiếm điểm số cao nhất trong ma trận, từ đó có thể thu được một cách gióng hàng các trình tự. Quy hoạch động giải quyết bài toán ban đầu bằng cách chia bài toán thành các bài toán nhỏ hơn và độc lập. Những kỹ thuật này được sử dụng trong nhiều lĩnh vực khác nhau của khoa học máy tính. Hiện tại, thuật toán Needleman – Wunsch và Smith – Waterman cho bài toán gióng hàngđều dựa trên cơ sở phương pháp quy hoạch động.

Gióng hàng toàn cục: các trình tự có chiều dài tương tự nhau rất thích hợp cho gióng hàngtoàn cục. Ở đây, quá trình gióng hàng được thực hiện từ đầu đến cuối của trình tự để tìm ra sự liên kết tốt nhất có thể.

Gióng hàng địa phương: tìmmột chuỗi concó khả năng có trình tự tương tự hoặc thậm chí giống hệt trình tự gốc. Giải thuật tìm kiếm cực trị địa phương cho kết quả là các chuỗi con có độ tương tự cao nhất.

Hai phương pháp gióng hàng xác định với các thuật toán khác nhau, nhưng đều sử dụng ma trận điểm để gióng hàng hai chuỗi ký tự khác nhau hoặc hai thành phần mẫu (pattern) nào đó.

Thuật toán Needleman – Wunsch được phát triển bởi Saul B. Needleman và Christian D. Wunsch vào năm 1970, là một thuật toán quy hoạch động cho gióng hàng toàn cục.

Smith – Waterman thuật toán lần đầu tiên được đề xuất bởi Temple F. Smith và Michael S. Waterman năm 1981,thuộc bài toángióng hàng địa phương.Thuật toán trả về các khu vực không thay đổicủa hai trình tự, và có thể gióng hàng phần chồng chéo lên nhau của hai trình tự, hoặc cũng có thể để sắp xếp dãy con với chính nó. Đây là những ưu điểm chính của gióng hàng địa phương.

Thuật toán gióng hàng cục bộ có hai điểm khác với thuật toán Needleman – Wunsch. Gióng hàng địa phương khác chỉ cho điểm âm đối với trường hợp hai trình tự không phù hợp, và khi giá trị ma trận làâm, thuật toán sẽ thiết lập lại là không (cần phải lấy giá trị cực đại của điểm số rồikết hợp với số không).

Trong thủ tục gióng hàng tối ưu, thuật toán Needleman – Wunsch và Smith – Waterman đều sử dụng chung hệ thống tính điểm. Giá trị dương hoặc cao hơn được gán cho trường hợp hai mẫu khớp nhau và giá trị âm hoặc có thấp hơn được gán cho trương hợp hai mẫu không phù hợp.

Điểm Gap – phạt khoảng cách: thuật toán quy hoạch động sử dụng điểm phạt khoảng cách để đánh giá một cách gióng hàng hai trình tự. Phạt khoảng cách được trừ vào tổng điểmkhi có một khoảng cách trong trình tự xuất hiện. Có các khoảng cách khác nhau như khoảng cách mở (open) và khoảng cách mở rộng (extension). Trong quá trình tính toán ma trận, thìđiểm phạt khoảng cách đóng vai trò là điểm trừ đi khi phát sinh hiện tượng chèn vào hoặc xóa một thành phần. Trong quá trình gióng hàng đoạn văn, có thể có trường hợp đoạn văn bị bỏ trống liên tục (một đoạn lời thoại của nhân vật bị chia thành nhiều đoạn văn bản con trong ngôn ngữ đích), vì vậy điểm phạt khoảng cách tuyến tính sẽ không thích hợp. Khi đó khoảng cách mở và khoảng cách mở rộng được thêm vào khi có những khoảng trống liên tục. Hình phạt mở luôn luôn áp dụng ngay khicó khoảng trống, và sau đó những khoảng trống khác tiếp theo được

coi như là khoảng cách mở rộng và sẽ có điểm phạt ít hơn so với hình phạt mở. Giá trị điển hình là -12 mở khoảng cách, và -4 với việc mở rộng khoảng cách.

Một phần của tài liệu Gióng hàng văn bản song ngữ anh việt (Trang 40 - 42)

Tải bản đầy đủ (PDF)

(61 trang)