Tỡm kiếm Beam

Một phần của tài liệu (Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 64)

Trong mụ hỡnh seq2seq, ở giai đoạn giải mó, bộ giải mó sẽ nhận đầu vào là kết quả được sinh ra tại bước trước đú (với bước đầu tiờn, bộ giải mó nhận đầu vào là kết quả được sinh ra từ bộ mó húa) để sinh ra bản túm tắt mới. Trong bài toỏn túm tắt văn bản, thụng thường việc lựa chọn chuỗi đầu ra được thực hiện bởi cỏc thuật toỏn tỡm kiếm và quỏ trỡnh này cú thể sử dụng thuật toỏn tỡm kiếm Beam [115] để tỡm kiếm một chuỗi đầu ra tốt hơn.

í tưởng của thuật toỏn tỡm kiếm Beam được túm tắt như sau: Tại mỗi bước giải mó, thay vỡ chỉ lựa chọn từ cú phõn bố xỏc suất cao nhất thỡ chỳng ta lựa chọn k từ (k gọi là kớch thước tỡm kiếm (beam_size)) cú phõn bố xỏc suất cao nhất để làm đầu vào cho bước giải mó tiếp theo. Quỏ trỡnh này được lặp lại cho đến khi gặp ký hiệu kết thỳc chuỗi. Khi đú, bản túm tắt cú trung bỡnh xỏc suất cao nhất sẽ được chọn làm bản túm tắt đầu ra cuối cựng. í tưởng của thuật toỏn tỡm kiếm Beam [115] được túm tắt sau đõy.

Thuật toỏn 2.2: Tỡm kiếm Beam

Đầu vào: Độ rộng (Beam_size) k, phõn bố xỏc suất;

Đầu ra: Chuỗi đó được giải mó S = (y1, y2,..., yi,...yT);

Thuật toỏn:

1: Chọn k từ cú phõn bố xỏc suất lớn nhất để tạo thành k chuỗi;

2: Lặp với mỗi chuỗi thực hiện:

- Chọn từ cú phõn bố xỏc suất lớn nhất; - Đưa từ này vào chuỗi đang xột hiện tại;

cho đến khi gặp điều kiện dừng (số lượng từ > số lượng từ giới hạn trước hoặc gặp ký hiệu kết thỳc chuỗi); 3: Thu được k chuỗi (với mỗi chuỗi cú xỏc suất được tớnh

bằng tớch cỏc xỏc suất của cỏc từ trong chuỗi); 4: Chọn chuỗi cú xỏc suất đó tớnh được lớn nhất; 5: Return;

Vớ dụ: Khi chọn kớch thước tỡm kiếm beam_size = 3 thỡ tại mỗi bước giải mó, thuật toỏn sẽ giữ lại 3 từ cú phõn bố xỏc suất cao nhất, rồi lấy từng từ làm đầu vào cho bước giải mó tiếp theo. Quỏ trỡnh được lặp lại cho đến khi gặp dấu kết thỳc chuỗi. Lỳc đú, chuỗi cú trung bỡnh xỏc suất cao nhất sẽ được chọn.

Một phần của tài liệu (Luận án tiến sĩ) Nghiên cứu, phát triển một số phương pháp tóm tắt văn bản sử dụng kĩ thuật học sâu (Trang 64)