Bỏi tõn phõt hiện đoạn sao chờp giữa hai tỏi liệu phõt biểu như sau [4]: Cho hai tỏi liệu d, d’. Tớm tập đoạn P thỏa mọn điều kiện:
𝑃 = {< 𝑝𝑑𝑖, 𝑝𝑑′𝑗 > | 𝑝𝑑𝑖,𝑝𝑑′𝑗: 𝑝𝑑𝑖𝑑𝑝𝑑′𝑗𝑑′|𝑝𝑑𝑖 𝑝𝑑′
𝑗| > } (3.1) Trong đụ 𝑝𝑑𝑖lỏ đoạn thuộc tỏi liệu d, 𝑝𝑑′𝑗 lỏ đoạn thuộc tỏi liệu d’ vỏ 𝑝𝑑𝑖 𝑝𝑑′
thể hiện khoảng giao nhau giữa cõc đặc tợnh của hai đoạn, lỏ giõ trị ngưỡng xõc định hai đoạn văn bản cụ giao nhau khừng.
3.3 Đề xuất ý tưởng
Như đọ trớnh bỏy (Mục 1.3.2) về cõc hướng tiếp cận cho bỏi tõn phõt hiện đoạn sao chờp giữa hai tỏi liệu bao gồm kỹ thuật phĩn tợch từ, dựa trởn thừng tin trợch dẫn, dựa trởn học mõy vỏ học sĩu. Qua cõc nghiởn cứu đọ phĩn tợch cho thấy phương phõp phĩn cụm được sử dụng khõ phổ biến vỏ đạt được cõc kết quả khả quan khi õp dụng vỏo bỏi tõn phõt hiện đoạn sao chờp giữa hai tỏi liệu. Cõc trường hợp sao chờp nguyởn văn hoỏn toỏn cụ thể giải quyết dựa trởn thuật tõn phĩn cụm, vỏ do đụ, việc giải quyết riởng biệt hai trường hợp sao chờp như đề xuất của Glinos vỏ cộng sự [47] lỏ khừng cần thiết. Bởn cạnh đụ, việc xõc định vờc tơ đặc trưng cĩu dựa trởn vờc tơ đặc trưng từ như cõc đề xuất [45],[127],[137] phụ thuộc vỏo cõc từ xuất hiện trong cĩu. Do đụ, kỹ thuật nỏy chỉ đạt độ chợnh xõc cao trong cõc trường hợp sao chờp nguyởn văn. Với cõc trường hợp sao chờp cụ sự biến đổi như thởm, xụa, thay thế cõc từ sẽ dẫn đến độ tương đồng giữa hai cĩu thấp hơn nhiều vỏ khừng tạo ra sự khõc biệt giữa cĩu sao chờp vỏ cõc cĩu khõc trong văn bản.
Sự ra đời của cõc kỹ thuật học sĩu đọ mở ra nhiều hướng giải quyết cho cõc bỏi tõn XLNNTN. Trong số cõc mạng học sĩu, mừ hớnh mạng LSTM lỏ một dạng đặc biệt của mừ hớnh RNN cụ thế mạnh trong việc xử lý thừng tin dạng chuỗi vỏ khắc phục được cõc hạn chế của mừ hớnh mạng RNN truyền thống (như đọ trớnh bỏy trong mục 1.2.4). Về kiến trỷc mừ hớnh, LSTM chỉ bao gồm một tầng ẩn sau đụ lỏ tầng đầu ra của mừ hớnh. Việc sử dụng nhiều tầng ẩn trong mừ hớnh LSTM sẽ tạo ra mừ hớnh mạng LSTM xếp chồng. Mặc dỳ khừng cụ cơ sở lý thuyết chứng minh việc sử dụng một kiến trỷc sĩu hơn sẽ cho kết quả tốt hơn, nhưng theo cõc nghiởn cứu [58],[129] đọ chứng minh rằng sử dụng nhiều tầng ẩn trong mừ hớnh RNN cho kết quả tốt hơn trong một số nhiệm vụ. Cụ thể, Sutskever vỏ cộng sự [129] kết luận rằng việc sử dụng kiến trỷc LSTM xếp chồng với 4 lớp ẩn đụng vai trú quan trọng giỷp nĩng cao hiệu quả trong bỏi tõn dịch mõy. Irsoy vỏ Cardie [58] cũng bõo cõo kết quả cải thiện từ việc chuyển từ BI-RNN một lớp sang một
kiến trỷc cụ nhiều lớp.
Khai thõc cõc ưu điểm của cõc phương phõp tiếp cận theo hướng học khừng giõm sõt, luận õn đề xuất giải phõp sử dụng thuật tõn LDA để trợch rỷt cõc cụm chứa cõc cĩu cụ quan hệ về ngữ nghĩa vỏ thuộc cả hai tỏi liệu. Dựa trởn lý thuyết về luật kết hợp, luận õn thực hiện xĩy dựng cơ sở dữ liệu giao dịch từ cõc cụm thu được lỏm đầu vỏo cho thuật tõn Apriori để tớm cõc đoạn sao chờp cơ sở vỏ õp dụng kỹ thuật mở rộng đoạn để thu được đoạn sao chờp giữa hai tỏi liệu. Nội dung đề xuất được mừ tả trong mục 3.4.
Những năm gần đĩy cõc tiếp cận theo hướng học sĩu đọ chứng minh được tợnh hiệu quả trong việc giải quyết nhiều bỏi tõn trong lĩnh vực xử lý ngừn ngữ tự nhiởn. Tuy nhiởn, để phõt huy tối đa hiệu quả của kỹ thuật nỏy đúi hỏi khối lượng dữ liệu huấn luyện phải đủ lớn. Với bỏi tõn phõt hiện đoạn sao chờp giữa hai tỏi liệu, cõc kho ngữ liệu được sử dụng huấn luyện vẫn cún ở mức khiởm tốn. Kế thừa ưu điểm của cõc mừ hớnh học sĩu nhưng vẫn khắc phục được những hạn chế về dữ liệu huấn luyện, luận õn đề xuất giải phõp sử dụng kỹ thuật trợch rỷt đặc trưng vỏ mừ hớnh LSTM xếp chồng để giải bỏi tõn trởn. Nội dung đề xuất được trớnh bỏy trong mục 3.5.