Chương 2 đọ trớnh bỏy phương phõp sử dụng mừ hớnh mạng nơ ron truyền thẳng FFNN kết hợp với bộ đặc trưng do luận õn đề xuất cho bỏi tõn trợch rỷt từ khụa. Cõc đụng gụp chợnh của đề xuất:
- Đề xuất được một bộ đặc trưng mạnh mức từ cho bỏi tõn trợch rỷt từ khụa. Cõc đặc trưng đề xuất gồm: (1) Cụm danh từ; (2) Thực thể cụ tởn; (3) Cụm ba từ; (4) Độ dỏi từ; (5) Vị trợ từ; (6) Độ phủ từ; (7) Tần suất xuất hiện từ; (8) độ đo TF-IDF; vỏ (9) Từ chứa ký tự viết hoa.
- Thử nghiệm, đõnh giõ cõc mừ hớnh khõc nhau vỏ lựa chọn một mừ hớnh mạng nơ ron phỳ hợp cho bỏi tõn trợch rỷt từ khụa. Mừ hớnh đề xuất phỳ hợp với kho ngữ liệu cụ độ lớn hạn chế.
Cõc kết quả thực nghiệm trởn cõc kho ngữ liệu đọ chứng minh giải phõp đề xuất mang tợnh khả thi cao õp dụng trong bỏi tõn trợch rỷt từ khụa. Kết quả nghiởn cứu của Chương 2 được cừng bố trong cừng trớnh [CT4].
CHƯƠNG 3
PHạT HIỆN ĐOẠN SAO CHẫP GIỮA HAI TáI LIỆU DỰA TRấN CạC Mễ HèNH HỌC MạY
Chương nỏy trớnh bỏy phõt biểu bỏi tõn phõt hiện đoạn sao chờp giữa hai tỏi liệu vỏ đề xuất hai phương phõp giải quyết bỏi tõn nỏy. Đề xuất thứ nhất thực hiện phõt hiện đoạn sao chờp giữa hai tỏi liệu ở mức cĩu dựa trởn sự kết hợp giữa thuật tõn LDA phĩn tợch chủ đề ẩn, thuật tõn tớm tập phổ biến Apriori vỏ kỹ thuật mở rộng đoạn. Tiếp nối sự thỏnh cừng trong việc sử dụng mừ hớnh học sĩu cho bỏi tõn trợch rỷt từ khụa trong Chương 2, đề xuất thứ hai trớnh bỏy giải phõp ứng dụng mừ hớnh học sĩu LSTM xếp chồng vỏ kỹ thuật trợch rỷt đặc trưng ở mức đoạn vỏ mức từ để xõc định đoạn sao chờp giữa hai tỏi liệu. Thực nghiệm vỏ đõnh giõ kết quả đạt được trởn cõc kho ngữ liệu đọ chứng minh hiệu quả của cõc phương phõp đề xuất. Cõc đề xuất đọ được đăng tại kỷ yếu hội thảo quốc tế RIVF 2016 [CT1] vỏ tạp chợ quốc tế IAES International Journal of Artificial Intelligence (Q2) [CT5].
3.1 Đặt vấn đề
Theo mừ hớnh bỏi tõn phõt hiện sao chờp (Hớnh 1.7), phõt hiện đoạn sao chờp lỏ bỏi tõn tiếp theo sau khi xõc định tập tỏi liệu ứng cử sao chờp nhằm phĩn tợch chi tiết từng cặp tỏi liệu gồm tỏi liệu đầu vỏo vỏ mỗi tỏi liệu trong tập tỏi liệu ứng cử để tớm cõc đoạn văn bản sao chờp. Với mục tiởu đặt ra, luận õn tập trung nghiởn cứu vỏ đề xuất hai phương phõp xõc định đoạn văn bản sao chờp dựa trởn cõc mừ hớnh học mõy. Luận õn sử dụng bộ dữ liệu huấn luyện của PAN để thực nghiệm vỏ so sõnh với cõc kết quả đạt được. Phần tiếp theo, luận õn trớnh bỏy bỏi tõn phõt hiện đoạn sao chờp vỏ đề xuất ý tưởng để giải quyết bỏi tõn nỏy.