Trợch rỷt từ khụa

Một phần của tài liệu Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt (Trang 34 - 38)

Trợch rỷt từ khụa nhằm tớm ra cõc từ đại diện cho một văn bản sử dụng phổ biến cho cõc bỏi tõn như tụm tắt văn bản, phĩn cụm, hoặc lỏm đầu vỏo cho mõy tớm kiếm [149] truy vấn ra cõc tỏi liệu liởn quan đến tỏi liệu đầu vỏo.

Cõc nghiởn cứu cho bỏi tõn trợch rỷt từ khụa cụ thể chia thỏnh cõc nhụm chợnh: dựa trởn thống kở, dựa trởn đồ thị, dựa trởn học mõy, dựa trởn học sĩu.

1.3.1.1 Cõc phương phõp dựa trởn thống kở

Phương phõp chung cho cõc tiếp cận trợch rỷt từ khụa dựa trởn thống kở lỏ thực hiện gõn trọng số vỏ tợnh tõn độ quan trọng cho mỗi từ hoặc cụm từ, tiếp theo thực hiện xếp hạng dựa trởn độ quan trọng vỏ lựa chọn cõc từ khụa cụ độ quan trọng lớn nhất lỏm từ khụa [40],[51],[62],[101],[110].

Cõc phương phõp dựa trởn thống kở chủ yếu khai thõc đặc trưng ở mức từ như n- gram kết hợp với trọng số TF-IDF [40],[51] vỏ xõc định độ quan trọng của từ theo giõ trị trọng số TF-IDF. Bởn cạnh đụ, vị trợ của từ trong cõc cĩu quan trọng [51] hoặc trong cõc chủ đề [101] cũng lỏ một trong cõc tiởu chợ để lựa chọn từ khụa. Trong nghiởn cứu của mớnh, Elizalde vỏ cộng sự [40] chỉ ra rằng việc kết hợp nhiều đặc trưng như n-grams, TF-

IDF vỏ đặc trưng từ loại sẽ cho kết quả trợch rỷt từ khụa tốt hơn.

HaCohen-Kerner vỏ cộng sự [51] đọ đề xuất phương phõp trợch rỷt từ khụa từ phần tụm tắt vỏ tiởu đề của cõc bỏi bõo. Mừ hớnh sử dụng cõc đặc trưng lỏ cõc 1-gram (unigram), 2-grams vỏ 3-grams. Để xõc định độ quan trọng của từ tõc giả đọ sử dụng hai trọng số lỏ tần suất xuất hiện của từ vỏ độ quan trọng của cĩu chứa từ đụ. Theo tõc giả, một cĩu được xem lỏ quan trọng hơn nếu nụ nằm ở vị trợ tiởu đề văn bản, tiởu đề của đoạn hoặc cĩu chứa cõc cụm từ đặc biệt như “bỏi tõn”, “giả thiết”, “kết quả”, “kết luận”,.... Nhụm từ cụ trọng số cao nhất sẽ được lựa chọn lỏ từ khụa.

Kim vỏ cừng sự [62] đề xuất giải phõp trợch rỷt từ khụa sử dụng trọng số TF-IDF vỏ thuật tõn n-gram với n lần lượt bằng 1, 2 vỏ 3. Cũng sử dụng TF-IDF, Rafiei vỏ cộng sự [112] chia văn bản thỏnh nhiều đoạn vỏ tớm từ khụa trởn mỗi đoạn, gọi lỏ từ khụa đoạn. Theo Rafiei, một từ được xõc định lỏ từ khụa của một đoạn nếu nụ quan trọng trong đoạn vỏ trong văn bản.

Năm 2020, Campos vỏ cộng sự [27] đọ đề xuất thuật tõn YAKE! sử dụng cõc đặc trưng về thống kở để xõc định cõc từ khụa. YAKE! đề xuất sử dụng 5 đặc trưng mức từ gồm (1) viết hoa/thường, (2) vị trợ từ, (3) tần suất xuất hiện của từ, (4) thừng tin ngữ cảnh của từ vỏ (5) từ trong cõc cĩu khõc nhau. Độ quan trọng của mỗi từ được xõc định dựa trởn cõc trọng số của mỗi đặc trưng.

Nhận xờt: Cõc tiếp cận dựa trởn thống kở cụ ưu điểm lỏ khừng phụ thuộc vỏo miền dữ liệu vỏ ngừn ngữ của tỏi liệu. Điểm hạn chế của cõc tiếp cận nỏy lỏ trong một số tỏi liệu đặc thỳ (như y tế, hụa học) cụ thể bỏ sụt từ khụa do chỷng chỉ xuất hiện một lần trong tỏi liệu.

1.3.1.2 Cõc phương phõp dựa trởn đồ thị

Ý tưởng cơ bản của phương phõp nỏy lỏ xĩy dựng một đồ thị từ tỏi liệu đầu vỏo vỏ xếp hạng độ quan trọng của cõc đỉnh thừng qua cõc phương phõp xõc định độ quan trọng của từ tại đỉnh đồ thị [26]. Trong đồ thị nỏy cõc đỉnh lỏ cõc từ khụa ứng cử, cõc cạnh nối hai từ cụ thể cụ hướng hoặc vừ hướng, cụ trọng số hoặc khừng cụ trọng số, gõn nhọn hoặc khừng gõn nhọn. Giõ trị trọng số của cạnh được thiết lập dựa trởn mối quan hệ như lỏ hai từ lĩn cận nhau [84], hai từ cụ quan hệ về cỷ phõp, hoặc hai từ cụ quan hệ về ngữ nghĩa

[71],[98]. Để đõnh giõ độ quan trọng của mỗi từ trởn đồ thị cõc đề xuất thường dựa trởn số lượng liởn kết đến đỉnh của đồ thị. Một số kỹ thuật chợnh được sử dụng trởn đồ thị như kỹ thuật phĩn cụm trong thuật tõn KeyGraph [98], kỹ thuật bỏ phiếu vỏ đề cử trong thuật tõn TextRank [84], kỹ thuật nhỷng từ trong thuật tõn Key2Vec [71] hay sử dụng mạng nơ ron nhĩn tạo CNN [123].

Nhận xờt: Tương tự như cõc tiếp cận theo phương phõp thống kở, cõc tiếp cận dựa trởn đồ thị khừng yởu cầu dữ liệu huấn luyện, khừng phụ thuộc vỏo miền dữ liệu vỏ ngừn ngữ của văn bản trợch rỷt từ khụa. Bởn cạnh đụ, do khừng phải xõc định dữ liệu thuộc tợnh (annotation) cũng như khối lượng tợnh tõn ợt cho việc tiền xử lý dữ liệu cho tỏi liệu đầu vỏo nởn cõc đề xuất dựa trởn đồ thị cụ tốc độ tợnh tõn nhanh. Ngoỏi ra, do phải tợnh tõn đệ quy nởn cõc thuật tõn dựa trởn độ thị phỳ hợp với cõc văn bản ngắn như dạng tin tức, khi độ dỏi văn bản cỏng lớn thớ thời gian tợnh tõn cỏng lĩu.

1.3.1.3 Cõc nghiởn cứu theo hướng học mõy

Theo hướng học mõy, cõc tiếp cận cho việc tự động trợch rỷt từ khụa được chia thỏnh hai hướng chợnh: học khừng giõm sõt vỏ học cụ giõm sõt.

Cõc phương thức học khừng giõm sõt chủ yếu dựa trởn cõc độ đo TF-IDF, thuật tõn phĩn cụm hay dựa trởn phương phõp đồ thị [62],[112]. Hai cừng bố gần đĩy theo hướng học khừng giõm sõt sử dụng kỹ thuật trợch rỷt đặc trưng YAKE! [27] vỏ sử dụng phương phõp đồ thị RaKUn [123] cho thấy đĩy lỏ cõc cõch tiếp cận hiệu quả vỏ cụ nhiều ưu điểm so với cõc đề xuất trước đĩy.

Cõc tiếp cận theo hướng học cụ giõm sõt thường quy về giải bỏi tõn phĩn lớp. Theo cõch tiếp cận nỏy, một phần kho ngữ liệu đọ gõn nhọn (đọ được trợch rỷt từ khụa theo cõch thủ cừng) được sử dụng cho mục đợch huấn luyện mừ hớnh. Mừ hớnh nỏy được õp dụng để lựa chọn từ khụa trởn tập dữ liệu chưa gõn nhọn. Cõc nghiởn cứu học cụ giõm sõt truyền thống chủ yếu khai thõc tợnh hiệu quả của cõc thuật tõn học mõy như SVM [145], Naủve Bayes [76],[142], cĩy quyết định [76],[135],[142].

Turney vỏ Peter [135] lần đầu tiởn sử dụng mừ hớnh học cụ giõm sõt cho bỏi tõn trợch rỷt từ khụa. Theo tõc giả, tất cả cõc từ hoặc cụm từ trong văn bản đều cụ khả năng lỏ từ khụa nhưng chỉ cụ một số từ hoặc cụm từ khớp với cõc từ khụa do con người xõc định.

Turney đề xuất thuật tõn GenEx sử dụng cĩy quyết định C4.5 cho mục đợch huấn luyện. Witten vỏ cộng sự [142] đề xuất thuật tõn KEA sử dụng thuật tõn học mõy Naủve Bayes để huấn luyện trởn ma trận đặc trưng đầu vỏo gồm hai tham số lỏ trọng số TF-IDF vỏ vị trợ xuất hiện đầu tiởn của từ trong văn bản. GenEx vỏ KEA lỏ hai thuật tõn hết sức quan trọng lỏ nền tảng cho nhiều thuật tõn trợch rỷt từ khụa sau nỏy.

Medelyan vỏ Witten [76] đọ đề xuất phương phõp KEA++ lỏ một phiởn bản cải tiến của thuật tõn KEA[142]. Trong đề xuất nỏy tõc giả đọ khai thõc thừng tin ngữ nghĩa của cõc từ vỏ cụm từ dựa trởn từ đồng nghĩa để bổ sung đặc trưng cho thuật tõn gốc.

Kỹ thuật trợch rỷt đặc trưng dựa trởn cõc đặc trưng thống kở, ngữ nghĩa, cỷ phõp được sử dụng để tạo ra đầu vỏo cho cõc thuật tõn học mõy nhận được sự quan tĩm của nhiều tõc giả [20],[35],[56],[63],[142]. Theo phương phõp tiếp cận nỏy, chất lượng của bộ đặc trưng vỏ thuật tõn học mõy được lựa chọn đụng vai trú quyết định chất lượng của từ khụa thu được.

Nhận xờt: Nhớn chung, cõc tiếp cận theo hướng học khừng giõm sõt cụ ưu điểm lỏ khừng yởu cầu dữ liệu huấn luyện vỏ khừng phụ thuộc vỏo miền dữ liệu của tệp trợch rỷt. Điểm hạn chế của cõc tiếp cận nỏy lỏ từ khụa phụ thuộc vỏo độ dỏi vỏ chất lượng tệp dữ liệu. Trởn một miền dữ liệu cụ thể, cõc tiếp cận học cụ giõm sõt thu được kết quả tốt hơn, tuy nhiởn việc lựa chọn mừ hớnh sử dụng cho việc huấn luyện vỏ dự đõn cụ ảnh hướng lớn đến chất lượng của từ khụa thu được.

1.2.1.4 Cõc nghiởn cứu theo hướng học sĩu

Tiếp cận theo hướng học sĩu, nghiởn cứu [80],[81],[131],[143],[146] đọ đề xuất cõc mừ hớnh học sĩu kết hợp với cõc cơ chế chỷ ý (attention) hoặc tự chỷ ý (self-attention) để trợch xuất cõc từ khụa trong văn bản. Khõc với cõc thuật tõn học cụ giõm sõt như SVM, Naủve Bayes, cĩy quyết định,... cõc thuật tõn học sĩu sử dụng cơ chế tự động trợch rỷt đặc trưng văn bản lỏm đầu vỏo cho mừ hớnh như mừ hớnh như BERT kết hợp với cơ chế attention [131], mạng hồi quy RNN [80], Seq2Seq [81] hay One2Seq [143].

Năm 2020, Zhang vỏ cộng sự [146] đề xuất mừ hớnh mở rộng của mừ hớnh LSTM, gọi lỏ tc-LSTM, sử dụng cơ chế self-attention [136] để trợch rỷt thừng tin

ở mức độ cĩu vỏ sử dụng để xõc định từ khụa. Nghiởn cứu của Tang vỏ cộng sự [131] đọ đề xuất mừ hớnh BERT kết hợp với cơ chế attention để trợch xuất từ khụa. Giải phõp được thử nghiệm vỏ cho kết quả tốt trởn dữ liệu y học cụ đặc điểm chứa nhiều chữ viết tắt, lỗi chợnh tả vỏ cĩu khừng cụ cấu trỷc.

Năm 2017, Meng vỏ cộng sự [81] đề xuất phương phõp CopyRNN dựa trởn mừ hớnh RNN để dự đõn cụm từ khụa vỏ sử dụng cơ chế sao chờp trong mừ hớnh RNN để dự đõn cõc cụm từ khụa hiếm (từ khụa khừng xuất hiện trong văn bản đầu vỏo). Năm 2018, Yuan [143] vỏ cộng sự đề xuất phương phõp CatSeqD [143] dựa trởn mừ hớnh One2Seq kết hợp hai cơ chế tõc động vỏo mừ hớnh để sinh ra cõc từ khụa khõc nhau cụ sự tương đồng về mặt ngữ nghĩa của văn bản nguồn. Hai phương phõp CopyRNN vỏ CatSeqD được sử dụng để so sõnh với kết quả của phương phõp đề xuất trong luận õn.

Nhận xờt: Ưu điểm của cõc đề xuất trợch rỷt từ khụa dựa trởn cõc mừ hớnh học sĩu lỏ độ chợnh xõc thường cao hơn cõc đề xuất theo cõc hướng nghiởn cứu khõc. Tuy nhiởn, phương phõp nỏy đúi hỏi dữ liệu huấn luyện lớn vỏ cõc từ khụa cần được xõc định thủ cừng trởn mỗi tỏi liệu dỳng cho việc huấn luyện.

Tụm lại, qua những phĩn tợch trởn cho thấy đọ cụ nhiều mừ hớnh vỏ thuật tõn được đề xuất cho bỏi tõn trợch rỷt từ khụa. Trong đụ, cõc phương phõp dựa trởn thống kở vỏ đồ thị cụ ưu điểm lỏ tốc độ truy xuất nhanh vỏ khừng đúi hỏi dữ liệu huấn luyện. Tuy nhiởn, cõc phương phõp nỏy độ chợnh xõc khừng cao. Bởn cạnh đụ, cõc phương phõp học mõy vỏ học sĩu cụ độ chợnh xõc cao hơn nhưng yởu cầu phải cụ dữ liệu gõn nhọn phục vụ huấn luyện mừ hớnh. Việc kết hợp giữa mừ hớnh học sĩu vỏ kỹ thuật trợch rỷt đặc trưng [27] đọ vỏ đang mang lại nhiều kết quả khả thi cho bỏi tõn trợch rỷt từ khụa.

Một phần của tài liệu Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt (Trang 34 - 38)

Tải bản đầy đủ (PDF)

(173 trang)