Cõc kỹ thuật phõt hiện sao chờp phõt triển rất sớm từ những năm 1927 tuy nhiởn phải đến sau năm 2000 cõc kỹ thuật phõt hiện sao chờp mới được định hớnh một cõch rử nờt với nhiều phương thức tiếp cận khõc nhau như cõc phương phõp dựa trởn phĩn tợch từ, ngữ nghĩa, thừng tin trợch dẫn, vỏ gần đĩy lỏ cõc phương
phõp dựa trởn học mõy vỏ học sĩu.
1.3.2.1 Cõc nghiởn cứu dựa trởn phĩn tợch từ
Cõc nghiởn cứu theo hướng tiếp cận nỏy thường õp dụng cõc thuật tõn so khớp chuỗi vỏ mừ hớnh khừng gian vờc tơ để giải quyết bỏi tõn phõt hiện sao chờp toỏn cục. Trong bỏi tõn phõt hiện sao chờp, để thực hiện tớm kiếm cõc cặp đoạn tương đồng bằng phương phõp so khớp chuỗi, cõc hệ thống phõt hiện sao chờp thường mừ hớnh hụa tỏi liệu đầu vỏo thỏnh cõc mừ hớnh hậu tố lưu trữ cõc đoạn của văn bản đầu vỏo vỏ tập văn bản nguồn. Hệ thống sẽ thực hiện kiểm tra từng phần của văn bản đầu vỏo với mỗi phần văn bản trong tỏi liệu nguồn [5],[21],[25],[128],[151].
Mừ hớnh khừng gian vờc tơ coi văn bản lỏ một tập hợp phần tử khừng cụ thứ tự, biểu diễn mỗi phần tử từ, cĩu hoặc đoạn lỏ một vờc tơ vỏ so sõnh cõc vờc tơ bằng độ đo Cosin. Ứng dụng mừ hớnh khừng gian vờc tơ vỏo bỏi tõn phõt hiện sao chờp được thực hiện ở nhiều cấp độ khõc nhau như toỏn văn bản [34],[37],[54], mức cĩu [52],[87]. Cõc phần tử của trong mừ hớnh cụ thể lỏ cõc từ [37], cĩu [52],[87] hoặc n-gram [34]. Để đõnh giõ mức độ giống nhau giữa cõc vờc tơ, cõc đề xuất [37],[52],[87] sử dụng độ đo Cosin.
Nhận xờt: Điểm mạnh của phương phõp so khớp chuỗi lỏ độ chợnh xõc trong việc xõc định đoạn văn bản nghi ngờ sao chờp. Hạn chế của phương phõp nỏy lỏ khụ phõt hiện ra cõc trường hợp sao chờp theo ngữ nghĩa. Ngoỏi ra, do phải thực hiện xĩy dựng mừ hớnh hậu tố nởn khừng gian lưu trữ vỏ thời gian tợnh tõn lớn hơn rất nhiều so với văn bản gốc [66].
Mừ hớnh khừng gian vờc tơ õp dụng cho bỏi tõn phõt hiện sao chờp lỏ phương phõp tiếp cận khõ hiệu quả giải quyết cõc trường hợp sao chờp nguyởn văn. Tuy nhiởn, do khi xĩy dựng mừ hớnh khừng gian vờc tơ, yếu tố thứ tự của cõc từ trong văn bản khừng được duy trớ nởn mất đi yếu tố ngữ nghĩa vỏ thừng tin ngữ cảnh của cĩu dẫn đến hiệu quả phõt hiện thấp trong cõc trường hợp sao chờp theo ngữ nghĩa.
1.3.2.2 Cõc nghiởn cứu dựa trởn ngữ nghĩa
tĩm rất lớn từ cộng đồng nghiởn cứu với mục đợch giải quyết cõc trường hợp sao chờp dựa trởn ngữ nghĩa. Cõc tiếp cận dựa trởn ngữ nghĩa đưa ra giả thuyết rằng độ tương đồng của hai đoạn văn bản phụ thuộc vỏo độ tương đồng cõc đơn vị từ, cĩu tạo nởn đoạn văn bản đụ. Dựa trởn giả thuyết đụ, nghiởn cứu của Mohammad [9] sử dụng cõc đặc tợnh về từ đồng nghĩa, trõi nghĩa trong mạng từ để xõc định độ tương đồng của hai đoạn văn bản hoặc thay thế cõc từ đồng nghĩa bằng một từ nhằm giảm kợch thước của mừ hớnh khừng gian vờc tơ [113].
Semantic Role Labeling (SRL), tạm dịch lỏ Gõn nhọn vai trú ngữ nghĩa, xõc định vai trú ngữ nghĩa của cõc từ trong một cĩu thuộc chủ ngữ, vị ngữ hay động từ vỏ quan hệ giữa cõc từ. Mục tiởu của phương phõp lỏ trợch xuất ra cấu trỷc “ai” đọ lỏm “cõi gớ” với “ai” “ở đĩu” vỏ “khi nỏo” [102]. Về bản chất, gõn nhọn vai trú ngữ nghĩa chỉ lỏ một bước xử lý trung gian trong một bỏi tõn cụ thể như tụm tắt văn bản, dịch mõy. Tuy nhiởn, đĩy lại lỏ một bước cần thiết khừng thể bỏ qua trong cõc ứng dụng liởn quan đến ngừn ngữ tự nhiởn. Ứng dụng SRL cho bỏi tõn phõt hiện đoạn sao chờp, Paul vỏ Jamal [102] đọ sử dụng SRL kết hợp với xếp hạng cĩu để phõt hiện sao chờp cấp độ tỏi liệu. Osman vỏ cộng sự [99] đọ sử dụng SRL để trợch xuất thừng tin từ cõc cĩu để định lượng vỏ so sõnh sự giống nhau về cỷ phõp vỏ ngữ nghĩa giữa cõc cĩu. Ferreira vỏ cộng sự [41] đề xuất phương phõp học cụ giõm sõt sử dụng kỹ thuật trợch rỷt cõc đặc trưng tương đồng từ vựng, cỷ phõp vỏ ngữ nghĩa, đồng thời sử dụng cõc thuật tõn học mõy khõc nhau như Naủve Bayes, RBF, cĩy quyết định C4.5 vỏ SVM để xõc định cõc đoạn sao chờp.
Ngoỏi ra, một số tiếp cận sử dụng phương phõp phĩn tợch ngữ nghĩa tiềm ẩn LSA [38] vỏ tập nhỷng từ cho bỏi tõn phõt hiện sao chờp. Ceska [29] lần đầu õp dụng LSA cho bỏi tõn phõt hiện sao chờp. AlSallal vỏ cộng sự [11] đọ đề xuất một cõch tợnh trọng số vỏ sử dụng LSA như một đặc trưng cho bỏi tõn phõt hiện sao chờp.
Nhận xờt: Điểm mạnh của cõc nghiởn cứu phõt hiện sao chờp dựa trởn ngữ nghĩa lỏ cụ thể giải quyết được cõc trường hợp sao chờp cụ sự thay đổi về ngữ
nghĩa. Điểm hạn chế của phương phõp nỏy lỏ tốc độ xử lý chậm do phải tợnh tõn nhiều bước trung gian như xĩy dựng mừ hớnh vờc tơ hoặc trợch rỷt thừng tin ngữ nghĩa từ cõc mạng ngữ nghĩa.
1.3.2.3 Cõc nghiởn cứu dựa trởn thừng tin trợch dẫn
Phương phõp phõt hiện sao chờp dựa trởn thừng tin trợch dẫn nhằm đõnh giõ sự tương đồng giữa hai tỏi liệu dựa trởn thừng tin trợch dẫn của hai tỏi liệu đụ. Do cõc thừng tin trợch dẫn cần tuĩn thủ cõc quy định về trợch dẫn đọ được quy chuẩn nởn cụ đặc điểm lỏ khừng phụ thuộc vỏo ngừn ngữ văn bản. Nagoudi vỏ cộng sự [87] đọ đề xuất khai thõc thừng tin ngữ nghĩa cụ trong cõc mẫu trợch dẫn cho mục đợch phõt hiện sao chờp. Mẫu trợch dẫn ở đĩy lỏ chuỗi cõc trợch dẫn cỳng xuất hiện trong cả hai tỏi liệu. Để xõc định cõc mẫu trợch dẫn, Gipp Bela vỏ Beel Jữran [46] đọ đề xuất thuật tõn COA (Citation Order Analysis) dựa trởn thứ tự xuất hiện của cõc trợch dẫn trong tỏi liệu vỏ xõc suất cõc trợch dẫn cỳng xảy ra. Xõc suất mỏ cõc tỏi liệu dỳng chung cõc trợch dẫn phụ thuộc vỏo cõc yếu tố như số lượng trợch dẫn, ngỏy xuất bản, chủ đề vỏ nhụm tõc giả.
Nhận xờt: Điểm mạnh của tiếp cận dựa trởn trợch dẫn lỏ khả năng phõt hiện cõc trường hợp sao chờp dựa trởn ngữ nghĩa, thậm trợ cả khi hai văn bản khừng cỳng một ngừn ngữ. Ngoỏi ra, tiếp cận theo hướng nỏy cụ khối lượng tợnh tõn thấp hơn do chỉ xem xờt thừng tin trợch dẫn sử dụng chung giữa hai tỏi liệu. Tuy nhiởn, phương phõp nỏy cũng cụ hạn chế lỏ yởu cầu đoạn văn bản chứa tối thiểu 03 trợch dẫn trong khi cõc phương phõp phõt hiện sao chờp khõc khừng đúi hỏi việc cụ hay khừng thừng tin trợch dẫn trong đoạn văn bản cần xem xờt.
1.3.2.4 Cõc nghiởn cứu dựa trởn học mõy
ạp dụng cõc mừ hớnh học mõy cho bỏi tõn phõt hiện sao chờp, cõc tõc giả thường quy về bỏi tõn phĩn lớp để xõc định một từ hoặc cĩu thuộc đoạn văn bản sao chờp. Đầu vỏo của cõc phương phõp đề xuất cụ thể lỏ mừ hớnh khừng gian vờc tơ sử dụng kỹ thuật nhỷng từ (word embedding) [88] hoặc thực hiện trợch rỷt cõc đặc trưng về từ vựng, cỷ phõp, vỏ đặc trưng ngữ nghĩa được trợch rỷt từ cặp tỏi liệu nguồn vỏ tỏi liệu nghi ngờ sao chờp [12]. Cõc tõc giả cụ thể õp dụng một
[119], [12] hoặc kết hợp nhiều thuật tõn học mõy [88],[144] để phõt hiện cõc đoạn sao chờp giữa hai tỏi liệu.
Theo hướng học khừng giõm sõt, Palkovskii vỏ cộng sự [100] sử dụng kết hợp nhiều kỹ thuật dựa trởn n-gram gồm thừng tin ngữ cảnh xung quanh n-gram, Thực thể cụ tởn, trọng số TF-IDF mức cĩu, thuật tõn phĩn cụm thỏnh một mừ hớnh duy nhất nhằm xõc định cõc đoạn văn bản tương đồng. Sanchez-Perez vỏ cộng sự [118] đứng đầu cõc nghiởn cứu phõt hiện đoạn sao chờp trong cuộc thi PAN 2014. Trong đề xuất nỏy, tõc giả sử dụng trọng số TF-IDF để xõc định độ tương đồng giữa hai cĩu, gộp cõc cĩu cụ độ tương đồng lớn nhất thỏnh một đoạn vỏ õp dụng thuật tõn mở rộng đoạn để thu được đoạn sao chờp cuối cỳng. Glinos vỏ cộng sự [47] đề xuất phương phõp phõt hiện đoạn sao chờp õp dụng cho hai hớnh thức lỏ sao chờp nguyởn văn vỏ sao chờp cụ sự thay đổi. Với hớnh thức sao chờp nguyởn văn, tõc giả sử dụng thuật tõn giụng hỏng văn bản để xõc định đoạn sao chờp. Trường hợp khừng xõc định được đoạn sao chờp nguyởn văn, tõc giả đề xuất sử dụng lần lượt cõc thuật tõn phĩn cụm ở ba cấp độ: cơ bản (Basic clustering), từ (Word clustering) vỏ nhụm hai từ liền kề (Bigram clustering). Cõc cụm được chọn chứa đồng thời đoạn văn bản trong tỏi liệu nguồn vỏ tỏi liệu nghi ngờ sao chờp vỏ thỏa mọn điều kiện độ đo Jaccard lớn hơn một giõ trị ngưỡng xõc định trước.
Theo hướng học cụ giõm sõt, Zarrella vỏ cộng sự [144] giỏnh chiến thắng trong cuộc thi SemEval năm 2015 với nhụm bảy thuật tõn trong đụ hầu hết sử dụng học mõy. Sanchez-Vega vỏ cộng sự [119] sử dụng cõc mõy Turing để xõc định việc sao chờp nguyởn văn cũng như cõc phờp biến đổi cơ bản ở cấp độ từ (chộn, xụa, thay thế). Cõc giõ trị đầu ra của mõy Turing lỏm đầu vỏo cho thuật tõn học mõy Naủve Bayes từ đụ xõc định ra cõc đoạn văn bản sao chờp.
Cherroun vỏ cộng sự [88] đề xuất giải phõp học cụ giõm sõt cho bỏi tõn phõt hiện sao chờp cho ngừn ngữ Ả rập bao gồm hai pha xử lý ở mức cĩu vỏ mức từ sử dụng cõc thuật tõn học mõy gồm SVM, Cĩy quyết định, vỏ Random Forests. Altheneyan vỏ cộng sự [12] đọ sử dụng mừ hớnh phĩn lớp nhị phĩn
SVM trong hai giải phõp phõt hiện sao chờp ở mức cĩu lần lượt lỏ PlagLinSVM vỏ PlagRbfSVM. Đầu vỏo của mừ hớnh lỏ cõc đặc trưng về từ vựng, cỷ phõp, vỏ đặc trưng ngữ nghĩa được trợch rỷt từ cặp tỏi liệu nguồn vỏ tỏi liệu nghi ngờ sao chờp.
Theo hướng học sĩu, một số nghiởn cứu đọ õp dụng word2vec [45],[127] hoặc doc2vec [137] để biểu diễn mỗi từ hoặc mỗi đoạn thỏnh một vờc tơ đặc trưng vỏ đõnh giõ độ tương đồng giữa chỷng sử dụng độ đo Cosin. Khừng đi vỏo giải quyết bỏi tõn phõt hiện đoạn sao chờp tuy nhiởn cõc nghiởn cứu của AI-Hawawred vỏ cộng sự [7],[8] đọ cho thấy việc kết hợp giữa kỹ thuật trợch rỷt đặc trưng vỏ mừ hớnh học sĩu lỏ một giải phõp hiệu quả trong cõc trường hợp kho ngữ liệu huấn luyện cụ kợch thước hạn chế.
Baroni vỏ cõc cộng sự [19] đọ tiến hỏnh so sõnh hiệu quả của hai phương phõp học khừng giõm sõt (sử dụng phương phõp thống kở vỏ thuật tõn LSA)
vỏ học cụ giõm sõt (sử dụng phĩn lớp softmax) cho bốn bỏi tõn: bỏi tõn quan hệ ngữ nghĩa (Semantic relatedness), phõt hiện từ đồng nghĩa (Synonym detection), lựa chọn ưu tiởn (Selectional preferences) vỏ đõnh giõ độ tương tự
(Analogy). Dựa trởn cõc thử nghiệm, tõc giả kết luận phương phõp dựa trởn học cụ giõm sõt đạt kết quả vượt trội về độ chợnh xõc (precision) vỏ độ phủ (recall)
trong khi khối lượng tợnh tõn tương đương.
Nhận xờt: Qua phĩn tợch, so sõnh kết quả của cõc cõch tiếp cận học khừng giõm sõt vỏ học cụ giõm sõt cho thấy: Cõc tiếp cận dựa trởn phương phõp học khừng giõm sõt cụ ưu điểm về mặt tốc độ xử lý vỏ khừng yởu cầu dữ liệu huấn luyện. Tuy nhiởn kết quả phõt hiện sao chờp thường thấp hơn so với phương phõp học cụ giõm sõt. Bởn cạnh đụ, phương phõp kết hợp nhiều đặc trưng văn bản (từ vựng, cỷ phõp, hay ngữ nghĩa) cho kết quả tốt hơn tuy nhiởn thời gian tợnh tõn cho cõc phương phõp nỏy sẽ lĩu hơn.
1.3.2.5 Cõc nghiởn cứu dựa trởn học sĩu
Nghiởn cứu của Suleiman vỏ cộng sự [127] đề xuất sử dụng mừ hớnh word2vec [85] vỏ độ đo Cosin để xõc định độ tương đồng giữa cõc từ trong ngừn
ngữ Ả rập. Nghiởn cứu của Gharavi vỏ cộng sự [45] cũng sử dụng mừ hớnh word2vec để biểu diễn vờc tơ đặc trưng cho mỗi từ trong ngừn ngữ Ba Tư. Trong nghiởn cứu nỏy, vờc tơ đặc trưng cĩu được xõc định bằng cõch tợnh giõ trị trung bớnh của cõc vờc tơ đặc trưng từ. Mỗi vờc tơ cĩu của tỏi liệu nghi ngờ sẽ được so sõnh dựa trởn độ đo Cosin với mỗi cĩu trong tỏi liệu nguồn nhằm đõnh giõ độ tương đồng của hai cĩu vỏ lựa chọn cõc cặp cĩu cụ độ tương đồng lớn nhất.
Vrbanec vỏ cộng sự [137] sinh vờc tơ cĩu dựa trởn mừ hớnh doc2vec [67] trong khi nghiởn cứu của Sanborn vỏ cộng sự [117] sử dụng mừ hớnh Glove [103] để trợch rỷt vờc tơ đặc trưng của mỗi cĩu vỏ sử dụng độ đo Cosin để xõc định mức độ tương đồng giữa hai cĩu. Năm 2018, Facebook đọ cừng bố kỹ thuật InferSent [31] biểu diễn vờc tơ đặc trưng cĩu đạt độ chợnh xõc khõ cao khi õp dụng tợnh độ tương đồng giữa cõc cĩu. Gần đĩy, nhụm nghiởn cứu của Google đọ cừng bố một kỹ thuật tợnh tõn vỏ biểu diễn vờc tơ mức cĩu vỏ mức đoạn dựa trởn mừ hớnh BERT gọi lỏ Sentence-BERT [114]. Theo kết quả cừng bố của Reimers vỏ cộng sự [114], Sentence-BERT cụ độ chợnh xõc vượt trội so với cõc cõch tiếp cận trước đụ như Glove, FastText hay InferSent.
Tiếng Trung Quốc vỏ Nhật Bản lỏ những ngừn ngữ đơn ĩm tiết tương tự như tiếng Việt. Năm 2020, Asako Ohno vỏ cộng sự [97] õp dụng mừ hớnh Markop ẩn trong nhận dạng chữ viết tay tiếng Nhật nhằm xõc định tõc giả của một văn bản õp dụng vỏo bỏi tõn phõt hiện đạo văn cục bộ. Yuki Tanahashi vỏ cộng sự [130] ứng dụng mừ hớnh BERT tợnh độ tương đồng giữa hai văn bản tiếng Nhật õp dụng cho bỏi tõn dịch mõy. Năm 2021, Boer Lyu vỏ cộng sự [70] ứng dụng mừ hớnh mạng nơ ron đồ thị (GNN) tợnh tõn độ tương đồng giữa hai đoạn văn bản ngắn tiếng Trung Quốc.
Nhận xờt: Qua nghiởn cứu cõc đề xuất cho thấy việc so sõnh n-gram phỳ hợp cho cõc bỏi tõn phõt hiện sao chờp nguyởn văn. Cõc kỹ thuật dựa trởn mừ hớnh khừng gian vờc tơ được sử dụng rộng rọi cho nhiều ứng dụng, tuy nhiởn mừ hớnh nỏy chưa hiệu quả cho cõc bỏi tõn phõt hiện sao chờp dựa trởn ý tưởng. Cõc phương phõp dựa trởn ngữ nghĩa sử dụng mừ hớnh học mõy vỏ học sĩu đọ chứng
minh được tợnh hiệu quả khi õp dụng cho cõc bỏi tõn sao chờp ý tưởng.