1.4
Theo Alzahrani vỏ cộng sự [14] cõc tiếp cận phõt hiện sao chờp được chia thỏnh hai hướng chợnh: Phõt hiện sao chờp toỏn cục vỏ Phõt hiện sao chờp cục bộ. Cõc nghiởn cứu tổng quan về bỏi tõn nỏy [65],[82] đọ phĩn loại cõc cõch tiếp cận phõt hiện sao chờp như trởn Hớnh 1.6 trong đụ cõc nỷt lõ lỏ cõc phương
õn tiếp cận để giải quyết cõc bỏi tõn thỏnh phần.
Hớnh 1.6. Phĩn loại cõc tiếp cận phõt hiện sao chờp
Phõt hiện sao chờp toỏn cục (Global copy detection) được để xuất bởi
nhụm tõc giả Stein vỏ cộng sự [126] thực hiện kiểm tra văn bản đầu vỏo (hay cún gọi lỏ văn bản nghi ngờ sao chờp) cụ giống (toỏn bộ hoặc một phần) với cõc văn bản khõc hay khừng. Kho ngữ liệu cho phương õn tiếp cận nỏy gồm kho ngữ liệu cục bộ vỏ kho ngữ liệu trực tuyến. Thừng thường cõc hệ thống phõt hiện sao chờp thương mại như Turnitin sử dụng cả hai loại kho ngữ liệu trởn cún với cõc cừng trớnh nghiởn cứu thường sử dụng kho ngữ liệu cục bộ với mục đợch thử nghiệm.
Phõt hiện sao chờp cục bộ (Local copy detection) được đề xuất bởi nhụm
Phõt hiện sao chờp
Sao chờp cục bộ Sao chờp toỏn cục
Trợch rỷt từ khụa Phõt hiện đoạn sao chờp Học sĩu Học mõy Học sĩu Ngữ nghĩa Thừng tin trợch dẫn Đồ thị Học mõy Phĩn tợch từ Thống kở Trợch rỷt văn phong
tõc giả Meyer vỏ cộng sự [83] thực hiện phĩn tợch văn bản nghi ngờ sao chờp bằng cõch so sõnh văn phong của cõc đoạn trong văn bản cụ đồng nhất hay khừng. Theo nghiởn cứu nỏy, khi sao chờp từ cõc văn bản khõc người viết khừng sao chờp toỏn bộ nội dung mỏ lấy một số phần từ cõc văn bản khõc. Thừng thường, mỗi người cụ một văn phong khõc nhau nởn việc đối chiếu văn phong giữa cõc đoạn trong cỳng một văn bản sẽ phõt hiện ra người viết cụ đi sao chờp nội dung ở đĩu khừng. Cho đến nay đọ cụ nhiều đề xuất giải quyết bỏi tõn phõt hiện sao chờp trởn cả hai hướng đọ nởu. Trong phạm vi nghiởn cứu, luận õn tập trung phĩn tợch cõc phương phõp liởn quan đến bỏi tõn phõt hiện sao chờp toỏn cục dựa trởn mừ hớnh bỏi tõn đọ được đề xuất bởi Stein vỏ cộng sự [39]. Đĩy lỏ một mừ hớnh hiệu quả đọ cừng bố trong cuộc thi PAN lần thứ nhất vỏ được mừ tả trong Hớnh 1.7.
Trong đụ:
- Đầu vỏo: Văn bản cần truy vấn dq vỏ tập văn bản D. Qũ trớnh tớm cõc đoạn văn bản sao chờp được thực hiện thừng qua 3 bước:
+ Bước 1: Xõc định tập cõc văn bản nghi ngờ bị sao chờp Dx lỏ tập con của tập D. Mục đợch của bước nỏy nhằm thu hẹp phạm vi tớm kiếm bằng cõch trợch rỷt một tập từ khụa từ văn bản dq lỏm đầu vỏo cho mõy tớm kiếm truy vấn
trong cơ sở dữ liệu D.
Hớnh 1.7. Mừ hớnh phõt hiện sao chờp toỏn cục Với mỗi cặp tỏi liệu dq,dx với dx∈ Dx:
+ Bước 2: ạp dụng cõc kỹ thuật đo độ tương đồng để xõc định cõc đoạn trong văn bản đầu vỏo dq tương đồng với cõc đoạn trong dx.
+ Bước 3: Tiến hỏnh cõc bước hậu xử lý để tiến hỏnh trộn đoạn văn bản
Tập đoạn sao chờp (sq,sx) Hậu xử lý Tập văn bản ứng cử Dx Tớm kiếm heuristic Tập văn bản D (sq,sx): sq∈dq, sx∈dx, dx∈Dx Phĩn tợch chi tiết Văn bản dq
ngờ sao chờp. Con người sẽ kiểm tra vỏ quyết định cõc đoạn nghi ngờ cụ thực sự lỏ đạo văn hay khừng.
- Đầu ra: cõc cặp đoạn nghi ngờ sao chờp (sq,sx), trong đụ sq∈dq, sx∈dx vỏ dx∈Dx
Theo mừ hớnh đề xuất nởu trởn, để giải quyết bỏi tõn phõt hiện sao chờp toỏn cục cần giải quyết hai bỏi tõn thỏnh phần gồm:
- Bỏi tõn tớm tập tỏi liệu ứng cử: Để tớm được tập tỏi liệu ứng cử thớ
nhiệm vụ quan trọng nhất lỏ trợch rỷt cõc từ/cụm từ đại diện của tỏi liệu đầu vỏo. Tập từ nỏy được dỳng lỏm đầu vỏo mõy tớm kiếm để tớm cõc tỏi liệu liởn quan đến tỏi liệu đầu vỏo. Cõc tỏi liệu liởn quan nỏy được gọi lỏ cõc tỏi liệu ứng cử cho việc
phõt hiện sao chờp của tỏi liệu đầu vỏo.
-Bỏi tõn phõt hiện đoạn sao chờp giữa hai tỏi liệu: Nhiệm vụ của bỏi
tõn nỏy lỏ tớm cõc đoạn văn bản giống nhau giữa tỏi liệu đầu vỏo vỏ tỏi liệu ứng cử.
Trong phần sau, luận õn sẽ giới thiệu cõc cõch tiếp cận liởn quan đến hai bỏi tõn nỏy.
1.4.1 Trợch rỷt từ khụa
Trợch rỷt từ khụa nhằm tớm ra cõc từ đại diện cho một văn bản sử dụng phổ biến cho cõc bỏi tõn như tụm tắt văn bản, phĩn cụm, hoặc lỏm đầu vỏo cho mõy tớm kiếm
[149] truy vấn ra cõc tỏi liệu liởn quan đến tỏi liệu đầu vỏo.
Cõc nghiởn cứu cho bỏi tõn trợch rỷt từ khụa cụ thể chia thỏnh cõc nhụm chợnh: dựa trởn thống kở, dựa trởn đồ thị, dựa trởn học mõy, dựa trởn học sĩu.
1.4.1.1 Cõc phương phõp dựa trởn thống kở
Phương phõp chung cho cõc tiếp cận trợch rỷt từ khụa dựa trởn thống kở lỏ thực hiện gõn trọng số vỏ tợnh tõn độ quan trọng cho mỗi từ hoặc cụm từ, tiếp theo thực hiện xếp hạng dựa trởn độ quan trọng vỏ lựa chọn cõc từ khụa cụ độ quan trọng lớn nhất lỏm từ khụa [40],[51],[62],[101],[110].
Cõc phương phõp dựa trởn thống kở chủ yếu khai thõc đặc trưng ở mức từ như n- gram kết hợp với trọng số TF-IDF [40],[51] vỏ xõc định độ quan trọng của từ theo giõ trị trọng số TF-IDF. Bởn cạnh đụ, vị trợ của từ trong cõc cĩu quan trọng [51] hoặc trong cõc chủ đề [101] cũng lỏ một trong cõc tiởu chợ để lựa chọn từ khụa. Trong
nghiởn cứu của mớnh, Elizalde vỏ cộng sự [40] chỉ ra rằng việc kết hợp nhiều đặc trưng như n-grams, TF-
IDF vỏ đặc trưng từ loại sẽ cho kết quả trợch rỷt từ khụa tốt hơn.
HaCohen-Kerner vỏ cộng sự [51] đọ đề xuất phương phõp trợch rỷt từ khụa từ phần tụm tắt vỏ tiởu đề của cõc bỏi bõo. Mừ hớnh sử dụng cõc đặc trưng lỏ cõc 1- gram (unigram), 2-grams vỏ 3-grams. Để xõc định độ quan trọng của từ tõc giả đọ sử dụng hai trọng số lỏ tần suất xuất hiện của từ vỏ độ quan trọng của cĩu chứa từ đụ. Theo tõc giả, một cĩu được xem lỏ quan trọng hơn nếu nụ nằm ở vị trợ tiởu đề văn bản, tiởu đề của đoạn hoặc cĩu chứa cõc cụm từ đặc biệt như “bỏi tõn”, “giả thiết”, “kết quả”, “kết luận”, Nhụm từ cụ trọng
số cao nhất sẽ được lựa chọn lỏ từ khụa.
Kim vỏ cừng sự [62] đề xuất giải phõp trợch rỷt từ khụa sử dụng trọng số TF- IDF vỏ thuật tõn n-gram với n lần lượt bằng 1, 2 vỏ 3. Cũng sử dụng TF-IDF, Rafiei vỏ cộng sự [112] chia văn bản thỏnh nhiều đoạn vỏ tớm từ khụa trởn mỗi đoạn, gọi lỏ từ khụa đoạn. Theo Rafiei, một từ được xõc định lỏ từ khụa của một đoạn nếu nụ quan trọng trong đoạn vỏ trong văn bản.
Năm 2020, Campos vỏ cộng sự [27] đọ đề xuất thuật tõn YAKE! sử dụng cõc đặc trưng về thống kở để xõc định cõc từ khụa. YAKE! đề xuất sử dụng 5 đặc trưng mức từ gồm (1) viết hoa/thường, (2) vị trợ từ, (3) tần suất xuất hiện của từ, (4) thừng tin ngữ cảnh của từ vỏ (5) từ trong cõc cĩu khõc nhau. Độ quan trọng của mỗi từ được xõc định dựa trởn cõc trọng số của mỗi đặc trưng.
Nhận xờt: Cõc tiếp cận dựa trởn thống kở cụ ưu điểm lỏ khừng phụ thuộc vỏo miền dữ liệu vỏ ngừn ngữ của tỏi liệu. Điểm hạn chế của cõc tiếp cận nỏy lỏ trong một số tỏi liệu đặc thỳ (như y tế, hụa học) cụ thể bỏ sụt từ khụa do chỷng chỉ xuất hiện một lần trong tỏi liệu.
1.4.1.2 Cõc phương phõp dựa trởn đồ thị
Ý tưởng cơ bản của phương phõp nỏy lỏ xĩy dựng một đồ thị từ tỏi liệu đầu vỏo vỏ xếp hạng độ quan trọng của cõc đỉnh thừng qua cõc phương phõp xõc định độ quan trọng của từ tại đỉnh đồ thị [26]. Trong đồ thị nỏy cõc đỉnh lỏ cõc từ khụa ứng cử, cõc cạnh nối hai từ cụ thể cụ hướng hoặc vừ hướng, cụ trọng số hoặc khừng cụ trọng số, gõn nhọn hoặc khừng gõn nhọn. Giõ trị trọng số của cạnh được thiết lập dựa trởn mối quan hệ như lỏ hai từ lĩn cận nhau [84], hai từ cụ quan hệ về cỷ phõp, hoặc hai từ cụ quan hệ về ngữ nghĩa
[71],[98]. Để đõnh giõ độ quan trọng của mỗi từ trởn đồ thị cõc đề xuất thường dựa trởn số lượng liởn kết đến đỉnh của đồ thị. Một số kỹ thuật chợnh được sử dụng trởn đồ thị như kỹ thuật phĩn cụm trong thuật tõn KeyGraph [98], kỹ thuật bỏ phiếu vỏ đề cử trong thuật tõn TextRank [84], kỹ thuật nhỷng từ trong thuật tõn Key2Vec [71] hay sử dụng mạng nơ ron nhĩn tạo CNN [123].
Nhận xờt: Tương tự như cõc tiếp cận theo phương phõp thống kở, cõc tiếp cận dựa trởn đồ thị khừng yởu cầu dữ liệu huấn luyện, khừng phụ thuộc vỏo miền dữ liệu vỏ ngừn ngữ của văn bản trợch rỷt từ khụa. Bởn cạnh đụ, do khừng phải xõc định dữ liệu thuộc tợnh (annotation) cũng như khối lượng tợnh tõn ợt cho việc tiền xử lý dữ liệu cho tỏi liệu đầu vỏo nởn cõc đề xuất dựa trởn đồ thị cụ tốc độ tợnh tõn nhanh. Ngoỏi ra, do phải tợnh tõn đệ quy nởn cõc thuật tõn dựa trởn độ thị phỳ hợp với cõc văn bản ngắn như dạng tin tức, khi độ dỏi văn bản cỏng lớn thớ thời gian tợnh tõn cỏng lĩu.
1.4.1.3 Cõc nghiởn cứu theo hướng học mõy
Theo hướng học mõy, cõc tiếp cận cho việc tự động trợch rỷt từ khụa được chia thỏnh hai hướng chợnh: học khừng giõm sõt vỏ học cụ giõm sõt.
Cõc phương thức học khừng giõm sõt chủ yếu dựa trởn cõc độ đo TF-IDF, thuật tõn phĩn cụm hay dựa trởn phương phõp đồ thị [62],[112]. Hai cừng bố gần đĩy theo hướng học khừng giõm sõt sử dụng kỹ thuật trợch rỷt đặc trưng YAKE! [27] vỏ sử dụng phương phõp đồ thị RaKUn [123] cho thấy đĩy lỏ cõc cõch tiếp cận hiệu quả vỏ cụ nhiều ưu điểm so với cõc đề xuất trước đĩy.
Cõc tiếp cận theo hướng học cụ giõm sõt thường quy về giải bỏi tõn phĩn lớp. Theo cõch tiếp cận nỏy, một phần kho ngữ liệu đọ gõn nhọn (đọ được trợch rỷt từ khụa theo cõch thủ cừng) được sử dụng cho mục đợch huấn luyện mừ hớnh. Mừ hớnh nỏy được õp dụng để lựa chọn từ khụa trởn tập dữ liệu chưa gõn nhọn. Cõc nghiởn cứu học cụ giõm sõt truyền thống chủ yếu khai thõc tợnh hiệu quả của cõc thuật tõn học mõy như SVM [145], Naủve Bayes [76],[142], cĩy quyết định [76],[135],[142].
Turney vỏ Peter [135] lần đầu tiởn sử dụng mừ hớnh học cụ giõm sõt cho bỏi tõn trợch rỷt từ khụa. Theo tõc giả, tất cả cõc từ hoặc cụm từ trong văn bản đều cụ khả năng lỏ từ khụa nhưng chỉ cụ một số từ hoặc cụm từ khớp với cõc từ khụa do con người xõc định.
Turney đề xuất thuật tõn GenEx sử dụng cĩy quyết định C4.5 cho mục đợch huấn luyện. Witten vỏ cộng sự [142] đề xuất thuật tõn KEA sử dụng thuật tõn học mõy Naủve Bayes để huấn luyện trởn ma trận đặc trưng đầu vỏo gồm hai tham số lỏ trọng số TF-IDF vỏ vị trợ xuất hiện đầu tiởn của từ trong văn bản. GenEx vỏ KEA lỏ hai thuật tõn hết sức quan trọng lỏ nền tảng cho nhiều thuật tõn trợch rỷt từ khụa sau nỏy.
Medelyan vỏ Witten [76] đọ đề xuất phương phõp KEA++ lỏ một phiởn bản cải tiến của thuật tõn KEA[142]. Trong đề xuất nỏy tõc giả đọ khai thõc thừng tin ngữ nghĩa của cõc từ vỏ cụm từ dựa trởn từ đồng nghĩa để bổ sung đặc trưng cho thuật tõn gốc.
Kỹ thuật trợch rỷt đặc trưng dựa trởn cõc đặc trưng thống kở, ngữ nghĩa, cỷ phõp được sử dụng để tạo ra đầu vỏo cho cõc thuật tõn học mõy nhận được sự quan tĩm của nhiều tõc giả [20],[35],[56],[63],[142]. Theo phương phõp tiếp cận nỏy, chất lượng của bộ đặc trưng vỏ thuật tõn học mõy được lựa chọn đụng vai trú quyết định chất lượng của từ khụa thu được.
Nhận xờt: Nhớn chung, cõc tiếp cận theo hướng học khừng giõm sõt cụ ưu điểm lỏ khừng yởu cầu dữ liệu huấn luyện vỏ khừng phụ thuộc vỏo miền dữ liệu của tệp trợch rỷt. Điểm hạn chế của cõc tiếp cận nỏy lỏ từ khụa phụ thuộc vỏo độ dỏi vỏ chất lượng tệp dữ liệu. Trởn một miền dữ liệu cụ thể, cõc tiếp cận học cụ giõm sõt thu được kết quả tốt hơn, tuy nhiởn việc lựa chọn mừ hớnh sử dụng cho việc huấn luyện vỏ dự đõn cụ ảnh hướng lớn đến chất lượng của từ khụa thu được.
1.2.1.4 Cõc nghiởn cứu theo hướng học sĩu
Tiếp cận theo hướng học sĩu, nghiởn cứu [80],[81],[131],[143],[146] đọ đề xuất cõc mừ hớnh học sĩu kết hợp với cõc cơ chế chỷ ý (attention) hoặc tự chỷ ý (self-attention) để trợch xuất cõc từ khụa trong văn bản. Khõc với cõc thuật tõn học cụ giõm sõt như SVM, Naủve Bayes, cĩy quyết định,... cõc thuật tõn học sĩu sử dụng cơ chế tự động trợch rỷt đặc trưng văn bản lỏm đầu vỏo cho mừ hớnh như mừ hớnh như BERT kết hợp với cơ chế attention [131], mạng hồi quy
RNN [80], Seq2Seq [81] hay One2Seq [143].
Năm 2020, Zhang vỏ cộng sự [146] đề xuất mừ hớnh mở rộng của mừ hớnh LSTM, gọi lỏ tc-LSTM, sử dụng cơ chế self-attention [136] để trợch rỷt thừng tin
ở mức độ cĩu vỏ sử dụng để xõc định từ khụa. Nghiởn cứu của Tang vỏ cộng sự [131] đọ đề xuất mừ hớnh BERT kết hợp với cơ chế attention để trợch xuất từ khụa. Giải phõp được thử nghiệm vỏ cho kết quả tốt trởn dữ liệu y học cụ đặc điểm chứa nhiều chữ viết tắt, lỗi chợnh tả vỏ cĩu khừng cụ cấu trỷc.
Năm 2017, Meng vỏ cộng sự [81] đề xuất phương phõp CopyRNN dựa trởn mừ hớnh RNN để dự đõn cụm từ khụa vỏ sử dụng cơ chế sao chờp trong mừ hớnh RNN để dự đõn cõc cụm từ khụa hiếm (từ khụa khừng xuất hiện trong văn bản đầu vỏo). Năm 2018, Yuan [143] vỏ cộng sự đề xuất phương phõp CatSeqD [143] dựa trởn mừ hớnh One2Seq kết hợp hai cơ chế tõc động vỏo mừ hớnh để sinh ra cõc từ khụa khõc nhau cụ sự tương đồng về mặt ngữ nghĩa của văn bản nguồn. Hai phương phõp CopyRNN vỏ CatSeqD được sử dụng để so sõnh với kết quả của phương phõp đề xuất trong luận õn.
Nhận xờt: Ưu điểm của cõc đề xuất trợch rỷt từ khụa dựa trởn cõc mừ hớnh học sĩu lỏ độ chợnh xõc thường cao hơn cõc đề xuất theo cõc hướng nghiởn cứu khõc. Tuy nhiởn, phương phõp nỏy đúi hỏi dữ liệu huấn luyện lớn vỏ cõc từ khụa cần được xõc định thủ cừng trởn mỗi tỏi liệu dỳng cho việc huấn luyện.
Tụm lại, qua những phĩn tợch trởn cho thấy đọ cụ nhiều mừ hớnh vỏ thuật tõn được đề xuất cho bỏi tõn trợch rỷt từ khụa. Trong đụ, cõc phương phõp dựa trởn thống kở vỏ đồ thị cụ ưu điểm lỏ tốc độ truy xuất nhanh vỏ khừng đúi hỏi dữ liệu huấn luyện. Tuy nhiởn, cõc phương phõp nỏy độ chợnh xõc khừng cao. Bởn cạnh đụ, cõc phương phõp học mõy vỏ học sĩu cụ độ chợnh xõc cao hơn nhưng yởu cầu phải cụ dữ liệu gõn nhọn phục vụ huấn luyện mừ hớnh. Việc kết hợp giữa mừ hớnh học sĩu vỏ kỹ thuật trợch rỷt đặc trưng [27] đọ vỏ đang mang lại nhiều kết quả khả thi cho bỏi tõn trợch rỷt từ khụa.
1.4.2 Phõt hiện đoạn sao chờp
Cõc kỹ thuật phõt hiện sao chờp phõt triển rất sớm từ những năm 1927 tuy nhiởn phải đến sau năm 2000 cõc kỹ thuật phõt hiện sao chờp mới được định hớnh một cõch rử nờt với nhiều phương thức tiếp cận khõc nhau như cõc phương phõp dựa trởn phĩn tợch từ, ngữ nghĩa, thừng tin trợch dẫn, vỏ gần đĩy lỏ cõc phương
phõp dựa trởn học mõy vỏ học sĩu.
1.4.2.1 Cõc nghiởn cứu dựa trởn phĩn tợch từ
Cõc nghiởn cứu theo hướng tiếp cận nỏy thường õp dụng cõc thuật tõn