Theo Alzahrani vỏ cộng sự [14] cõc tiếp cận phõt hiện sao chờp được chia thỏnh hai hướng chợnh: Phõt hiện sao chờp toỏn cục vỏ Phõt hiện sao chờp cục bộ. Cõc nghiởn cứu tổng quan về bỏi tõn nỏy [65],[82] đọ phĩn loại cõc cõch tiếp cận phõt hiện sao chờp như trởn Hớnh 1.6 trong đụ cõc nỷt lõ lỏ cõc phương õn tiếp cận để giải quyết cõc bỏi tõn thỏnh phần.
Sao chờp cục bộ Phõt hiện sao chờp Sao chờp toỏn cục Trợch rỷt từ khụa Phõt hiện đoạn sao chờp Thống kở Đồ thị Học mõy Học sĩu Phĩn tợch từ Ngữ nghĩa Thừng tin trợch dẫn Học mõy Học sĩu Trợch rỷt văn phong
Hớnh 1.6. Phĩn loại cõc tiếp cận phõt hiện sao chờp
Phõt hiện sao chờp toỏn cục (Global copy detection) được để xuất bởi
nhụm tõc giả Stein vỏ cộng sự [126] thực hiện kiểm tra văn bản đầu vỏo (hay cún gọi lỏ văn bản nghi ngờ sao chờp) cụ giống (toỏn bộ hoặc một phần) với cõc văn bản khõc hay khừng. Kho ngữ liệu cho phương õn tiếp cận nỏy gồm kho ngữ liệu cục bộ vỏ kho ngữ liệu trực tuyến. Thừng thường cõc hệ thống phõt hiện sao chờp thương mại như Turnitin sử dụng cả hai loại kho ngữ liệu trởn cún với cõc cừng trớnh nghiởn cứu thường sử dụng kho ngữ liệu cục bộ với mục đợch thử nghiệm.
tõc giả Meyer vỏ cộng sự [83] thực hiện phĩn tợch văn bản nghi ngờ sao chờp bằng cõch so sõnh văn phong của cõc đoạn trong văn bản cụ đồng nhất hay khừng. Theo nghiởn cứu nỏy, khi sao chờp từ cõc văn bản khõc người viết khừng sao chờp toỏn bộ nội dung mỏ lấy một số phần từ cõc văn bản khõc. Thừng thường, mỗi người cụ một văn phong khõc nhau nởn việc đối chiếu văn phong giữa cõc đoạn trong cỳng một văn bản sẽ phõt hiện ra người viết cụ đi sao chờp nội dung ở đĩu khừng. Cho đến nay đọ cụ nhiều đề xuất giải quyết bỏi tõn phõt hiện sao chờp trởn cả hai hướng đọ nởu. Trong phạm vi nghiởn cứu, luận õn tập trung phĩn tợch cõc phương phõp liởn quan đến bỏi tõn phõt hiện sao chờp toỏn cục dựa trởn mừ hớnh bỏi tõn đọ được đề xuất bởi Stein vỏ cộng sự [39]. Đĩy lỏ một mừ hớnh hiệu quả đọ cừng bố trong cuộc thi PAN lần thứ nhất vỏ được mừ tả trong Hớnh 1.7.
Trong đụ:
- Đầu vỏo: Văn bản cần truy vấn dq vỏ tập văn bản D. Qũ trớnh tớm cõc đoạn văn bản sao chờp được thực hiện thừng qua 3 bước:
+ Bước 1: Xõc định tập cõc văn bản nghi ngờ bị sao chờp Dxlỏ tập con của tập D. Mục đợch của bước nỏy nhằm thu hẹp phạm vi tớm kiếm bằng cõch trợch rỷt một tập từ khụa từ văn bản dq lỏm đầu vỏo cho mõy tớm kiếm truy vấn trong cơ sở dữ liệu D.
Hớnh 1.7. Mừ hớnh phõt hiện sao chờp toỏn cục Với mỗi cặp tỏi liệu dq,dx với dx∈ Dx:
+ Bước 2: ạp dụng cõc kỹ thuật đo độ tương đồng để xõc định cõc đoạn trong văn bản đầu vỏo dq tương đồng với cõc đoạn trong dx.
+ Bước 3: Tiến hỏnh cõc bước hậu xử lý để tiến hỏnh trộn đoạn văn bản liền kề nhau ở bước 2 thỏnh cõc đoạn lớn hơn thu được kết quả lỏ cõc đoạn nghi
Văn bản dq Tập văn bản D Tập văn bản ứng cử Dx Tớm kiếm heuristic Phĩn tợch chi tiết Hậu xử lý Tập đoạn sao chờp (sq,sx) (sq,sx): sq∈dq, sx∈dx, dx∈Dx
ngờ sao chờp. Con người sẽ kiểm tra vỏ quyết định cõc đoạn nghi ngờ cụ thực sự lỏ đạo văn hay khừng.
- Đầu ra: cõc cặp đoạn nghi ngờ sao chờp (sq,sx), trong đụ sq∈dq, sx∈dx vỏ dx∈Dx
Theo mừ hớnh đề xuất nởu trởn, để giải quyết bỏi tõn phõt hiện sao chờp toỏn cục cần giải quyết hai bỏi tõn thỏnh phần gồm:
- Bỏi tõn tớm tập tỏi liệu ứng cử: Để tớm được tập tỏi liệu ứng cử thớ
nhiệm vụ quan trọng nhất lỏ trợch rỷt cõc từ/cụm từ đại diện của tỏi liệu đầu vỏo. Tập từ nỏy được dỳng lỏm đầu vỏo mõy tớm kiếm để tớm cõc tỏi liệu liởn quan đến tỏi liệu đầu vỏo. Cõc tỏi liệu liởn quan nỏy được gọi lỏ cõc tỏi liệu ứng cử cho việc phõt hiện sao chờp của tỏi liệu đầu vỏo.
- Bỏi tõn phõt hiện đoạn sao chờp giữa hai tỏi liệu: Nhiệm vụ của bỏi tõn nỏy lỏ tớm cõc đoạn văn bản giống nhau giữa tỏi liệu đầu vỏo vỏ tỏi liệu ứng cử.
Trong phần sau, luận õn sẽ giới thiệu cõc cõch tiếp cận liởn quan đến hai bỏi tõn nỏy.