Phõt biểu bỏi tõn tớm tập tỏi liệu ứng cử vỏ bỏi tõn trợch rỷt từ khụa

Một phần của tài liệu Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt (Trang 53 - 55)

Bỏi tõn tớm tập tỏi liệu ứng cử được định nghĩa như sau [106],[107]:

Cho một tập tỏi liệu D={d1,d2,...,dN} vỏ tỏi liệu cần kiểm tra dq, tớm tập tỏi liệu ứng cử Dx={u1,u2,...uk} với uiD lỏ tỏi liệu nghi ngờ bị tỏi liệu dq sao chờp; k lỏ số lượng tỏi liệu ứng cử.

Mừ hớnh tổng qũt cho bỏi tõn tớm tập tỏi liệu ứng cử được mừ tả như Hớnh 2.1 [106],[107]. Đầu vỏo mừ hớnh lỏ tỏi liệu dq. Mừ đul trợch rỷt từ khụa sẽ xõc định độ quan trọng của cõc từ trong tỏi liệu vỏ lựa chọn một tập từ quan trọng nhất lỏm từ khụa. Tập từ khụa sẽ lỏ đầu vỏo của mõy tớm kiếm (search engine) để truy vấn trong cơ sở dữ liệu D.

Kết quả truy vấn lỏ tập tỏi liệu ứng cử Dx gồm cõc tỏi liệu giống với tỏi liệu đầu vỏo dq

nhất. Một số nghiởn cứu tiếp tục õp dụng cõc kỹ thuật đõnh giõ trong bước lọc kết quả trởn tập tỏi liệu ứng cử Dxdựa trởn độ tương đồng giữa tỏi liệu đầu vỏo vỏ tỏi liệu nằm trong tập Dx nhằm thu được cõc tỏi liệu giống nhất với tỏi liệu đầu vỏo [40],[109]. Ngoỏi ra, cõc nghiởn cứu tớm tập tỏi liệu ứng cử trởn thế giới thường sử dụng cõc mõy tớm kiếm sẵn cụ như ChatNoir, Indri, ClueWeb, Apache Lucene nởn mõy tớm kiếm sẽ khừng phải lỏ bỏi tõn cần nghiởn cứu trong việc xĩy dựng cõc hệ thống phõt hiện sao chờp.

Hớnh 2.1. Mừ hớnh tổng qũt của bỏi tõn tớm tập tỏi liệu ứng cử

Để xuất trong Chương nỏy chỉ tập trung vỏo bước trợch rỷt từ khụa vỏ sử dụng cõc mõy tớm kiếm sẵn cụ. Luận õn cho rằng việc lọc kết quả dựa trởn độ đo tương đồng giữa tỏi liệu đầu vỏo vỏ mỗi tỏi liệu trong tập ứng cử Dx chưa đủ tin cậy để thu hẹp tập tỏi liệu ứng cử Dx. Cơ sở để đưa ra nhận định trởn do đoạn văn bản nghi ngờ sao chờp chiếm tỷ lệ nhỏ so với toỏn văn bản do đụ độ tương đồng giữa hai văn bản cụ thể khừng cao nhưng vẫn chứa đoạn văn bản nghi ngờ sao chờp. Bởn cạnh đụ, việc giới hạn số lượng tỏi liệu trong tập ứng cử Dx cụ thể dựa trởn cõc thiết lập từ mõy tớm kiếm.

Từ khụa lỏ một từ hay một cụm từ dỳng để mừ tả một cõch chợnh xõc, ngắn gọn nhất nội dung chợnh của một tỏi liệu. Trong tiếng Anh, từ khụa được thể hiện dưới nhiều thuật ngữ khõc nhau như: keyword, query term, hay tags nhưng ý nghĩa của chỷng lỏ giống nhau. Tập cõc từ khụa cụ thể coi như lỏ một bản tụm tắt đơn giản nhất của văn bản. Tập cõc từ khụa sẽ nụi lởn rử hơn ý nghĩa của văn bản đụ. Ngoỏi việc ứng dụng trong bỏi

Tập từ khụa Mõy tớm kiếm (ChatNoir, Indri, ClueWeb, Lucene) Trợch rỷt từ khụa Tập tỏi liệu ứng cử Dx Lọc kết quả Tập tỏi liệu nghi ngờ Tập tỏi liệu D Tỏi liệu đầu vỏo dq

tõn phõt hiện sao chờp, trợch rỷt từ khụa cún được sử dụng trong nhiều bỏi tõn khõc như tụm tắt văn bản, phĩn cụm tỏi liệu hay tớm kiếm chủ đề.

Từ khõi niệm từ khụa luận õn định nghĩa bỏi tõn trợch rỷt từ khụa như sau:

Cho một tỏi liệu X={x1, x2,…,xn} trong đụ xi lỏ từ thứ i trong tỏi liệu X. Tớm tập từ khụa Y={y1,y2,…,yk} với yi∈ X thỏa mọn điều kiện độ quan trọng của mỗi từ yi∈ Y khừng nhỏ hơn độ quan trọng của mọi từ zi∈ X\Y.

Thừng thường cõc phương phõp trợch rỷt từ khụa được thực hiện qua ba bước chợnh: (1) tớm tập từ khụa ứng cử từ nội dung của tỏi liệu cần trợch rỷt; (2) tợnh tõn trọng số của mỗi từ trong tập từ khụa ứng cử dựa trởn đặc trưng từ; sau đụ (3) xĩy dựng cõc mừ hớnh để lựa chọn cõc từ quan trọng nhất lỏm từ khụa.

Một phần của tài liệu Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt (Trang 53 - 55)