Trợch rỷt từ khụa dựa trởn độ đo TF-IDF cho văn bản dỏi tiếng Việt

Một phần của tài liệu Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng Việt. (Trang 134 - 142)

4.3.1.1 Đề xuất ý tưởng

Hiện nay, về lý thuyết chưa cụ khõi niệm định nghĩa văn bản ngắn vỏ văn

bản dỏi. Dựa trởn đối tượng vỏ phạm vi nghiởn cứu đọ xõc định, luận õn xem văn bản ngắn gồm cõc văn bản cụ độ dỏi tương đương với cõc bỏi bõo khoa học,

cõc bản tin, cõc bản tụm tắt cụ độ dỏi xấp xỉ 10 trang A4. Văn bản dỏi gồm cõc văn bản cụ độ dỏi lớn tương đương với cõc tỏi liệu như luận õn, luận văn, ĐATN cụ

độ dỏi xấp xỉ 70 trang A4.

Qua nghiởn cứu cõc hướng tiếp cận giải quyết bỏi tõn trợch rỷt từ khụa cho thấy cõc phương phõp đề xuất thường được thử nghiệm vỏ đõnh giõ trởn cõc kho ngữ liệu gồm cõc văn bản ngắn đọ xõc định trước cõc từ khụa (gold keys). Trong lĩnh vực học thuật cõc văn bản dỏi như luận õn tiến sĩ, luận văn thạc sĩ, ĐATN hoặc cõc bỏi khụa luận của sinh viởn cũng lỏ đối tượng dễ bị sao chờp. Do mật độ trung bớnh từ khụa trởn mỗi cĩu hoặc mỗi đoạn ợt hơn nhiều so với cõc tỏi liệu ngắn nởn việc trợch rỷt từ khụa trởn văn bản dỏi cụ mức độ phức tạp lớn hơn nhiều so với cõc văn bản ngắn. Mục tiởu của đề xuất nỏy thực hiện trợch rỷt từ khụa cho văn bản dỏi bằng cõch chia tỏi liệu đầu vỏo thỏnh nhiều đoạn nhỏ vỏ trợch rỷt từ khụa trởn mỗi đoạn. Bởn cạnh đụ, khi xem xờt yếu tố từ loại luận õn nhận thấy từ khụa cụ thể lỏ danh từ, tợnh từ, động từ, tởn thực thể, cõc từ viết tắt, …trong đụ danh từ, tợnh từ vỏ động từ chiếm tỉ lệ lớn nhất. Chợnh vớ vậy, trong kỹ thuật đề xuất luận õn tiến hỏnh chia tỏi liệu đầu vỏo thỏnh cõc đoạn vỏ trợch rỷt từ khụa đoạn. Ngoỏi ra, yếu tố từ loại lỏ tiởu chợ quan trọng để lựa chọn từ khụa trởn mỗi đoạn.

4.3.1.2 Đề xuất giải phõp

Mừ hớnh đề xuất trợch rỷt từ khụa cho văn bản dỏi tiếng Việt được trớnh bỏy như Hớnh 4.4. Tập từ khụa Tập danh từ, động từ, tợnh từ từng đoạn Động từ Tợnh từ Danh từ 3.Lựa chọn từ khụa 2.Tợnh trọng số từ vỏ xõc định từ khụa đoạn 1.Tiền xử lý dữ liệu Mừ hớnh trợch rỷt từ khụa

Mừ hớnh đề xuất được thực hiện qua 3 bước gồm: (1) tiền xử lý dữ liệu, (2) tợnh trọng số vỏ xõc định từ khụa đoạn, (3) lựa chọn từ khụa. Do tỏi liệu đầu vỏo lỏ một tệp văn bản thừ dạng word hoặc pdf bao gồm cả cõc hớnh vẽ, bảng biểu vỏ ký hiệu tõn học nởn trong bước tiền xử lý, luận õn thực hiện loại bỏ cõc thừng tin nỏy nhằm thu được văn bản thuần, tõch đoạn, tõch cĩu, tõch từ vỏ gõn nhọn từ loại trởn mỗi đoạn. Kết quả của bước tiền xử lý sẽ thu được một tập từ được gõn nhọn từ loại trởn mỗi đoạn. Tập từ nỏy được sử dụng trong bước tiếp theo để xõc định hai loại trọng số trởn mỗi từ. Cuối cỳng, từ khụa được lựa chọn dựa trởn hai loại trọng số vỏ đặc điểm từ loại của từ. Chi tiết cõc bước xử lý được trớnh bỏy dưới đĩy.

a. Tiền xử lý dữ liệu

Tập tỏi liệu mỏ luận õn sử dụng lỏ cõc ĐATN được lưu trữ dưới dạng tệp .doc, .docx vỏ .pdf. Đĩy được xem lỏ cõc dữ liệu thừ. Trong bỏi tõn trợch rỷt từ khụa, cừng việc xử lý dữ liệu trước khi đưa vỏo cõc mừ hớnh lỏ rất cần thiết nhằm loại bỏ đi cõc dữ liệu khừng quan trọng sử dụng cho cõc bước xử lý tiếp theo. Cõc cừng việc cụ thể của tiền xử lý dữ liệu cho bỏi tõn trợch rỷt từ khụa thực hiện trởn một tệp dữ liệu bao gồm:

-Lỏm sạch dữ liệu, tõch đoạn: Đối tượng trợch rỷt từ khụa lỏ dữ liệu dạng văn bản (text), do vậy dữ liệu dạng bảng, số, hớnh vẽ, vỏ cõc ký tự khừng nằm trong bảng chữ cõi tiếng Việt cần bị loại bỏ. Nội dung chợnh của một ĐATN gồm 3 phần chợnh lỏ Giới thiệu chung, Nội dung vỏ Kết luận. Trong mỗi nội dung cụ thể được chia thỏnh cõc tiểu mục nhỏ. Phĩn tợch chi tiết dữ liệu thuần văn bản thu được cho thấy đa phần nội dung trong mỗi tiểu mục cụ độ dỏi trong khoảng một trang A4 (khoảng 30 dúng, mỗi dúng khoảng 15-18 tiếng). Do đụ, luận õn thực hiện tõch đoạn vỏ chia tỏi liệu thỏnh cõc đoạn chẵn cĩu cụ độ dỏi xấp xỉ 500 tiếng.

-Tõch từ vỏ gõn nhọn từ loại trởn mỗi đoạn. b.Tợnh trọng số vỏ xõc định từ khụa đoạn

Cõc đề xuất cho bỏi tõn trợch rỷt từ khụa chủ yếu tập trung vỏo phương phõp xõc định trọng số của mỗi từ trong tỏi liệu. Trong đề xuất nỏy, luận õn xem một tỏi liệu dỏi lỏ sự kết hợp của nhiều đoạn văn bản. Do đụ, từ khụa của tỏi liệu lỏ tập hợp của cõc từ khụa đoạn. Bởn cạnh đụ, luận õn nhận thấy cụ những từ quan trọng trong văn bản nhưng trong

một số đoạn cụ thể từ đụ lại ợt xuất hiện. Vớ vậy, bởn cạnh cõc từ khụa của đoạn văn bản, luận õn cún sử dụng cả những từ khụa của toỏn văn bản.

i) Tợnh trọng số của từ

TF-IDF lỏ phương phõp quan trọng để xõc định độ quan trọng của một từ trong văn bản. Để xõc định độ quan trọng của một từ luận õn đề xuất sử dụng hai loại trọng số TF-IDF dựa trởn toỏn bộ văn bản vỏ dựa trởn đoạn văn bản. Hai loại trọng số được sử dụng cụ thể lỏ:

1. tf-idf1: với tf lỏ số lần xuất hiện của từ trong đoạn, idf1 lỏ nghịch đảo số

lần xuất hiện của từ trong tỏi liệu thuần.

2. tf-idf2: với tf lỏ số lần xuất hiện của từ trong đoạn, idf2 lỏ nghịch đảo số

lần xuất hiện của từ trong kho tỏi liệu.

Cụ thể như sau, xờt từ wij lỏ từ thứ i trong đoạn j

− 1

�� ��� �,�= �����∗ ���1�

�����lỏ tần suất xuất hiện của từ thứ i trong đoạn j được tợnh theo cừng thức 4.2. idf1i lỏ tần suất xuất hiện nghịch đảo của từ wij trong tỏi liệu thuần tợnh theo

cừng thức 4.3.

�����,� �����=

��� ����

� �,�

freqi,j lỏ số lần xuất hiện của từ wij

� 1

��� � = log

� �

với N lỏ số đoạn của văn bản; ni lỏ số đoạn của văn bản chứa từ wij

− 2

�� ��� �,�= �����∗ ���2�

idf2i lỏ tần suất xuất hiện nghịch đảo của từ wij trong kho ngữ liệu văn bản.

� 2

��� � = ���

� �

với M lỏ số lượng văn bản trong kho ngữ liệu; mi lỏ số văn bản chứa từ wij

c. Lựa chọn từ khụa

Để đảm bảo tốc độ tớm kiếm cõc mõy tớm kiếm luừn cấu hớnh để giới hạn số từ khụa đầu vỏo (như ChatNoir [108] cho phờp 10 từ khụa, Apache Lucene

[152] cho phờp 1.024 từ khụa). Khi số lượng từ khụa cỏng lớn thớ kết quả tớm kiếm cỏng chợnh xõc nhưng thời gian tớm kiếm cỏng nhiều. Do vậy, để đảm bảo cĩn bằng giữa độ chợnh xõc, thời gian tớm kiếm vỏ giới hạn của mõy tớm kiếm luận õn lựa chọn số lượng từ khụa trởn mỗi đoạn lỏ k=30.

Một từ được xõc định lỏ từ khụa của một đoạn nếu nụ quan trọng trong đoạn vỏ trong văn bản. Qua thử nghiệm luận õn lựa chọn 10 từ khụa cụ giõ trị trọng số đoạn vỏ trọng số trởn văn bản cao nhất vỏ lựa chọn cõc từ khụa trong 3 cĩu quan trọng nhất cho đến khi đạt đủ số lượng từ khụa cần trợch rỷt. Cõc bước lựa chọn từ khụa cho một đoạn trong văn bản sau khi tợnh tf-idf1 vỏ tf-idf2 cho tất cả cõc từ trong đoạn như sau:

1. Chọn 10 từ cụ tf-idf1 vỏ 10 từ cụ tf-idf2 cao nhất

2. Xõc định cõc cĩu quan trọng: cĩu được xõc định lỏ quan trọng nếu nụ chứa cả từ cụ tf-idf1 vỏ tf-idf2 lựa chọn ở bước trởn. Lấy 3 cĩu cụ tf-idf1 vỏ tf-

idf2 cao nhất vỏ trợch rỷt từ khụa theo trớnh tự sau đến khi số từ khụa thu được

bằng k:

- Cõc danh từ cụ giõ trị tf-idf1 từ cao xuống thấp - Cõc tợnh từ cụ giõ trị tf-idf1 từ cao xuống thấp - Cõc động từ cụ giõ trị tf-idf1 từ cao xuống thấp

Đầu ra của thuật tõn lỏ tập từ khụa sẽ sử dụng để sinh ra cĩu truy vấn tớm tập tỏi liệu ứng cử.

4.3.1.3 Đõnh giõ thử nghiệm

Cuộc thi PAN cho bỏi tõn tớm tập ứng cử sử dụng hai mõy tớm kiếm lỏ

ChatNoir, Indri kộm với cõc hỏm API cho phờp tớm cõc tỏi liệu liởn quan với tập

từ khõ đầu vỏo. Kho ngữ liệu PAN sử dụng lỏ cõc bỏi viết thu thập từ cõc bõo điện tử. Tuy nhiởn, sau khi nhiệm vụ kết thỷc (năm 2016), cõc mõy tớm kiếm trởn khừng cún khả dụng để thử nghiệm vỏ so sõnh phương phõp đề xuất với cõc nghiởn cứu tương tự trởn thế giới.

Cõc nghiởn cứu gần đĩy chủ yếu đề xuất giải phõp trợch rỷt từ khõ thử nghiệm trởn kho ngữ liệu ngắn (như đọ giới thiệu trong mục 1.5.1). Việc thử nghiệm phương phõp đề xuất trởn cõc kho ngữ liệu nỏy khừng khả thi do mật độ

từ khõ trởn văn bản dỏi (ĐATN, luận văn, luận õn) thấp hơn nhiều so với cõc văn bản ngắn (bỏi bõo, tin tức, bản tụm tắt). Do đụ, khi số lượng từ khõ cần trợch rỷt cỏng ợt (5, 10, 15 từ) thớ độ chợnh xõc của phương phõp đề xuất cỏng thấp vỏ khừng phản õnh một cõch khõch quan tợnh hiệu quả của phương phõp đề xuất. Chợnh vớ vậy, trong phương phõp đề xuất nỏy luận õn thực hiện xĩy dựng kho ngữ liệu thử nghiệm ĐATN tiếng Việt vỏ đõnh giõ hiệu quả của phương phõp đề xuất dựa trởn kết quả trả về của mõy tớm kiếm.

a. Kho ngữ liệu thử nghiệm

Để đõnh giõ giải phõp trợch rỷt từ khụa cho văn bản dỏi tiếng Việt luận õn thực hiện xĩy dựng kho ngữ liệu lấy từ tỏi liệu số ĐATN tiếng Việt của sinh viởn trường Đại học Bõch khoa Hỏ nội (gọi lỏ kho ngữ liệu ĐATN). Cõc tỏi liệu số ĐATN cụ độ dỏi trung bớnh khoảng 70 trang A4. Để sõt với thực tế tớm kiếm tập tỏi liệu ứng cử từ hệ thống phõt hiện sao chờp, kho ngữ liệu nỏy õn khừng thực hiện tiền xử lý, giữ nguyởn định dạng gốc (dạng pdf hoặc word) để lỏm đầu vỏo của giải phõp đề xuất. Thừng tin kho ngữ liệu được trớnh bỏy trong Bảng 4.5.

Bảng 4.5. Tụm tắt thừng tin kho ngữ liệu ĐATN

Kho ngữ liệu Kiểu Số văn bản (trung bớnh)#Gold Keys trung bớnhĐộ dỏi

Kho ngữ liệu ĐATN ĐATN 340 - 70 trang

b. Mừi trường thử nghiệm vỏ cõc thiết lập

Luận õn thực hiện cõc bước tiền xử lý như đọ mừ tả trong phần 4.3.1.1. Để tăng tốc độ khi tợnh tần suất xuất hiện tf-idf2, luận õn thực hiện tợnh tõn idf2 dưới dạng từ điển với khụa lỏ từ vỏ giõ trị lỏ nghịch đảo tần suất xuất hiện của từ trong toỏn bộ kho ngữ liệu ĐATN.

Giải phõp được cỏi đặt trởn nền tảng web với mừi trường lập trớnh ASP.NET vỏ ngừn ngữ lập trớnh C#. Qũ trớnh thử nghiệm được thực hiện trởn mõy tợnh cõ nhĩn với hệ điều hỏnh Windows 10 64 bit cụ cấu hớnh: chip Intel Core i7, 4GB Ram, Nvidia hỗ trợ GPU.

-vnTagger [104] để gõn nhọn từ loại trong giai đoạn tiền xử lý dữ liệu.

- Mõy tớm kiếm Apache Lucene [152] phiởn bản cho ngừn ngữ lập trớnh .NET: Cừng cụ hỗ trợ cho việc đõnh chỉ mục vỏ tớm kiếm.

c. Kết quả thử nghiệm

Luận õn thực hiện phương phõp đõnh giõ của PAN dựa trởn kết quả trả về của mõy tớm kiếm. Luận õn xĩy dựng cơ sở dữ liệu chỉ mục theo định dạng của mõy tớm kiếm Apache Lucene vỏ xĩy dựng cĩu truy vấn dựa trởn kết quả trợch rỷt từ khụa. Để tạo ra tập dữ liệu đối sõnh với kết quả thu được từ mõy tớm kiếm, luận õn tiến hỏnh xĩy dựng thủ cừng 10 tỏi liệu vỏ so sõnh với kết quả hệ thống sinh ra. Luận õn thực hiện đõnh giõ trởn 10 kết quả tốt nhất thu được từ cừng cụ tớm kiếm.

Kết quả thử nghiệm kho ngữ liệu văn bản dỏi được thể hiện trong Bảng 4.6. Bảng 4.6. Kết quả thử nghiệm kho ngữ liệu ĐATN

STT Tởnfile Số tệptrộn quả thuSố kết được Số tệp tớm được Precisio n (%) Recall (%) F-Score (%) 1 File1 5 6 4 80 66,67 72,73 2 File2 5 7 5 100 71,43 83,33 3 File3 5 8 4 80 50,00 61,54 4 File4 5 7 5 100 71,43 83,33 5 File5 5 6 4 80 66,67 72,73 6 File6 5 5 4 80 80,00 80,00 7 File7 5 6 3 60 50,00 54,55 8 File8 5 7 4 80 57,14 66,66 9 File9 5 9 3 60 33,33 42,85 10 File10 5 10 5 100 50,00 66,67 Trung bớnh 82 57,75 67,77

Từ kết quả thử nghiệm cho thấy giõ trị trung bớnh độ chợnh xõc (Precision) cho kết quả khõ tốt, hầu hết cõc điểm đõnh giõ trởn toỏn tập dữ liệu đều khừng dưới 80%. Tập dữ liệu cho kết quả tốt nhất lỏ file 2, file 4 vỏ file 10 đạt 100%. Tuy nhiởn cụ kết quả thấp so với kết quả cún lại như file7 vỏ file9. Cụ một số văn bản cụ điểm đõnh giõ thấp do trong văn bản cụ nhiều dữ liệu bảng biểu vỏ ký hiệu tõn học. Do vậy, phương phõp nỏy sẽ cho kết quả tốt hơn với cõc văn bản chứa ợt bảng biểu vỏ độ dỏi cĩu đủ lớn.

Một phần của tài liệu Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng Việt. (Trang 134 - 142)

Tải bản đầy đủ (DOC)

(193 trang)
w