Trợch rỷt từ khụa dựa trởn độ đo TF-IDF cho văn bản dỏi tiếng Việt

Một phần của tài liệu Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt (Trang 117 - 126)

4.3.1.1 Đề xuất ý tưởng

Hiện nay, về lý thuyết chưa cụ khõi niệm định nghĩa văn bản ngắn vỏ văn bản dỏi. Dựa trởn đối tượng vỏ phạm vi nghiởn cứu đọ xõc định, luận õn xem văn bản ngắn gồm cõc văn bản cụ độ dỏi tương đương với cõc bỏi bõo khoa học, cõc bản tin, cõc bản tụm tắt cụ độ dỏi xấp xỉ 10 trang A4. Văn bản dỏi gồm cõc văn bản cụ độ dỏi lớn tương đương với cõc tỏi liệu như luận õn, luận văn, ĐATN cụ

độ dỏi xấp xỉ 70 trang A4.

Qua nghiởn cứu cõc hướng tiếp cận giải quyết bỏi tõn trợch rỷt từ khụa cho thấy cõc phương phõp đề xuất thường được thử nghiệm vỏ đõnh giõ trởn cõc kho ngữ liệu gồm cõc văn bản ngắn đọ xõc định trước cõc từ khụa (gold keys). Trong lĩnh vực học thuật cõc văn bản dỏi như luận õn tiến sĩ, luận văn thạc sĩ, ĐATN hoặc cõc bỏi khụa luận của sinh viởn cũng lỏ đối tượng dễ bị sao chờp. Do mật độ trung bớnh từ khụa trởn mỗi cĩu hoặc mỗi đoạn ợt hơn nhiều so với cõc tỏi liệu ngắn nởn việc trợch rỷt từ khụa trởn văn bản dỏi cụ mức độ phức tạp lớn hơn nhiều so với cõc văn bản ngắn. Mục tiởu của đề xuất nỏy thực hiện trợch rỷt từ khụa cho văn bản dỏi bằng cõch chia tỏi liệu đầu vỏo thỏnh nhiều đoạn nhỏ vỏ trợch rỷt từ khụa trởn mỗi đoạn. Bởn cạnh đụ, khi xem xờt yếu tố từ loại luận õn nhận thấy từ khụa cụ thể lỏ danh từ, tợnh từ, động từ, tởn thực thể, cõc từ viết tắt,…trong đụ danh từ, tợnh từ vỏ động từ chiếm tỉ lệ lớn nhất. Chợnh vớ vậy, trong kỹ thuật đề xuất luận õn tiến hỏnh chia tỏi liệu đầu vỏo thỏnh cõc đoạn vỏ trợch rỷt từ khụa đoạn. Ngoỏi ra, yếu tố từ loại lỏ tiởu chợ quan trọng để lựa chọn từ khụa trởn mỗi đoạn.

4.3.1.2 Đề xuất giải phõp

Mừ hớnh đề xuất trợch rỷt từ khụa cho văn bản dỏi tiếng Việt được trớnh bỏy như Hớnh 4.4.

Hớnh 4.4. Mừ hớnh trợch rỷt từ khụa

Mừ hớnh trợch rỷt từ khụa

Tỏi liệu đầu vỏo Tập danh từ, động từ, tợnh từ từng đoạn 2.Tợnh trọng số từ vỏ xõc định từ khụa đoạn Danh từ 1.Tiền xử lý dữ liệu Tợnh từ Động từ Tập từ khụa 3.Lựa chọn từ khụa

Mừ hớnh đề xuất được thực hiện qua 3 bước gồm: (1) tiền xử lý dữ liệu, (2) tợnh trọng số vỏ xõc định từ khụa đoạn, (3) lựa chọn từ khụa. Do tỏi liệu đầu vỏo lỏ một tệp văn bản thừ dạng word hoặc pdf bao gồm cả cõc hớnh vẽ, bảng biểu vỏ ký hiệu tõn học nởn trong bước tiền xử lý, luận õn thực hiện loại bỏ cõc thừng tin nỏy nhằm thu được văn bản thuần, tõch đoạn, tõch cĩu, tõch từ vỏ gõn nhọn từ loại trởn mỗi đoạn. Kết quả của bước tiền xử lý sẽ thu được một tập từ được gõn nhọn từ loại trởn mỗi đoạn. Tập từ nỏy được sử dụng trong bước tiếp theo để xõc định hai loại trọng số trởn mỗi từ. Cuối cỳng, từ khụa được lựa chọn dựa trởn hai loại trọng số vỏ đặc điểm từ loại của từ. Chi tiết cõc bước xử lý được trớnh bỏy dưới đĩy.

a. Tiền xử lý dữ liệu

Tập tỏi liệu mỏ luận õn sử dụng lỏ cõc ĐATN được lưu trữ dưới dạng tệp .doc, .docx vỏ .pdf. Đĩy được xem lỏ cõc dữ liệu thừ. Trong bỏi tõn trợch rỷt từ khụa, cừng việc xử lý dữ liệu trước khi đưa vỏo cõc mừ hớnh lỏ rất cần thiết nhằm loại bỏ đi cõc dữ liệu khừng quan trọng sử dụng cho cõc bước xử lý tiếp theo. Cõc cừng việc cụ thể của tiền xử lý dữ liệu cho bỏi tõn trợch rỷt từ khụa thực hiện trởn một tệp dữ liệu bao gồm:

- Lỏm sạch dữ liệu, tõch đoạn: Đối tượng trợch rỷt từ khụa lỏ dữ liệu dạng văn bản (text), do vậy dữ liệu dạng bảng, số, hớnh vẽ, vỏ cõc ký tự khừng nằm trong bảng chữ cõi tiếng Việt cần bị loại bỏ. Nội dung chợnh của một ĐATN gồm 3 phần chợnh lỏ Giới thiệu chung, Nội dung vỏ Kết luận. Trong mỗi nội dung cụ thể được chia thỏnh cõc tiểu mục nhỏ. Phĩn tợch chi tiết dữ liệu thuần văn bản thu được cho thấy đa phần nội dung trong mỗi tiểu mục cụ độ dỏi trong khoảng một trang A4 (khoảng 30 dúng, mỗi dúng khoảng 15-18 tiếng). Do đụ, luận õn thực hiện tõch đoạn vỏ chia tỏi liệu thỏnh cõc đoạn chẵn cĩu cụ độ dỏi xấp xỉ 500 tiếng.

- Tõch từ vỏ gõn nhọn từ loại trởn mỗi đoạn. b. Tợnh trọng số vỏ xõc định từ khụa đoạn

Cõc đề xuất cho bỏi tõn trợch rỷt từ khụa chủ yếu tập trung vỏo phương phõp xõc định trọng số của mỗi từ trong tỏi liệu. Trong đề xuất nỏy, luận õn xem một tỏi liệu dỏi lỏ sự kết hợp của nhiều đoạn văn bản. Do đụ, từ khụa của tỏi liệu lỏ tập hợp của cõc từ khụa đoạn. Bởn cạnh đụ, luận õn nhận thấy cụ những từ quan trọng trong văn bản nhưng trong

một số đoạn cụ thể từ đụ lại ợt xuất hiện. Vớ vậy, bởn cạnh cõc từ khụa của đoạn văn bản, luận õn cún sử dụng cả những từ khụa của toỏn văn bản.

i) Tợnh trọng số của từ

TF-IDF lỏ phương phõp quan trọng để xõc định độ quan trọng của một từ trong văn bản. Để xõc định độ quan trọng của một từ luận õn đề xuất sử dụng hai loại trọng số TF-IDF dựa trởn toỏn bộ văn bản vỏ dựa trởn đoạn văn bản. Hai loại trọng số được sử dụng cụ thể lỏ:

1. tf-idf1: với tf lỏ số lần xuất hiện của từ trong đoạn, idf1 lỏ nghịch đảo số lần xuất hiện của từ trong tỏi liệu thuần.

2. tf-idf2: với tf lỏ số lần xuất hiện của từ trong đoạn, idf2 lỏ nghịch đảo số lần xuất hiện của từ trong kho tỏi liệu.

Cụ thể như sau, xờt từ wij lỏ từ thứ i trong đoạn j

𝑡𝑓 − 𝑖𝑑𝑓1𝑖,𝑗 = 𝑡𝑓𝑤𝑖𝑗 ∗ 𝑖𝑑𝑓1𝑖 (4.1)

𝑡𝑓𝑤𝑖𝑗 lỏ tần suất xuất hiện của từ thứ i trong đoạn j đượctợnh theo cừng thức 4.2. idf1i lỏ tần suất xuất hiện nghịch đảo của từ wij trong tỏi liệu thuần tợnh theo cừng thức 4.3.

𝑡𝑓𝑤𝑖𝑗 = 𝑓𝑟𝑒𝑞𝑖,𝑗

𝑚𝑎𝑥𝑙𝑓𝑟𝑒𝑞𝑙,𝑗 (4.2)

freqi,jlỏsố lần xuất hiện của từ wij

𝑖𝑑𝑓1𝑖 = log𝑁

𝑛𝑖 (4.3)

với N lỏ số đoạn của văn bản; ni lỏ số đoạn của văn bản chứa từ wij

𝑡𝑓 − 𝑖𝑑𝑓2𝑖,𝑗 = 𝑡𝑓𝑤𝑖𝑗 ∗ 𝑖𝑑𝑓2𝑖 (4.4)

idf2i lỏ tần suất xuất hiện nghịch đảo của từ wij trong kho ngữ liệu văn bản.

𝑖𝑑𝑓2𝑖 = 𝑙𝑜𝑔 𝑀

𝑚𝑖 (4.5)

với M lỏ số lượng văn bản trong kho ngữ liệu; mi lỏ số văn bản chứa từ wij

c. Lựa chọn từ khụa

Để đảm bảo tốc độ tớm kiếm cõc mõy tớm kiếm luừn cấu hớnh để giới hạn số từ khụa đầu vỏo (như ChatNoir [108] cho phờp 10 từ khụa, Apache Lucene

[152] cho phờp 1.024 từ khụa). Khi số lượng từ khụa cỏng lớn thớ kết quả tớm kiếm cỏng chợnh xõc nhưng thời gian tớm kiếm cỏng nhiều. Do vậy, để đảm bảo cĩn bằng giữa độ chợnh xõc, thời gian tớm kiếm vỏ giới hạn của mõy tớm kiếm luận õn lựa chọn số lượng từ khụa trởn mỗi đoạn lỏ k=30.

Một từ được xõc định lỏ từ khụa của một đoạn nếu nụ quan trọng trong đoạn vỏ trong văn bản. Qua thử nghiệm luận õn lựa chọn 10 từ khụa cụ giõ trị trọng số đoạn vỏ trọng số trởn văn bản cao nhất vỏ lựa chọn cõc từ khụa trong 3 cĩu quan trọng nhất cho đến khi đạt đủ số lượng từ khụa cần trợch rỷt. Cõc bước lựa chọn từ khụa cho một đoạn trong văn bản sau khi tợnh tf-idf1 vỏ tf-idf2 cho tất cả cõc từ trong đoạn như sau:

1. Chọn 10 từ cụ tf-idf1 vỏ 10 từ cụ tf-idf2 cao nhất

2. Xõc định cõc cĩu quan trọng: cĩu được xõc định lỏ quan trọng nếu nụ chứa cả từ cụ tf-idf1 vỏ tf-idf2 lựa chọn ở bước trởn. Lấy 3 cĩu cụ tf-idf1 vỏ tf-idf2

cao nhất vỏ trợch rỷt từ khụa theo trớnh tự sau đến khi số từ khụa thu được bằng k: - Cõc danh từ cụ giõ trị tf-idf1 từ cao xuống thấp

- Cõc tợnh từ cụ giõ trị tf-idf1 từ cao xuống thấp - Cõc động từ cụ giõ trị tf-idf1 từ cao xuống thấp

Đầu ra của thuật tõn lỏ tập từ khụa sẽ sử dụng để sinh ra cĩu truy vấn tớm tập tỏi liệu ứng cử.

4.3.1.3 Đõnh giõ thử nghiệm

Cuộc thi PAN cho bỏi tõn tớm tập ứng cử sử dụng hai mõy tớm kiếm lỏ

ChatNoir, Indri kộm với cõc hỏm API cho phờp tớm cõc tỏi liệu liởn quan với tập từ khõ đầu vỏo. Kho ngữ liệu PAN sử dụng lỏ cõc bỏi viết thu thập từ cõc bõo điện tử. Tuy nhiởn, sau khi nhiệm vụ kết thỷc (năm 2016), cõc mõy tớm kiếm trởn khừng cún khả dụng để thử nghiệm vỏ so sõnh phương phõp đề xuất với cõc nghiởn cứu tương tự trởn thế giới.

Cõc nghiởn cứu gần đĩy chủ yếu đề xuất giải phõp trợch rỷt từ khõ thử nghiệm trởn kho ngữ liệu ngắn (như đọ giới thiệu trong mục 1.5.1). Việc thử nghiệm phương phõp đề xuất trởn cõc kho ngữ liệu nỏy khừng khả thi do mật độ

từ khõ trởn văn bản dỏi (ĐATN, luận văn, luận õn) thấp hơn nhiều so với cõc văn bản ngắn (bỏi bõo, tin tức, bản tụm tắt). Do đụ, khi số lượng từ khõ cần trợch rỷt cỏng ợt (5, 10, 15 từ) thớ độ chợnh xõc của phương phõp đề xuất cỏng thấp vỏ khừng phản õnh một cõch khõch quan tợnh hiệu quả của phương phõp đề xuất. Chợnh vớ vậy, trong phương phõp đề xuất nỏy luận õn thực hiện xĩy dựng kho ngữ liệu thử nghiệm ĐATN tiếng Việt vỏ đõnh giõ hiệu quả của phương phõp đề xuất dựa trởn kết quả trả về của mõy tớm kiếm.

a. Kho ngữ liệu thử nghiệm

Để đõnh giõ giải phõp trợch rỷt từ khụa cho văn bản dỏi tiếng Việt luận õn thực hiện xĩy dựng kho ngữ liệu lấy từ tỏi liệu số ĐATN tiếng Việt của sinh viởn trường Đại học Bõch khoa Hỏ nội (gọi lỏ kho ngữ liệu ĐATN). Cõc tỏi liệu số ĐATN cụ độ dỏi trung bớnh khoảng 70 trang A4. Để sõt với thực tế tớm kiếm tập tỏi liệu ứng cử từ hệ thống phõt hiện sao chờp, kho ngữ liệu nỏy õn khừng thực hiện tiền xử lý, giữ nguyởn định dạng gốc (dạng pdf hoặc word) để lỏm đầu vỏo của giải phõp đề xuất. Thừng tin kho ngữ liệu được trớnh bỏy trong Bảng 4.5.

Bảng 4.5. Tụm tắt thừng tin kho ngữ liệu ĐATN

b. Mừi trường thử nghiệm vỏ cõc thiết lập

Luận õn thực hiện cõc bước tiền xử lý như đọ mừ tả trong phần 4.3.1.1. Để tăng tốc độ khi tợnh tần suất xuất hiện tf-idf2, luận õn thực hiện tợnh tõn idf2 dưới dạng từ điển với khụa lỏ từ vỏ giõ trị lỏ nghịch đảo tần suất xuất hiện của từ trong toỏn bộ kho ngữ liệu ĐATN.

Giải phõp được cỏi đặt trởn nền tảng web với mừi trường lập trớnh ASP.NET vỏ ngừn ngữ lập trớnh C#. Qũ trớnh thử nghiệm được thực hiện trởn mõy tợnh cõ nhĩn với hệ điều hỏnh Windows 10 64 bit cụ cấu hớnh: chip Intel Core i7, 4GB Ram, Nvidia hỗ trợ GPU.

c. Cừng cụ sử dụng

Kho ngữ liệu Kiểu Số văn bản #Gold Keys (trung bớnh)

Độ dỏi trung bớnh

- vnTagger [104] để gõn nhọn từ loại trong giai đoạn tiền xử lý dữ liệu.

- Mõy tớm kiếm Apache Lucene [152] phiởn bản cho ngừn ngữ lập trớnh .NET: Cừng cụ hỗ trợ cho việc đõnh chỉ mục vỏ tớm kiếm.

c. Kết quả thử nghiệm

Luận õn thực hiện phương phõp đõnh giõ của PAN dựa trởn kết quả trả về của mõy tớm kiếm. Luận õn xĩy dựng cơ sở dữ liệu chỉ mục theo định dạng của mõy tớm kiếm Apache Lucene vỏ xĩy dựng cĩu truy vấn dựa trởn kết quả trợch rỷt từ khụa. Để tạo ra tập dữ liệu đối sõnh với kết quả thu được từ mõy tớm kiếm, luận õn tiến hỏnh xĩy dựng thủ cừng 10 tỏi liệu vỏ so sõnh với kết quả hệ thống sinh ra. Luận õn thực hiện đõnh giõ trởn 10 kết quả tốt nhất thu được từ cừng cụ tớm kiếm.

Kết quả thử nghiệm kho ngữ liệu văn bản dỏi được thể hiện trong Bảng 4.6. Bảng 4.6. Kết quả thử nghiệm kho ngữ liệu ĐATN

Từ kết quả thử nghiệm cho thấy giõ trị trung bớnh độ chợnh xõc (Precision)

cho kết quả khõ tốt, hầu hết cõc điểm đõnh giõ trởn toỏn tập dữ liệu đều khừng dưới 80%. Tập dữ liệu cho kết quả tốt nhất lỏ file 2, file 4 vỏ file 10 đạt 100%. Tuy nhiởn cụ kết quả thấp so với kết quả cún lại như file7 vỏ file9. Cụ một số văn bản cụ điểm đõnh giõ thấp do trong văn bản cụ nhiều dữ liệu bảng biểu vỏ ký hiệu tõn học. Do vậy, phương phõp nỏy sẽ cho kết quả tốt hơn với cõc văn bản chứa ợt bảng biểu vỏ độ dỏi cĩu đủ lớn.

STT Tởn file Số tệp trộn Số kết quả thu được Số tệp tớm được Precisio n (%) Recall (%) F-Score (%) 1 File1 5 6 4 80 66,67 72,73 2 File2 5 7 5 100 71,43 83,33 3 File3 5 8 4 80 50,00 61,54 4 File4 5 7 5 100 71,43 83,33 5 File5 5 6 4 80 66,67 72,73 6 File6 5 5 4 80 80,00 80,00 7 File7 5 6 3 60 50,00 54,55 8 File8 5 7 4 80 57,14 66,66 9 File9 5 9 3 60 33,33 42,85 10 File10 5 10 5 100 50,00 66,67 Trung bớnh 82 57,75 67,77

4.3.2 Cải tiến kỹ thuật trợch rỷt từ khụa dựa trởn mừ hớnh học sĩu cho văn bản tiếng Việt

Chương 2 luận õn đọ trớnh bỏy đề xuất trợch rỷt từ khụa dựa trởn kỹ thuật trợch rỷt đặc trưng vỏ mừ hớnh mạng nơ ron FFNN cho văn bản tiếng Anh. Với mục tiởu ứng dụng phương phõp trởn cho văn bản tiếng Việt, luận õn thực hiện một số cải tiến phỳ hợp với văn bản tiếng Việt. Thử nghiệm vỏ so sõnh kết quả trởn kho ngữ liệu từ khụa tiếng Việt.

4.3.2.1 Đề xuất giải phõp

Mừ hớnh trợch rỷt từ khụa đọ giới thiệu trong Chương 2 cụ thể mừ tả lại gồm cõc bước chợnh sau:

(i) Tiền xử lý văn bản đầu vỏo vỏ xõc định tập từ khụa ứng cử gồm cõc từ nằm trong cõc Cụm danh từ, Thực thể cụ tởn vỏ cụm từ xuất hiện nhiều lần trong văn bản.

(ii) Trợch rỷt đặc trưng từ lỏm đầu vỏo cho mừ hớnh học sĩu FFNN. Cõc đặc trưng đề xuất gồm: (1) Cụm danh từ; (2) Thực thể cụ tởn; (3) Cụm ba từ; (4) Độ dỏi từ; (5) Vị trợ từ; (6) Độ phủ từ; (7) Tần suất xuất hiện từ; (8) trọng số TF- IDF; vỏ (9) Từ chứa ký tự viết hoa.

(iii) Xõc định độ quan trọng của mỗi từ trong tập từ khụa ứng cử vỏ lựa chọn từ khụa. Độ quan trọng của mỗi từ lỏ giõ trị đầu ra của mừ hớnh học sĩu FFNN. Việc lựa chọn từ khụa sẽ lấy k từ cụ độ quan trọng lớn nhất.

Từ quy trớnh thực hiện trởn cho thấy bước i vỏ ii cụ ảnh hưởng bởi yếu tố ngừn ngữ. Do vậy, để thử nghiệm giải phõp đọ đề xuất cho văn bản tiếng Anh trởn kho ngữ liệu tiếng Việt, luận õn thực hiện một số điều chỉnh trong bước i vỏ ii gồm trợch rỷt tập từ khụa ứng cử vỏ trợch rỷt đặc trưng từ. Xem xờt cụ thể từng bước trởn cho thấy cõc đặc trưng (3) Cụm ba từ; (4) Độ dỏi từ; (5) Vị trợ từ; (6) Độ phủ từ; (7) Tần suất xuất hiện từ; (8) trọng số TF-IDF; vỏ (9) Từ chứa ký tự viết hoa cụ thể sử dụng cho cả hai ngừn ngữ tiếng Anh vỏ tiếng Việt. Hai đặc trưng cún lại lỏ Cụm danh từ vỏ Thực thể cụ tởn khừng thể sử dụng cỳng một kỹ thuật cho tiếng Anh vỏ tiếng Việt vỏ do đụ cần cụ sự điều chỉnh phỳ hợp.

giới để trợch rỷt Cụm danh từ vỏ Thực thể cụ tởn. Tuy nhiởn, hiện tại bộ cừng cụ nỏy chưa hỗ trợ cho tiếng Việt. Hiện nay, cụ nhiều bộ cừng cụ hỗ trợ xử lý văn bản tiếng Việt thực hiện đồng thời gõn nhọn từ loại (POS) vỏ trợch rỷt Thực thể cụ tởn (NER). Một số cừng bố liởn quan cụ thể kể đến như Underthesea [165] đạt độ chợnh xõc 92,3% cho bỏi tõn POS tiếng Việt, VnCoreNLP [138] đạt độ chợnh xõc 95,88% cho bỏi tõn POS vỏ 88,55% cho bỏi tõn NER. Được cừng bố năm 2020, PhoBERT-large [91] đạt độ chợnh xõc 96,8% cho bỏi tõn POS vỏ 94,7% cho bỏi tõn NER được xem lỏ phương phõp tốt nhất cho bỏi tõn POS vỏ NER

Một phần của tài liệu Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt (Trang 117 - 126)