Nội dung đề xuất

Một phần của tài liệu Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt (Trang 56 - 65)

ạp dụng thuật tõn học mõy trong bỏi tõn trợch rỷt từ khụa bao gồm hai giai đoạn: (i) huấn luyện mừ hớnh trợch rỷt từ khụa, vỏ (ii) lựa chọn từ khụa. Giai đoạn huấn luyện mừ hớnh trợch rỷt từ khụa được thực hiện qua ba bước: (1) tiền xử lý dữ liệu; (2) trợch rỷt đặc trưng; (3) huấn luyện mừ hớnh. Giai đoạn lựa chọn

từ khụa được thực hiện qua bốn bước gồm: (1) tiền xử lý dữ liệu; (2) trợch rỷt đặc trưng; (3) dự đõn từ khụa; vỏ (4) lựa chọn từ khụa. Quy trớnh tổng quan của hệ thống đề xuất được mừ tả trong Hớnh 2.2. Trong cả hai giai đoạn, sau bước tiền xử lý dữ liệu tập từ khụa ứng cử được sử dụng để trợch rỷt đặc trưng. Thực hiện trợch rỷt đặc trưng ở mức từ cho mỗi từ trong tập từ khụa ứng cử sẽ tạo ra một ma trận đặc trưng hai chiều. Ma trận nỏy lỏ đầu vỏo của mừ hớnh huấn luyện vỏ dự đõn. Trong giai đoạn huấn luyện, dựa trởn bộ từ khụa đọ được xõc định trước để xĩy dựng dữ liệu gõn nhọn. Đĩy lỏ một vờc tơ một chiều cụ kợch thước bằng số lượng từ trong tập từ khụa ứng cử vỏ cụ giõ trị 1 nếu từ đụ thuộc tập từ khụa xõc định trước, ngược lại sẽ nhận giõ trị 0. Trong giai đoạn dự đõn, đầu ra của mừ hớnh dự đõn lỏ một vờc tơ một chiều cụ kợch thước bằng số lượng từ trong tập từ khụa ứng cử. Mỗi phần tử của vờc tơ cụ giõ trị nằm trong khoảng (0,1) biểu diễn khả năng một từ (trong tập từ khụa ứng cử) lỏ từ khụa. Bước lựa chọn từ khụa thực hiện sắp xếp giảm dần cõc phần tử trong vờc tơ đầu ra vỏ lựa chọn cõc từ tương ứng trong tập từ khụa ứng cử cụ giõ trị lớn nhất lỏ từ khụa.

Hớnh 2.2. Quy trớnh tổng quan hệ thống trợch rỷt từ khụa

Tiếp theo, luận õn trớnh bỏy chi tiết cõc bước xử lý trong mỗi giai đoạn vỏ vợ dụ minh họa cho cõc bước trong quy trớnh đề xuất.

2.4.1.1 Tiền xử lý dữ liệu

Văn bản đầu vỏo để thực hiện trợch rỷt từ khụa trong đề xuất nỏy lỏ cõc văn bản thuần ở đụ đọ loại bỏ cõc hớnh vẽ, bảng biểu. Tuy nhiởn, qua quan sõt vỏ phĩn tợch dữ liệu đầu vỏo, luận õn nhận thấy cõc từ dừng, dữ liệu số, ký tự đặc biệt rất hiếm khi xuất hiện với vai trú lỏ từ khụa. Với tợnh chất của từ khụa lỏ cõc từ quan trọng trong văn bản, luận õn xĩy dựng tập từ khụa ứng cử gồm cõc Cụm danh từ (Noun

phrase), Thực thể cụ tởn (Named Entity) vỏ cõc cụm từ được lặp lại nhiều lần. Trong bước nỏy, luận õn thực hiện trợch rỷt cõc Cụm danh từ, Thực thể cụ tởn vỏ cụm từ xuất hiện lặp lại nhiều lần lỏ tập từ khụa ứng cử cho cõc bước xử lý tiếp theo. Kết quả, luận õn thu được một tập từ khụa ứng cử U={u1, u2,…, un} vỏ

n lỏ số lượng từ khụa ứng cử, lỏ cõc từ trong cụm Danh từ, Thực thể cụ tởn vỏ Cụm ba từ lặp lại nhiều lần.

Vợ dụ một số từ trong tập từ khụa ứng cử được trợch rỷt từ tệp nội dung C- 20.txt thuộc kho ngữ liệu SemEval2010 dưới đĩy (Nội dung văn bản trợch rỷt vỏ danh sõch đầy đủ tập từ khụa ứng cử trợch rỷt từ tệp C-20.txt được trớnh bỏy trong phần Phụ lục tại mục 1 vỏ 3):

migration, replication, virtualization, server, live, outages, center, storage, network, virtual, recovery, technologies, data, ramakrishnan, internetbased, application, remote, cooperative, wan, availability, maintenance, services, applications, service, technology, aware, distributed, operation.

Tương ứng với tệp nội dung, tệp dữ liệu C-20.key chứa cõc từ khụa xõc định trước như sau:

internetbased, service, data, center, migration, wan, lan, virtual, server, storage, replication, synchronous, replication, asynchronous, replication, network, support, storage, voiceoverip, voip, database

Để xĩy dựng dữ liệu gõn nhọn cho mục đợch huấn luyện mừ hớnh, một vờc tơ một chiều cụ kợch thước bằng số từ trong tập từ khụa ứng cử bao gồm cõc giõ trị 0 vỏ 1 trong đụ giõ trị 1 ứng với từ nằm trong danh sõch từ khụa xõc định trước của dữ liệu huấn luyện. Bước tiếp theo, luận õn sẽ định nghĩa một tập đặc trưng lỏm cơ sở để trợch rỷt thừng tin xĩy dựng vờc tơ đặc trưng đầu vỏo cho mừ hớnh huấn luyện vỏ dự đõn.

2.4.1.2 Lớp vờc tơ đặc trưng

Cụ hai phương phõp tiếp cận để trợch rỷt đặc trưng văn bản: trợch rỷt tự động vỏ trợch rỷt thủ cừng. Mỗi phương phõp đều cụ ưu điểm vỏ phỳ hợp với dạng bỏi tõn vỏ dạng dữ liệu cụ thể. Với đầu vỏo của hệ thống lỏ một chuỗi văn bản,

qua bước tiền xử lý sẽ thu được một tập từ ứng cử. Luận õn nhận thấy yếu tố tuần tự của tập từ ứng cử khừng cún được duy trớ vỏ đĩy lỏ lý do lựa chọn phương õn trợch rỷt thủ cừng.

Trong phương phõp đề xuất nỏy, luận õn đề xuất một bộ đặc trưng ở mức từ gồm 9 đặc trưng: (1) Cụm danh từ; (2) Thực thể cụ tởn; (3) Cụm ba từ; (4) Độ dỏi từ; (5) Vị trợ từ; (6) Độ phủ từ; (7) Tần suất xuất hiện từ; (8) trọng số TF- IDF; vỏ (9) Từ chứa ký tự viết hoa. Chi tiết cõc đặc trưng cho một từ ui trong tập từ khụa ứng cử U được trớnh bỏy chi tiết sau đĩy.

a. Cụm danh từ

Danh từ lỏ những từ chỉ người, vật, hiện tượng, khõi niệm,…Danh từ cụ thể kết hợp với từ chỉ lượng ở phợa trước, cõc từ nỏy, ấy, đụ,… ở phợa sau vỏ một số từ ngữ khõc để lập thỏnh Cụm danh từ. Cụm danh từ lỏ loại tổ hợp từ do danh từ với một số từ ngữ phụ thuộc nụ tạo thỏnh. Cụm danh từ cụ ý nghĩa đầy đủ hơn vỏ cụ cấu tạo phức tạp hơn một danh từ độc lập, nhưng hoạt động trong cĩu giống như một danh từ. Về cấu tạo, Cụm danh từ đầy đủ gồm ba phần: phần trước, phần trung tĩm vỏ phần sau. Cõc định ngữ ở phần trước bổ sung cho danh từ cõc ý nghĩa về số vỏ lượng. Cõc định ngữ ở phần sau nởu lởn đặc điểm của sự vật mỏ danh từ biểu thị hoặc xõc định vị trợ của sự vật ấy trong khừng gian hay thời gian.

Luận õn thực hiện trợch rỷt Cụm danh từ từ tỏi liệu đầu vỏo vỏ định nghĩa một vờc tơ đồng xuất hiện ở đụ những từ trong tập từ khụa ứng cử nằm trong Cụm danh từ được gõn giõ trị 1, cõc từ cún lại được gõn giõ trị 0. Gọi CDT lỏ tập từ trong Cụm danh từ, vờc tơ đặc trưng Cụm danh từ, ký hiệu lỏ NP={np1, np2,…, npn}, được định nghĩa như cừng thức 2.1 dưới đĩy:

𝑛𝑝𝑖 = {1 𝑛ế𝑢 𝑢𝑖 ∈ 𝐶𝐷𝑇

0 𝑣ị 𝑡𝑟ợ 𝑘ℎõ𝑐 (2.1)

b. Thực thể cụ tởn

Named Entity Recognition (NER) lỏ phương thức trợch rỷt thừng tin Thực thể cụ tởn vỏ gõn mỗi thực thể vỏo một lớp đối tượng cụ thể như tởn người, vị trợ, tổ chức. Khi khai thõc cõc kho ngữ liệu, đặc biệt lỏ cõc kho ngữ liệu lớn thớ thực

thể chợnh lỏ một đặc trưng quan trọng vỏ được xem lỏ cõc từ khụa sử dụng cho cõc bỏi tõn xõc định mối quan hệ giữa cõc tỏi liệu (bỏi tõn phĩn loại, phĩn cụm,…).

Thực hiện trợch xuất toỏn bộ Thực thể cụ tởn từ tỏi liệu đầu vỏo vỏ định nghĩa một vờc tơ đồng xuất hiện ở đụ những từ trong tập từ khụa ứng cử nằm trong tập Thực thể cụ tởn được gõn giõ trị 1, cõc từ cún lại được gõn giõ trị 0. Giả sử CNE lỏ tập Thực thể cụ tởn, vờc tơ đặc trưng Thực thể cụ tởn, ký hiệu lỏ

NE={ne1, ne2,…, nen}, được xõc định theo cừng thức 2.2 dưới đĩy:

𝑛𝑒𝑖 = {1 𝑛ế𝑢 𝑢𝑖 ∈ 𝐶𝑁𝐸

0 𝑣ị 𝑡𝑟ợ 𝑘ℎõ𝑐 (2.2)

c. Cụm ba từ

Cụm ba từ (Trigram) lỏ trường hợp cụ thể của n-gram với giõ trị n=3. Luận õn định nghĩa CNG gồm cõc cụm ba từ với tần suất xuất hiện lớn hơn giõ trị t cho trước. Luận õn định nghĩa một vờc tơ đồng xuất hiện ở đụ những từ trong tập từ khụa ứng cử nằm trong cõc Trigram thu được ở trởn được gõn giõ trị 1, cõc từ cún lại được gõn giõ trị 0. Vờc tơ đặc trưng Cụm ba từ, ký hiệu lỏ NG={ng1, ng2,…, ngn}, được xõc định theo cừng thức 2.3 sau đĩy.

𝑛𝑔𝑖 = {1 𝑛ế𝑢 𝑢𝑖 ∈ 𝐶𝑁𝐺

0 𝑣ị 𝑡𝑟ợ 𝑘ℎõ𝑐 (2.3)

d. Độ dỏi từ

Cụ rất nhiều nghiởn cứu liởn quan đến độ dỏi của từ vỏ ảnh hưởng của độ dỏi đến tầm quan trọng của từ. Sigurd vỏ cộng sự [122] đọ nghiởn cứu mối quan hệ giữa độ dỏi từ vỏ tần suất xuất hiện từ trong kho ngữ liệu thực nghiệm. Kết quả nghiởn cứu cho thấy những từ cụ độ dỏi 3 ký tự cụ tần suất xuất hiện nhiều nhất. New vỏ cộng sự [150] đọ nghiởn cứu ảnh hưởng của độ dỏi từ đến việc lựa chọn từ. Kết quả nghiởn cứu cho thấy những từ cụ độ dỏi 3-5 chữ cõi được sử dụng phổ biến nhất. Luận õn coi độ dỏi từ lỏ một đặc trưng cụ giõ trị bằng số ký tự của từ đụ. Vờc tơ đặc trưng độ dỏi từ, ký hiệu lỏ LE={le1, le2,…, len}, được xõc định bởi cừng thức 2.4.

𝑙𝑒𝑖 = 𝑙𝑒𝑛(𝑢𝑖)

Với len(ui) lỏ độ dỏi của từ ui tợnh bằng số ký tự, vỏ max_length lỏ hằng số cho trước.

e. Vị trợ từ

Một số nghiởn cứu đọ chỉ ra mức độ quan trọng của một từ liởn quan đến vị trợ của từ đụ [49],[56]. Cụ nhiều cõch tiếp cận trong việc xõc định tầm quan trọng của từ dựa trởn vị trợ của từ, chẳng hạn như vị trợ của cĩu chứa từ xuất hiện [27] hoặc vị trợ đầu tiởn của từ xuất hiện trong văn bản [49]. Với một tỏi liệu hoỏn chỉnh (chẳng hạn như cõc bỏi bõo hoặc tiểu luận) thường bao gồm ba phần: giới thiệu, thĩn bỏi vỏ kết luận. Luận õn nhận thấy những từ quan trọng thường xuất hiện ở phần đầu vỏ phần kết của tỏi liệu. Bởn cạnh đụ, gianh giới chợnh xõc của từng phần của văn bản chỉ mang tợnh tương đối. Chợnh vớ vậy, luận õn đề xuất cừng thức 2.5 để xõc định đặc trưng vị trợ từ, ký hiệu lỏ PO={po1, po2,…, pon}, dựa trởn sự xuất hiện đầu tiởn đến vị trợ giữa của văn bản L.

𝑝𝑜𝑖 = 𝑎𝑏𝑠(𝑓𝑖𝑟𝑠𝑡_𝑜𝑐𝑐𝑢𝑟𝑟𝑒𝑛𝑐𝑠𝑒(𝑢𝑖) − 𝐿)

L (2.5)

ở đụ hỏm first_occurrences(ui) trả về vị trợ đầu tiởn mỏ từ ui xuất hiện trong văn bản, L lỏ vị trợ giữa văn bản, hỏm abs trả về giõ trị tuyệt đối của một số.

f. Độ phủ của từ

Độ phủ lỏ đặc trưng mỏ luận õn sử dụng liởn quan đến vị trợ của một từ. Luận õn nhận thấy một từ lỏ quan trọng khi từ đụ xuất hiện ở nhiều nơi trong văn bản. Trong trường hợp nỏy, cõc vị trợ mỏ luận õn quan tĩm lỏ vị trợ xuất hiện đầu tiởn vỏ cuối cỳng. Luận õn định nghĩa Độ phủ lỏ số từ giữa lần xuất hiện đầu tiởn vỏ lần xuất hiện cuối cỳng của từ đụ chia cho tổng số từ trong văn bản. Vờc tơ đặc trưng Độ phủ, ký hiệu lỏ SP={sp1, sp2,…, spn}, được xõc định theo cừng thức 2.6.

𝑠𝑝𝑖 =𝑙𝑎𝑠𝑡_𝑜𝑐𝑐𝑢𝑟𝑟𝑒𝑛𝑐𝑒𝑠(𝑢𝑖) − 𝑓𝑖𝑟𝑠𝑡_𝑜𝑐𝑐𝑢𝑟𝑟𝑒𝑛𝑐𝑒𝑠(𝑢𝑖)

𝑙𝑒𝑛(𝐷) (2.6)

ở đụ first_occurrences(ui) vỏ last_occurrences(ui) trả về vị trợ xuất hiện đầu tiởn vỏ cuối cỳng, hỏm len(D) trả về số ký tự trong tỏi liệu đầu vỏo D.

g. Tần suất xuất hiện của từ

một từ trong tỏi liệu thể hiện mức độ quan trọng của từ đụ. Để trõnh cõc trường hợp giõ trị tần suất qũ cao trong cõc tỏi liệu dỏi, luận õn xõc định giõ trị đặc trưng dựa trởn tần suất theo cừng thức 2.7 bằng giõ trị tần suất của từ ui, 𝑇𝐹(𝑢𝑖), chia cho cho tổng số từ khụa ứng cử n. Vờc tơ đặc trưng tần xuất xuất hiện của từ, ký hiệu lỏ TF={tf1, tf2,…, tfn}, được xõc định theo cừng thức dưới đĩy.

𝑡𝑓𝑖 =𝑇𝐹(𝑢𝑖)

n (2.7)

h. Trọng số TF-IDF

TF-IDF lỏ viết tắt của cụm từ “Term Frequency - Inverse Term Frequency” [30]. Giõ trị TF-IDF thể hiện độ quan trọng của một từ trong tỏi liệu. Luận õn sử dụng giõ trị TF-IDF của một từ lỏm trọng số để xõc định tầm quan trọng của từ đụ trong tỏi liệu. Luận õn định nghĩa giõ trị đặc trưng của một từ ui theo trọng số TF-IDF theo cừng thức 2.8. Vờc tơ đặc trưng trọng số TF-IDF, ký hiệu lỏ

TF.IDF={tfidf1, tfidf2,…, tfidfn}, được xõc định theo cừng thức 2.8.

𝑡𝑓𝑖𝑑𝑓𝑖 = 𝑇𝐹(𝑢𝑖) Ứ 𝐼𝐷𝐹(𝑢𝑖)

(2.8)

i. Từ chứa ký tự viết hoa

Campos Ricardo vỏ cộng sự [27] cho rằng một từ bắt đầu bằng một chữ cõi viết hoa hoặc tất cả cõc chữ cõi lỏ viết hoa được coi lỏ một từ quan trọng. Tuy nhiởn, việc xõc định như vậy khừng đủ mạnh để đõnh giõ cõc từ viết tắt số nhiều vỏ cõc cừng thức hụa học. Luận õn xõc định cõc từ quan trọng nếu cụ ợt nhất một chữ cõi viết hoa. Vờc tơ đặc trưng, ký hiệu lỏ CA={ca1, ca2,…, can}, được xõc định bởi cừng thức 2.9.

𝑐𝑎𝑖 = {1 𝑛ế𝑢 𝑢𝑖 𝑐ℎứ𝑎 ợ𝑡 𝑛ℎấ𝑡 𝑚ộ𝑡 𝑘ý 𝑡ự ℎ𝑜𝑎

0 𝑛ế𝑢 𝑢𝑖 𝑘ℎừ𝑛𝑔 𝑐ℎứ𝑎 𝑘ý 𝑡ự ℎ𝑜𝑎 (2.9)

Sau khi định nghĩa 9 đặc trưng nởu trởn, luận õn thực hiện kết hợp cõc đặc trưng thỏnh một ma trận 2 chiều cụ kợch thước nỨ9 thể hiện như cừng thức 2.10, với n lỏ số lượng từ trong tập từ khụa ứng cử.

𝐹 = ( 𝑛𝑝1 𝑛𝑒1 𝑛𝑔1 𝑙𝑒1 𝑝𝑜1 𝑠𝑝1 𝑡𝑓1 𝑡𝑓𝑖𝑑𝑓1 𝑐𝑎1 𝑛𝑝2 𝑛𝑒2 𝑛𝑔2 𝑙𝑒2 𝑝𝑜2 𝑠𝑝2 𝑡𝑓2 𝑡𝑓𝑖𝑑𝑓2 𝑐𝑎2 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ 𝑛𝑝𝑛 𝑛𝑒𝑛 𝑛𝑔𝑛 𝑙𝑒𝑛 𝑝𝑜𝑛 𝑠𝑝𝑛 𝑡𝑓𝑛 𝑡𝑓𝑖𝑑𝑓𝑛 𝑐𝑎𝑛 ) (2.10)

Tiếp theo, luận õn sử dụng ma trận F lỏm đầu vỏo cho cõc mừ hớnh phĩn lớp để xõc định độ quan trọng của mỗi từ trong tập từ khụa ứng cử.

2.4.1.3 Mừ hớnh trợch rỷt từ khụa

Luận õn đề xuất mừ hớnh phĩn lớp FFNN để trợch rỷt từ khụa. Để lựa chọn được mừ hớnh nỏy, luận õn thực hiện thử nghiệm 04 mừ hớnh phĩn lớp bao gồm: SVM, Naủve Bayes, FFNN vỏ LSTM vỏ lựa chọn mừ hớnh cho kết quả tốt nhất. SVM vỏ Naủve Bayes lỏ hai trong số ba mừ hớnh học mõy được sử dụng để đõnh giõ hiệu quả của tập đặc trưng đề xuất. Luận õn sử dụng thư viện sklearn [163] để cỏi đặt hai phĩn lớp SVM vỏ Naủve Bayes. Mừ hớnh SVM vỏ Naủve Bayes được thiết kế tương tự như mừ hớnh FFNN đọ mừ tả trởn Hớnh 2.3. Mừ hớnh LSTM được thiết kế như Hớnh 2.4

Đầu vỏo của mừ hớnh FFNN lỏ tập từ khụa ứng cử U={u1, u2,…, un} được trợch rỷt từ cõc Cụm danh từ, Thực thể cụ tởn vỏ cụm từ xuất hiện lặp lại nhiều lần trong văn bản đầu vỏo.

Đầu vỏo của mừ hớnh LSTM lỏ tập từ V={v1, v2,…, vm} gồm cõc từ trong tỏi liệu đầu vỏo sau khi loại bỏ cõc từ dừng, ký tự số, những ký tự đặc biệt. Luận õn sử dụng Glove [103] để trợch rỷt vờc tơ đặc trưng của mỗi từ trong tập V lỏm đầu vỏo cho mừ hớnh LSTM. Hớnh 2.3. Mừ hớnh trợch rỷt từ khụa dựa trởn mừ hớnh FFNN ne1 … ca1 u1 Đầu ra Mừ hớnh FFNN Vờc tơ đặc trưng Đầu vỏo ne2 … ca2 u2

MẠNG NƠ RON TRUYỀN THẲNG (FFNN)

ne3 … ca3 u3 … nen … can un np1 np2 np3 … npn … y1 sigmoid y2 sigmoid y3 sigmoid … … yn sigmoid

Hớnh 2.4. Mừ hớnh trợch rỷt từ khụa dựa trởn mừ hớnh LSTM

Giõ trị đầu ra của cõc mừ hớnh nằm trong khoảng (0:1). Với ui lỏ từ thứ i trong tập từ khụa ứng cử. Vờc tơ đầu ra 𝑦 = (𝑦1, 𝑦2, … , 𝑦𝑛) với (0 ≤ yi ≤ 1), n lỏ số từ trong tập từ khụa ứng cử. Mừ hớnh FFNN sử dụng trong đề xuất nỏy lỏ mạng một chiều (feed-forward network) sử dụng hỏm sigmoid trong lớp ẩn.

2.4.1.4 Lựa chọn từ khụa

Thực hiện sắp xếp giảm dần cõc giõ trị đầu ra 𝑦 = (𝑦1, 𝑦2, … , 𝑦𝑛) của cõc mừ hớnh trởn vỏ lựa chọn k giõ trị lớn nhất, với k lỏ số từ khụa cần trợch rỷt.

Với đầu vỏo lỏ tập từ khụa ứng cử trong mục 3 phần Phụ lục, 10 kết quả đầu ra từ mừ hớnh FFNN được trớnh bỏy trong Bảng 2.1. (Kết quả đầu ra của toỏn bộ tập từ khụa ứng cử được trớnh bỏy trong Bảng P.1 mục 4 phần Phụ lục).

Bảng 2.1. Vợ dụ 10 kết quả đầu ra của mừ hớnh đề xuất

STT Keyword Giõ trị y 1 migration 0.840984 2 replication 0.678164 3 virtualization 0.659803 4 server 0.618527 5 live 0.617890 6 outages 0.610963 7 center 0.606313 8 storage 0.542996 9 network 0.533428 10 virtual 0.490329

(Cõc từ in đậm lỏ cõc từ nằm trong tập từ khụa xõc định trước)

… v1 Mừ hớnh LSTM Vờc tơ đặc trưng Đầu vỏo v2 v3 … vn GLOVE y1 sigmoid h1 LSTM Đầu ra y2 sigmoid h2

Một phần của tài liệu Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt (Trang 56 - 65)

Tải bản đầy đủ (PDF)

(173 trang)