ạp dụng thuật tõn học mõy trong bỏi tõn trợch rỷt từ khụa bao gồm hai giai đoạn: (i) huấn luyện mừ hớnh trợch rỷt từ khụa, vỏ (ii) lựa chọn từ khụa. Giai đoạn huấn luyện mừ hớnh trợch rỷt từ khụa được thực hiện qua ba bước: (1) tiền xử lý dữ liệu; (2) trợch rỷt đặc trưng; (3) huấn luyện mừ hớnh. Giai đoạn lựa
từ khụa được thực hiện qua bốn bước gồm: (1) tiền xử lý dữ liệu; (2) trợch rỷt đặc trưng; (3) dự đõn từ khụa; vỏ (4) lựa chọn từ khụa. Quy trớnh tổng quan
của hệ thống đề xuất được mừ tả trong Hớnh 2.2. Trong cả hai giai đoạn, sau bước tiền xử lý dữ liệu tập từ khụa ứng cử được sử dụng để trợch rỷt đặc trưng. Thực hiện trợch rỷt đặc trưng ở mức từ cho mỗi từ trong tập từ khụa ứng cử sẽ tạo ra một ma trận đặc trưng hai chiều. Ma trận nỏy lỏ đầu vỏo của mừ hớnh huấn luyện vỏ dự đõn. Trong giai đoạn huấn luyện, dựa trởn bộ từ khụa đọ được xõc định trước để xĩy dựng dữ liệu gõn nhọn. Đĩy lỏ một vờc tơ một chiều cụ kợch thước bằng số lượng từ trong tập từ khụa ứng cử vỏ cụ giõ trị 1 nếu từ đụ thuộc tập từ khụa xõc định trước, ngược lại sẽ nhận giõ trị 0. Trong giai đoạn dự đõn, đầu ra của mừ hớnh dự đõn lỏ một vờc tơ một chiều cụ kợch thước bằng số lượng từ trong tập từ khụa ứng cử. Mỗi phần tử của vờc tơ cụ giõ trị nằm trong khoảng (0,1) biểu diễn khả năng một từ (trong tập từ khụa ứng cử) lỏ từ khụa. Bước lựa chọn từ khụa thực hiện sắp xếp giảm dần cõc phần tử trong vờc tơ đầu ra vỏ lựa chọn cõc từ tương ứng trong tập từ khụa ứng cử cụ giõ trị lớn nhất lỏ từ
khụa.
Hớnh 2.2. Quy trớnh tổng quan hệ thống trợch rỷt từ khụa
Tiếp theo, luận õn trớnh bỏy chi tiết cõc bước xử lý trong mỗi giai đoạn vỏ vợ dụ minh họa cho cõc bước trong quy trớnh đề xuất.
2.4.1.1 Tiền xử lý dữ liệu
Văn bản đầu vỏo để thực hiện trợch rỷt từ khụa trong đề xuất nỏy lỏ cõc văn bản thuần ở đụ đọ loại bỏ cõc hớnh vẽ, bảng biểu. Tuy nhiởn, qua quan sõt vỏ phĩn tợch dữ liệu đầu vỏo, luận õn nhận thấy cõc từ dừng, dữ liệu số, ký tự đặc biệt rất hiếm khi xuất hiện với vai trú lỏ từ khụa. Với tợnh chất của từ khụa lỏ cõc từ quan trọng trong văn bản, luận õn xĩy dựng tập từ khụa ứng cử gồm cõc Cụm danh từ (Noun
phrase), Thực thể cụ tởn (Named Entity) vỏ cõc cụm từ được lặp lại nhiều lần. Trong bước nỏy, luận õn thực hiện trợch rỷt cõc Cụm danh từ, Thực thể cụ tởn vỏ cụm từ xuất hiện lặp lại nhiều lần lỏ tập từ khụa ứng cử cho cõc bước xử lý tiếp theo. Kết quả, luận õn thu được một tập từ khụa ứng cử U={u1, u2,…, un}
vỏ n lỏ số lượng từ khụa ứng cử, lỏ cõc từ trong cụm Danh từ, Thực thể cụ tởn vỏ Cụm ba từ lặp lại nhiều lần.
Vợ dụ một số từ trong tập từ khụa ứng cử được trợch rỷt từ tệp nội dung C- 20.txt thuộc kho ngữ liệu SemEval2010 dưới đĩy (Nội dung văn bản trợch rỷt vỏ
danh sõch đầy đủ tập từ khụa ứng cử trợch rỷt từ tệp C-20.txt được trớnh bỏy trong phần Phụ lục tại mục 1 vỏ 3):
migration, replication, virtualization, server, live, outages, center, storage, network, virtual, recovery, technologies, data, ramakrishnan, internetbased, application, remote, cooperative, wan, availability, maintenance, services, applications, service, technology, aware, distributed, operation.
Tương ứng với tệp nội dung, tệp dữ liệu C-20.key chứa cõc từ khụa xõc định trước như sau:
internetbased, service, data, center, migration, wan, lan, virtual, server, storage, replication, synchronous, replication, asynchronous, replication, network, support, storage, voiceoverip, voip, database
Để xĩy dựng dữ liệu gõn nhọn cho mục đợch huấn luyện mừ hớnh, một vờc tơ một chiều cụ kợch thước bằng số từ trong tập từ khụa ứng cử bao gồm cõc giõ trị 0 vỏ 1 trong đụ giõ trị 1 ứng với từ nằm trong danh sõch từ khụa xõc định trước của dữ liệu huấn luyện. Bước tiếp theo, luận õn sẽ định nghĩa một tập đặc trưng lỏm cơ sở để trợch rỷt thừng tin xĩy dựng vờc tơ đặc trưng đầu vỏo cho mừ hớnh huấn luyện vỏ dự đõn.
2.4.1.2 Lớp vờc tơ đặc trưng
Cụ hai phương phõp tiếp cận để trợch rỷt đặc trưng văn bản: trợch rỷt tự động vỏ trợch rỷt thủ cừng. Mỗi phương phõp đều cụ ưu điểm vỏ phỳ hợp với dạng bỏi tõn vỏ dạng dữ liệu cụ thể. Với đầu vỏo của hệ thống lỏ một chuỗi văn bản,
qua bước tiền xử lý sẽ thu được một tập từ ứng cử. Luận õn nhận thấy yếu tố tuần tự của tập từ ứng cử khừng cún được duy trớ vỏ đĩy lỏ lý do lựa chọn phương õn trợch rỷt thủ cừng.
Trong phương phõp đề xuất nỏy, luận õn đề xuất một bộ đặc trưng ở mức từ gồm 9 đặc trưng: (1) Cụm danh từ; (2) Thực thể cụ tởn; (3) Cụm ba từ; (4)
Độ dỏi từ; (5) Vị trợ từ; (6) Độ phủ từ; (7) Tần suất xuất hiện từ; (8) trọng số TF- IDF; vỏ (9) Từ chứa ký tự viết hoa. Chi tiết cõc đặc trưng cho một từ ui
trong tập từ khụa ứng cử U được trớnh bỏy chi tiết sau đĩy. a. Cụm danh từ
Danh từ lỏ những từ chỉ người, vật, hiện tượng, khõi niệm,…Danh từ cụ thể kết hợp với từ chỉ lượng ở phợa trước, cõc từ nỏy, ấy, đụ,… ở phợa sau vỏ một số từ ngữ khõc để lập thỏnh Cụm danh từ. Cụm danh từ lỏ loại tổ hợp từ do danh từ với một số từ ngữ phụ thuộc nụ tạo thỏnh. Cụm danh từ cụ ý nghĩa đầy đủ hơn vỏ cụ cấu tạo phức tạp hơn một danh từ độc lập, nhưng hoạt động trong cĩu giống như một danh từ. Về cấu tạo, Cụm danh từ đầy đủ gồm ba phần: phần trước, phần trung tĩm vỏ phần sau. Cõc định ngữ ở phần trước bổ sung cho danh từ cõc ý nghĩa về số vỏ lượng. Cõc định ngữ ở phần sau nởu lởn đặc điểm của sự vật mỏ danh từ biểu thị hoặc xõc định vị trợ của sự vật ấy trong khừng gian hay thời gian.
Luận õn thực hiện trợch rỷt Cụm danh từ từ tỏi liệu đầu vỏo vỏ định nghĩa một vờc tơ đồng xuất hiện ở đụ những từ trong tập từ khụa ứng cử nằm trong Cụm danh từ được gõn giõ trị 1, cõc từ cún lại được gõn giõ trị 0. Gọi CDT lỏ tập
từ trong Cụm danh từ, vờc tơ đặc trưng Cụm danh từ, ký hiệu lỏ NP={np1, np2, …, npn}, được định nghĩa như cừng thức 2.1 dưới đĩy:
=
��� 1{ �ế� ��∈ ��� 0 � ��ị ợ ℎ� õ� b. Thực thể cụ tởn
Named Entity Recognition (NER) lỏ phương thức trợch rỷt thừng tin Thực thể cụ tởn vỏ gõn mỗi thực thể vỏo một lớp đối tượng cụ thể như tởn người, vị trợ, tổ chức. Khi khai thõc cõc kho ngữ liệu, đặc biệt lỏ cõc kho ngữ liệu lớn thớ thực
thể chợnh lỏ một đặc trưng quan trọng vỏ được xem lỏ cõc từ khụa sử dụng cho cõc bỏi tõn xõc định mối quan hệ giữa cõc tỏi liệu (bỏi tõn phĩn loại, phĩn cụm, …).
Thực hiện trợch xuất toỏn bộ Thực thể cụ tởn từ tỏi liệu đầu vỏo vỏ định nghĩa một vờc tơ đồng xuất hiện ở đụ những từ trong tập từ khụa ứng cử nằm trong tập Thực thể cụ tởn được gõn giõ trị 1, cõc từ cún lại được gõn giõ trị 0. Giả sử CNE lỏ tập Thực thể cụ tởn, vờc tơ đặc trưng Thực thể cụ tởn, ký hiệu lỏ
NE={ne1, ne2,…, nen}, được xõc định theo cừng thức 2.2 dưới đĩy:
=
��� 1{ �ế� ��∈ ��� 0 � ��ị ợ ℎ� õ� c. Cụm ba từ
Cụm ba từ (Trigram) lỏ trường hợp cụ thể của n-gram với giõ trị n=3. Luận õn định nghĩa CNG gồm cõc cụm ba từ với tần suất xuất hiện lớn hơn giõ trị t cho trước. Luận õn định nghĩa một vờc tơ đồng xuất hiện ở đụ những từ trong tập từ khụa ứng cử nằm trong cõc Trigram thu được ở trởn được gõn giõ trị 1, cõc từ cún lại được gõn giõ trị 0. Vờc tơ đặc trưng Cụm ba từ, ký hiệu lỏ
NG={ng1, ng2,…, ngn}, được xõc định theo cừng thức 2.3 sau đĩy.
=
��� 1{ �ế� ��∈ ��� 0 � ��ị ợ ℎ� õ� d. Độ dỏi từ
Cụ rất nhiều nghiởn cứu liởn quan đến độ dỏi của từ vỏ ảnh hưởng của độ dỏi đến tầm quan trọng của từ. Sigurd vỏ cộng sự [122] đọ nghiởn cứu mối quan hệ giữa độ dỏi từ vỏ tần suất xuất hiện từ trong kho ngữ liệu thực nghiệm. Kết quả nghiởn cứu cho thấy những từ cụ độ dỏi 3 ký tự cụ tần suất xuất hiện nhiều nhất. New vỏ cộng sự [150] đọ nghiởn cứu ảnh hưởng của độ dỏi từ đến việc lựa chọn từ. Kết quả nghiởn cứu cho thấy những từ cụ độ dỏi 3-5 chữ cõi được sử dụng phổ biến nhất. Luận õn coi độ dỏi từ lỏ một đặc trưng cụ giõ trị bằng số ký tự của từ đụ. Vờc tơ đặc trưng độ dỏi từ, ký hiệu lỏ LE={le1, le2,…, len}, được xõc
định bởi cừng thức 2.4.
���(��) ���=
ℎ ���_�����
trước .
Với len(ui) lỏ độ dỏi của từ ui tợnh bằng số ký tự, vỏ max_length lỏ hằng số cho
e. Vị trợ từ
Một số nghiởn cứu đọ chỉ ra mức độ quan trọng của một từ liởn quan đến vị trợ của từ đụ [49],[56]. Cụ nhiều cõch tiếp cận trong việc xõc định tầm quan trọng của từ dựa trởn vị trợ của từ, chẳng hạn như vị trợ của cĩu chứa từ xuất hiện [27] hoặc vị trợ đầu tiởn của từ xuất hiện trong văn bản [49]. Với một tỏi liệu hoỏn chỉnh (chẳng hạn như cõc bỏi bõo hoặc tiểu luận) thường bao gồm ba phần: giới thiệu, thĩn bỏi vỏ kết luận. Luận õn nhận thấy những từ quan trọng thường xuất hiện ở phần đầu vỏ phần kết của tỏi liệu. Bởn cạnh đụ, gianh giới chợnh xõc của từng phần của văn bản chỉ mang tợnh tương đối. Chợnh vớ vậy, luận õn đề xuất cừng thức 2.5 để xõc định đặc trưng vị trợ từ, ký hiệu lỏ PO={po1, po2,…, pon}, dựa trởn sự xuất hiện đầu tiởn đến vị trợ giữa của văn bản L.
���(�����_�����������(��) − ) � ��� =
L
ở đụ hỏm first_occurrences(ui) trả về vị trợ đầu tiởn mỏ từ ui xuất hiện trong văn bản, L lỏ vị trợ giữa văn bản, hỏm abs trả về giõ trị tuyệt đối của một số.
f.Độ phủ của từ
Độ phủ lỏ đặc trưng mỏ luận õn sử dụng liởn quan đến vị trợ của một từ. Luận õn nhận thấy một từ lỏ quan trọng khi từ đụ xuất hiện ở nhiều nơi trong văn bản. Trong trường hợp nỏy, cõc vị trợ mỏ luận õn quan tĩm lỏ vị trợ xuất hiện đầu tiởn vỏ cuối cỳng. Luận õn định nghĩa Độ phủ lỏ số từ giữa lần xuất hiện đầu tiởn vỏ lần xuất hiện cuối cỳng của từ đụ chia cho tổng số từ trong văn bản. Vờc tơ đặc trưng Độ phủ, ký hiệu lỏ SP={sp1, sp2,…, spn}, được xõc định theo cừng
thức 2.6.
����_�����������(��) − �����_�����������(��) ��� =
) ���(�
ở đụ first_occurrences(ui) vỏ last_occurrences(ui) trả về vị trợ xuất hiện đầu tiởn vỏ cuối cỳng, hỏm len(D) trả về số ký tự trong tỏi liệu đầu vỏo D.
một từ trong tỏi liệu thể hiện mức độ quan trọng của từ đụ. Để trõnh cõc trường hợp giõ trị tần suất qũ cao trong cõc tỏi liệu dỏi, luận õn xõc định giõ trị đặc trưng dựa trởn tần suất theo cừng thức 2.7 bằng giõ trị tần suất của từ ui, ��(��),
chia cho cho tổng số từ khụa ứng cử n. Vờc tơ đặc trưng tần xuất xuất hiện của từ, ký hiệu lỏ TF={tf1, tf2,…, tfn}, được xõc định theo cừng thức dưới đĩy.
��(��) ��� =
n h. Trọng số TF-IDF
TF-IDF lỏ viết tắt của cụm từ “Term Frequency - Inverse Term Frequency” [30]. Giõ trị TF-IDF thể hiện độ quan trọng của một từ trong tỏi liệu. Luận õn sử dụng giõ trị TF-IDF của một từ lỏm trọng số để xõc định tầm quan trọng của từ đụ trong tỏi liệu. Luận õn định nghĩa giõ trị đặc trưng của một từ ui
theo trọng số TF-IDF theo cừng thức 2.8. Vờc tơ đặc trưng trọng số TF-IDF, ký hiệu lỏ TF.IDF={tfidf1, tfidf2,…, tfidfn}, được xõc định theo cừng thức 2.8.
i. Từ chứa ký tự viết hoa
Campos Ricardo vỏ cộng sự [27] cho rằng một từ bắt đầu bằng một chữ cõi viết hoa hoặc tất cả cõc chữ cõi lỏ viết hoa được coi lỏ một từ quan trọng. Tuy nhiởn, việc xõc định như vậy khừng đủ mạnh để đõnh giõ cõc từ viết tắt số nhiều vỏ cõc cừng thức hụa học. Luận õn xõc định cõc từ quan trọng nếu cụ ợt nhất một chữ cõi viết hoa. Vờc tơ đặc trưng, ký hiệu lỏ CA={ca1, ca2,…, can},
được xõc định bởi cừng thức 2.9.
Sau khi định nghĩa 9 đặc trưng nởu trởn, luận õn thực hiện kết hợp cõc đặc trưng thỏnh một ma trận 2 chiều cụ kợch thước nỨ9 thể hiện như cừng thức 2.10, với n lỏ số lượng từ trong tập từ khụa ứng cử.
������= ��(��) Ứ ���(��) (2.8) = �� 1 �ế� ��� ứ� ợ� � ấ� �ộ� � �ℎℎ�� ℎ ý ự � { 0 �ế� � � ừ�� � ứ� � �ℎ ℎ ý ự ℎ�� (2.9) ��1 ��1 ��1 ��1 ��1 ��1 ��1 �����1 ��1 � = (⋮��2 ��⋮2 ��⋮2 ��⋮2 ��⋮2 ��⋮2 ��⋮2 �����⋮2 ��⋮2 ) ��� ��� ��� ��� ��� ��� ��� ������ ��� (2.10)
Tiếp theo, luận õn sử dụng ma trận F lỏm đầu vỏo cho cõc mừ hớnh phĩn lớp để xõc định độ quan trọng của mỗi từ trong tập từ khụa ứng cử.
2.4.1.3 Mừ hớnh trợch rỷt từ khụa
Luận õn đề xuất mừ hớnh phĩn lớp FFNN để trợch rỷt từ khụa. Để lựa chọn được mừ hớnh nỏy, luận õn thực hiện thử nghiệm 04 mừ hớnh phĩn lớp bao gồm: SVM, Naủve Bayes, FFNN vỏ LSTM vỏ lựa chọn mừ hớnh cho kết quả tốt nhất. SVM vỏ Naủve Bayes lỏ hai trong số ba mừ hớnh học mõy được sử dụng để đõnh giõ hiệu quả của tập đặc trưng đề xuất. Luận õn sử dụng thư viện sklearn [163] để cỏi đặt hai phĩn lớp SVM vỏ Naủve Bayes. Mừ hớnh SVM vỏ Naủve Bayes được thiết kế tương tự như mừ hớnh FFNN đọ mừ tả trởn Hớnh 2.3. Mừ hớnh LSTM được thiết kế như Hớnh 2.4
Đầu vỏo của mừ hớnh FFNN lỏ tập từ khụa ứng cử U={u1, u2,…, un} được
trợch rỷt từ cõc Cụm danh từ, Thực thể cụ tởn vỏ cụm từ xuất hiện lặp lại nhiều lần trong văn bản đầu vỏo.
Đầu vỏo của mừ hớnh LSTM lỏ tập từ V={v1, v2,…, vm} gồm cõc từ trong tỏi
liệu đầu vỏo sau khi loại bỏ cõc từ dừng, ký tự số, những ký tự đặc biệt. Luận õn sử dụng Glove [103] để trợch rỷt vờc tơ đặc trưng của mỗi từ trong tập V lỏm đầu vỏo cho mừ hớnh LSTM. Đầu ra … … … Mừ hớnh FFNN … Vờc tơ đặc trưng Đầu vỏo u1 u2 u3 … y1 np2 ne2 … ca2 np3 ne3 … ca3 npn nen … can np1 ne1 … ca1 y2 y3 yn sigmoid sigmoid sigmoid sigmoid
MẠNG NƠ RON TRUYỀN THẲNG (FFNN)
Đầu ra … … … Mừ hớnh LSTM Vờc tơ đặc trưng Đầu vỏo … Hớnh 2.4. Mừ hớnh trợch rỷt từ khụa dựa trởn mừ hớnh LSTM
Giõ trị đầu ra của cõc mừ hớnh nằm trong khoảng (0:1). Với ui lỏ từ thứ i
trong tập từ khụa ứng cử. Vờc tơ đầu ra � = (�1, �2, … , ��) với (0 ≤ yi ≤ 1), n lỏ số từ trong tập từ khụa ứng cử. Mừ hớnh FFNN sử dụng trong đề xuất nỏy lỏ mạng một chiều (feed-forward network) sử dụng hỏm sigmoid trong lớp ẩn. 2.4.1.4 Lựa chọn từ khụa
Thực hiện sắp xếp giảm dần cõc giõ trị đầu ra � = (�1, �2, … , ��) của cõc mừ hớnh trởn vỏ lựa chọn k giõ trị lớn nhất, với k lỏ số từ khụa cần trợch rỷt.
Với đầu vỏo lỏ tập từ khụa ứng cử trong mục 3 phần Phụ lục, 10 kết quả đầu ra từ mừ hớnh FFNN được trớnh bỏy trong Bảng 2.1. (Kết quả đầu ra của toỏn bộ tập từ khụa ứng cử được trớnh bỏy trong Bảng P.1 mục 4 phần Phụ lục).
Bảng 2.1. Vợ dụ 10 kết quả đầu ra của mừ hớnh đề xuất
STT Keyword Giõ trị y 1 migration 0.840984 2 replication 0.678164 3 virtualization 0.659803 4 server 0.618527 5 live 0.617890 6 outages 0.610963 7 center 0.606313 8 storage 0.542996 9 network 0.533428 10 virtual 0.490329
(Cõc từ in đậm lỏ cõc từ nằm trong tập từ khụa xõc định trước)
yn y3 y1 LSTM LSTM LSTM … LSTM GLOVE y2 sigmoid sigmoid sigmoid sigmoid
h1 h2 h3 hn
v1 v2 v3 vn