Mơ hình phân loại tài nguyên học tập

CHƯƠNG 3 MƠ HÌNH PHÂN LOẠI TÀI NGUYÊN HỌC TẬP

3.2. Mơ hình phân loại tài nguyên học tập

3.2.1. Phân loại tài nguyên học tập

Phân loại tài nguyên học tập hay phân lớp văn bản nĩi chung (text classification) là q trình rút trích các đặc trưng (feature extraction) từ tập dữ liệu và dự đốn xem nĩ thuộc loại tài liệu nào dựa trên các đặc trưng đĩ (Kowsari et al., 2019). Phân loại

văn bản là cơng việc cơ bản và cần thiết trong xử lý ngơn ngữ tự nhiên.

Thời gian qua, nhiều phương pháp tiếp cận đạt được những kết quả quan trọng trong phân loại văn bản. Sự thành cơng đĩ dựa trên khả năng hiểu được các mơ hình phức tạp và các mối quan hệ phi tuyến tính trong dữ liệu. Hơn một thập kỷ qua, nghiên cứu trong lĩnh vực này đã gia tăng do thành cơng chưa từng cĩ của kỹ thuật học máy, gần đây là học sâu (Li et al., 2020).

Phân loại tài nguyên được nhiều trường đại học, viện nghiên cứu quan tâm, ứng dụng giải quyết các bài tốn cụ thể. Chẳng hạn tài nguyên học tập là bài báo khoa học gửi đăng các tạp chí, các hội thảo. Các hệ thống nhận bài của các tạp chí cĩ quy mơ lớn thường cĩ rất nhiều chủ đề, như Hiệp hội quốc tế về nghiên cứu, giáo dục ngành khoa học máy tính ACM cĩ hơn 2.000 chủ đề, do vậy cần phân loại tự động để xác định một bài viết thuộc chủ đề nào.

Trong nghiên cứu này, mơ hình loại tài nguyên học tập bằng các kỹ thuật học máy và học sâu được đề xuất. Các tập dữ liệu thực nghiệm là các nguồn tài nguyên học tập được thu thập từ nhiều nguồn khác nhau. Ngồi ra, các kỹ thuật xử lý ngơn ngữ tự nhiên cũng được sử dụng để tiền xử lý dữ liệu trước khi kiểm chứng mơ hình.

Hệ thống tổng quát của mơ hình phân loại tài nguyên học tập được trình bày trong Hình 3.1. Cụ thể tài nguyên học tập ở đây là các bài báo (article) của các tập dữ liệu khác nhau. Trong mơ hình này, khi một bài báo mới (định dạng .doc, .html,…) gửi đến hệ thống sẽ được phân loại thành một chủ đề dựa trên dữ liệu trước đĩ được huấn luyện bởi các mơ hình học máy, học sâu.

Hình 3.1: Kiến trúc đề xuất để tiền xử lý và phân loại tài nguyên học tập 3.2.2. Tiền xử lý dữ liệu

Quá trình tiền xử lý dữ liệu được mơ tả như Giải thuật 3.1. Quá trình tiền xử lý gồm nhiều cơng việc khác nhau.

Gi i thu t 3.1ả ậ InputDocument:PreProccssing

Data: d

1 Convertion(d) // convert the input document (.doc/.pdf) to text

2 WordSegmention(d) // separate document to words

3 WordNormalization(d) // changed to lower cases, removing blanks

4 RemovingStopWords(d) // remove noise words

5 Vectorization(d) // convert documents to respectively vectors

6 Return sets of Vectorized-Documents D

Convertion(d): Chuyển đổi dữ liệu từ các định dạng khác nhau sang định dạng

văn bản thuần túy (.txt) để dễ dàng sử dụng trong hầu hết các giải thuật. Nhiều cơng cụ cĩ thể được dùng để chuyển đổi định dạng dữ liệu, trong nghiên cứu này, cơng cụ Apache POI được sử dụng vì nĩ phù hợp với các tập dữ liệu lớn.

WordSegmention(d): Đối với tiếng Việt, dấu cách (space) khơng cĩ nhiệm vụ tách

từ mà chỉ phân cách giữa các âm tiết. Chính vì vậy, giai đoạn tách từ cũng khá quan trọng trong xử lý ngơn ngữ tự nhiên. Nghiên cứu này đã sử dụng cơng cụ tách từ

VnTokenizer dựa trên cách tiếp cận tổng hợp các phương pháp Maximum Matching,

WFST và regular expression parsing, với tập dữ liệu sử dụng là bảng âm tiết tiếng Việt và từ điển từ vựng tiếng Việt. Đây là cơng cụ tách từ tiếng Việt tự động, tách các văn bản tiếng Việt thành các đơn vị từ vựng (từ ngữ, tên, số, ngày tháng và các biểu thức chính quy khác) với độ chính xác hơn 95% (Nguyễn Thị Minh Huyền et al., 2010).

WordNormalization(d): Dữ liệu cần được chuẩn hĩa từ để chuyển tất cả ký tự của

văn bản thành chữ thường, xĩa các khoảng trống,… trước khi thực hiện xĩa các từ khơng cần thiết gây nhiễu.

RemovingStopWords(d): Từ dừng (stop words) là những từ khơng bổ sung nhiều

ý nghĩa cho một câu, khơng chứa thơng tin đáng giá để sử dụng và cĩ thể được bỏ qua mà khơng làm mất đi ý nghĩa của câu. Stop words thường xuất hiện nhiều trong tất cả các văn bản trong tập dữ liệu (Saif et al., 2014). Trong phân loại văn bản, sự xuất hiện của stop words khơng những khơng giúp gì trong việc đánh giá phân loại mà cịn gây nhiễu và giảm độ chính xác của q trình phân loại (như các từ: thì, là, mà, và, hoặc, bởi…).

Vectorization(d): Cĩ một số mơ hình biểu diễn văn bản như mơ hình khơng gian

véc-tơ (vector space model) dựa trên phương pháp đánh trọng số của từ theo tần số, mơ hình túi từ (bag of words model), mơ hình hĩa văn bản thành đồ thị (graph-based model). Nghiên cứu đề cập phương pháp biểu diễn văn bản theo mơ hình khơng gian véc-tơ do mơ hình này biểu diễn tương đối đơn giản và hiệu quả (Perone, 2013). Theo mơ hình này, mỗi văn bản được biểu diễn thành một véc-tơ; mỗi thành phần của véc-tơ là một từ riêng biệt trong tập văn bản và được gán một giá trị là trọng số của từ đĩ trong văn bản đĩ.

Bài tốn biểu diễn văn bản theo mơ hình khơng gian véc-tơ như sau: Đầu vào là một tập gồm cĩ j văn bản trong miền ứng dụng D, với D = {d1, d2,… dj} và tập gồm m từ trong

mỗi văn bản T = {t1, t2,… tm}; đầu ra lần lượt đánh trọng số cho từng từ trong mỗi văn bản,

từ đĩ xây dựng ma trận trọng số wij là trọng số của từ wj trong văn bản dj € D. Cĩ nhiều

giải pháp để đánh trọng số của từ ti trong văn bản dj, trong đĩ giải pháp tích hợp tần số xuất hiện từ khĩa (TF - Term Frequency) và nghịch đảo tần số xuất hiện trong các văn bản (IDF- Inverse Document Frequency) được sử dụng khá phổ biến.

TF dùng để ước lượng tần suất xuất hiện của một từ trong một văn bản nào đĩ. Bên cạnh đĩ, mỗi văn bản đều cĩ độ dài, số lượng từ ngữ khác nhau vì thế số lần xuất hiện của từ sẽ khác nhau. Do đĩ, để đánh trọng số của một từ người ta lấy số lần xuất hiện của từ đĩ chia cho độ dài của văn bản (số từ của văn bản) như biểu thức 3.1:

TF�ti, dj�=

Khi tính tần số TF của một từ thì tất cả các từ trong tập từ cĩ mức độ quan trọng là như nhau. Tuy nhiên, nhiều nghiên cứu cho thấy khơng hẳn trong một tập dữ liệu tất cả các từ đều quan trọng. Những từ thường khơng cĩ độ quan trọng cao là từ nối (nên, nhưng, bên cạnh đĩ, vì, như vậy…), từ chỉ định (kìa, đĩ, ấy, thế…), giới từ (trên, trong, ngồi, ở, tại…). Chính những lý do trên mà ta cần giảm đi mức độ quan trọng của những từ đĩ bằng cách tính IDF thơng qua biểu thức 3.2:

IDF(ti, D) = log

TF*IDF là sự tích hợp giữa tần số xuất hiện từ khĩa TF và nghịch đảo tần số xuất hiện trong các văn bản IDF. Phương pháp này khá phổ biến được dùng để tính giá trị TF*IDF của một từ thơng qua mức độ quan trọng của từ này trong một văn bản, mà bản thân văn bản đang xét nằm trong một tập hợp các văn bản. Những từ cĩ IF*IDF cao là những từ xuất hiện nhiều trong văn bản này và xuất hiện ít trong các văn bản khác. Thơng qua phương pháp này, chúng ta cĩ thể lọc ra những từ phổ biến và giữ lại những từ cĩ giá trị cao.

3.2.3. Mơ hình phân loại tài nguyên học tập

Mơ hình đề xuất được trình bày như Hình 3.1. Trong đĩ, các thuộc tính đầu vào được chọn từ Bảng 3.1 và đầu ra (dự đốn) của mơ hình bao gồm các lớp phụ thuộc vào tập dữ liệu đã chọn. Các thực nghiệm tìm kiếm siêu tham số được thực hiện trên các tập dữ liệu. Bắt đầu từ một lớp ẩn, số lượng nơ-ron từ 2 lên 128 được tăng dần, mỗi lần tăng theo bội số 2 (2n với n = 1..7). Khi cĩ được số nơ-ron tốt nhất, giả sử k, để kiểm tra chúng ta bắt đầu tăng số lượng lớp ẩn từ 2 lên 5 với k nơ-ron cho mỗi lớp ẩn để quan sát những thay đổi trong kết quả dự đốn.

Chẳng hạn đối với tập dữ liệu Scientific_Articles các tham số tìm được mơ tả như kiến trúc mạng MLP ở Hình 3.2. Mạng nhận 3.431 thuộc tính của tập dữ liệu làm đầu vào, theo sau là một lớp ẩn bao gồm 16 nơ-ron và đầu ra là 9 nơ-ron tương ứng với xác suất dự đốn của 9 chủ đề phân loại. Tương tự, các siêu tham số trên các tập dữ liệu khác cũng được tìm kiếm. Sau khi chọn siêu tham số từ các thực nghiệm, chúng tơi giữ lại số nơ-ron và số lớp ẩn để dự đốn trên 5 tập dữ liệu, số lượng nơ-ron của lớp input và lớp output cĩ thể thay đổi tùy thuộc vào tập dữ liệu.

Hình 3.2: Kiến trúc MLP được đề xuất thơng qua các thử nghiệm với các thơng số

khác nhau trên tập dữ liệu Scientific_Articles

Mơ hình MLP phân lớp (hay phân loại) nhị phân sử dụng hàm kích hoạt sigmoid để thực hiện dự đốn. Đối với các bài tốn phân đa lớp, hàm Softmax với k lớp được sử dụng. Hàm này làm nhiệm vụ chuẩn hĩa một giá trị đầu vào thành một véc-tơ, các giá trị tuân theo phân phối xác suất cĩ tổng bằng 1. Hàm kích hoạt ReLU cũng được thực hiện trong kiến trúc MLP.

Mơ hình phân loại tài nguyên học tập

Nghiên cứu về phân loại văn bản

Nghiên cứu về tìm kiếm tài liệu