Đề xuất thuật toán phân loại văn bản tiếng Việt sử dụng mạng LSTM và Word2vec

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	13
Dung lượng	724,66 KB

Nội dung

Bài viết trình bày việc sử dụng mạng Long Short Term Memory (LSTM) kết hợp với Word2vec để phân loại văn bản nhằm cải thiện hiệu suất và độ chính xác. Kết quả đánh giá mô hình trên bộ văn bản tiếng Việt VNTC đã cho thấy sự khả thi và hứa hẹn áp dụng trong thực tế.

Nghiên cứu khoa học cơng nghệ ĐỀ XUẤT THUẬT TỐN PHÂN LOẠI VĂN BẢN TIẾNG VIỆT SỬ DỤNG MẠNG LSTM VÀ WORD2VEC Nguyễn Thị Minh Ánh, Nguyễn Hữu Phát* Tóm tắt: Hiện nay, phân loại văn ứng dụng xử lý ngôn ngữ tự nhiên Đặc biệt, thành tựu gần mạng học sâu cho thấy phương pháp học sâu làm tốt việc phân loại văn Các phương pháp cho thấy hiệu việc phân loại văn với ngôn ngữ tiếng Anh Tuy nhiên, nay, phạm vi nghiên cứu chúng tơi, khơng có nhiều nghiên cứu văn tiếng Việt Do đó, nghiên cứu này, sử dụng mạng Long Short Term Memory (LSTM) kết hợp với Word2vec để phân loại văn nhằm cải thiện hiệu suất độ xác Kết đánh giá mơ hình văn tiếng Việt VNTC [1] cho thấy khả thi hứa hẹn áp dụng thực tế Từ khóa: Phân loại văn bản; Xử lý ngôn ngữ tự nhiên; Xử lý liệu; Long Short Term Memory; Word2vec ĐẶT VẤN ĐỀ Với xu bùng nổ liệu nay, lượng liệu văn phải xử lý ngày nhiều Vấn đề đặt làm để khai thác thông tin từ nguồn liệu Rõ ràng, ta phải hiểu rõ chất liệu văn bản, hiểu rõ đặc trưng liệu để có phương pháp luận cần thiết Việc phân loại văn tự động giúp tiết kiệm thời gian công sức Các mô hình mạng nơ-ron nhân tạo học sâu(Deep Neural Network - DNN) đạt nhiều thành công việc xử lý ngôn ngữ tự nhiên Những ứng dụng Deep Learning xử lý ngơn ngữ tự nhiên kể đến thuật tốn phân cụm từ [12], rút trích nội dung văn tiếng Việt [13],… Đối với phân loại văn bản, có nhiều nghiên cứu mơ hình sử dụng Với ngơn ngữ tiếng Anh, toán phân loại văn nghiên cứu dựa mạng nơ-ron nhân tạo học sâu [14, 19] Trong [14], tác giả sử dụng LSTM, LSTM + Word2vec Việc sử dụng mơ hình LSTM + Word2Vec đào tạo trước giải tốt vấn đề xử lý liệu nhiều chiều phương pháp truyền thống gây Trong phương pháp [19], tác giả sử dụng mạng Convolutional Neural Network (CNN) Recurrent Neurral Network (RNN) để phân loại, kết phương pháp cho thấy, hiệu mạng RNN tốt so với mạng CNN, nhiên, độ xác cịn chưa cao liệu chưa đủ lớn Còn [15], tác giả kết hợp hai mơ hình CNN Bidirectional Recurrent Neural Network (BRNN) Trong mơ hình này, tác giả sử dụng lớp bidirectional để thay cho lớp pooling CNN nhằm để giảm thông tin chi tiết giúp lưu trữ phụ thuộc dài hạn chuỗi đầu vào Ngồi ra, để giảm bớt tính phức tạp tính tốn, tác giả sử dụng thuật toán Support Vector Machine (SVM) [16] Thuật toán SVM có hiệu việc xử lý khơng gian số chiều cao, sử dụng tốt toán phân loại văn Thuật toán giúp tiết kiệm nhớ có tập hợp điểm sử dụng trình huấn luyện định thực tế cho điểm liệu nên có điểm cần thiết lưu trữ nhớ định SVM có tính linh hoạt cho phép linh động phương pháp tuyến tính phi tuyến tính Tuy nhiên, SVM chưa thể rõ tính xác suất việc phân lớp việc cố gắng tách đối tượng vào hai lớp phân tách siêu phẳng Đối với phân loại văn tiếng Việt, có nghiên cứu phương pháp để Tạp chí Nghiên cứu KH&CN quân sự, Số 69, 10 - 2020 69 Kỹ thuật điều khiển & Điện tử phân loại Phân loại văn tiếng Việt sử dụng phương pháp truyền thống phương pháp phân loại dựa mơ hình chủ đề [17] Mơ hình chủ đề loại mơ hình thống kê để phát “chủ đề” trừu tượng có tập tài liệu Phương pháp đảm bảo tính ổn định cho độ xác tương đối để xây dựng chủ đề khó tốn nhiều thời gian chi phí Thuật tốn SVM áp dụng cho phân loại văn tiếng Việt [18] Bộ phân loại có khả tự động điều chỉnh tham số để tối ưu hóa hiệu suất phân loại Tuy nhiên, so với ngôn ngữ tiếng Anh, phân loại văn cho tiếng Việt cho kết thấp nhiều (độ xác ngôn ngữ tiếng Việt 80.72% so với 89% phân loại văn tiếng Anh [16]) Trong [20], tác giả sử dụng phương pháp truyền thống Naïve Bayes (NB) Maximum entropy (Maxent) NB thuật toán đơn giản, sử dụng để giải vấn đề liên quan tới phân loại liệu dựa phương pháp thống kê Tuy nhiên, nhược điểm phương pháp khơng có liên kết đặc trưng Maxent phương pháp tối đa hóa entropy cách ước tính xác suất nhãn dựa đặc trưng câu Ngoài ra, [20], tác giả sử dụng phương pháp học sâu LSTM Bidirectional Long Short Term Memory (BiLSTM) Trong [22], tác giả đề xuất kiến trúc mạng nơ-ron để thực phân loại đạt kết tốt nghiên cứu Trong nghiên cứu [28], tác giả sử dụng kết hợp CNN LSTM cho việc phân tích nội dung câu văn CNN LSTM có ưu điểm riêng, CNN đưa liên kết từ cục với LSTM liên kết từ theo dạng chuỗi liên kết từ khứ Sự phát triển mơ hình học sâu đề tài phân loại văn cho thấy cải tiến việc phân loại văn tiếng Việt Việc thử nghiệm cải thiện kết việc phân loại văn tiếng Việt so với phương pháp truyền thống mạng học sâu Phân loại văn tự động việc gán nhãn phân loại lên văn dựa mức độ tương tự văn so với văn gán nhãn tập huấn luyện Bài báo sử dụng để giải số vấn đề phân loại đề tài văn bản, phân loại nhận xét tích cực - tiêu cực,… Phân loại văn phương pháp gán nhãn tài liệu văn với thể loại từ liệu xác định từ trước Ví dụ có liệu tin tức ký hiệu là: (1) 𝑁 = (𝑛1 , 𝑛2 , … , 𝑛𝑛 ) Các nhãn dãn ứng với tin tức ký hiệu là: 𝐶 = (𝑐1 , 𝑐2 , … , 𝑐𝑚 ) (2) Và viết này, nghiên cứu để tự động gán nhãn viết theo nhãn C Phương pháp phân loại văn cổ điển thường giải cách dựa vào từ điển, phương pháp học máy Tuy nhiên, phương pháp học sâu đời cho hiệu tốt nhiều Để phân loại văn phương pháp học sâu, CNN LSTM sử dụng rộng rãi Tuy nhiên, phương pháp thường áp dụng cho tiếng Anh, tiếng Việt, chúng sử dụng hạn chế Hai ngơn ngữ có nhiều điểm khác biệt điểm khác biệt gây khó khăn việc xử lý tiếng Việt xác định ranh giới từ Đối với tiếng Anh, “từ nhóm ký tự có nghĩa tách biệt với khoảng trắng câu” (Từ điển Webster), vậy, việc tách từ trở nên đơn giản Còn tiếng Việt, ranh giới từ không xác định mặc định khoảng trắng mà phụ thuộc vào ngữ cảnh dùng câu tiếng Việt Ví dụ từ tiếng Anh “book”, “cat”, “language” tiếng Việt “quyển sách”, “con mèo”, “ngôn ngữ”,… Một số đặc tính từ tiếng Việt là: 70 N T M Ánh, N H Phát, “Đề xuất thuật toán phân loại văn … LSTM Word2vec.” Nghiên cứu khoa học công nghệ - Từ dạng nguyên thể, hình thức ý nghĩa từ độc lập với cú pháp - Từ bao gồm từ đơn từ phức, bao gồm từ láy, từ ghép - Từ cấu trúc từ “tiếng” Việc nhận biết từ tiếng Việt gọi phân cụm từ: Hình Vấn đề phân cụm từ tiếng Việt [10] Trong hình 1, có nhiều cách để hiểu câu văn này: Sinh_viên vi_phạm quy_chế thi_cử Sinh_viên vi phạm_quy chế thi_cử – Câu văn không mang ý nghĩa Phân cụm từ bước quan trọng tiền xử lý văn tiếng Việt Nếu câu văn hiểu theo cách hiểu thứ nhất, ta phân loại câu với nhãn “pháp luật” Tuy nhiên, câu văn phân cụm theo cách thứ 2, ta phân loại nhầm sang nhãn khác Do vậy, độ xác bước phân cụm từ quan trọng Nếu việc phân cụm từ đạt kết khơng tốt dẫn đến phân loại nhãn văn bị sai lệch Trong viết này, chúng tơi sử dụng mơ hình LSTM để phân loại văn LSTM có cổng giúp lọc thơng tin cổng đầu vào, cổng nhớ Nhờ đó, liệu có ích từ thời điểm lâu khứ có tác dụng điều chỉnh Trong báo kết hợp sử dụng phương pháp LSTM Word2vec Khi sử dụng kết hợp với Word2vec, hiệu mơ hình cải thiện Nội dung báo tổ chức sau Sau phần giới thiệu, chúng tơi trình bày cơng việc liên quan Phần trình bày chi tiết sở lý thuyết Phần cho thấy kết thử nghiệm mơ hình Phần kết luận hướng phát triển NỘI DUNG CẦN GIẢI QUYẾT 2.1 Xây dựng lý thuyết Quy trình thực tốn: Đào tạo: Nhãn LSTM Tiền xử lý Word2vec Tiền xử lý Word2vec Dự đốn: LSTM Nhãn Hình Sơ đồ cấu trúc hệ thống Với yêu cầu mục đích đặt cho hệ thống, toán bao gồm hai bước đào tạo dự đốn 2.1.1 Thu thập liệu Khó khăn việc phân loại văn tiếng Việt liệu chủ đề tiếng Việt cịn hạn chế độ xác chưa cao Các liệu thường gồm từ 50-100 văn thơ Tuy nhiên, có nhóm nghiên cứu Hồng Cơng Duy Vũ đồng nghiệp [1] tạo liệu VNTC [1] đáp ứng điều kiện, nhu cầu nghiên Tạp chí Nghiên cứu KH&CN quân sự, Số 69, 10 - 2020 71 Kỹ thuật điều khiển & Điện tử cứu toán Bộ liệu cập nhật thu thập tin tức điện tử online từ báo điện tử là: VnExpress [6], TuoitreOnline [7], ThanhNienOnline [8], NguoiLaoDong [9] theo chủ đề người dùng chọn lựa Bộ liệu bao gồm 10 chủ đề với 33756 viết cho tập train 50373 viết cho tập test: Hình Tập liệu train [1] Dữ liệu testing 10 chủ đề 8000 7000 6000 5000 4000 3000 2000 1000 7567 6716 5276 6667 6250 5417 4560 3788 2036 Chính trị - xã hội Đời sống 2096 Khoa Kinh học doanh Phát luật Sức khoẻ Thế giới Thể thao Văn hoá Tin học Số lượng tin Hình Tập liệu test [1] 2.1.2 Tiền xử lý liệu a Tách từ tiếng Việt Do vấn đề nêu từ phần 1, việc tách từ tiếng Việt ảnh hưởng nhiều tới kết tốn Hiện nay, có nhiều nghiên cứu tách từ tiếng Việt [23], tác giả sử dụng phương pháp Single Classification Ripple Down Rules (SCRDR) cho tách từ đạt hiệu 97.9% Trong [24], tác giả sử dụng mơ hình mạng nơ-ron để gắn thẻ part-ofspeech (POS) phân tích cú pháp phụ thuộc nghiên cứu đạt 97.9% Một phương pháp sử dụng tách từ tiếng Việt [25], tác giả sử dụng tiếp cận lai (hybrid) để tự động hóa văn tiếng Việt Cách tiếp cận kết hợp kỹ thuật trạng thái hữu hạn, phân tích cú pháp biểu thức việc chiến lược khớp tối đa tăng cường phương pháp thống kê giải vấn đề mơ hồ phân đoạn từ Và kết nghiên cứu đạt độ xác 98.5% Trong nghiên cứu lần này, sử dụng phương pháp Tokenizer [25] để thực tách từ Với phương pháp có nhiều cơng cụ hỗ trợ Coccoc-tokenizer cho ngôn ngữ C++, VnCoreNLP cho ngôn ngữ Java,… Đối với ngơn ngữ Python, có số thư viện hỗ trợ Pyvi, vTools, Vietseg,… Để giải vấn đề tách từ này, sử dụng thư viện tách từ tiếng Việt Pyvi [2] Bộ tách từ cho kết tốt liệu VNTC b Làm liệu Sau tách từ, văn xuất nhiều ký tự đặc biệt, dấu câu,… thành phần làm giảm hiệu q trình xử lí Trong phần này, chuyển tất từ in hoa chữ in thường, xóa bỏ dấu câu 72 N T M Ánh, N H Phát, “Đề xuất thuật toán phân loại văn … LSTM Word2vec.” Nghiên cứu khoa học công nghệ c Tách bỏ stop-word Tiếp theo, loại bỏ “stop-word” “stop-word” hiểu từ có mức độ khơng quan trọng văn việc phân loại văn Một số từ nối, từ số lượng (“và”, “mặc_dù”, “tuy_nhiên”,…) khơng mang tính phân biệt phân loại Ngồi ra, “stop-word” cịn từ khơng có giá trị phân loại từ xuất hầu khắp văn hay dùng không phổ biến văn Việc loại bỏ từ làm giảm thời gian tính tốn giảm nhớ q trình xử lí Trong bước này, chúng tơi sử dụng từ điển stopword-vietnamese [3] để loại bỏ từ không cần thiết văn Sau loại bỏ “stop-word”, văn xem tập hợp từ quan trọng lại để biểu diễn văn 2.1.3 Trích xuất đặc trưng Sau loại bỏ stopword, ta thu văn với từ “quan trọng” Tuy nhiên, thấy rằng, số đặc trưng tất văn xử lí lớn Chính vậy, phân loại dựa đặc trưng cần phải có cách xử lí, lựa chọn đặc trưng nhằm rút ngắn số chiều không gian đặc trưng Tiếp theo, từ văn vector hóa, cụ thể từ biểu diễn vector Việc biểu diễn từ thành vector đóng vai trị quan trọng tốn Word Embedding có nhiệm vụ ánh xạ từ một cụm từ từ vựng tới vector số thực từ không gian chiều cho từ tới không gian vector liên tục Trong phần này, chúng tơi sử dụng mơ hình Word2vec Word Embedding việc biểu diễn từ dạng vector số thực với số chiều xác định Word2vec mơ hình học tập khơng giám sát tạo năm 2013 Word2vec mơ hình Word Embedding sử dụng mạng neural, có khả vector hóa từ dựa tập từ từ ngữ cảnh Về mặt tốn học, thực chất Word2vec việc ánh xạ từ từ tập từ (vocabulary) sang không gian vector vector biểu diễn n số thực Word2vec mạng neural gồm lớp với tầng ẩn Đầu vào tập lớn từ sinh khơng gian vector, đó, với từ gắn với vector tương ứng khơng gian theo biểu thức: Hình Mơ hình Word2Vec [5] - Đầu vào mơ hình one – hot – vector từ có dạng 𝑥1 , 𝑥2 ,…, 𝑥𝑣 , đó, V số từ vựng(vocabulary) Mỗi từ vector, có giá trị tương đương với thứ tự từ vocabulary lại - Ma trận đầu vào lớp ẩn ma trận W (có số chiều VxN) có hàm kích hoạt linear function, ma trận lớp ẩn đầu W’ (có số chiều NxV) có hàm kích hoạt softmax - Mỗi hàng W vector N chiều đại diện cho 𝑣𝑤 từ lớp đầu vào Mỗi Tạp chí Nghiên cứu KH&CN quân sự, Số 69, 10 - 2020 73 Kỹ thuật điều khiển & Điện tử hàng W 𝑣𝑤𝑇 - Từ lớp ẩn đến đầu có ma trận W’ = 𝑤′𝑖,𝑗 Tính toán score 𝑢𝑖 cho từ : 𝑢𝑗 = 𝑣′𝑤 𝑗 h (3) Trong đó, 𝑣′𝑤 𝑗 cột ma trận j W’ Sau đó, ta sử dụng hàm kích hoạt softmax sau: 𝑃 𝑤𝑗 𝑤𝐼 = 𝑦ⅈ = 𝑒𝑥𝑝 𝑢𝑗 𝑉 𝑗 ′ =1 𝑒𝑥𝑝 𝑣′𝑇𝑤 𝑗 𝑣𝑤 𝐼 = 𝑉 𝑒𝑥𝑝⁡𝑢𝑗 ′ 𝑗 ′ =1 𝑒𝑥𝑝⁡ 𝑣′𝑇𝑤 𝑗 , 𝑣𝑤 𝐼 (4) Với 𝑣𝑤 𝑣𝑤′ vector đại diện cho từ w đến từ ma trận W W’ Sau trình huấn luyện mơ hình, trọng số vector từ cập nhật liên tục Từ đó, thực tính tốn khoảng cách Những từ gần khoảng cách thường từ hay xuất văn cảnhhoặc từ đồng nghĩa, hay từ thuộc trường từ vựng 2.1.4 Long Short Term Memory (LSTM) LSTM phiên mở rộng mạng Recurrent Neural Network (RNN), thiết kế để giải toán phụ thuộc xa (long-term dependencies) RNN mạng nơ-ron có chứa vịng lặp Mạng có khả lưu trữ thông tin, thông tin truyền từ lớp sang lớp khác Đầu lớp ẩn phụ thuộc vào thông tin lớp thời điểm RNN sử dụng phổ biến xử lý ngơn ngữ tự nhiên hay tốn có liệu Tuy nhiên, kiến trúc RNN đơn giản nên khả liên kết lớp có khoảng cách xa khơng tốt Nó khơng có khả ghi nhớ thơng tin từ liệu có khoảng cách xa, đó, phần tử chuỗi đầu vào thường khơng có nhiều ảnh hưởng đến kết dự đoán phần tử cho chuỗi đầu bước sau Nguyên nhân việc RNN chịu ảnh hưởng việc đạo hàm bị thấp dần trình học – biến đạo hàm (vanishing gradient) Mạng LSTM thiết kế để khắc phục vấn đề Cơ chế hoạt động LSTM ghi nhớ thông tin liên quan, quan trọng cho việc dự đốn, cịn thơng tin khác bỏ Memory cell Candidate values Input gate O Cell state O + Output gate Forget gate O Hình Mơ hình LSTM [11] Mạng LSTM bao gồm nhiều tế bào LSTM liên kết với Ý tưởng LSTM bổ sung thêm trạng thái bên tế bào (cell internal state) 𝑠𝑡 ba cổng sàng lọc thông tin đầu vào đầu cho tế bào bao gồm cổng quên 𝑓𝑡 , cổng đầu vào 𝑖𝑡 cổng đầu 𝑜𝑡 Tại bước thời gian t, cổng nhận giá trị đầu vào 𝑥𝑡 (đại diện cho 74 N T M Ánh, N H Phát, “Đề xuất thuật toán phân loại văn … LSTM Word2vec.” Nghiên cứu khoa học công nghệ phần tử chuỗi đầu vào) giá trị ℎ𝑡−1 có từ đầu nhớ từ bước thời gian trước t – Các cổng có chức sàng lọc thơng tin với mục đích khác Các cổng định nghĩa sau: - Cổng quên: Có chức loại bỏ thông tin không cần thiết nhận khỏi trạng thái tế bào bên - Cổng đầu vào: Giúp sàng lọc thông tin cần thiết để thêm vào trạng thái tế bào bên - Cổng đầu ra: Có chức xác định thông tin từ trạng thái tế bào bên sử dụng đầu Trong trình thực hiện, 𝑠𝑡 giá trị đầu ℎ𝑡 tính tốn sau: Ở bước đầu tiên, tế bào LSTM định thông tin cần loại bỏ từ trạng thái tế bào bên bước thời gian trước 𝑠𝑡−1 Giá trị 𝑓𝑡 cổng quên bước thời gian t tính toán dựa giá trị đầu vào 𝑥𝑡 , giá trị đầu ℎ𝑡−1 từ tế bào LSTM bước trước độ lệch (bias) 𝑏𝑓 cổng quên Hàm sigmoid biến đổi tất giá trị kích hoạt (activation value) miền giá trị khoảng từ theo công thức: 𝑓𝑡 = 𝜎(𝑊𝑓,𝑥 𝑥𝑡 + 𝑊𝑓,ℎ ℎ𝑡−1 + 𝑏𝑓 ) (5) Ở bước thứ 2, tế bào LSTM xác định thông tin cần thêm vào trạng thái tế bào bên 𝑠𝑡 Bước bao gồm hai q trình tính tốn 𝑠𝑡 𝑓𝑡 𝑠𝑡 biểu diễn thơng tin thêm vào trạng thái tế bào bên trong: 𝑠𝑡 = 𝑡𝑎𝑛ℎ(𝑊𝑠 ,𝑥 𝑥𝑡 + 𝑊𝑠,ℎ ℎ𝑡−1 + 𝑏𝑠 ) (6) Giá trị 𝑖𝑡 cổng đầu vào bước thời gian t tính: 𝑖𝑡 = 𝜎(𝑊𝑖,𝑥 𝑥𝑡 + 𝑊𝑖,ℎ ℎ𝑡−1 + 𝑏𝑖 ) (7) Ở bước tiếp theo, giá trị trạng thái tế bào bên 𝑠𝑡 tính tốn dựa kết thu từ bước trên: 𝑠𝑡 = 𝑓𝑡 ∗ 𝑠𝑡−1 + 𝑖𝑡 ∗ 𝑠𝑡 (8) Cuối cùng, giá trị đầu ℎ𝑡 : 𝑜𝑡 = 𝜎(𝑊𝑜,𝑥 𝑥𝑡 + 𝑊𝑜,ℎ ℎ𝑡−1 + 𝑏𝑜 ) ℎ𝑡 = 𝑜𝑡 ∗ 𝑡𝑎𝑛ℎ(𝑠𝑡 ) (9) (10) Trong đó: 𝑊𝑠 ,𝑥 , 𝑊𝑠 ,ℎ , 𝑊𝑓,𝑥 , 𝑊𝑓,ℎ , 𝑊𝑖,𝑥 , 𝑊𝑖,ℎ ma trận trọng số tế bào LSTM 𝑏𝑓 , 𝑏𝑠 , 𝑏𝑖 , 𝑏𝑜 vector bias 2.2 Thực nghiệm 2.2.1 Dataset Như trình bày trên, chúng tơi sử dụng tập liệu VNTC [1] bao gồm 33756 viết cho tập train 50373 viết cho tập test 2.2.2 Tiền xử lý đầu vào Các văn đầu vào tách từ thông qua thư viện pyvi [3] làm sạch, tách stopword, xóa bỏ ký tự đặc biệt, dấu câu 2.2.3 Trích xuất đặc trưng Trong toán này, chúng chuyển văn sang không gian vector Tạp chí Nghiên cứu KH&CN quân sự, Số 69, 10 - 2020 75 Kỹ thuật điều khiển & Điện tử tạo thư mục để biểu diễn tài liệu Mỗi từ đưa dạng vector bao gồm số thành phần lại Trong tốn này, chúng tơi sử dụng thêm Word2vec giúp cải thiện việc xuất đặc trưng cho văn Khi thực toán, sau thử nghiệm tập pre-train có sẵn thư viện gensim khơng có nhiều phù hợp với liệu Với tập liệu lên tới 80000 văn bản, chúng tơi train lại mơ hình Word2vec để cải thiện cho tốn với embedding_size = 300, window_size = Dưới hình ảnh biểu diễn số từ model train sử dụng t-SNE Hình Các từ khơng gian vector từ Word2Vec 2.2.4 Phân loại văn Trong toán này, tin thường dao động từ 500 – 1000 từ nên để giảm kích thước đầu vào cho mạng chúng tơi lựa chọn độ dài tối đa văn 400, kích thước word embedding 300 Việc lựa chọn kích thước văn khơng gian vector để giải vấn đề liệu nhiều chiều phương pháp truyền thống Chúng huấn luyện mô hình với lớp ẩn có 128 units, sử dụng RMSProp với tỷ lệ học (learning rate) 0,001 cho hàm tối ưu, sử dụng dropout 0,4 2.2.5 Tiêu chí đánh giá Để đánh giá hiệu suất mơ hình, chúng tơi sử dụng Precision, Recall F1-score làm tiêu chí đánh giá tốn Để minh họa ý nghĩa số này, confusion matrix [4] thể bảng sau: Bảng Confution Matrix Negative Pre Positive Pre Negative Act True Negative(TN) False Positive(FP) Positive Act False Negative(FN) True Positive(TP) Trong đó: - TN kết mơ hình dự đốn xác lớp negative - TP kết mơ hình dự đốn xác lớp positive 76 N T M Ánh, N H Phát, “Đề xuất thuật toán phân loại văn … LSTM Word2vec.” Nghiên cứu khoa học công nghệ - FN kết mơ hình dự đốn khơng xác lớp negative - FP kết mơ hình dự đốn khơng xác lớp positive Precision tỉ lệ số điểm Positive mơ hình dự đốn tổng số điểm mơ hình dự đốn Positive: 𝑇𝑃 Precision = 𝑇𝑃+𝐹𝑃 (11) Recall tỉ lệ số điểm Positive mơ hình dự đốn tổng số điểm thật Positive (hay tổng số điểm gán nhãn Positive ban đầu): 𝑇𝑃 Recall = 𝑇𝑃+𝐹𝑁 (12) F1-score trung bình điều hịa (harmonic mean) precision recall (giả sử hai đại lượng khác 0): 1 = + (13) 𝐹1 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑅𝑒𝑐𝑎𝑙𝑙 KẾT QUẢ VÀ THẢO LUẬN Kết mơ hình mà thực hiện: Bảng So sánh kết thuật toán Precision Recall F1-score LSTM 92.36% 91.81% 92,09% LSTM + Word2Vec (Mơ hình đề xuất) 95,55% 95,93% 95,74% Từ bảng cho thấy kết việc phân loại văn tiếng Việt, độ xác mơ hình phân loại văn sử dụng LSTM kết hợp với Word2vec cao so với mơ hình phân loại văn sử dụng LSTM Do mơ hình Word2Vec đào tạo trước tương đương với việc tăng khối lượng đào tạo cách gián tiếp Hơn nữa, Word2vec ngăn chặn phù hợp mức (over fiting), giảm số lượng thông số cần thiết đào tạo cải thiện độ xác Đồng thời, thử nghiệm toán dựa CNN CNN + Word2vec thực riêng Hai đặc điểm quan trọng CNN ý nghĩa cục (local sensing) chia sẻ trọng số (weight sharing) Thuật toán CNN áp dụng vào toán coi đoạn văn đầu vào ma trận chiều có kích thước 400x300 Độ dài cố định văn 400 kích thước word embedding từ 300 Bảng So sánh thuật toán khác Precision Recall CNN 83.48% 83.02% CNN+ Word2Vec 84,13% 84,89% F1-score 83,25% 84,01% Kết cho thấy rằng, độ xác mơ hình phân loại văn dựa LSTM + Word2vec cho kết tốt nhiều so với thuật toán CNN CNN có lợi lớn việc xử lý hình ảnh, nhiên, phân loại văn mơ hình cho kết khơng cao Có thể thấy rằng, LSTM cho kết tốt việc xử lý liệu dạng text Thuật toán LSTM phương pháp xử lý dạng chuỗi, trình học liệu ghi nhớ liệu khứ xử lý dựa vào liệu khứ nên có liên kết từ nên đạt độ xác cao so với CNN Tạp chí Nghiên cứu KH&CN quân sự, Số 69, 10 - 2020 77 Kỹ thuật điều khiển & Điện tử Bảng So sánh phương pháp phân loại văn khác thực nghiệm Tác giả Phương pháp Dữ liệu Số đặc trưng Độ xác (%) BùiKhánh Linh, Mơ hình chủ đề VLSP (20000 829; 339 83; 94.07 Nguyễn Thị Thu câu) Hà, Nguyễn Thị Ngọc Tú, Đào Thanh Tĩnh [17] Nguyễn Linh Support Vector [6] (4162 tài 7721 80,72 Giang, Nguyễn Machine (SVM) liệu) Mạnh Hiển [18] Phu X.V Naive Bayes, Vietnamese 300 81,2 – 89,6 Nguyen, Tham Maxent, LSTM, Students’ T.T Hong, Kiet Bi-LSTM Feedback Corpus Van Nguyen, for Sentiment Ngan Luu-Thuy Analysis (16000 Nguyen [20] phản hồi) [21] V C D Hoang, SVM VNTC [1] N/A 93,4% D Dinh, N le kNN 84,67% Nguyen and H Q NGram 97,1% Ngo [1] Toan Pham Van, SVM VNTC [1] N/A 96,52% Ta Minh Thanh Random Forest 99,21% [22] SVC 99,22% Neural Network 99,75% Hung T.Vo, Duc Naive Bayes N/A Bag – of – 72,6% Dung Nguyen kNN structure (BoS) 83,66% [26] SVM 87,95% Huy – Thanh Linear SVM VNNews-01 Tf-Idf 92,3% Duong, Vinh Truong Hoang [27] Huy – Tien LSTM + CNN VS 200 87,5% Nguyen, Bac Le [28] Từ bảng trên, nghiên cứu thực liệu khác nhìn chung sử dụng phương pháp đề xuất sử dụng mơ hình LSTM + Word2vec cải thiện kết so với phương pháp truyền thống Naive Bayes, kNN, So với việc sử dụng mạng LSTM, Bi-LSTM, kết hợp với phương pháp Word2vec giúp cải thiện kết thời gian thực Kết cho thấy vượt trội so với phương pháp tương tự [20] tác giả sử dụng LSTM, liệu 16000 phản hồi phân loại với nhãn nghiên cứu chúng tơi có 10 nhãn kết cải thiện 6% độ xác Với nghiên cứu sử dụng liệu với chúng tôi, phương pháp đạt kết tốt tương đương với phương pháp truyền thống đạt nhiều kết tốt xử lý ngôn ngữ tự nhiên SVM [18, 1, 26, 27] Việc kết hợp LSTM phương pháp học sâu khác CNN [28] phân loại nhãn đạt kết hạn chế so với phương pháp Trong [22], nghiên cứu đạt kết tốt tập 78 N T M Ánh, N H Phát, “Đề xuất thuật toán phân loại văn … LSTM Word2vec.” Nghiên cứu khoa học công nghệ liệu VNTC, đề xuất sử dụng phương pháp vector hóa từ phân lớp văn khác với Với kiến trúc mạng kết hợp với Bag of Word Keyword Extraction đạt tới 99.75% độ xác, tốt so với phương pháp đề xuất Qua thấy, phương pháp đề xuất chúng tơi cịn nhiều hạn chế chúng tơi tiếp tục cải thiện nghiên cứu KẾT LUẬN Việc phân loại văn công việc có vai trị quan trọng việc nghiên cứu, khai thác lượng liệu lớn Trong viết này, chúng tơi trình bày phương pháp phân loại văn dựa mơ hình LSTM Thuật toán LSTM khắc phục vấn đề đạo hàm biến (vanishing gradient), có liên kết đặc trưng câu, liên kết từ từ ngữ cảnh giúp cải thiện kết mơ hình Đóng góp chúng tơi đề xuất sử dụng kết hợp mơ hình Word2vec giúp giảm số chiều không gian đặc trưng để làm giảm độ phức tạp phương pháp Việc học lại đặc trưng phương pháp Word2vec liệu VNTC giúp liên kết đặc trưng phù hợp, liên quan tương tự giúp nâng cao hiệu mơ hình Với phương pháp Word2vec, chúng tơi sử dụng số chiều 300, giảm số đặc trưng so với phương pháp khác giúp tăng tốc độ xử lý, tránh tượng bùng nổ tổ hợp (curse of dimensionality) Chúng tơi kiểm chứng mơ hình so với việc không sử dụng Word2vec cho thấy sử dụng kết hợp với Word2vec kết cho tốt Do việc trích chọn đặc trưng từ Word2vec giúp mơ hình chọn đặc trưng phù hợp giúp mơ hình cải thiện độ xác Thực nghiệm so sánh kết phân loại văn sử dụng LSTM với CNN, qua cho thấy LSTM thực tốt CNN Mơ hình chúng tơi cải thiện kết so với phương pháp học truyền thống khác Tuy nhiên, sử dụng mơ hình này, chúng tơi thấy số nhược điểm mơ hình sau: - Thời gian train mơ hình lâu so với phương pháp SVM, CNN - Mặc dù cải thiện vấn đề đạo hàm biến RNN số câu văn dài phương pháp xuất hiện tượng này, điều gây trường hợp sai sót việc phân loại - Hiệu không tốt thực tế Công việc thực cải thiện mơ hình phân loại việc sử dụng kết hợp với kỹ thuật khác để cải thiện tượng biến đạo hàm attention cải thiện độ xác việc sử dụng kết hợp với mơ hình học sâu khác TÀI LIỆU THAM KHẢO [1] V C D Hoang, D Dinh, N le Nguyen and H Q Ngo, "A Comparative Study on Vietnamese Text Classification Methods," IEEE International Conference on Research, Innovation and Vision for the Future, Hanoi, 2007, pp 267-273 [2] T.V Trung, Python Vietnamese Core NLP Toolkit (2019), Online: https://github.com/trungtv/pyvi [3] Stopwords/Vietnamese stopwords (2019), Online: https://github.com/stopwords/vietnamese-stopwords [4] Ting K.M., “Confusion Matrix,” In Sammut C., Webb G.I (eds) Encyclopedia of Machine Learning and Data Mining Springer, Boston, MA, 2017 [5] Detailed explanation of Word2Vector Skip-gram (2013), Online: http://www.programmersought.com/article/8383114826/ [6] Vnexpress, Online: https://vnexpress.net/ Tạp chí Nghiên cứu KH&CN quân sự, Số 69, 10 - 2020 79 Kỹ thuật điều khiển & Điện tử [7] Tuoitre, Online: https://tuoitre.vn/ [8] Thanhnien, Online: https://thanhnien.vn/ [9] Người lao động, Online: https://nld.com.vn/ [10] Hông P L., Huyen T M N., Roussanaly A., Vinh H T., “A Hybrid Approach to Word Segmentation of Vietnamese Texts In: Martín-Vide C.,” Otto F., Fernau H (eds) Language and Automata Theory and Applications LATA 2008, pp 240-249 [11] Thomas F and Christopher K., “Deep learning with long short-term memory networks for financial market predictions,” European Journal of Operational Research, vol 270, no 2, pp 654-669, 2018 [12] Thanh V.Nguyen, Hoang K.Tran, Thanh T.T.Nguyen, Hung Nguyen “Word Segmentation for Vietnamese Text Categorization: An online corpus approach” [13] Tạ Nguyễn, Vũ Đức Lung, “Xây dựng hệ thống rút trích nội dung văn khoa học tiếng Việt dựa cấu trúc”, (2014) [14] Lizhong Xiao, Guanghong Wang, Yang Zuo, “Research on patent text classification based on Word2vec and LSTM”, (2018) [15] Raouf Ganda, “Efficient Deep Learning Model for Text Classification Based on Recurrent and Convolutional Layers”, (2017) [16] Anurag Sarkar, Saptarshi Chatterjee, Writayan Das, Debabrata Datta “Text Classification using Support Vector Machine” [17] Bùi Khánh Linh, Nguyễn Thị Thu Hà, Nguyễn Thị Ngọc Tú, Đào Thanh Tĩnh “Phân loại văn tiếng Việt dựa mơ hình chủ đề.” [18] Nguyễn Linh Giang, Nguyễn Mạnh Hiển, “Phân loại văn tiếng Việt với phân loại vectơ hỗ trợ SVM”, (2005) [19] Radhika Kuttala, Bindu K R, Latha Parameswaran, “A text classification model using convolution neural network and recurrent neural network”, (2018) [20] Phu X.V Nguyen, Tham T.T Hong, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen “Deep Learning versus Traditional Classifiers on Vietnamese Students’ Feedback Corpus”, (2018) [21] Kiet Van Nguyen, Vu Duc Nguyen, Phu Xuan-Vinh Nguyen, Tham Thi-Hong Truong, Ngan Luu-Thuy Nguyen, UIT-VSFC: “Vietnamese Students’ Feedback Corpus for Sentiment Analysis”, 2018 10th International Conference on Knowledge and Systems Engineering (KSE 2018), November 1-3, 2018, Ho Chi Minh City, Vietnam [22] Toan Pham Van, Ta Minh Thanh, “Vietnamese News Classification based on BoW with Keywords Extraction and Neural Network”, (2017) [23] Dat Quoc Nguyen, Dai Quoc Nguyen, Thanh Vu, Mark Dras, Mark Johnson, “A Fast and Accurate Vietnamese Word Segmenter”, (2018) [24] Dat Quoc Nguyen, Karin Verspoor, “An improved neural network model for joint POS tagging and dependency parsing”, (2018) [25] Le Hong Phuong, Huyen Thi Minh Nguyen, Azim Roussanaly, Tuong Vinh Ho, “A Hyvird Approach to word Segmentation of Vietnamese Texts.” [26] Hung T.Vo, Hai C.Lam, Duc Dung Nguyen, Nguyen Huynh Tuong “Topic classification and sentiment analysis for Vietnamese education survey system.” (2016) [27] Huy – Thanh Duong, Vinh Truong Hoang “A survey on the multiple classifier for new benchmark dataset of Vietnamese news classification.” (2019) [28] Huy – Tien Nguyen, Bac Le “Multi – channel LSTM – CNN model for Vietnamese sentiment analysis.” (2017) 80 N T M Ánh, N H Phát, “Đề xuất thuật toán phân loại văn … LSTM Word2vec.” Nghiên cứu khoa học công nghệ ABSTRACT PROPOSAL CLASSIFICATION ALGORITHM OF VIETNAMESE TEXT USING LONG SHORT TERM MEMORY AND WORD2VECABSTRACT Recently, text classification is considered as a fundamental approach in Natural Language Processing (NLP) It can be widely applied into numerous fields namely sentiment analyses, topic labelings and so on Specifically, recent achievements have shown that Deep Learning (DL) methods obtained great performance in classifying texts These methods have positive effects on text classification, especially in English However, there are few studies investigating about their impacts on Vietnamese text classification Therefore, in this research, Long Short Term Memory (LSTM) network and Word2Vec engine were used in text classification with the aim of improving efficiency and accuracy The results of model evaluation on Vietnamese text VNTC [1] we concluded were feasible and likely to be applied in real-life contexts in the near future Keywords: Text Classification; Natural Language Processing; Long Short Term Memory; Word2vec; Data Processing Nhận ngày 23 tháng năm 2020 Hoàn thiện ngày 13 tháng năm 2020 Chấp nhận đăng ngày 15 tháng 10 năm 2020 Địa chỉ: Viện Điện tử Viễn thông, Đại học Bách khoa Hà Nội * Email: phat.nguyenhuu@hust.edu.vn Tạp chí Nghiên cứu KH&CN quân sự, Số 69, 10 - 2020 81 ... sâu đề tài phân loại văn cho thấy cải tiến việc phân loại văn tiếng Việt Việc thử nghiệm cải thiện kết việc phân loại văn tiếng Việt so với phương pháp truyền thống mạng học sâu Phân loại văn. .. nhãn phân loại lên văn dựa mức độ tương tự văn so với văn gán nhãn tập huấn luyện Bài báo sử dụng để giải số vấn đề phân loại đề tài văn bản, phân loại nhận xét tích cực - tiêu cực,… Phân loại văn. .. 92,09% LSTM + Word2Vec (Mơ hình đề xuất) 95,55% 95,93% 95,74% Từ bảng cho thấy kết việc phân loại văn tiếng Việt, độ xác mơ hình phân loại văn sử dụng LSTM kết hợp với Word2vec cao so với mơ hình phân

Ngày đăng: 19/11/2020, 08:15