Về một phương pháp xác định mục tiêu văn bản trong tiếng Việt

5 41 0
Về một phương pháp xác định mục tiêu văn bản trong tiếng Việt

Đang tải... (xem toàn văn)

Thông tin tài liệu

Bài viết giới thiệu mô hình xác định mục tiêu của văn bản tiếng Việt dựa trên cơ sở áp dụng hai giải thuật: Giải thuật phân tách từ tiếng Việt sử dụng trường điều kiện ngẫu nhiên (CRFs) và giải thuật phân loại văn bản StarSpace.

Thông tin khoa học công nghệ VỀ MỘT PHƯƠNG PHÁP XÁC ĐỊNH MỤC TIÊU VĂN BẢN TRONG TIẾNG VIỆT Nguyễn Cảnh Hùng*, Đặng Hồng Minh Tóm tắt: Trong báo này, chúng tơi giới thiệu mơ hình xác định mục tiêu văn tiếng Việt dựa sở áp dụng hai giải thuật: giải thuật phân tách từ tiếng Việt sử dụng trường điều kiện ngẫu nhiên (CRFs) [1] giải thuật phân loại văn StarSpace [2] Kết thử nghiệm cho thấy, mơ hình đề xuất tiến hành phân loại văn theo mục tiêu với độ xác tốt (hơn 90%) tập liệu kiểm tra Từ khóa: Phân loại văn bản; Tách từ; Các trường điều kiện ngẫu nhiên ĐẶT VẤN ĐỀ Bài toán phân loại văn lĩnh vực thu hút ý lớn cộng đồng nghiên cứu khóa học Thực tế xuất phát từ ý nghĩa thực tiễn Có thể định nghĩa, tốn phân loại văn (Text Classification) phép ánh xạ văn (hoặc câu văn) sang tập hữu hạn chủ đề dựa nội dung văn Chính vậy, giải thuật phân loại văn xây dựng, ứng dụng theo nhiều cách như: phân loại văn theo cảm xúc người viết (tích cực hay tiêu cực); phân loại văn theo chủ đề (như: thể thao, trị, kinh tế, ) Bài toán xác định mục tiêu văn dạng không tách rời toán phân loại văn Trên giới nay, nhiều giải thuật phân loại văn dựa Deep Learning[3] chứng minh tính ưu việt so với cơng nghệ trước [4] Tuy nhiên, việc áp dụng trực tiếp giải thuật vào ngôn ngữ tiếng Việt thường đem lại kết khơng cao Lý vì, tiếng Việt loại hình ngơn ngữ đơn lập Nghĩa tiếng phát âm tách rời thể chữ viết Mỗi từ cấu thành nhiều tiếng Tiếng, hình thức, trùng với đoạn phát âm tự nhiên gọi âm tiết Về nội dung, đơn vị nhỏ có nội dung thể Về ý nghĩa, có tiếng tự thân mang ý nghĩa, phản ánh đối tượng khái niệm, ví dụ: cây, trời, cỏ, lá, ăn, nói, cười,… Có tiếng không phản ánh hay thể ngữ nghĩa hay đối tượng Nhưng thân có mặt từ tạo nên khác biệt lớn Nghĩa là, kết hợp với hay nhiều tiếng khác có nghĩa để tạo nên từ (ví dụ: tiếng “sá” từ “đường sá”, “e” từ “e lệ”, “khúc” từ “khúc mắc”…) Bên cạnh đó, cách viết tách tiếng từ khác biệt lớn tiếng Việt ngôn ngữ khác, đặc biệt tiếng Anh (ngôn ngữ tảng thử nghiệm giải thuật phân loại văn bản) Nói cách khác, tiếng Anh, từ mang ý nghĩa phân tách với khoảng trắng Do đó, xử lý tiếng Anh, giải thuật có xu phân tách câu thành đơn vị ngữ nghĩa nhỏ dựa khoảng trẳng Trong đó, với tiếng Việt, phương pháp phá với ý nghĩa từ Trong báo này, nhóm nghiên cứu đề xuất áp dụng kết hợp 02 giải thuật là: giải thuật tách từ cho tiếng Việt giải thuật phân loại văn StarSpace nhằm nâng cao hiệu trình xác định mục tiêu văn CÁC GIẢI THUẬT SỬ DỤNG 2.1 Giải thuật tách từ tiếng Việt sử dụng trường điều kiện ngẫu nhiên (Conditional Random Fields - CRFs) Ta quy tốn tách từ tiếng Việt thành toán gán nhãn cho âm tiết 238 Nguyễn Cảnh Hùng, Đặng Hoàng Minh, “Về phương pháp … tiếng Việt.” Thông tin khoa học cơng nghệ tiếng Việt Dựa vào nhãn đó, ta xác định ranh giới từ văn tiếng Việt Các nhãn sử dụng là: • B_W: nhãn đánh dấu bắt đầu từ; • I_W: nhãn đánh dấu từ Ví dụ, câu văn: “Hơm ngày Quốc Khánh nước Hà Lan” gán nhãn sau: Hôm B_W I_W B_W ngày B_W Quốc B_W Khánh I_W nước B_W Hà B_W Lan I_W Dựa việc gán nhãn này, giải thuật đánh dấu từ câu sau: “Hôm_nay ngày Quốc_Khánh nước Hà_Lan” Như vậy, toán phân đoạn từ tiếng Việt phát biểu là: “Hãy xây dựng mơ hình để gán nhãn {B_W, I_W} cho âm tiết văn tiếng Việt chưa tách từ” Bài tốn giải mơ hình tìm thấy nhãn phù hợp cho âm tiết Việc định nhãn biểu diễn bằng: ∗ (1) = { ( | } * Trong đó, y* nhãn cho âm tiết x y nhãn thuộc tập nhãn y Người ta giải tốn nhiều mơ Markov ẩn [5] Tuy nhiên, CRFs thường sử dụng kế thừa ưu việt mơ hình trước đó, đồng thời, hoạt động tốt trường hợp liệu tồn nhiều ràng buộc phức tạp [6] Giải phương trình CRFs, ta có: ( | )= ( , )) exp( λ ( , , )+ μ (2) ( ) Trong đó, x chuỗi liệu, y chuỗi trạng thái tương ứng fk (yi-1, yi, x) thuộc tính chuỗi quan sát ứng trạng thái ứng với vị trí thứ i i-1 chuỗi trạng thái gk (yi, x) thuộc tính chuỗi quan sát trạng thái ứng với trí thứ i chuỗi trạng thái Các thuộc tính rút từ tập liệu có giá trị cố định VD: fi = xi-1 = “Quyết”, xi = “định” yi-1=B_W, yi=I_W fi = ngược lại gi = xi = “Quyết” yi = B_W gi = ngược lại λ μ tham số ước lượng (học) trình huấn luyện Quá trình ước lượng tham số thực giải thuật tối ưu số bậc hai LBFGS (limited memory BFGS) 2.2 Giải thuật phân loại văn StarSpace Trong thử nghiệm mình, chúng tơi sử dụng mơ hình giải thuật StarSpace cho tốn xác định mục tiêu văn Giải thuật StarSpace Facebook phát triển công bố năm 2017 Kết thử nghiệm cho toán phân loại văn tập liệu tiếng Anh cho thấy: mơ hình đạt độ xác tốt tương đương so với kiến trúc tiếng fastText Bên cạnh đó, việc lựa chọn giải thuật đến từ khả cho phép so sánh thực thể không loại mơ hình Chính tính rằng, giải thuật hoạt động tốt nhiều ngôn ngữ mà không hoạt động tốt tiếng Anh ngơn ngữ có quy luật tương tự tiếng Anh Tạp chí Nghiên cứu KH&CN quân sự, Số 66, 04 - 2020 239 Thông tin khoa học cơng nghệ Mơ hình StarSpace bao gồm việc học thực thể Mỗi thực thể mô tả tập hợp tính riêng biệt Mục tiêu học ma trận có kích thước Dxd, D số lượng đặc trưng d chiều dài vectơ embedding Một thực thể a biểu diễn dạng ∑ ∈ , đó, hàng thứ i (có kích thước d) ma trận embedding Hàm loss sau cực tiểu hóa trình huấn luyện: ( ( , ), ( , ), … , ( , ( , )∈ ∈ )) (3) Trong đó, việc tạo cặp thực thể dương (a,b) thuộc E+ thực thể âm b- thuộc E(phương pháp lấy mẫu k-âm (tương tự word2vec) sử dụng để lấy mẫu cho ) phụ thuộc vào tứng ứng dụng cụ thể mơ hình (nội dung giải thích rõ bên dưới) Hàm ( , ) hàm tương tự, mơ hình đề xuất, nhóm tác giả triển khai hai phương pháp tính tương tự cosine (cosine similarity) tích (inner product), sau đó, để mơ hình tự lựa chọn phương pháp phù hợp trình huấn luyện Thơng thường, phương pháp hoạt động tốt số lượng nhãn nhỏ, nhiên tập nhãn kích thước lớn, hàm cosine cho kết tốt Hàm loss so sánh cặp thực thể dương (a,b) với cặp thực thể âm (a, ) với i=1, ,k Quá trình huấn luyện tối ưu hóa dựa vào giải thuật Stochastic gradient descent (SGD) Sau huấn luyện xong, hàm ( , ) sử dụng Ví dụ toán phân loại, nhãn b cho thực thể a tính ( , ) nhãn Hiểu cách đơn giản nhãn có tính tương đồng với thực thể a lựa chọn Tùy vào ứng dụng cụ thể, mô hình lựa chọn cấu hình khác Đối với toán phân loại văn bản, cặp thực thể dương (a,b) lấy trực tiếp từ tập huấn luyện, đó, a nhóm từ đầu vào b nhãn tương ứng tập huấn luyện Các thực thể âm b- nhãn lại tập huấn luyện Mơ hình học cách cực đại ( , ) cực tiểu hóa ( , ) hóa Bằng việc kết hợp hai giải thuật vào chuỗi xử lý thống nhất, nhóm đề tài tiến hành xây dựng mơ hình phân loại văn tiếng Việt theo mục tiêu cho trước CÁC THỬ NGHIỆM VÀ KẾT QUẢ 3.1 Bộ liệu thử nghiệm Bộ liệu thử nghiệm mơ hình câu văn lấy từ văn mạng nội Viện CNTT Các văn tách thành câu riêng biệt Mỗi câu có nghĩa phân nhóm mục tiêu tương ứng: - Công tác Đào tạo; - Cơng tác Tài chính; - Cơng tác Đảng cơng tác trị; - Cơng tác hành hậu cần; - Cơng đồn tổ chức quần chúng khác; - Công tác quản lý Khoa học công nghệ Kết quả, liệu xây dựng gồm tổng 1200 câu với trung bình 200 câu cho mục tiêu 3.2 Phương pháp thử nghiệm kết Quá trình thử nghiệm tiến hành tập liệu với hai sô đồ xử lý khác 240 Nguyễn Cảnh Hùng, Đặng Hoàng Minh, “Về phương pháp … tiếng Việt.” Thông tin khoa học học công nghệ ược ợc đđưa Trong đó, thử thử nghiệm 1, liệu đđư ưa qua giải giải thuật tách từ theo khoảng trắng (tức coi ải thuật tách ức tiếng llàà m ột từ) Trong thử nghiệm 2, liệu đđược ợc đưa qua gi giải từ ttiếng ếng Việt trước tr ớc vào vào giải giải thuật xác định mục tiêu tiêu văn bbản ản Mơ hình thử thử nghiệm tổng thể đư ợc xây dựng theo sơ sơ đđồồ sau: Hình Mơ hình thử nghiệm nghiệm Bộ ược đưa vào hu ấn lu luyyện ộ liệu đư ợc tách thành thành 02 ph phần, ần, đó: 900 mẫu đđư ợc đưa huấn ện mẫu (với 50 câu cho mục ti êu) đư 300 mẫu tiêu) ợc sử dụng để kiểm tra độ xác ảng Kết Kết xử lý liệu tập kiểm tra B Bảng tra Thử nghiệm Thử Thử nghiệm Thử Thử nghiệm Thử Độ ộ xác 88.1% 93.7% Kết thấy vi ệc áápp ddụng thêm giải ết thử nghiệm cho thấy, việc ụng thêm ải thuật tách từ tiếng t ếng Việt vvào tiền xử lý trước ải th thuuật tiêu trình tiền tr ớc đưa đưa vào gi giải ật phân loại mục ti văn bản tiếng t ếng Việt cho kết ày ch rằng, đối ại vvăn ết tốt hơn Kết Kết thử nghiệm nnày bbài ài toán phân lo loại ăn tiếng loại tiêu văn bbản ếng Việt nói chung vvàà tốn phân lo ại mục tiêu ản nói riêng, riêng, việc việc áápp ddụng ụng giải thuật phân tách từ tiếng thuật t ếng Việt là hết cần thiết KẾT K ẾT LUẬN này, chúng tơi Trong báo phân tích giải giải thuật cần thiết để xây dựng mơ đó, 02 giải ược hình phân loại loại văn tiếng ếng Việt Việt Trong g ải thuật đđư ợc sử dụng để tạo nnên ên mô ếng Vi Việt giải hình giải giải thuật phân tách từ ti tiếng ệt dựa trên CRFs gi ải thuật phân loại văn StarSpace Qua nội nội dung nghiên nghiên cứu cứu nnày, ày, hy vvọng ọng áp dụng kết vvào tìm kiếm, cứu tốn thực thực nghiệm nh tìm kiếm, tra u thơng minh Tạp 2020 ạp chí Nghiên Nghiên cứu cứu KH&CN quân uân sự, sự, Số 666, 044 - 2020 241 Thông tin khoa học công nghệ Mặc dù kết thử nghiệm khả quan, nhiên, đến từ tính độc lập tương đối liệu Trong trường hợp liệu phân tách thành mục tiêu chứa nhiều nội dung, thuật ngữ trùng (như mục tiêu “bóng đa”, “bóng chuyền”, ) cần thêm nhiều cải thiện khác để nâng cao hiệu giải thuật TÀI LIỆU THAM KHẢO [1] Lafferty, J., McCallum, A., Pereira "Conditional random fields: Probabilistic models for segmenting and labeling sequence data" Proc 18th International Conf on Machine Learning Morgan Kaufmann pp 282–289, (2001) [2] Ledell Wu, Adam Fisch, Sumit Chopra, Keith Adams, Antoine Bordes, Jason Weston, “StarSpace: Embed All The Things!”, Computation and Language (2017) [3] Bojanowski, P.; Grave, E.; Joulin, A.; and Mikolov “Enriching word vectors with subword information” Transactions of the Association for Computational Linguistics 5:135–146 (2017) [4] Bengio, Y.; Ducharme, R.; Vincent, P.; and Jauvin, “A neural probabilistic language model” Journal of machine learning research 3(Feb):1137–1155 [5] Baum, L E.; Petrie, "Statistical Inference for Probabilistic Functions of Finite State Markov Chains" The Annals of Mathematical Statistics 37 (6): 1554–1563 doi:10.1214/aoms/1177699147, (2011) [6] Sutton, Charles; McCallum, Andre, "An Introduction to Conditional Random Fields" arXiv:1011.4088v1 (2010) ABSTRACT A SUITABLE MODEL FOR CLASSIFYING VIETNAMESE DOCUMENTS In this paper, we proposed a text classifying model for Vietnamese document Our model is a combination of two separated components: A tokenization algorithm based on Conditional Random Fields (CRFs)[1] and StarSpace[2] – a general text classification model Experiments results indicate that our model performed well on classifying task (with accuracy above 90% on the testing dataset) Keywords: Text Classification; Tokenization; Conditonal Random Fields - CRFs Nhận ngày 02 tháng 01 năm 2020 Hoàn thiện ngày 15 tháng 02 năm 2020 Chấp nhận đăng ngày 10 tháng năm 2020 Địa chỉ: Viện Công nghệ thông tin/Viện KH-CN quân *Email: hungbka48@gmail.com 242 Nguyễn Cảnh Hùng, Đặng Hoàng Minh, “Về phương pháp … tiếng Việt.” ... 200 câu cho mục tiêu 3.2 Phương pháp thử nghiệm kết Quá trình thử nghiệm tiến hành tập liệu với hai sô đồ xử lý khác 240 Nguyễn Cảnh Hùng, Đặng Hoàng Minh, Về phương pháp … tiếng Việt. ” Thông... thuật tách từ tiếng t ếng Việt vvào tiền xử lý trước ải th thuuật tiêu trình tiền tr ớc đưa đưa vào gi giải ật phân loại mục ti văn bản tiếng t ếng Việt cho kết ày ch rằng, đối ại vvăn ết tốt hơn... phân lo loại ăn tiếng loại tiêu văn bbản ếng Việt nói chung vvàà tốn phân lo ại mục tiêu ản nói riêng, riêng, việc việc áápp ddụng ụng giải thuật phân tách từ tiếng thuật t ếng Việt là hết cần

Ngày đăng: 15/05/2020, 14:56

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan