1. Trang chủ
  2. » Nghệ sĩ và thiết kế

PHÂN LỚP VĂN BẢN TIẾNG VIỆT TỰ ĐỘNG THEO CHỦ ĐỀ.

11 25 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 11
Dung lượng 868,93 KB

Nội dung

Có thể nói, trong điện ảnh Jennifer Lopez có khả năng diễn xuất đa năng khi cô vừa có thể diễn những bộ phim tình cảm hài nhẹ nhàng cho đến những tác phẩm điện ảnh tội phạm hình sự.. L[r]

Tạp chí Khoa học Cơng nghệ Thực phẩm 18 (1) (2019) 129-139 PHÂN LỚP VĂN BẢN TIẾNG VIỆT TỰ ĐỘNG THEO CHỦ ĐỀ Mạnh Thiên Lý*, Vũ Văn Vinh, Nguyễn Văn Lễ, Lâm Thị Họa Mi, Nguyễn Thị Thanh Thủy, Dƣơng Thị Mộng Thùy Trường Đại học Công nghiệp Thực phẩm TP.HCM *Email: lymt@hufi.edu.vn Ng y nh n i 16/01 Ng y h p nh n ng 06/3/2019 TÓM TẮT Mạng Internet ng y ng phát triển mạnh mẽ, mang lại nguồn thông tin vô ùng phong phú Nhu ầu khai thá liệu, phát tri thứ ũng ng y ng gia t ng Phân lớp v n ản óng vai trị quan trọng việ khai thá liệu v phát tri thức Nhiều kỹ thu t họ máy ược ứng dụng ể hu n luyện liệu ho trình phân lớp Hiện nay, ó nhiều thu t toán ược sử dụng ể phân lớp v n ản Naïve Bayes, K-NN, SVM, Maximum Entropy… Trong i áo n y, nhóm tá giả sử dụng thu t tốn Nạve Bayes, SVM v K-NN ể thực nghiệm phân lớp v n ản tiếng Việt ộ liệu thuộc 04 chủ ề nhau: Du lịch, Giải trí, Giáo dụ v Pháp lu t Cá ộ liệu n y ược rút trí h từ Website tin tức VnExpress.net Một số ặ trưng ịnh danh riêng ượ ưa v o trình xử lý ể t ng ộ hính xá trình phân lớp Kết thử nghiệm cho th y thu t toán SVM ho kết phân lớp với ộ hính xá ao nh t (trên %) v thời gian thử nghiệm mơ hình th p nh t Từ khóa: Phân lớp v n ản, Nạve Bayes, K-NN, SVM, thu t toán TỔNG QUAN VỀ PHÂN LỚP VĂN BẢN Phân lớp v n ản (Text lassifi ation) l trình gán nh n (tên lớp nh n lớp) cho v n ản ngôn ngữ tự nhiên h tự ộng v o hoặ nhiều lớp ho trướ Phân lớp v n ản ượ xu t từ n m , h n m sau tr th nh l nh vự nghiên ứu hính hệ thống thơng tin i a dạng ứng dụng Phân lớp v n ản ượ sử dụng ể h trợ trình tìm kiếm thơng tin (Information retrieval), hiết lọ thơng tin (Information extra tion), lọ v n ản hoặ tự ộng d n ường ho v n ản ến hủ ề xá ịnh trướ Ngo i ra, phân lớp v n ản ũng ược ứng dụng l nh vự hiểu v n ản Có thể sử dụng phân lớp v n ản ể lọ v n ản phần v n ản hứa liệu ần tìm m khơng l m m t i tính phứ tạp ngôn ngữ tự nhiên Phân lớp v n ản ó thể thự thủ ơng hoặ tự ộng sử dụng kỹ thu t họ máy ó giám sát Tuy nhiên, phân lớp thủ ông ôi không hính xá ịnh phụ thuộ v o hiểu iết v ộng người thự Vì v y, việ xây dựng phân lớp v n ản tự ộng l r t quan trọng v ần thiết, ặc biệt hầu hết thông tin ượ sinh v lưu trữ iện tử Cá i áo khoa họ v giải trí l ví dụ t p t i liệu iện tử Với phát triển ng y ng mạnh mẽ mạng Internet v Intranet tạo nguồn thông tin vô ùng phong phú Cá kỹ thu t phân lớp v n ản giúp ho nguồn liệu n y ượ lưu trữ tự ộng h hiệu v ượ tìm kiếm nhanh hóng 1.1 Định nghĩa phân lớp văn ó Phân lớp v n ản l nhiệm vụ ặt giá trị logic ho m i ặp , l t p v n ản v l t p lớp ho trướ [1] 129 ạnh Thi n n inh g n Giá trị ượ gán ho ặp Giá trị ngh a l t i liệu n Th ọa i g n Th Thanh Th ó ngh a l t i liệu thuộ lớp không thuộ lớp Nói h , phân lớp v n ản l i tốn tìm h m l t p v n ản v l t p lớp ho trướ , h m ượ gọi l , ó ộ phân lớp 1.2 Phân loại toán phân lớp văn Tùy thuộc v o r ng uộc ể phân loại Nhìn hung, ó thể phân loại i toán phân lớp theo á h sau - Phân lớp v n ản nhị phân , gọi l a lớp i toán phân lớp v n ản a lớp B i toán phân lớp v n ản ượ gọi l nhị phân - Phân lớp v n ản n nh n a nh n B i toán phân lớp v n ản ượ gọi l n nh n m i t i liệu ượ gán v o hính xá lớp Ngược lại, b i toán phân lớp v n ản ượ gọi l a nh n t i liệu ó thể ượ gán nhiều h n nh n uá t nh ây d ng phân lớp văn 1.3 uá trình phân lớp v n ản thường gồm ướ xây dựng mơ hình (tạo ộ phân lớp) v sử dụng mơ hình ó ể phân lớp v n ản Cá ông ụ phân lớp ượ xây dựng dựa thu t toán phân lớp qua ướ họ quy nạp Trong ướ họ n y, hệ thống ó t p liệu ầu v o (t p ví dụ) m thuộ tính lớp m i t i liệu (ví dụ) t p ó iết Tại ó, t p liệu an ầu ượ hia th nh t p liệu rời nhau, t p ượ gọi l t p hu n luyện (training set) v t p ượ gọi l t p kiểm tra (test set) Thông thường, t p hu n luyện ví dụ , òn t p kiểm tra số lượng ví dụ òn lại Hệ thống dùng t p hu n luyện ể xây dựng mơ hình (xá ịnh tham số) phân lớp v dùng t p liệu kiểm tra ể ánh giá thu t toán phân lớp vừa ượ thiết l p uá trình thực cụ thể sau * Bƣớc ây d ng m h nh Một mơ hình ượ xây dựng dựa phân tí h ối tượng liệu ượ gán nh n từ trướ T p m u liệu n y òn ượ gọi l t p hu n luyện Cá nh n lớp t p liệu hu n luyện ượ xá ịnh i on người trướ xây dựng mơ hình (họ ó giám sát) Ngo i ra, òn phải sử dụng t p kiểm tra ể tính ộ hính xá mơ hình Nếu ộ hính xá l h p nh n ượ , mơ hình ượ sử dụng ể xá ịnh nh n lớp ho liệu tư ng lai Trong q trình kiểm tra lại mơ hình, sử dụng ộ o ể ánh giá h t lượng t p phân lớp, ó l ộ hồi tư ng, ộ hính xá , ộ o F , Tùy thuộ v o h thứ xây dựng mơ hình phân lớp, nhiều phư ng pháp ược sử dụng ể giải i toán phư ng pháp Naïve Bayes, phư ng pháp K - láng giềng gần nh t (K-NN), phư ng pháp SVM, phư ng pháp Maximum Entropy, 
 * Bƣớc d ng m h nh Sử dụng mơ hình ượ xây dựng ướ ể phân lớp liệu Như v y, thu t toán phân lớp l ánh xạ từ miền liệu ó sang miền giá trị ụ thể thuộ tính phân lớp dựa v o giá trị thuộ tính liệu ể xây dựng mơ hình ướ tiến h nh theo ướ hính sau ây: q trình phân lớp v n ản, thơng thường, ượ - Tiền xử lý liệu l trình iểu di n v n ản th nh dạng iểu di n logi m thu t tốn ó thể xử lý ượ (ví dụ iểu di n dạng ve tor v n ản) - Họ ộ phân lớp sử dụng thu t toán phân lớp ể xây dựng mơ hình từ liệu qua tiền xử lý 130 h n pv n n i ng iệ ự ng h o ch Cá hệ thống phân lớp ó thể ứng dụng việ phân loại t i liệu thư viện iện tử, phân loại v n ản áo hí trang tin iện tử, phân loại v n ản tiếng Việt ng h xây dựng mơ hình hủ ề, phân loại v n ản theo cảm xú , Với hệ thống tốt, ó thể nh n ược kết khả quan, giúp í h nhiều ho người dùng Phân loại v n ản theo cảm xú , tâm lý, quan iểm ang l v n ề ượ quan tâm nghiên ứu nhiều nh t l nh vực xử lý ngôn ngữ tự nhiên [2] Cảm xú ượ ịnh ngh a l phản ứng on người ối với kiện, tượng (kể ên hoặ ên ngo i thể) m ó ý ngh a n o ó ối với on người Có nhiều quan iểm số lượng loại cảm xú C n ứ v o tính h t cảm xú ó thể phân chia cảm xú th nh loại tí h ự (positive), tiêu ự (negative) v trung l p (neutral) Nếu n v o iểu v nội dung, húng ta ó thể chia cảm xú th nh loại ản: vui, buồn, gi n dữ, ngạ nhiên, ghét, sợ h i Theo nghiên ứu W Gerrod Parrot, từ cảm xú ản tá ộng kí h thí h iều kiện, ho n cảnh m ảm xú on người ũng ó lú an xen, pha l n nhiều cảm xú loại ùng tồn thời iểm iều n y tạo h ng loạt ảm xú Phân lớp v n ản tiếng Việt ng h xây dựng mơ hình hủ ề sử dụng h thứ tìm từ khóa v phát triển ể tự sinh từ hủ ề dựa phư ng pháp Naïve Bayes, K-NN, SVM M i loại v n ản (hay òn gọi l lớp – lass) tư ng ng với hủ ề, ví dụ Giáo dụ , Pháp lu t, Thời sự, Khoa họ , Xe ô tô – Xe máy, Thể thao, Giải trí, Du lịch B i tốn phân lớp ược xây dựng từ t p v n ản , ó t i liệu ượ gán nh n - với thuộc t p hủ ề ,v xá ịnh ượ mơ hình phân lớp Huấn luyện Nh n T pv n V n Trí h chọn ặ trưng Trí h chọn ặ trưng Thuật toán huấn luyện Bộ phân loại Nh n Phân loại Hình Mơ hình phân lớp v n ản Việ trí h họn ặ trưng v n ản óng vai trị quan trọng với kết phân loại v n Nếu lựa chọn ặ trưng phù hợp giúp ho kết i toán tr nên hính xá h n Tuy nhiên, lựa chọn nhiều ặ trưng l m ho trình hu n luyện ũng trình phân loại m t nhiều thời gian h n Do ó, v n ề lựa chọn ặ trưng l họn t p nhỏ từ t p ặ trưng m v n ảm bảo tính hính xá q trình phân loại ể t ng tính hính xá phân lớp, nhóm tá giả ưa thêm ặ trưng ịnh danh tên riêng q trình xử lý Ví dụ: v n ản ó từ “Cơng_Phượng”, “ uang_Hải” xá xu t ao ượ phân loại v o l nh vực Thể thao, v n ản ó hứa từ “Mỹ_Tâm” xá su t ao ượ phân loại v o l nh vực Giải trí 131 ạnh Thi n n inh g n n Th ọa i g n Th Thanh Th Trong phạm vi i áo n y, nhóm tá giả t p trung nghiên ứu phư ng pháp phân lớp v n ản tiếng Việt b ng h xây dựng mơ hình hủ ề Phần ịn lại i áo giới thiệu số phư ng pháp phân lớp v n ản, trình y kết thực nghiệm v kết lu n MỘT SỐ PHƢƠNG PHÁP PHÂN LỚP VĂN BẢN 2.1 Thuật tốn Nạve Bayes Naïve Bayes l kỹ thu t phân loại phổ iến họ máy ó giám sát Ý tư ng hính kỹ thu t n y dựa v o xá su t ó iều kiện từ hay ụm từ v nh n phân loại ể dự oán v n ản ần phần loại thuộ lớp n o Naïve Bayes ượ ứng dụng nhiều giải i toán phân loại v n ản, xây dựng ộ lọ thư rá tự ộng, hay i toán khai phá quan iểm i tính d hiểu, d triển khai ũng ộ hính xá tốt [ -8] Ý tư ng ản h tiếp n Naïve Bayes l sử dụng xá su t ó iều kiện ặ trưng v nh n ể dự oán xá su t nh n v n ản ần phân loại iểm quan trọng phư ng pháp n y hính l h giả ịnh r ng xu t t t ả ặ trưng v n ản ều ộ l p với Giả ịnh ó l m ho việ tính tốn Nạve Bayes hiệu v nhanh hóng h n phư ng pháp khơng sử dụng việ kết hợp ặ trưng ể ưa phán oán nh n Kết dự oán ị ảnh hư ng i kí h thướ t p liệu, h t lượng không gian ặ trưng… Thu t tốn Nạve Bayes dựa ịnh lý Bayes ượ phát iểu sau Trong ó l xá su t xảy kiện ng u nhiên xảy l xá su t xảy biết biết kiện liên quan xảy l xá su t xảy riêng m không quan tâm ến l xá su t xảy riêng m không quan tâm ến Áp dụng i tốn phân loại, kiện gồm ó : t p liệu hu n luyện ượ ve t hóa dạng ⃗ phân loại , với Cá thuộ tính ộc l p iều kiện với Theo ịnh lý Bayes: Theo tính h t ộc l p iều kiện: ∏ Trong ó l xá su t thuộ phân loại biết trước m u xá su t l phân loại xá su t thuộ tính thứ mang giá trị 132 iết thuộ phân loại h n pv n Cá n i ng iệ ự ng h o ch ước thực thu t tốn Nạve Bayes Bƣớc 1: Hu n luyện Nạve Bayes (dựa v o t p liệu), tính Bƣớc Phân loại iết trước v , ta cần tính xá su t thuộc phân loại ượ gán v o lớp ó xá su t lớn nh t theo ơng thức: ( ∏ ) Ví dụ 2.1: Xét i toán phân loại email l thư rá (spam) hay thư rá (non-spam) ể ánh giá email, ước ầu tiên phải chuyển email sang vector ) với l giá trị thuộ tính không gian ve tor ặ trưng M i thuộ tính ượ thể i token n Theo phư ng pháp n giản nh t ta ó thể l p từ iển hứa token Sau ó với m i token email xu t từ iển giá trị thuộ tính l , ngượ lại l Tuy nhiên, thự tế, t p hu n luyện không thường l ộ từ iển v y Thay v o ó, t p hu n luyện lú n y gồm kho ngữ liệu Kho ngữ liệu thư rá hứa danh sá h email ượ xá ịnh l thư rá trướ ó, v tư ng tự với kho ngữ liệu không thư rá hứa email hợp lệ Như v y, v n ể giá trị thuộ tính l hoặ r t khó ánh giá ượ email l spam hay không ặ iệt, email nh n ượ l d i, ó ta v n sử dụng giá trị thuộ tính l hoặ xu t token lần ũng tư ng ng với việ xu t h lần 2.2 Thuật toán K-Nearest Neighbors K-Nearest Neighbors (K-NN) l phư ng pháp ể phân lớp ối tượng dựa v o khoảng h gần nh t ối tượng ần xếp lớp v t t ả ối tượng t p liệu hu n luyện Một ối tượng ượ phân lớp dựa v o K láng giềng K l số nguyên dư ng ượ xá ịnh trướ thự thu t toán Khoảng h Eu lid thường ượ dùng ể tính khoảng h ối tượng [9-11] Các bƣớc thuật toán Xá ịnh giá trị tham số K (số láng giềng gần nh t) Tính khoảng h ối tượng ần phân lớp với t t ả liệu hu n luyện ối tượng t p Sắp xếp khoảng h theo thứ tự t ng dần v xá ịnh K láng giềng gần nh t với ối tượng ần ượ phân lớp L y t t ả lớp K láng giềng gần nh t xá ịnh Dựa v o phần lớn lớp láng giềng gần nh t ể xá ịnh lớp ho ối tượng Ví dụ 2.2: Xét t p t i liệu hu n luyện {TL , TL , TL , TL4} v t p từ vựng {doanh thu, áo uộ , thuế, iện ảnh, di n viên, a s , nghi phạm, kinh doanh} ó ượ sau thự ướ tiền xử lý liệu M i t i liệu thuộ lớp hủ ề ượ xá ịnh trướ TL v TL thuộ lớp hủ ề Kinh doanh, TL thuộ lớp hủ ề Giải trí, TL4 thuộ lớp hủ ề Pháp lu t Cá t i liệu n y ượ mơ hình hóa th nh ve tor nhiều hiều Giá trị m i hiều l tần su t xu t từ vựng tư ng ứng t i liệu 133 ạnh Thi n n inh g n n Th ọa i g n Th Thanh Th Bảng Tần su t từ vựng v n ản T i liệu Doanh thu Cáo uộ Thuế Di n viên Ca s Nghi phạm Kinh doanh Lớp hủ ề TL1 0 0 Kinh doanh TL2 0 0 Giải trí TL3 0 0 Giải trí TL4 0 0 Pháp lu t iện ảnh Xét t i liệu cần phân loại ó nội dung sau “Khi nói đến ca sĩ thành danh mặt trận điện ảnh Hollywood, chắn bỏ qua Jennifer Lopez Cô tham gia đóng phim lồng tiếng cho 31 phim đình đám Có thể nói, điện ảnh Jennifer Lopez có khả diễn xuất đa vừa diễn phim tình cảm hài nhẹ nhàng tác phẩm điện ảnh tội phạm hình Lopez đề cử giải Quả cầu vàng cho “Vai nữ diễn viên xuất sắc - phim hành động hài” năm 1998” T i liệu n y ược biểu di n th nh ve t nhiều chiều Sau ó sử dụng ộ o Eu lid ể tính khoảng h ến t t t i liệu t p hu n luyện, xếp khoảng h theo thứ tự t ng dần v xá ịnh K láng giềng gần nh t với ối tượng cần ược phân lớp Bảng Khoảng h từ t i liệu ang xét ến t i liệu T i liệu Khoảng h Lớp hủ ề TL3 1,4 Giải trí TL2 2,4 Giải trí TL1 4,3 Kinh doanh TL4 5,5 Pháp lu t Trường hợp , chọn t i liệu ó khoảng h ngắn nh t (láng giềng) l TL v TL Cả t i liệu láng giềng n y ều thuộc lớp chủ ề giải trí nên t i liệu cần phân loại thuộc chủ ề giải trí Trường hợp , chọn t i liệu ó khoảng h ngắn nh t (láng giềng) l TL , TL v TL Trong ó ó t i liệu thuộc chủ ề giải trí, t i liệu thuộc chủ ề kinh doanh Nên t i liệu cần phân loại thuộc lớp chủ ề phổ biến h n ó l hủ ề giải trí 2.3 Thuật tốn Support Vector Machine Support Vector Machine (SVM) l giải thu t máy học dựa lý thuyết học thống kê Vapnik v Chervonenkis xây dựng B i toán ản SVM l i toán phân loại lớp Cho trước iểm không gian n chiều, m i iểm thuộ v o lớp kí hiệu l – , mụ í h giải thu t SVM l tìm siêu phẳng (hyperplane) phân hoạch tối ưu ho phép hia iểm n y th nh phần ho iểm ùng lớp n m phía với siêu phẳng n y T t iểm x+ ượ gán nh n thuộc phía dư ng siêu phẳng, iểm ượ gán nh n – thuộc phía âm siêu phẳng Một siêu phẳng phân hia liệu ược gọi l “tốt nh t”, khoảng h từ iểm liệu gần nh t ến siêu phẳng (margin) l lớn nh t [12] 134 h n pv n n i ng iệ ự ng h o ch Hình Phân lớp với SVM mặt phẳng Thuật toán t m siêu phẳng: Bộ phân lớp tuyến tính ượ xá Trong ó v óng vai trị l tham số mơ hình H m phân lớp nhị ó thể thu ược b ng h xá ịnh d u phân Rosen latt repeat for if 10 11 until 12 return ịnh b ng siêu phẳng: ưa thu t toán n giản ể xá ịnh siêu phẳng: then Việ tìm siêu phẳng tối ưu ó thể m rộng trường hợp liệu khơng thể tá h rời tuyến tính ng h ánh xạ liệu v o khơng gian ó số chiều lớn h n ng h sử dụng h m nhân K (Kernel) Bảng Một số h m nhân thường dùng Kiểu h m nhân Công thức Linear kernel Polynomial kernel Radial basis function (Gaussian) kernel Hyperbolic tangent kernel Ví dụ 2.3: ể kiểm tra v n ản b t kỳ n o ó thuộ hay khơng thuộc phân loại trước? Nếu ượ gán nh n l , ngược lại ượ gán nh n l –1 135 cho ạnh Thi n n inh g n n Th ọa Giả sử lựa chọn ược t p ặ trưng l ược biểu di n b ng vector liệu v n ản Như v y, tọa ộ m i vector liệu iểm không gian Dữ ( liệu ), hu n luyện , cặp l i g n Th Thanh Th , m i v n ản , l trọng số từ tư ng ứng với tọa ộ t p v n ản ượ gán nh n trước , ó, l ve tor liệu biểu di n v n ản ược hiểu l ve tor ượ gán nh n l Việ xá ịnh v n ản ó thuộ phân loại hay khơng, tư ng ứng với việ xét d u , thuộc , khơng thuộc KẾT QUẢ THỰC NGHIỆM ể phân lớp v n ản theo chủ ề, nhóm tá giả tiến h nh thực nghiệm máy tính Macbook Pro x64, Core i7 3.30GHz, CPUs, 16GB RAM Dữ liệu trang áo iện tử ó vốn từ ngữ v nội dung r t phong phú, liệu a dạng thuộ l nh vự ời sống x hội Kinh tế, Chính trị, V n hóa, Giáo dục, Thể thao,… Nội dung i áo ượ ng trang áo iện tử uy tín ược kiểm duyệt phù hợp với chủ ề Vì v y, việc thu th p liệu từ trang áo iện tử uy tín l m t p liệu hu n luyện ó ộ hính xá ao, tin y Thực nghiệm ược tiến h nh t p liệu tin tức tiếng Việt ược trí h xu t từ website VnExpress.net gồm 05 liệu với số lượng l , 800, , v t p tin v n ản thuộc chủ ề Du lịch, Giải trí, Giáo dụ v Pháp lu t Trong m i liệu số lượng á t p tin hủ ề l Cá t p tin liệu n y ược xử lý tá h từ b ng ơng ụ vnTokenizer [13], sau ó sử dụng ông cụ Weka (phần mềm m nguồn m h trợ xây dựng mơ hình hu n luyện ho i toán phân lớp liệu) [14] ể biểu di n v n ản th nh dạng vector, ồng thời loại bỏ từ ngữ khơng ó ý ngh a (Stop words) Cá ve tor v n ản n y ược sử dụng l m liệu hu n luyện v liệu kiểm tra Trong i áo n y, nhóm tá giả chạy thực nghiệm 03 thu t tốn l Naïve Bayes, SVM v K-NN ùng liệu hu n luyện Trong ó, m i liệu ó 80% liệu dùng ể hu n luyện v % liệu òn lại dùng ể thử nghiệm phân lớp Bảng trình y kết thử nghiệm, so sánh ộ hính xá thu t tốn dựa giá trị trung ình tham số chạy thử nghiệm ộ liệu Cá tham số gồm: t lệ v n ản ược phân loại úng (TP Rate), t lệ v n ản phân loại sai (FP Rate), ộ hính xá (Pre ision), ộ bao phủ (Re all) v ộ trung ình iều hịa (F-Measure) Bảng Giá trị trung ình tham số theo phân lớp chủ ề với 05 liệu Thu t toán T lệ úng (TP Rate) T lệ sai (FP Rate) ộ hính xá (Precision) SVM 0,946 0,018 0,946 0,946 ộ trung ình iều hịa (F-Measure) 0,945 NaiveBayes 0,893 0,036 0,896 0,893 0,892 K-NN (k = 1) 0,582 0,144 0,645 0,582 0,580 K-NN (k = 3) 0,504 0,169 0,630 0,504 0,483 K-NN (k = 5) 0,500 0,162 0,677 0,500 0,481 K-NN (k = 7) 0,491 0,163 0,704 0,491 0,471 ộ ao phủ (Recall) Hình so sánh ộ hính xá (%) thu t toán phân loại v n ản theo chủ ề 05 t p tin liệu v n ản tiếng Việt ộ hính xá thu t tốn K-NN phụ thuộc v o 136 h n pv n n i ng iệ ự ng h o ch việc chọn giá trị cho tham số k Kết cho th y giá trị k ng nhỏ ộ hính xá ng ao ( ộ hính xá ao nh t k = 1) Thu t toán SVM ho kết phân loại v n ản với ộ hính xá ao nh t (trên %), tiếp ến l Naïve Bayes v uối ùng l thu t tốn K-NN Hình So sánh ộ hính xá thu t tốn Hình so sánh thời gian xây dựng mơ hình hu n luyện v thời gian thử nghiệm thu t toán Kết cho th y thời gian xây dựng mô hình hu n luyện thu t tốn K-NN th p nh t (gần b ng 0), thu t tốn Nạve Bayes v SVM ó thời gian xây dựng mơ hình t ng tuyến tính theo ộ lớn liệu hu n luyện Thu t toán SVM m t nhiều thời gian nh t ể xây dựng mơ hình hu n luyện Tuy nhiên, thời gian thử nghiệm phân loại v n mơ hình hu n luyện thu t tốn SVM ho kết với thời gian thực th p nh t, kế ến l Naïve Bayes v ao nh t l K-NN Hình Thời gian xây dựng mơ hình v thời gian thử nghiệm thu t toán Thực nghiệm chứng tỏ thu t toán SVM ho kết phân loại v n ản theo chủ ề tốt h n Nạve Bayes v K-NN khía ạnh l ộ hính xá cao nh t v thời gian phân loại thử nghiệm mơ hình th p nh t Mặ dù SVM tốn nhiều thời gian h n ể xây dựng mơ hình hu n luyện ó thể cải thiện iều n y d d ng ược hu n luyện hệ thống máy tính tố ộ cao 137 ạnh Thi n n inh g n n Th ọa i g n Th Thanh Th KẾT LUẬN Trong i áo n y, nhóm tá giả trình y v n ề tiền xử lý v n ản, phư ng pháp phân lớp v thực phân lớp v n ản tiếng Việt tự ộng theo chủ ề b ng h sử dụng thu t tốn Nạve Bayes, K-NN v SVM Thực nghiệm cho th y thu t toán SVM cho kết phân lớp với ộ hính xá ao nh t (trên %) v thời gian phân loại th p nh t 05 liệu ó số t p tin l , 800, 1200, v Kết n y cho th y việc sử dụng thu t toán SVM ể phân lớp v n ản tiếng Việt theo chủ ề l lựa chọn phù hợp ứng dụng phân lớp v n ản Kết nghiên ứu n y l s ho nghiên ứu ứng dụng phân loại v n theo hướng tí h ự , tiêu ự v trung l p ể xây dựng ứng dụng phát v phân loại cảm xú : tí h ự (positive), tiêu ự (negative) v trung l p (neutral) on người dựa nội dung i viết ó Internet chủ ề cần quan tâm TÀI LIỆU THAM KHẢO Sebastiani F - Machine learning in automated text categorization, ACM Computing Surveys (CSUR) 34 (1) (2002) 1-47 Ezhilarasi R and Minu R I - Automatic emotion recognition and classification, Procedia Engineering 38 (2012) 21-26 Rennie J D M - Improving multi-class text classification with Naive Bayes, Massachusetts Institute of Technology, Cambridge (2001) Dai W., Xue G., Yang Q., and Yu Y - Transferring Naive Bayes classifiers for text classification, In Association for the Advancement of Artificial Intelligence (AAAI), (2007) 540-545 Frank E and Bouckaert R R - Naive Bayes for text classification with unbalanced classes, In European Conference on Principles of Data Mining and Knowledge Discovery (2006) 503–510 Hovold J - Naive Bayes spam filtering using word-position-based attributes, The Common European Asylum System (CEAS) (2005) Soelistio Y E., Raditia M., and Surendra S - Simple text mining for sentiment analysis of political figure using naive bayes classifier method, arXiv preprint arXiv, (2015) 99–104 Pang B and Lee L - A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts, Proceedings of the 42nd annual meeting on Association for Computational Linguistics Association for Computational Linguistics (2004) 271 Cunningham P and Delany S J - k-Nearest Neighbour Classifiers, Multiple Classifier Systems (2007) 1–17 10 Zhang M and Zhou Z - A k-Nearest Neighbor based algorithm for Multi-label classification, Granular Computing (GrC) (2005) 718–721 11 Dharmadhikari S C., Ingle Maya, and Kulkarni P - Empirical Studies on machine learning based text classification algorithms, Advanced Computing (2011) 161–169 12 Campbell C., Ying Y - Learning with support vector machines, Synthesis lectures on artificial intelligence and machine learning (2011) 1–95 138 h n pv n n i ng iệ ự ng h o ch 13 Lê Hồng Phư ng - Vietnamese Word Tokenizer, 2018 (http://mim.hus.vnu.edu.vn/dsl/tools/tokenizer) 14 Hall M., Frank E., Holmes G., Pfahringer B., and Reutemann P - The WEKA data mining software: An Update, ACM SIGKDD explorations Newsletter (2009) 11-17 ABSTRACT AUTOMATICALLY VIETNAMESE TEXT CLASSIFICATION BY TOPIC Manh Thien Ly*, Vu Van Vinh, Nguyen Van Le, Lam Thi Hoa Mi, Nguyen Thi Thanh Thuy, Duong Thi Mong Thuy Ho Chi Minh City University of Food Industry *Email: lymt@hufi.edu.vn The Internet is strongly growing every day with a huge amount of information The need of data mining and knowledge discovery is also increasing, in which the text classification plays an important role Many techniques in machine learning are applied in classification process and achieved good results Nowadays, there are many algorithms used for text lassifi ation su h as Naïve Bayes, K-NN, SVM, Maximum Entropy, etc In this paper, Naïve Bayes, SVM and K-NN algorithms were used to experiment on Vietnamese text classification with 05 datasets belonging to different topics: Tourism, Entertainment, Education and the Law These datasets were extracted from vnexpress.net website Some unique identifiers were applied during processing to increase the classification accuracy The results show that SVM algorithm has the highest accuracy (over 90%) and the lowest amount of execution time Keywords: Text classification, Naïve Bayes, K-NN, SVM, algorithm 139 ... Nhìn hung, ó thể phân loại i tốn phân lớp theo á h sau - Phân lớp v n ản nhị phân , gọi l a lớp i toán phân lớp v n ản a lớp B i toán phân lớp v n ản ượ gọi l nhị phân - Phân lớp v n ản n nh... thuộ lớp khơng thuộ lớp Nói h , phân lớp v n ản l i tốn tìm h m l t p v n ản v l t p lớp ho trướ , h m ượ gọi l , ó ộ phân lớp 1.2 Phân loại toán phân lớp văn Tùy thuộc v o r ng uộc ể phân. .. ản, phư ng pháp phân lớp v thực phân lớp v n ản tiếng Việt tự ộng theo chủ ề b ng h sử dụng thu t tốn Nạve Bayes, K-NN v SVM Thực nghiệm cho th y thu t toán SVM cho kết phân lớp với ộ hính xá

Ngày đăng: 09/01/2021, 18:39

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w