SỬ DỤNG LÍ THUYẾT TẬP THÔ CHO VIỆC TẠO CẤU TRÚC CÂY HAH TRONG PHÂN LỚP ĐA LỚP VŨ THANH NGUYÊN*, NGUYỄN ĐẠI HỮU**, TRẦN ĐẮC TỐT*** TÓM TẮT Trong bài báo này, chúng tôi sử dụng chiến lược phân lớp Half[.]
Vũ Thanh Nguyên tgk TẠP CHÍ KHOA HỌC ĐHSP TPHCM _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ SỬ DỤNG LÍ THUYẾT TẬP THƠ CHO VIỆC TẠO CẤU TRÚC CÂY HAH TRONG PHÂN LỚP ĐA LỚP VŨ THANH NGUYÊN*, NGUYỄN ĐẠI HỮU**, TRẦN ĐẮC TỐT*** TÓM TẮT Trong báo này, sử dụng chiến lược phân lớp Half- against-Half phân lớp nhị phân Support Vector Machines (SVMs) cho toán phân lớp đa lớp Trong đó, để tạo cấu trúc cho HAH, chúng tơi đề xuất thuật tốn dựa lí thuyết tập thô (Rough Set Theory – RST) Kết thuật toán so sánh với số chiến lược phân đa lớp phổ biến dựa phân lớp SVMs Từ khóa: lí thuyết tập thơ, Haft-against-Haft, máy học hỗ trợ vector ABSTRACT Applying Rough Set Theory in generating HAH tree structure in multi-class classificaiton In this paper, we use Half- against-Half (HAH) strategy with binary classifier Support Vector Machines (SVMs) for multi-class classification problem, for generating HAH tree structure we propose new algorithm based on Rough Set Theory, the result will be compared with three multi-class classification general strategies of SVMs Keywords: Rough Set Theory, Haft-against-Haft, SVMs Giới thiệu Hiện có nhiều nghiên cứu phân lớp văn cụ thể: [1, 4, 5] giới thiệu số kĩ thuật máy học cho toán phân lớp đa lớp như: Naive Bayes, Decision Tree, K-Láng giềng gần (KNN), mạng Neural, Support Vector Machines (SVMs), thuật toán Rocchio, Giải thuật di truyền [9] kết hợp fuzzy c-means fuzzy SVMs (gọi tắt FCSVM) Trong [9], fuzzy c-means sử dụng để lọc liệu gây nhiễu tập huấn luyện, sau SVMs sử dụng phân lớp [6] kết hợp Lí thuyết tập thơ SVMs cho tốn phân lớp văn bản, RST sử dụng để giảm độ lớp tập thuộc tính qua giúp SVMs cho kết tốt Đặc biệt, [1,4,5] nhận xét SVMs phân lớp sử dụng phổ biến, từ kết thực nghiệm [5] cho thấy SVMs thuật toán đạt kết tốt Tuy nhiên, SVMs phân lớp nhị phân, để áp dụng cho toán phân, số chiến thuật đề xuất như: OAR (One-against–Rest Vapnik (1998)), OAO (One- against-One (Kre�el (1999)), Decision Directed Acyclic Graph (DDAG Platt et al * PGS TS, Trường Đại học Công nghệ Thông tin, ĐHQG TPHCM; Email: nguyenvt@uit.edu.vn ThS, Trường Đại học Kinh tế Công nghiệp Long An *** ThS, Trường Đại học Công nghiệp Thực phẩm TPHCM ** (2000)), HAH (Haft-against-Haft) Trong chiến thuật này, HAH yêu cầu huấn luyện phân lớp chiến thuật lại, nhiên hiệu HAH lại phụ thuộc vào cấu trúc Vì vậy, việc xây dựng cấu trúc hiệu đặc biệt quan trọng chiến thuật Trong báo này, phần giới thiệu khái niệm RST, chiến thuật HAH sử dụng phân lớp SVMs, đề xuất thuật toán sử dụng RST cho việc tạo cấu trúc HAH Phần 3, chúng tơi trình bày kết đạt Phần 4, phần kết luận hướng nghiên cứu Phương pháp 2.1 Lí thuyết tập thơ Hệ thống thơng tin (Information System) Trong lí thuyết tập thơ, hệ thống thơng tin có dạng IS= (U, A), U tập vũ trụ (U khác rỗng, tập đối tượng), A gọi tập thuộc tính (A khác rỗng xác định).Với thuộc tính a cA ta có tương ứng tập Va, cho a: U→Va Va gọi tập giá trị a hay miền giá trị thuộc tính a a(x) c Va gọi giá trị thuộc tính a đối tượng x thuộc U Quan hệ bất khả phân biệt (Indiscernibility relation) Với B ⊆A, có quan hệ: IND(B) = {(x,y) cUxU| ∀� ∈ 𝐵, �(𝑥) = �(𝑦)} IND(B) gọi quan hệ B – bất khả phân biệt (B-indiscernibility relation) Nếu 𝑥, 𝑦 ∈ 𝐼𝑁𝐷(𝐵), x y gọi bất khả phân biệt tập B Các lớp tương đương quan hệ bất khả phân biệt B kí hiệu [𝑥]𝐵 Xấp xỉ xấp xỉ (Lower and upper approximations) Cho tập đối tượng X ⊆ � tập thuộc tính B (𝐵 ⊆ 𝐴) X xấp xỉ xấp xỉ xấp xỉ - Xấp xỉ ( Lower approximation) (hay miền khẳng định, kí hiệu BX) tập đối tượng U mà sử dụng thuộc tính B, ta xác định chúng chắn thuộc X: BX= {𝑥 | [𝑥]𝐵 ⊆ X} - Xấp xỉ (Upper approximation - kí hiệu 𝐵̅X) tập đối tượng U mà sử dụng thuộc tính B ta xác định chúng thuộc X: 𝐵̅X= {𝑥 | [𝑥]𝐵 ∩ X ≠ ∅} Định nghĩa tập thô Tập thơ BX xấp xỉ 𝐵̅X xấp xỉ Độ xác thơ việc biểu diễn X cho (Pawlak 1991): 0≤ � B(X) =BX/𝐵̅X ≤1 Nếu �B(X) = X tập cổ điển, ngược lại �B(X) < X tập thơ Sự phụ thuộc thuộc tính Cho tập phân biệt P, Q tập thuộc tính Các lớp tương đương P cho [x]P, lớp tương đương Q cho [x]Q Với [x]Q= {Q1, Q2, Q3,…, QN} Độ phụ thuộc tập thuộc tính Q tập thuộc tính P, kí hiệu ��(�) cho bởi: ��(�) = ∑ 𝑁 i= |��i| |�| ≤1 (1) 2.2 Support Vector Marchines (SVMs) Cho tập huấn luyện D gồm n điểm có dạng sau : 𝐷 = {(𝑥i, 𝑦i)|𝑥i ∈ ��, 𝑦i ∈ {−1,1}} ; i = 1, 2, 3, , n đó: 𝑥i vector p-chiều 𝑦i gán -1 (lớp điểm thứ ith tập huấn luyện) Ý tưởng SVMs tìm siêu phẳng tối ưu f(x) không gian p-chiều, mà siêu phẳng phân chia điểm có yi=1 (mẫu dương) yi=-1 (mẫu âm) với lề cực đại Mỗi siêu phẳng không gian p-chiều tập điểm x có dạng: wT.x - b = đó: wT vector trọng số b vơ hướng Để tìm siêu phẳng tối ưu, ta chọn w b cho lề cực đại Nghĩa ta chọn w b cho siêu phẳng song song có khoảng cách cực đại phân chia liệu Hai siêu phẳng song song cho bởi: wT.x - b= wT.x - b= -1 Nếu điểm liệu phân chia tuyến tính, siêu phẳng tối ưu lời giải toán tối ưu sau: Min Φ(w) = w yw(wT x + b)2≥ i = 1, ,l 1, i i Nếu điểm liệu tập huấn luyện phân chia tuyến tính có điểm nhiễu (các mẫu âm thuộc phần dương, mẫu dương thuộc phần âm), tốn trở thành: TẠP CHÍ KHOA HỌC ĐHSP TPHCM _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ Số 5(70) năm 2015 _ _ _ _ _ _ _ _ � � i � � Φ ( � � , £ ) = ‖ � � ‖2 + � � ∑ � £ i {𝑦 i=1 i � (� 𝑥i + �) ≥ − £i i = 1, …, � £i ≥ i = 1, … ,� N ếu điể TẠP CHÍ KHOA HỌC ĐHSP TPHCM Vũ Thanh Nguyên tgk _ _ _ liệu _ _ _ _ _ tập _ _ _ _ _ _ _quyết _ _ định, _ _ _ _nút _ _lá _là_ _ _ _ _ _ _ _ _ _ _ m huấn luyện không phân lớp nhị phân SVMs giúp phân phân chia tuyến mẫu vào hai lớp xác tính, chúng định Trong giai đoạn huấn luyện, ánh xạ lên không HAH xây dựng (N-1) phân gian q-chiều (p>q) để lớp SVMs cho tốn N-lớp Và chúng giai đoạn phân lớp, để phân phân chia Để làm việc lớp mẫu, HAH cần duyệt qua này, ta cần định nghĩa log2(N) phân lớp Hình ví dụ hàm ánh xạ, gọi hàm nhân (kernel function) Một vài hàm nhân phổ biến: i Linear function: �(𝑥i , 𝑥j ) = 𝑥 � 𝑥j cấu trúc HAH cho toán 6-Lớp Polynomial function: �(𝑥i , 𝑥j ) = (𝑥 i 𝑥j + 1)� Hình Cấu trúc HAH cho toán lớp Radial basis functionRBF: �(𝑥i , 𝑥j ) = �𝑥�(−�(𝑥i − 𝑥j ))2, � ∈ � + 2.3 Chiến thuật HAH sử dụng phân lớp nhị phân SVMs SVMs phân lớp nhị phân, để sử dụng cho tốn phân lớp đa lớp, người ta sử dụng số chiến thuật sau: OAO, OAR, DDAG, HAH Trong chiến thuật HAH xây dựng dựa việc chia đệ quy N-lớp thành tập lớp Cấu trúc HAH tương tự Ta phân tích số chiến thuật phân lớp đa lớp phổ biến: OAO (One-against-One): chiến thuật này, giai đoạn huấn luyện, ta cần xây dựng 𝑁(𝑁−1) phân lớp SVMs Trong giai đoạn phân lớp, mẫu phân lớp cách duyệt qua 𝑁(𝑁−1) phân lớp, mẫu phân vào lớp ith điểm lớp ith tăng lên Lớp mẫu xác định lớp có điểm cao Tương tự OAO, DDAG (Decision Directed Acyclic Graph) xây dựng số lượng phân lớp giai đoạn kiểm thử, để phân lớp mẫu DDAG cần duyệt qua (N-1) phân lớp SVMs OAR (One-against-Rest): Ở giai đoạn huấn luyện, ta xây dựng N phân lớp SVMs, phân lớp phân mẫu thuộc lớp N-1 lớp lại Trong giai đoạn phân lớp, lớp mẫu gán cho SVMs có lề lớn so với phân lớp lại Nhược điểm OAR có nhiều lớp có lề lớn mẫu khơng phân lớp Vì vậy, ta thấy HAH cần phân lớp cần phải xây dựng giai đoạn huấn luyện so với phương pháp khác Và𝑁(𝑁−1) giai đoạn phân lớp HAH cần duyệt qua log (N) phân lớp (OAO cần duyệt , DDAG cần duyệt N-1, OAR 2 cần duyệt N) Tuy nhiên, hiệu suất HAH lại phụ thuộc vào cấu trúc Trong phần chung tơi đề xuất thuật toán tạo cấu trúc HAH dựa lí thuyết tập thơ 2.4 Sử dụng RST tạo cấu trúc HAH Trong phần này, đề xuất thuật toán cho việc tạo cấu trúc HAH sử dụng RST Đầu tiên, tập huấn luyện tiền xử lí rút trích đặt trưng Sau đó, tập huấn luyện chuyển thành Hệ thống Thơng tin có dạng I= (U, A), U tập tài liệu tập huấn luyện, A tập thuộc tính (các từ tập huấn luyện) Gọi d thuộc tính định (d ∈ A d định nghĩa lớp đối tượng U) Từ công thức (1), với thuộc tính a ∈A (a ≠d) ta tính độ phụ thuộc d vào a công thức: �{�}({�}) = ∑𝑁 i= | �{�}i | |�| (2) Dựa độ phụ thuộc này, ta xếp thuộc tính {A-{d}} giảm dần Tiếp theo, với lớp tập huấn luyện, ta tạo vector G= (a1, a2, … ac), đó: aj=0 (j=1, 2, …c) aj không xuất lớp, ngược lại aj =1 (aj∈ {A{d}}) c =|A|-1 số lượng thuộc tính khơng phải thuộc tính định tập huấn luyện Sau có tập vector lớp, ta tính độ tương đương lớp thứ ith với lớp cịn lại Để tính, chúng tơi đề xuất công thức: ∑c 𝑠i�(�1, �2) = (𝐶−𝑘)∗�𝑘1 ∗�𝑘2 𝑘=0 c (3) Trong ak1, ak2 giá trị thuộc tính thứ kth vector v1, v2 Tổng độ tương tự lớp thứ ith vector lớp lại lưu phần tử thứ i mảng sim[n] (trong n số lớp) th Số 5(70) năm 2015 TẠP CHÍ KHOA HỌC ĐHSP TPHCM _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ T i ế p t h e o , t a tí n h t r u n g b ì n h c ủ a c c p h ầ n t t r o n g s i m TẠP CHÍ KHOA HỌC ĐHSP TPHCM _ _ Dựa _ _ _ _ _giá_ trị _ _ _ _ _ _ _ _ _ [n] trung bình này, ta chia HAH n lớp thành 2, B nhóm (gọi nhóm Chuy trái) gồm lớp có sim lớn giá trị ển trung bình, thành nhóm (gọi nhóm I= phải) gồm lớp mà (U, giá trị sim nhỏ giá trị trung bình Lặp lại A) đến nhóm trái nhóm phải � phần tử O �𝑁 | i= = �{�}i u t t : H l c ấ u t r ú c t o m ộ t h ệ t ≠ h ố �) tính: n g Input: Tập huấn luyện D, tập lớp C= {C1, …, Cn} u , 𝐴 Thuật toán: p _B _ _ B t h ô n g D ự a t i n t r ê n m i | |�| ∑ k ế t q u ả I ’ = ( U , A ’ ) , _ _ t r o n g t h u ộ c đ ó c ủ a A ’ đ ợ c s ấ p x ế p g i ả m d ầ n t h e o đ ộ p h Vũ Thanh Nguyên tgk _ _h ệ_ _ _ℎ _ _ _ _ _ _ � s l u� � � � i ộ= � m i c{ ( s v �� i Với i { m , = � ( …,c } v v B5 k ( i Khởi) { , tạo � sim[đ v } n] k ) ợ ) lớp c = B4 Với C t B6 í lớp Tínhn sim[ih tập ] huấn i=0, b luyện …, D, n-1 i tạo (n G= số ( (a lớp);3 a theo) a công thức:n ế ∑_(𝑘u _ụ _ t ậ p t h u ộ c t í n h A d ự a � t� rj ê n đ ộ p h ụ t = 0)^ i �▒𝑠i �(� ≠ _i, �_𝑘 ) � � ế � � j 𝑘 ℎ ô � � 𝑥 � ấ � ℎ i T r o n g đ ó B � = ∅ , 𝐶 � � 𝑠 𝑠 � � � = 𝐶 , I = ( M ỗi p h ầ n t � , n g ợ c TẠP CHÍ KHOA HỌC ĐHSP TPHCM ClassSet ssLef tập lớp) t Step Wℎi�� (i! = Thê 𝑠i𝑧� 𝑜ƒ 𝐶��𝑠𝑠���) m Begin Clas avg = trung bình độ sLeft tương tương vào phần tử ClassSet(i); Clas /* Trong ClassSet(i) phần tử thứ i danh sách ClassSet */ sSet; IF(si 𝐶��𝑠𝑠𝐿�ƒ� = ∅; Add phần từ ClassSet(i) có sim >= avg vào danh sách ClassLetf; ClassRight = ClassSet – ClassLeft; ze /* ClassRigh gồm phần tử có sim0) Thê m Clas sRig h Clas lass o Righ f t); C l a 10 Số 5(70) năm 2015 i++; End B9 Return H Ở đây, sử dụng liệu Reuters-R8 để diễn giải thuật toán Bảng cho biết độ tương tự lớp với lớp lại Bảng Độ tương tự lớp với lớp lại Acq (0) Crude (1) Earn (2) Grain (3) Interest (4) money-fx (5) Ship (6) Trade (7) 591 730 350 452 504 435 575 Crude (1) 591 585 315 404 463 404 512 Earn (2) 730 585 339 444 495 422 556 Grain (3) 350 315 339 272 302 263 325 Interest (4) 452 404 444 272 398 308 407 money-fx (5) 504 463 495 302 398 351 476 Ship (6) 435 404 422 263 308 351 391 Trade (7) 575 512 556 325 407 476 391 Sim[i] 3640 3276 3576 2168 2689 2992 2577 3244 Acq (0) Ta có: � = ∅, 𝐶��𝑠𝑠��� = 𝐶 = {{0,1,2,3,4,5,6,7}}, i=0 ��� = ∑ 𝑠i�[�] �=0 = 3020.8 Sau ta thêm {0, 1, 2, 7} vào ClassLeft (các lớp có sim >= avg), thêm {3, 4, 5, 6} tới ClassRight ClassSet={{0, 1, 2, 3, 4, 5, 6, 7} , {0, 1, 2, 7}, {3, 4, 5, 6}} H={{0, 1, 2, vs 3, 4, 5, 6}} Tiếp theo, i=1 ��� = 𝑠i�[0]+𝑠i�[1]+𝑠i�[2]+𝑠i�[7] = 3434.675 Thêm {0, 2} vào ClassLeft, {1, 7} vào ClassRight ClassSet = {{0, 1, 2, 3, 4, 5, 6, 7}, {0, 1, 2, 7}, {3, 4, 5, 6},{0, 2},{1, 7}} H={{0, 1, 2, vs 3, 4, 5, 6},{0, vs 1, 7}} Khi i=2 ��� = 𝑠i�[3]+𝑠i�[4]+𝑠i�[5]+𝑠i�[6] = 2606.925 Thêm {4, 5} vào ClassLeft, {3, 6} vào ClassRight ClassSe t= {{0, 1, 2, 3, 4, 5, 6, 7}, {0, 1, 2, 7}, {3, 4, 5, 6}, {0, 2},{1, 7},{4, 5},{3, TẠP CHÍ KHOA HỌC ĐHSP TPHCM _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ Số 5(70) năm 2015 _ _ _ _ _ _ _ _ 6}} H={{0, 1, 2, vs 3, 4, 5, 6},{0, vs 1, 7},{4, vs 3, 6}} Tiếp tục, kết thúc thuật toán, ta thu H sau: H={{0, 1, 2, vs 3, 4, 5, 6},{0, vs 1, 7},{4, vs 3, 6}, {0 vs 2}, {1 vs 7}, {5 vs 4}, {6 vs 3}} Hìn h cấu trúc HA H dựa thuậ t tốn đề xuất Hình Cấu trúc HAH dựa thuật toán đề xuất 12 TẠP CHÍ KHOA HỌC ĐHSP TPHCM _ _ Kết _ _ _ _ thực _ _ nghiệm _ _ _ _ _ _ _ _ Chúng áp dụng phương pháp đề xuất liệu: 20 Newsgroups (với 20 danh mục, 11.293 tài liệu tập huấn luyện, 7528 tập kiểm thử) Reuters21.578 R8 (với danh mục, 5485 tài liệu tập huấn luyện, 2189 tập kiểm thử) Testing System: Intel® Pentium® CPU G630 2.27Ghz x 2, Memory 2GB, OS: Windows Professonal Vũ Thanh Nguyên tgk _ _ _ _ _ _ _ _ _ _ _ _ 61 _ _ _ _ 26 crude 0.76 0.80 earn 0.98 0.98 grain 0.3 0.5 interest 0.63 0.73 moneyfx 0.42 0.6 ship 0.35 0.60 trade 0.80 0.83 Average 0.65 0.74 _ _ _ Kết phương pháp đề xuất so sánh với số chiến thuật phân đa lớp phổ biến Bảng biểu diễn kết phân lớp R8 Bản g Kết thực nghi ệm R8 N o C a t O A R acq 13 Bảng Kết thực nghiệm liệu 20newgroup No F-Score Categories OVA OVO DDAG HAH alt.atheism 0.542 0.614 0.545 0.568 comp.graphics 0.254 0.607 0.452 0.416 comp.os.ms-windows.misc 0.354 0.481 0.392 0.474 comp.sys.ibm.pc.hardware 0.309 0.556 0.452 0.49 comp.sys.mac.hardware 0.429 0.486 0.429 0.558 comp.windows.x 0.327 0.546 0.51 0.507 misc.forsale 0.544 0.741 0.751 0.61 rec.autos 0.547 0.572 0.491 0.675 rec.motorcycles 0.693 0.739 0.724 0.783 10 rec.sport.baseball 0.675 0.69 0.622 0.596 11 rec.sport.hockey 0.684 0.689 0.689 0.79 12 sci.crypt 0.659 0.707 0.677 0.734 13 sci.electronics 0.336 0.445 0.455 0.531 14 sci.med 0.444 0.49 0.523 0.598 15 sci.space 0.55 0.619 0.645 0.713 16 soc.religion.christian 0.626 0.744 0.746 0.692 17 talk.politics.guns 0.613 0.706 0.709 0.641 18 talk.politics.mideast 0.604 0.593 0.649 0.725 19 talk.politics.misc 0.355 0.445 0.503 0.555 20 talk.religion.misc 0.315 0.482 0.597 0.476 0.493 0.598 0.578 0.607 Average Bảng Thời gian huấn luyện kiểm thử trene liệu theo chiến thuật phân lớp Reuters-21578 R8 20 Newsgroup Training Testing Training Testi OAR 35 1208 30 OAO 21 372 302 DDAG 21 372 107 HAH 14 382 25 _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ H A H l m ộ t c h i ế n t h u ậ t h i ệ u q u ả t r o n g p h â n l p K ết l u ậ n TẠP CHÍ KHOA HỌC ĐHSP TPHCM D đa lớp, u cầu xây dựng phân lớp giai K đoạn huấn luyện duyệt qua phân lớp phân S lớp Tuy nhiên, hiệu r suất lại phụ i thuộc cấu trúc cây, v báo a đề xuất s phương pháp tạo t dựa RST Kết a thực nghiệm cho thấy, v phương pháp đề xuất a mang lại độ xác , cao phương pháp phân lớp khác K như: OAO, OVR, DDAG Ghi chú: S Nghiên cứu tài trợ Đại học Quốc gia TP Hồ Chí P Minh (VNU-HCM) a đề tài mã số C2014-26t 04 n a TÀI LIỆU THAM KHẢO i k Aurangzeb Khan, , Baharum Baharudin, Lam L Hong Lee, Khairullah khan (2010), “A B Review of h Machine a Learning m Algorithms for b Text-Documents h Classification”, u Journal of advances in ( information techology, Vol (1), 4-20 16 Số 5(70) năm 2015 ) , “ D a t a C l a s s i f i c a t i o n : A R o u g h S V M A p p r o a c H a n s h e n g L e i , V e n u G o v i n d a r a j u ( 0 ) , “ H a l f A g a i n s t H a l f M u l t i c l a s s S u p p o r t V e c t o r M a c h i n e s ” , M i t a K D a l a l , M u k e s h A Z a v e r i ( 1 ) , “ A u t o m a t i c T e x t C l a s s i f i c a t i o n : A T e c h n i c a l R e v i e w ” , I N e h a M e h r a , S u r e n d r a G u p t a , ( ) , “ S u r v e y o n M u lt i c l a s s C l a s s i f i c a ti o n M e t h o d s ” , ( I J C S I T ) I n t e r n a t i o Nasim VasfiSisi, Mohammad Reza Feizi Derakhshi, (2013), “Text Classification with Machine Learning Algorithms”, Journal of Basic and Applied Scientific Research, 30-35 Tutut Herawan and Wan Maseri Wan Mohd, (2013), “RMF: Rough Set Membership Function-based for Clustering Web Transactions”, International Journal of Multimedia and Ubiquitous Engineering, Vol (6), 105-118 Xiaoyong LIU, Hui FU (2012), “A Hybrid Algorithm for Text Classification Problem”, Guangdong Polytechnic Normal University, 8-11 Vu Thanh Nguyen (2010), “Support Vector Machines Combined With Fuzzy C - Means For Text C l a s s i f i c a t i o n ” , ( N n g g à y y T p ò h a ả n s o b i n ệ n I J C S N S n I n t e r n a t i o n a l g ợ i c J o u r n a l o h đ ậ n n h đ : b i : 2 - - 0 1 - ; n g ; ... tạo cấu trúc HAH dựa lí thuyết tập thô 2.4 Sử dụng RST tạo cấu trúc HAH Trong phần này, đề xuất thuật toán cho việc tạo cấu trúc HAH sử dụng RST Đầu tiên, tập huấn luyện tiền xử lí rút trích... Hình Cấu trúc HAH cho tốn lớp Radial basis functionRBF: �(