8 CHƯƠNG 2 GIỚI THIỆU VỀ BÀI TOÁN DỰ ĐOÁN KHẢ NĂNG NGHỀ NGHIỆP CỦA HỌC SINH 2 1 T ng uan về bài toán phân lớp Bài toán phân lớp hay phân lớp dữ liệu (cla ification) là dạng phân tích dữ liệu nhằ rút trích các ô hình ô t các lớp dữ liệu hoặc dự đoán xu hướng dữ liệu Nhiều phương pháp phân loại đã được các nhà nghiên cứu đề xu t trong học áy, nh n dạng ẫu à thống kê 4 Phân lớp dữ liệu có thể được ứng dụng cho hàng loạt các ài toán trong các l nh ực khác nhau như dự áo thời tiết, chẩn đoán y khoa.
CHƯƠNG GIỚI THIỆU VỀ BÀI TOÁN DỰ ĐOÁN KHẢ NĂNG NGHỀ NGHIỆP CỦA HỌC SINH 2.1 T ng uan toán phân lớp Bài toán phân lớp hay phân lớp liệu (cla ification) dạng phân tích liệu nhằ rút trích hình t lớp liệu dự đoán xu hướng liệu Nhiều phương pháp phân loại nhà nghiên cứu đề xu t học áy, nh n dạng ẫu thống kê [4] Phân lớp liệu ứng dụng cho hàng loạt ài toán l nh ực khác như: dự áo thời tiết, chẩn đoán y khoa, phát ail pa , nh n dạng khuôn Nhiệ ặt, ứng dụng giáo dục ụ phân tích liệu hình ỗi ài tốn phân lớp, t phân loại xây dựng để dự đoán giá trị nhãn xác định (cat gorical la l) giá trị rời rạc (di cr t tác ới đối tượng liệu có alu ), có ngh a phân lớp thao giá trị iết trước 2.2 T ng uan thuật toán dùng để phân lớp liệu 2.2.1 Support Vector Machine (SVM) SVM phương pháp học khai phá liệu thị giác áy tiên tiến áp dụng r ng rãi l nh ực áy tính Phương pháp SVM Vapnik đề xu t n 1995, dựa lý thuyết học thống kê nên có t t ng toán học chặt chẽ đ o kết qu đạt tối ưu SVM áp dụng thành công r t nhiều ứng dụng nh n dạng ặt người, phân loại n n, nh n dạng chữ iết tay, … Ý tưởng phương pháp chuyển t p liệu ẫu từ khơng gian chiều Rn ang khơng gian nhiều chiều Rd, au tì phân chia t p t iêu phẳng (Hyp rplan ) tối ưu Rd để ẫu th o phân lớp chúng Hình 2.1 Ví dụ ề phân lớp SVM khơng gian R2 Gi i thu t áy học SVM tì thành phần ao cho điể t iêu phẳng tối ưu cho phép chia điể t lớp nằ liệu phía iêu phẳng ( ài toán lớp) Đối ới ài toán nhiều lớp đưa ề ài tốn lớp ằng kỹ thu t: – t t c – Xét t p liệu ẫu tách rời tuyến tính {(x1, y1), (x2, y2), (xn, yn)} ới xi ϵ Rd yi ϵ {±1} Siêu phẳng tối ưu phân t p liệu thành hai lớp iêu phẳng tách rời liệu thành hai lớp riêng iệt ới lề ( argin) lớn nh t Siêu phẳng không gian n chiều iểu diễn ởi lệch ctơ pháp tuyến w= [w1, w2, …, wn] đ iêu phẳng o ới gốc tọa đ Máy học SVM tì iêu phẳng (w, ) để phân chia liệu th o cách au Hình 2.2 Phân lớp tuyến tính ới SVM Việc chia cắt thực nhờ iêu phẳng hỗ trợ ong ong Siêu phẳng hỗ trợ cho lớp dương (+1) iêu phẳng phân tử thu c lớp dương (+1) nằ ph i iêu phẳng Tương tự, iêu phẳng hỗ trợ cho lớp â phần tử thu c lớp â (-1) nằ ề ên (-1) iêu phẳng ề ên trái iêu phẳng Hai iêu phẳng hỗ trợ ong ong iết lại au: (2.1) (2.2) Kết hợp hai điều kiện ta (2.3) Kho ng cách iêu phẳng gọi lề tính au: Margin = || || || || đ lớn Gi i thu t SVM tì ctơ w iêu phẳng tối ưu ằng cách cực đại hóa lề (tì nh t lớp) Gi i thu t SVM đưa đến kho ng cách xa n đề iệc gi i ài toán quy hoạch toàn phương au: || || (2.4) Với điều kiện: Gi i ài tốn quy hoạch tồn phương (2.4) ẽ thu iêu phẳng phân lớp (w, ) SVM Việc phân loại cho phần tử ới đến x dựa iêu phẳng (w, ) tính th o công thức (2.5) (2.5) Ngh a phần tử x ới đến, tính giá trị iểu thức (w.x – ) Nếu gán nhãn cho x lớp dương (+1) (w.x – ) < gán nhãn cho x lớp â 10 (-1) Hình 2.3 SVM phân lớp liệu không tách rời Trong trường hợp liệu khơng tách rời Máy học SVM ẫn xử lý ằng cách x x xét t kỳ điể xi nằ phía o ới iêu phẳng hỗ trợ lỗi Kho ng cách lỗi iểu diễn ởi zi >= ( ới xi nằ phía iêu phẳng hỗ trợ kho ng cách lỗi tương ứng zi = 0, cịn ngược lại zi > kho ng cách từ điể xi đến iêu phẳng hỗ trợ tương ứng nó) Việc tì phẳng tối ưu gi i thu t áy học SVM thực lúc hai kiế iêu ục tiêu cực đại hóa lề cực tiểu hóa lỗi Gi i thu t SVM dẫn đến ài tốn quy hoạch tồn phương au: || || ∑ (2.6) Với điều kiện: Hằng c > dụng để điều chỉnh đ r ng lề lỗi ời gi i ài toán quy hoạch toàn phương (2.4) hay (2.6) gi i thu t tì áy học SVM lời gi i tương đương ài toán đối ngẫu chúng Bài tốn quy hoạch tồn phương (2.4) iết lại ới dạng (3.7), có dụng nhân tử Lagrange au: { || || (2.7) 11 ∑ [ ]} Để tìm cần ph i cho đạo hàm riêng th o w ằng sau: ∑ (2.7.1) ∑ (2.7.2) Từ công thức (2.7.1) (2.7.2), công thức (2.7) iết lại cơng thức (2.8): ∑ ∑ ∑ (2.8) Bài tốn quy hoạch tồn phương (3.4) đưa đến việc tìm (2.7.1) nhân tử agrang ∑ ới ràng u c , iết lại thành (2.9) ∑ ∑ (2.9) Với điều kiện: ∑ ; Tương tự, ài tốn quy hoạch tồn phương (2.6) dành cho phân lớp liệu không tách rời có ài tốn đối ngẫu (2.10) ∑ ∑ ∑ Với điều kiện: (2.10) ∑ Hằng c >0 sử dụng để chỉnh độ rộng lề lỗi ời gi i ài tốn quy hoạch tồn phương (2.9) hay (2.10) ẽ cho tử tương ứng ới để phân lớp liệu , phần > éc tơ hỗ trợ, t p éc tơ hỗ trợ (SV) dùng ới đến x au: ∑ (2.11) 12 Mặc dù gi i thu t SVM n gi i ài toán phân lớp phi tuyến tính, nhiên ta kết hợp SVM ới phương pháp hà phép gi i nhân (k rn l- a d t ố lớn ài toán phân lớp phi tuyến M t ố hà thod), ẽ cho nhân thường dùng phổ iến B ng 2.1 M t ố hà nhân thường dùng Kiểu hàm nhân Cơng thức Tuyến tính Đa thức K(u,v) = u.v K(u,v) = (u.v + c)d cd K(u,v) = exp(-γ||u-v||2) Gaussian Radial Basic Function (RBF) 2.2.2 Máy học Naïve bayes 2.2.2.1 Định lý Bayes Vì thu t tốn Na tì Bay dựa định lý Bay hiểu ề định lý Bay Định lý Bay nên trước tì hiểu thu t tốn ta cho phép tính xác u t x y t ự kiện A iết ự kiện liên quan B x y Xác u t ký hiệu P(A|B), đọc "xác u t A có B” Đại lượng gọi xác u t có điều kiện hay xác u t h u nghiệ (po t rior) ì rút từ giá trị cho B phụ thu c giá trị | | P(A|B): Xác u t x y A B x y P(B|A): Xác u t x y B A x y Đại lượng gọi kh n ng (lik lihood) x y A iết B x y 13 P(A): Xác u t x y A, không quan tâ đến B Đây gọi xác u t tiên nghiệ (prior), "tiên nghiệ " th o ngh a khơng quan tâ đến t kỳ thơng tin ề B P(B): Xác u t x y B, khơng quan tâ đến A Đại lượng cịn gọi ố chuẩn hóa (nor ali ing tant), ì ln giống nhau, khơng phụ thu c ự kiện A uốn iết 2.2.2.2 Giới thiệu thuật tốn Nạve Bayes Bay Na (NB) phương pháp phân loại dựa xác u t dụng r ng rãi l nh ực áy học [Mitch ll 1996] [Joachi 1997] [Ja on 2001], dụng lần l nh ực phân loại ởi Maron n 1961 [Maron 1961] au trở nên phổ iến dùng nhiều l nh ực cơng cụ tì [Rij rg n t al 1970], lọc ail [Saha i t al 1998]… 2.2.2.3 Thuật tốn Nạve Bayes | | Thu t tốn Na Bay dựa định lý Bay phát iểu au: Áp dụng ài toán phân loại, kiện gồ D: t p liệu hu n luyện có: ctor hóa dạng x→= {x1,x2, ,xn} Ci: phân lớp i, ới i = {1,2,…, } Các thu c tính đ c l p điều kiện đơi t ới Th o định lý Bay : | | Theo tính ch t đ c l p điều kiện: ∏ | | Trong đó: | xác u t thu c phân lớp i iết trước xác u t phân lớp i 14 ẫu X kiế | xác u t thu c tính thứ k Các ước thực thu t toán Na ang giá trị xk iết X thu c phân lớp i Bay : Bước 1: Hu n luyện Naïve Bayes (dựa vào t p liệu), tính Bước 2: Phân lớp | , ta cần tính xác u t thu c phân lớp iết trước Xn w Xn w gán lớp có xác u t lớn nh t th o công thức max( P(Ci ) k 1 P( xk Ci )) n Ci C Ưu nhược điể Na Bay Ưu điể Đơn gi n, dễ cài đặt gi định thu c tính đ c l p Có thể dụng thơng tin khứ để dự áo tương lai Khi thực tế, chúng lại dùng để tính tốn lại t dự áo xu t hình dự áo cho phân tích Suy diễn xác dựa t p liệu Việc uy diễn trên ẫu lớn Nó ước lượng trực tiếp dùng phương pháp hỗ trợ thê t kỳ tha ẫu nhỏ tương tự ố không cần khác Cung c p kết qu diễn gi i dễ dàng ằng ngơn ngữ tự nhiên Có thể chạy c trường hợp t ố ẫu ị thiếu liệu Nhược điể Cũng gi định thu c tính đ c l p nên kết qu ẽ ké xác thu c tính có phụ thu c Khơng đưa cách lựa chọn thu c tính đầu Việc yêu cầu người phân tích ph i có kinh nghiệ , khơng ẽ 15 lệch kết qu Sinh kết qu dự áo ị nh hưởng ạnh ởi thu c tính đầu Cho nên thực tế, ẽ khó thuyết phục t người tin kết qu dự áo người khơng đồng ý ới cách chọn tha ố đầu Chi phí tính tốn cao đặc iệt có nhiều tha ố đầu Các kết qu ô cho th y kết qu phân phối xác u t khác t p hu n luyện t t p liệu có ẵn ỗi lần hu n luyện ta lại chọn t p khác 2.2.3 Maximum Entropy (MaxEnt) 2.2.3.1 Giới thiệu thuật toán Maximum Entropy Maxi u ài áo n Entropy nguyên tắc gi i thích ởi E T Jayn hai 1957 Entropy cực đại (MaxEnt) hồi quy logi tic đa thức t phương pháp phân loại tổng quát hóa hồi quy logi tic cho ài toán nhiều lớp ới nhiều hai kết qu rời rạc B phân loại thu t tốn thường dụng t gi i pháp thay cho phân loại Nai Bay ì chúng khơng gi định tính đ c l p thống kê đối tượng ngẫu nhiên đóng trị yếu tố dự đốn Ngun tắc Maxi u thơng tin kiể phân phối xác u t Entropy hữu ích t cách rõ ràng áp dụng cho tra Thơng tin kiể tra t tuyên ố ề t ự th t hay xác định rõ ràng 2.2.3.2 Thuật tốn Maximum Entropy Mơ hình xác u t Entropy cực đại cung c p t cách đơn gi n để kết hợp đặc trưng tài liệu ngữ c nh khác để ước lượng xác u t lớp xu t ới t ố ngữ c nh Tư tưởng Entropy cực đại tì t quan át từ liệu hình có phân phối xác u t tho khơng đưa thê t kì n phương pháp ãn ọi ràng u c t gi thiết khác Th o nguyên lý Entropy cực đại, phân phối cần đáp ứng liệu quan át đại đ đo Entropy có điều kiện: H p p c p c d log p d c c ,d 16 t ố cực p* ar g max H p pC Trong đó: p* phần xác u t tối ưu Mơ hình Entropy cực đại xây dựng đặc trưng từ t p liệu hu n luyện Mỗi đặc trưng iểu diễn t hà nh n t hai giá trị T p ràng u c ẽ thiết l p từ đặc trưng M t ràng u c liệu u c hình ph i thỏa ãn Mỗi đặc trưng fi gán cho t điều kiện từ t trọng ố λi Khi đó, ài tốn phân lớp đưa ề ài toán ước lượng xác u t có điều kiện: P c d exp i f i d , c Z d i Trong Z(d) iểu thức chuẩn hóa để đ o điều kiện Σp(c | d ) = Từ đưa cơng thức au: Z d exp fi d , c i c i 2.2.3.3 Ưu nhược điểm Maxent Ưu điể Cho phép kh n ng iệc iểu diễn dạng hà n đề phức tạp ề tri thức thông qua đặc trưng, khơng hạn chế Có thể gi i nhiều dạng thu c tính khác Các gi thiết không cần ph i đ c l p ới Trọng ố đặc trưng xác định t cách tự đ ng Nhược điể Quá trình t p hu n ch Na Bay ới ố lượng lớp đáng kể [12] 17 2.3 Mơ hình hóa tốn Quá trình phân lớp liệu ao gồ Bước 1: Learning: M t khái niệ phân loại xây dựng ôt t t p hợp lớp liệu xác định trước B phân loại xây dựng từ t p hu n luyện (training data) ao gồ chúng Mỗi ước au: [4] liệu liệu nhãn lớp liên quan giá trị (data tupl ) t p hu n luyện gọi lớp (cla ) Các (o j ct) điể giá trị gọi t thể loại(cat gory) ẫu ( a pl ), đối tượng liệu (data point ) Trong t p liệu này, gi thu c ề t lớp định trước, lớp giá trị chọn thu c tính gán nhãn lớp hay thu c tính phân lớp (cla ỗi phần tử liệu t thu c tính la l attri ut ) Đầu ước thường quy tắc phân lớp dạng lu t dạng if-th n, định, công thức logic, hay ạng nơron Bước 2: Classification Mơ hình dụng để dự đốn nhãn lớp thử nghiệ liệu thử nghiệ thử nghiệ hình xây dựng ước tính đ xác quy tắc phân loại Dữ liệu dụng để ước tính tính xác quy tắc phân lớp Nếu đ xác coi ch p nh n được, quy tắc áp dụng để phân lớp liệu ới 18 Hình 2.4 Quá trình xây dựng hệ thống phân tích ý kiến ph n hồi học inh Từ hình 2.4 cho th y q trình hồn chỉnh hệ thống phân tích đối ới liệu ý kiến học inh Trong xử lý ngôn ngữ tự nhiên, liệu xử lý t toàn ngh phân tích tài liệu Với ph n hồi ý kiến học inh, ức đ u thích ơn đủ thơng tin để nghiên cứu Hầu hết học inh dụng cách lựa chọn thích, khơng thích ình thường để ày tỏ ý kiến ình Trong thử nghiệ xử lý ao gồ iệc loại ỏ ình, chúng tơi t p trung ề ph n hồi ằng câu Tiền n n ị lỗi, thiếu thông tin loại ỏ thông tin 19 không cần thiết như: thời gian người tha ail để đ o thông tin cá nhân cho kh o át Sau đó, liệu gửi đến thích phân loại chúng lớp Chúng dụng hai loại nhãn: tự nhiên (3) xã h i (4) Ngoài ra, t p liệu chúng tơi dụng để xác định cho dù câu khách quan hay chủ quan nghiên cứu giáo dục B phân loại Nai Bay , Maxi u Entropy Support V ctor Machin khớp tính n ng ới nhãn phù hợp dựa thống kê họ Trong trình đào tạo, điể Kiể thống kê xây dựng từ liệu đào tạo đầu tra nhãn quy trình tính n ng liệu đầu từ hu n luyện giai đoạn trước 2.4 Phương pháp Tại nghiên cứu này, dụng a phương pháp khai thác ý kiến Nai Bay , Maxi u Entropy Support V ctor Machin (SVM) T t c thu t tốn dựa ố liệu thống kê có ngh a liệu đầu đóng trị quan trọng t kỳ Na hình Bay lý Bay t họ ới tính đ c l p phân loại xác u t đơn gi n dựa iệc áp dụng định ạnh ẽ gi định tính n ng Thu t tốn đơn gi n, dễ dụng đủ tốt để dụng Nhược điể nó khơng thể tì th y ự tương tác tính n ng [12] Hồi quy logi tic đa thức Maxi u Entropy (MaxEnt) t phương pháp phân loại tổng quát hóa hồi quy logi tic cho ài toán nhiều lớp ới nhiều hai kết qu rời rạc B phân loại thu t toán thường dụng pháp thay cho phân loại Nai Bay t gi i ì chúng khơng gi định tính đ c l p thống kê đối tượng ngẫu nhiên đóng trị yếu tố dự đốn Tuy nhiên, trình học t p ch Na dụng lớp nên có khơng có Máy Bay ới ố lượng lớp đáng kể [12] Chúng n đề ới hiệu u t tốc đ ctơ hỗ trợ (SVM) thu c t họ hình tuyến tính tổng quát đạt phân loại hồi quy định dựa giá trị ự kết hợp tuyến tính đối tượng [7] Chúng tơi dễ dàng c i thiện SVM ằng cách dụng từ điển định cho trường chọn hạt nhân [13] 20 ... tắc áp dụng để phân lớp liệu ới 18 Hình 2.4 Quá trình xây dựng hệ thống phân tích ý kiến ph n hồi học inh Từ hình 2.4 cho th y q trình hồn chỉnh hệ thống phân tích đối ới liệu ý kiến học inh Trong... thu c tính đ c l p Có thể dụng thông tin khứ để dự áo tương lai Khi thực tế, chúng lại dùng để tính tốn lại t dự áo xu t hình dự áo cho phân tích Suy diễn xác dựa t p liệu Việc uy diễn trên ẫu... xử lý t toàn ngh phân tích tài liệu Với ph n hồi ý kiến học inh, ức đ u thích ơn đủ thơng tin để nghiên cứu Hầu hết học inh dụng cách lựa chọn thích, khơng thích ình thường để ày tỏ ý kiến ình