1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân tích phản hồi về cảm nghĩ để dự đoán khả năng nghề nghiệp của học sinh cấp trung học phổ thông phần 2 luận văn thạc sĩ

13 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 13
Dung lượng 545,44 KB

Nội dung

8 CHƯƠNG 2 GIỚI THIỆU VỀ BÀI TOÁN DỰ ĐOÁN KHẢ NĂNG NGHỀ NGHIỆP CỦA HỌC SINH 2 1 T ng uan về bài toán phân lớp Bài toán phân lớp hay phân lớp dữ liệu (cla ification) là dạng phân tích dữ liệu nhằ rút trích các ô hình ô t các lớp dữ liệu hoặc dự đoán xu hướng dữ liệu Nhiều phương pháp phân loại đã được các nhà nghiên cứu đề xu t trong học áy, nh n dạng ẫu à thống kê 4 Phân lớp dữ liệu có thể được ứng dụng cho hàng loạt các ài toán trong các l nh ực khác nhau như dự áo thời tiết, chẩn đoán y khoa.

CHƯƠNG GIỚI THIỆU VỀ BÀI TOÁN DỰ ĐOÁN KHẢ NĂNG NGHỀ NGHIỆP CỦA HỌC SINH 2.1 T ng uan toán phân lớp Bài toán phân lớp hay phân lớp liệu (cla ification) dạng phân tích liệu nhằ rút trích hình t lớp liệu dự đoán xu hướng liệu Nhiều phương pháp phân loại nhà nghiên cứu đề xu t học áy, nh n dạng ẫu thống kê [4] Phân lớp liệu ứng dụng cho hàng loạt ài toán l nh ực khác như: dự áo thời tiết, chẩn đoán y khoa, phát ail pa , nh n dạng khuôn Nhiệ ặt, ứng dụng giáo dục ụ phân tích liệu hình ỗi ài tốn phân lớp, t phân loại xây dựng để dự đoán giá trị nhãn xác định (cat gorical la l) giá trị rời rạc (di cr t tác ới đối tượng liệu có alu ), có ngh a phân lớp thao giá trị iết trước 2.2 T ng uan thuật toán dùng để phân lớp liệu 2.2.1 Support Vector Machine (SVM) SVM phương pháp học khai phá liệu thị giác áy tiên tiến áp dụng r ng rãi l nh ực áy tính Phương pháp SVM Vapnik đề xu t n 1995, dựa lý thuyết học thống kê nên có t t ng toán học chặt chẽ đ o kết qu đạt tối ưu SVM áp dụng thành công r t nhiều ứng dụng nh n dạng ặt người, phân loại n n, nh n dạng chữ iết tay, … Ý tưởng phương pháp chuyển t p liệu ẫu từ khơng gian chiều Rn ang khơng gian nhiều chiều Rd, au tì phân chia t p t iêu phẳng (Hyp rplan ) tối ưu Rd để ẫu th o phân lớp chúng Hình 2.1 Ví dụ ề phân lớp SVM khơng gian R2 Gi i thu t áy học SVM tì thành phần ao cho điể t iêu phẳng tối ưu cho phép chia điể t lớp nằ liệu phía iêu phẳng ( ài toán lớp) Đối ới ài toán nhiều lớp đưa ề ài tốn lớp ằng kỹ thu t: – t t c – Xét t p liệu ẫu tách rời tuyến tính {(x1, y1), (x2, y2), (xn, yn)} ới xi ϵ Rd yi ϵ {±1} Siêu phẳng tối ưu phân t p liệu thành hai lớp iêu phẳng tách rời liệu thành hai lớp riêng iệt ới lề ( argin) lớn nh t Siêu phẳng không gian n chiều iểu diễn ởi lệch ctơ pháp tuyến w= [w1, w2, …, wn] đ iêu phẳng o ới gốc tọa đ Máy học SVM tì iêu phẳng (w, ) để phân chia liệu th o cách au Hình 2.2 Phân lớp tuyến tính ới SVM Việc chia cắt thực nhờ iêu phẳng hỗ trợ ong ong Siêu phẳng hỗ trợ cho lớp dương (+1) iêu phẳng phân tử thu c lớp dương (+1) nằ ph i iêu phẳng Tương tự, iêu phẳng hỗ trợ cho lớp â phần tử thu c lớp â (-1) nằ ề ên (-1) iêu phẳng ề ên trái iêu phẳng Hai iêu phẳng hỗ trợ ong ong iết lại au: (2.1) (2.2) Kết hợp hai điều kiện ta (2.3) Kho ng cách iêu phẳng gọi lề tính au: Margin = || || || || đ lớn Gi i thu t SVM tì ctơ w iêu phẳng tối ưu ằng cách cực đại hóa lề (tì nh t lớp) Gi i thu t SVM đưa đến kho ng cách xa n đề iệc gi i ài toán quy hoạch toàn phương au: || || (2.4) Với điều kiện: Gi i ài tốn quy hoạch tồn phương (2.4) ẽ thu iêu phẳng phân lớp (w, ) SVM Việc phân loại cho phần tử ới đến x dựa iêu phẳng (w, ) tính th o công thức (2.5) (2.5) Ngh a phần tử x ới đến, tính giá trị iểu thức (w.x – ) Nếu gán nhãn cho x lớp dương (+1) (w.x – ) < gán nhãn cho x lớp â 10 (-1) Hình 2.3 SVM phân lớp liệu không tách rời Trong trường hợp liệu khơng tách rời Máy học SVM ẫn xử lý ằng cách x x xét t kỳ điể xi nằ phía o ới iêu phẳng hỗ trợ lỗi Kho ng cách lỗi iểu diễn ởi zi >= ( ới xi nằ phía iêu phẳng hỗ trợ kho ng cách lỗi tương ứng zi = 0, cịn ngược lại zi > kho ng cách từ điể xi đến iêu phẳng hỗ trợ tương ứng nó) Việc tì phẳng tối ưu gi i thu t áy học SVM thực lúc hai kiế iêu ục tiêu cực đại hóa lề cực tiểu hóa lỗi Gi i thu t SVM dẫn đến ài tốn quy hoạch tồn phương au: || || ∑ (2.6) Với điều kiện: Hằng c > dụng để điều chỉnh đ r ng lề lỗi ời gi i ài toán quy hoạch toàn phương (2.4) hay (2.6) gi i thu t tì áy học SVM lời gi i tương đương ài toán đối ngẫu chúng Bài tốn quy hoạch tồn phương (2.4) iết lại ới dạng (3.7), có dụng nhân tử Lagrange au: { || || (2.7) 11 ∑ [ ]} Để tìm cần ph i cho đạo hàm riêng th o w ằng sau: ∑ (2.7.1) ∑ (2.7.2) Từ công thức (2.7.1) (2.7.2), công thức (2.7) iết lại cơng thức (2.8): ∑ ∑ ∑ (2.8) Bài tốn quy hoạch tồn phương (3.4) đưa đến việc tìm (2.7.1) nhân tử agrang ∑ ới ràng u c , iết lại thành (2.9) ∑ ∑ (2.9) Với điều kiện: ∑ ; Tương tự, ài tốn quy hoạch tồn phương (2.6) dành cho phân lớp liệu không tách rời có ài tốn đối ngẫu (2.10) ∑ ∑ ∑ Với điều kiện: (2.10) ∑ Hằng c >0 sử dụng để chỉnh độ rộng lề lỗi ời gi i ài tốn quy hoạch tồn phương (2.9) hay (2.10) ẽ cho tử tương ứng ới để phân lớp liệu , phần > éc tơ hỗ trợ, t p éc tơ hỗ trợ (SV) dùng ới đến x au: ∑ (2.11) 12 Mặc dù gi i thu t SVM n gi i ài toán phân lớp phi tuyến tính, nhiên ta kết hợp SVM ới phương pháp hà phép gi i nhân (k rn l- a d t ố lớn ài toán phân lớp phi tuyến M t ố hà thod), ẽ cho nhân thường dùng phổ iến B ng 2.1 M t ố hà nhân thường dùng Kiểu hàm nhân Cơng thức Tuyến tính Đa thức K(u,v) = u.v K(u,v) = (u.v + c)d cd K(u,v) = exp(-γ||u-v||2) Gaussian Radial Basic Function (RBF) 2.2.2 Máy học Naïve bayes 2.2.2.1 Định lý Bayes Vì thu t tốn Na tì Bay dựa định lý Bay hiểu ề định lý Bay Định lý Bay nên trước tì hiểu thu t tốn ta cho phép tính xác u t x y t ự kiện A iết ự kiện liên quan B x y Xác u t ký hiệu P(A|B), đọc "xác u t A có B” Đại lượng gọi xác u t có điều kiện hay xác u t h u nghiệ (po t rior) ì rút từ giá trị cho B phụ thu c giá trị | | P(A|B): Xác u t x y A B x y P(B|A): Xác u t x y B A x y Đại lượng gọi kh n ng (lik lihood) x y A iết B x y 13 P(A): Xác u t x y A, không quan tâ đến B Đây gọi xác u t tiên nghiệ (prior), "tiên nghiệ " th o ngh a khơng quan tâ đến t kỳ thơng tin ề B P(B): Xác u t x y B, khơng quan tâ đến A Đại lượng cịn gọi ố chuẩn hóa (nor ali ing tant), ì ln giống nhau, khơng phụ thu c ự kiện A uốn iết 2.2.2.2 Giới thiệu thuật tốn Nạve Bayes Bay Na (NB) phương pháp phân loại dựa xác u t dụng r ng rãi l nh ực áy học [Mitch ll 1996] [Joachi 1997] [Ja on 2001], dụng lần l nh ực phân loại ởi Maron n 1961 [Maron 1961] au trở nên phổ iến dùng nhiều l nh ực cơng cụ tì [Rij rg n t al 1970], lọc ail [Saha i t al 1998]… 2.2.2.3 Thuật tốn Nạve Bayes | | Thu t tốn Na Bay dựa định lý Bay phát iểu au: Áp dụng ài toán phân loại, kiện gồ D: t p liệu hu n luyện có: ctor hóa dạng x→= {x1,x2, ,xn} Ci: phân lớp i, ới i = {1,2,…, } Các thu c tính đ c l p điều kiện đơi t ới Th o định lý Bay : | | Theo tính ch t đ c l p điều kiện: ∏ | | Trong đó: | xác u t thu c phân lớp i iết trước xác u t phân lớp i 14 ẫu X kiế | xác u t thu c tính thứ k Các ước thực thu t toán Na ang giá trị xk iết X thu c phân lớp i Bay : Bước 1: Hu n luyện Naïve Bayes (dựa vào t p liệu), tính Bước 2: Phân lớp | , ta cần tính xác u t thu c phân lớp iết trước Xn w Xn w gán lớp có xác u t lớn nh t th o công thức max( P(Ci ) k 1 P( xk Ci )) n Ci C Ưu nhược điể Na Bay Ưu điể Đơn gi n, dễ cài đặt gi định thu c tính đ c l p Có thể dụng thơng tin khứ để dự áo tương lai Khi thực tế, chúng lại dùng để tính tốn lại t dự áo xu t hình dự áo cho phân tích Suy diễn xác dựa t p liệu Việc uy diễn trên ẫu lớn Nó ước lượng trực tiếp dùng phương pháp hỗ trợ thê t kỳ tha ẫu nhỏ tương tự ố không cần khác Cung c p kết qu diễn gi i dễ dàng ằng ngơn ngữ tự nhiên Có thể chạy c trường hợp t ố ẫu ị thiếu liệu Nhược điể Cũng gi định thu c tính đ c l p nên kết qu ẽ ké xác thu c tính có phụ thu c Khơng đưa cách lựa chọn thu c tính đầu Việc yêu cầu người phân tích ph i có kinh nghiệ , khơng ẽ 15 lệch kết qu Sinh kết qu dự áo ị nh hưởng ạnh ởi thu c tính đầu Cho nên thực tế, ẽ khó thuyết phục t người tin kết qu dự áo người khơng đồng ý ới cách chọn tha ố đầu Chi phí tính tốn cao đặc iệt có nhiều tha ố đầu Các kết qu ô cho th y kết qu phân phối xác u t khác t p hu n luyện t t p liệu có ẵn ỗi lần hu n luyện ta lại chọn t p khác 2.2.3 Maximum Entropy (MaxEnt) 2.2.3.1 Giới thiệu thuật toán Maximum Entropy Maxi u ài áo n Entropy nguyên tắc gi i thích ởi E T Jayn hai 1957 Entropy cực đại (MaxEnt) hồi quy logi tic đa thức t phương pháp phân loại tổng quát hóa hồi quy logi tic cho ài toán nhiều lớp ới nhiều hai kết qu rời rạc B phân loại thu t tốn thường dụng t gi i pháp thay cho phân loại Nai Bay ì chúng khơng gi định tính đ c l p thống kê đối tượng ngẫu nhiên đóng trị yếu tố dự đốn Ngun tắc Maxi u thơng tin kiể phân phối xác u t Entropy hữu ích t cách rõ ràng áp dụng cho tra Thơng tin kiể tra t tuyên ố ề t ự th t hay xác định rõ ràng 2.2.3.2 Thuật tốn Maximum Entropy Mơ hình xác u t Entropy cực đại cung c p t cách đơn gi n để kết hợp đặc trưng tài liệu ngữ c nh khác để ước lượng xác u t lớp xu t ới t ố ngữ c nh Tư tưởng Entropy cực đại tì t quan át từ liệu hình có phân phối xác u t tho khơng đưa thê t kì n phương pháp ãn ọi ràng u c t gi thiết khác Th o nguyên lý Entropy cực đại, phân phối cần đáp ứng liệu quan át đại đ đo Entropy có điều kiện: H  p    p  c  p  c d  log p  d c  c ,d 16 t ố cực p*  ar g max H  p  pC Trong đó: p* phần xác u t tối ưu Mơ hình Entropy cực đại xây dựng đặc trưng từ t p liệu hu n luyện Mỗi đặc trưng iểu diễn t hà nh n t hai giá trị T p ràng u c ẽ thiết l p từ đặc trưng M t ràng u c liệu u c hình ph i thỏa ãn Mỗi đặc trưng fi gán cho t điều kiện từ t trọng ố λi Khi đó, ài tốn phân lớp đưa ề ài toán ước lượng xác u t có điều kiện: P c d    exp    i f i  d , c   Z d   i  Trong Z(d) iểu thức chuẩn hóa để đ o điều kiện Σp(c | d ) = Từ đưa cơng thức au: Z d    exp    fi  d , c     i c i 2.2.3.3 Ưu nhược điểm Maxent Ưu điể Cho phép kh n ng iệc iểu diễn dạng hà n đề phức tạp ề tri thức thông qua đặc trưng, khơng hạn chế Có thể gi i nhiều dạng thu c tính khác Các gi thiết không cần ph i đ c l p ới Trọng ố đặc trưng xác định t cách tự đ ng Nhược điể Quá trình t p hu n ch Na Bay ới ố lượng lớp đáng kể [12] 17 2.3 Mơ hình hóa tốn Quá trình phân lớp liệu ao gồ Bước 1: Learning: M t khái niệ phân loại xây dựng ôt t t p hợp lớp liệu xác định trước B phân loại xây dựng từ t p hu n luyện (training data) ao gồ chúng Mỗi ước au: [4] liệu liệu nhãn lớp liên quan giá trị (data tupl ) t p hu n luyện gọi lớp (cla ) Các (o j ct) điể giá trị gọi t thể loại(cat gory) ẫu ( a pl ), đối tượng liệu (data point ) Trong t p liệu này, gi thu c ề t lớp định trước, lớp giá trị chọn thu c tính gán nhãn lớp hay thu c tính phân lớp (cla ỗi phần tử liệu t thu c tính la l attri ut ) Đầu ước thường quy tắc phân lớp dạng lu t dạng if-th n, định, công thức logic, hay ạng nơron Bước 2: Classification Mơ hình dụng để dự đốn nhãn lớp thử nghiệ liệu thử nghiệ thử nghiệ hình xây dựng ước tính đ xác quy tắc phân loại Dữ liệu dụng để ước tính tính xác quy tắc phân lớp Nếu đ xác coi ch p nh n được, quy tắc áp dụng để phân lớp liệu ới 18 Hình 2.4 Quá trình xây dựng hệ thống phân tích ý kiến ph n hồi học inh Từ hình 2.4 cho th y q trình hồn chỉnh hệ thống phân tích đối ới liệu ý kiến học inh Trong xử lý ngôn ngữ tự nhiên, liệu xử lý t toàn ngh phân tích tài liệu Với ph n hồi ý kiến học inh, ức đ u thích ơn đủ thơng tin để nghiên cứu Hầu hết học inh dụng cách lựa chọn thích, khơng thích ình thường để ày tỏ ý kiến ình Trong thử nghiệ xử lý ao gồ iệc loại ỏ ình, chúng tơi t p trung ề ph n hồi ằng câu Tiền n n ị lỗi, thiếu thông tin loại ỏ thông tin 19 không cần thiết như: thời gian người tha ail để đ o thông tin cá nhân cho kh o át Sau đó, liệu gửi đến thích phân loại chúng lớp Chúng dụng hai loại nhãn: tự nhiên (3) xã h i (4) Ngoài ra, t p liệu chúng tơi dụng để xác định cho dù câu khách quan hay chủ quan nghiên cứu giáo dục B phân loại Nai Bay , Maxi u Entropy Support V ctor Machin khớp tính n ng ới nhãn phù hợp dựa thống kê họ Trong trình đào tạo, điể Kiể thống kê xây dựng từ liệu đào tạo đầu tra nhãn quy trình tính n ng liệu đầu từ hu n luyện giai đoạn trước 2.4 Phương pháp Tại nghiên cứu này, dụng a phương pháp khai thác ý kiến Nai Bay , Maxi u Entropy Support V ctor Machin (SVM) T t c thu t tốn dựa ố liệu thống kê có ngh a liệu đầu đóng trị quan trọng t kỳ Na hình Bay lý Bay t họ ới tính đ c l p phân loại xác u t đơn gi n dựa iệc áp dụng định ạnh ẽ gi định tính n ng Thu t tốn đơn gi n, dễ dụng đủ tốt để dụng Nhược điể nó khơng thể tì th y ự tương tác tính n ng [12] Hồi quy logi tic đa thức Maxi u Entropy (MaxEnt) t phương pháp phân loại tổng quát hóa hồi quy logi tic cho ài toán nhiều lớp ới nhiều hai kết qu rời rạc B phân loại thu t toán thường dụng pháp thay cho phân loại Nai Bay t gi i ì chúng khơng gi định tính đ c l p thống kê đối tượng ngẫu nhiên đóng trị yếu tố dự đốn Tuy nhiên, trình học t p ch Na dụng lớp nên có khơng có Máy Bay ới ố lượng lớp đáng kể [12] Chúng n đề ới hiệu u t tốc đ ctơ hỗ trợ (SVM) thu c t họ hình tuyến tính tổng quát đạt phân loại hồi quy định dựa giá trị ự kết hợp tuyến tính đối tượng [7] Chúng tơi dễ dàng c i thiện SVM ằng cách dụng từ điển định cho trường chọn hạt nhân [13] 20 ... tắc áp dụng để phân lớp liệu ới 18 Hình 2.4 Quá trình xây dựng hệ thống phân tích ý kiến ph n hồi học inh Từ hình 2.4 cho th y q trình hồn chỉnh hệ thống phân tích đối ới liệu ý kiến học inh Trong... thu c tính đ c l p Có thể dụng thông tin khứ để dự áo tương lai Khi thực tế, chúng lại dùng để tính tốn lại t dự áo xu t hình dự áo cho phân tích Suy diễn xác dựa t p liệu Việc uy diễn trên ẫu... xử lý t toàn ngh phân tích tài liệu Với ph n hồi ý kiến học inh, ức đ u thích ơn đủ thơng tin để nghiên cứu Hầu hết học inh dụng cách lựa chọn thích, khơng thích ình thường để ày tỏ ý kiến ình

Ngày đăng: 30/06/2022, 14:17

HÌNH ẢNH LIÊN QUAN

Hình 2.2 Phân lớp tuyến tính ới SVM - Phân tích phản hồi về cảm nghĩ để dự đoán khả năng nghề nghiệp của học sinh cấp trung học phổ thông  phần 2 luận văn thạc sĩ
Hình 2.2 Phân lớp tuyến tính ới SVM (Trang 2)
Hình 2.1 Ví dụ ề phân lớp SVM trong khơng gian R2 - Phân tích phản hồi về cảm nghĩ để dự đoán khả năng nghề nghiệp của học sinh cấp trung học phổ thông  phần 2 luận văn thạc sĩ
Hình 2.1 Ví dụ ề phân lớp SVM trong khơng gian R2 (Trang 2)
Hình 2.3 SVM phân lớp dữ liệu khơng tách rời - Phân tích phản hồi về cảm nghĩ để dự đoán khả năng nghề nghiệp của học sinh cấp trung học phổ thông  phần 2 luận văn thạc sĩ
Hình 2.3 SVM phân lớp dữ liệu khơng tách rời (Trang 4)
Hình 2.4 Quá trình xây dựng hệ thống phân tích ý kiến ph n hồi của học inh Từ hình 2.4 cho th y quá trình hồn chỉnh của hệ thống phân tích của chúng tơi đối   ới dữ liệu ý kiến của các học  inh - Phân tích phản hồi về cảm nghĩ để dự đoán khả năng nghề nghiệp của học sinh cấp trung học phổ thông  phần 2 luận văn thạc sĩ
Hình 2.4 Quá trình xây dựng hệ thống phân tích ý kiến ph n hồi của học inh Từ hình 2.4 cho th y quá trình hồn chỉnh của hệ thống phân tích của chúng tơi đối ới dữ liệu ý kiến của các học inh (Trang 12)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w