Nghiên cứu ứng dụng phương pháp SVM vào phân nhóm học sinh có khả năng cao vào học tại trường đại học kiên giang phần 2 luận văn thạc sĩ

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề	Nghiên Cứu Ứng Dụng Phương Pháp SVM Vào Phân Nhóm Học Sinh Có Khả Năng Cao Vào Học Tại Trường Đại Học Kiên Giang
Trường học	Trường Đại Học Kiên Giang
Thể loại	luận văn thạc sĩ

Định dạng
Số trang	34
Dung lượng	1,82 MB

Nội dung

6 CHƯƠNG 2 CƠ SỞ LÝ THUYẾT Phân loại các thuật toán Machine learning Có hai cách phổ biến phân loại các thuật toán Machine learning Một là dựa trên phương thức học (learning style), hai là dựa trên chức năng (function) (của mỗi thuật toán) 2 1 1 Phân loại dựa trên phương thức học Theo phương thức học, các thuật toán Machine Learning thường được chia làm 4 nhóm Supervised learning (học có giám sát), Unsupervised learning (học không giám sát), Semi supervised lerning (học bán giám sát) và Reinfor.

CHƯƠNG CƠ SỞ LÝ THUYẾT Phân loại thuật tốn Machine learning Có hai cách phổ biến phân loại thuật tốn Machine learning Mợt dựa phương thức học (learning style), hai dựa chức (function) (của thuật toán) 2.1.1 Phân loại dựa phương thức học Theo phương thức học, thuật toán Machine Learning thường chia làm nhóm: Supervised learning (học có giám sát), Unsupervised learning (học khơng giám sát), Semi-supervised lerning (học bán giám sát) Reinforcement learning Có mợt số cách phân nhóm khơng có Semi-supervised learning Reinforcement learning 2.1.1.1 Supervised Learning (Học có giám sát) Supervised learning thuật toán dự đoán đầu (outcome) một liệu (new input) dựa cặp (input, outcome) biết từ trước Cặp liệu gọi (data, label), tức (dữ liệu, nhãn) Supervised learning nhóm phổ biến nhất thuật tốn Machine Learning 2.1.1.2 Unsupervised Learning (Học khơng giám sát) Trong thuật tốn này, khơng biết outcome hay nhãn mà có liệu đầu vào Thuật toán unsupervised learning dựa vào cấu trúc liệu để thực mợt cơng việc đó, ví dụ phân nhóm (clustering) giảm số chiều liệu (dimension reduction) để thuận tiện việc lưu trữ tính tốn 2.1.1.3 Semi-Supervised Learning (Học bán giám sát) Các tốn có mợt lượng lớn liệu một phần chúng gán nhãn gọi Semi-Supervised Learning Những toán tḥc nhóm nằm hai nhóm nêu bên 2.1.1.4 Reinforcement Learning (Học củng cố) Reinforcement learning tốn giúp cho mợt hệ thống tự đợng xác định hành vi dựa hồn cảnh để đạt lợi ích cao nhất (maximizing the performance) Hiện tại, Reinforcement learning chủ yếu áp dụng vào Lý Thuyết Trị Chơi (Game Theory), thuật tốn cần xác định nước để đạt điểm số cao nhất Hình 2.1 Ví dụ bàn cờ vây 2.1.2 Phân loại dựa chức Dựa vào chức thuật tốn chia thành nhóm sau:  Regression Algorithms: Linear Regression, Logistic Regression, Stepwise Regression  Classification Algorithms: Linear Classifier, Support Vector Machine (SVM), Kernel SVM, Sparse Representation-based classification (SRC)  Instance-based Algorithms: k-Nearest Neighbor (kNN), Learning Vector Quantization (LVQ)  Regularization Algorithms: Ridge Regression, Least Absolute Shrinkage and Selection Operator (LASSO), Least-Angle Regression (LARS)  Bayesian Algorithms: Naive Bayes, Gaussian Naive Bayes  Clustering Algorithms: k-Means clustering, k-Medians, Expectation Maximization (EM)  Artificial Neural Network Algorithms: Perceptron, Softmax Regression, Multi-layer Perceptron, Back-Propagation  Dimensionality Reduction Algorithms: Principal Component Analysis (PCA), Linear Discriminant Analysis (LDA)  Ensemble Algorithms: Boosting, AdaBoost, Random Forest Trong thuật toán sâu vào Support Vector Machine (SVM) Các thuật tốn dùng để phân nhóm liệu 2.2.1 Support Vector Machine (SVM) SVM phương pháp học máy tiên tiến áp dụng rộng rãi lĩnh vực khai phá liệu thị giác máy tính Phương pháp SVM Vapnik đề xuất năm 1995, dựa lý thuyết học thống kê nên có mợt tảng tốn học chặt chẽ đảm bảo kết đạt tối ưu SVM áp dụng thành công rất nhiều ứng dụng nhận dạng mặt người, phân loại văn bản, nhận dạng chữ viết tay,… Ý tưởng phương pháp chuyển tập liệu mẫu từ khơng gian chiều Rn sang khơng gian nhiều chiều Rd, sau tìm một siêu phẳng (Hyperplane) tối ưu Rd để phân chia tập mẫu theo phân lớp chúng Hình 2.2 Ví dụ phân lớp SVM khơng gian R2 Giải thuật máy học SVM tìm mợt siêu phẳng tối ưu cho phép chia điểm liệu thành phần cho điểm một lớp nằm phía siêu phẳng (bài tốn lớp) Đối với toán nhiều lớp đưa tốn lớp kỹ thuật: – tất – Xét tập liệu mẫu tách rời tuyến tính {(x1,y1), (x2,y2), , (xn,yn)} với xi ϵ Rd yi ϵ {±1} Siêu phẳng tối ưu phân tập liệu thành hai lớp siêu phẳng tách rời liệu thành hai lớp riêng biệt với lề (margin) lớn nhất Siêu phẳng không gian n chiều biểu diễn véc tơ pháp tuyến w=[w1, w2, …, wn] độ lệch b siêu phẳng so với gốc tọa đợ Máy học SVM tìm siêu phẳng (w, b) để phân chia liệu theo cách sau Hình 2.3 Phân lớp tuyến tính với SVM Việc chia cắt thực nhờ vào siêu phẳng hỗ trợ song song Siêu phẳng hỗ trợ cho lớp dương (+1) siêu phẳng mà phân tử thuộc lớp dương (+1) nằm bên phải siêu phẳng Tương tự, siêu phẳng hỗ trợ cho lớp âm (-1) siêu phẳng mà phần tử thuộc lớp âm (-1) nằm bên trái siêu phẳng Hai siêu phẳng hỗ trợ song song viết lại sau: xi w  b+1 i có yi  1 (2.1) xi w  b-1 i có yi  1 (2.2) Kết hợp hai điều kiện ta yi ( w.xi  b)  (2.3) Khoảng cách siêu phẳng gọi lề tính sau: Margin = w đợ lớn véc tơ w w Giải thuật SVM tìm siêu phẳng tối ưu cách cực đại hóa lề (tìm khoảng cách xa nhất lớp) Giải thuật SVM đưa đến vấn đề việc giải tốn quy hoạch tồn phương sau: 10 min (w.b)  w (2.4) Với điều kiện: yi (w.xi  b)  Giải toán quy hoạch toàn phương (2.4) thu siêu phẳng phân lớp (w, b) SVM Việc phân loại cho phần tử đến x dựa siêu phẳng (w, b) tính theo cơng thức (2.5) predict ( x)  sign(w.x  b) (2.5) Nghĩa phần tử x đến, tính giá trị biểu thức (w.x – b) Nếu (w.x b)  gán nhãn cho x lớp dương (+1) (w.x – b) < gán nhãn cho x lớp âm (1) Hình 2.4 SVM phân lớp liệu không tách rời Trong trường hợp liệu không tách rời Máy học SVM xử lý cách xem xét bất kỳ điểm xi nằm sai phía so với siêu phẳng hỗ trợ xem lỗi Khoảng cách lỗi biểu diễn zi >= (với xi nằm phía siêu phẳng hỗ trợ khoảng cách lỗi tương ứng zi = 0, cịn ngược lại zi > khoảng cách từ điểm xi đến siêu phẳng hỗ trợ tương ứng nó) Việc tìm kiếm siêu phẳng tối ưu giải thuật máy học SVM thực lúc hai mục tiêu cực 11 đại hóa lề cực tiểu hóa lỗi Giải thuật SVM dẫn đến tốn quy hoạch tồn phương sau: min (w.b.z )  m w  c  zi i1 Với điều kiện: (2.6) yi (w.xi  b)  zi  zi  0(i  1,2, , m) Hằng c > sử dụng để điều chỉnh độ rợng lề lỗi Lời giải tốn quy hoạch toàn phương (2.4) hay (2.6) giải thuật máy học SVM tìm lời giải tương đương toán đối ngẫu chúng Bài toán quy hoạch tồn phương (2.4) viết lại với dạng (3.7), có sử dụng nhân tử sau: Lagrange m max  {min w ,b  (w, b,  )  w +  i [1  yi (w.xi -b)} (2.7) i 1 Để tìm w, b (w, b, ) cần phải cho đạo hàm riêng  theo w b sau: m     i yi   b i 1 m   w    i yi xi  w i 1 (2.7.1) (2.7.2) Từ cơng thức (2.7.1) (2.7.2), cơng thức (2.7) viết lại công thức (2.8): 12 m m m max  ( )    i    i j yi y j xi x j i 1 j 1 i 1 (2.8) Bài tốn quy hoạch tồn phương (3.4) đưa đến việc tìm max ( ) với ràng buộc (2.7.1) nhân tử Lagrange  i  , viết lại thành (2.9) min m 1m m   y y x x     i1 j 1 i j i j i j i1 i (2.9) Với điều kiện: m  i yi  i1   0; Tương tự, toán quy hoạch toàn phương (2.6) dành cho phân lớp liệu khơng tách rời có tốn đối ngẫu (2.10) min m m m   i j yi y j xi x j   i (2.10) i1 j 1 i1 Với điều kiện: m   y 0 i1 i i c  i  Hằng c >0 sử dụng để chỉnh độ rộng lề lỗi Lời giải tốn quy hoạch tồn phương (2.9) hay (2.10) cho tử xi tương ứng với , phần > véc tơ hỗ trợ, tập véc tơ hỗ trợ (SV) dùng để phân lớp liệu đến x sau: 13 # SV predict ( x)  sign(  yi i xi x  b) (2.11) i 1 Mặc dù giải thuật SVM giải tốn phân lớp phi tuyến tính, nhiên ta kết hợp SVM với phương pháp hàm nhân (kernel-based method), cho phép giải một số lớn tốn phân lớp phi tuyến Mợt số hàm nhân thường dùng phổ biến: Bảng 2.1 Một số hàm nhân thường dùng Kiểu hàm nhân Công thức Tuyến tính K(u,v)=u.v Đa thức bậc d K(u,v)=(u.v + c)d Gaussian Radial Basic Function (RBF) K(u,v)=exp(-γ||u-v||2) 2.2.2 Máy học Naïve bayes 2.2.2.1 Định lý Bayes Vì thuật tốn Nạve Bayes dựa vào định lý Bayes nên trước tìm hiểu thuật tốn ta tìm hiểu định lý Bayes Định lý Bayes cho phép tính xác śt xảy mợt kiện A biết kiện liên quan B xảy Xác suất ký hiệu P(A|B), đọc "xác suất A có B” Đại lượng gọi xác suất có điều kiện hay xác śt hậu nghiệm (posterior) rút từ giá trị cho B phụ tḥc vào giá trị P(A|B): Xác śt xảy A B xảy P(B|A): Xác suất xảy B A xảy Đại lượng gọi khả (likelihood) xảy A biết B xảy 14 P(A): Xác suất xảy A, không quan tâm đến B Đây gọi xác suất tiên nghiệm (prior), "tiên nghiệm" theo nghĩa khơng quan tâm đến bất kỳ thơng tin B P(B): Xác suất xảy B, không quan tâm đến A Đại lượng gọi số chuẩn hóa (normalising constant), ln giống nhau, không phụ thuộc vào kiện A muốn biết 2.2.2.2 Giới thiệu thuật tốn Nạve Bayes Nạve Bayes (NB) phương pháp phân loại dựa vào xác suất sử dụng rộng rãi lĩnh vực máy học [Mitchell, 1996] [Joachims, 1997] [Jason, 2001], sử dụng lần lĩnh vực phân loại Maron vào năm 1961 [Maron, 1961] sau trở nên phổ biến dùng nhiều lĩnh vực công cụ tìm kiếm [Rijsbergen et al, 1970], bợ lọc email [Sahami et al, 1998]… 2.2.2.3 Thuật tốn Nạve Bayes Thuật tốn Nạve Bayes dựa định lý Bayes phát biểu sau: Áp dụng toán phân loại, kiện gồm có: D: tập liệu huấn luyện vector hóa dạng Ci: phân lớp i, với i = {1,2,…,m} Các tḥc tính đợc lập điều kiện đôi một với Theo định lý Bayes: Theo tính chất đợc lập điều kiện: 15 Hình 2.7 Sigmoid Function Đặt z = w⊺ x cơng thức perceptron lúc có dạng: Tới ta thấy sigmoid neuron tương tự mợt bợ phân loại tuyến tính (logistic regression) xác śt P(yi =1∣xi;w)=σ(w⊺x) Thực ngồi hàm sigmoid ra, ta cịn mợt số hàm khác tanh, ReLU để thay hàm sigmoid dạng đồ thị tương tự sigmoid Mợt cách tổng quát, hàm perceptron biểu diễn qua một hàm kích hoạt (activation function) f(z) sau: o = f(z) = f(w⊺x) Bằng cách biểu diễn vậy, ta coi neuron sinh học thể sau: 25 Hình 2.8 Mơ hình Nơ-ron Mợt điểm cần lưu ý hàm kích hoạt ḅc phải hàm phi tuyến Vì tuyến tính kết hợp với phép tốn tuyến tính w⊺ x kết thu mợt thao tác tuyến tính dẫn tới chuyện trở nên vơ nghĩa 2.3.2 Kiến trúc mạng NN Mạng NN kết hợp của tầng perceptron hay gọi perceptron đa tầng (multilayer perceptron) hình vẽ bên dưới: Hình 2.9 Neural Network Mợt mạng NN có kiểu tầng: 26  Tầng vào (input layer): Là tầng bên trái mạng thể cho đầu vào mạng  Tầng (output layer): Là tầng bên phải mạng thể cho đầu mạng  Tầng ẩn (hidden layer): Là tầng nằm tầng vào tầng thể cho việc suy luận logic mạng Lưu ý rằng, mợt NN có tầng vào tầng có nhiều tầng ẩn Hình 2.10 NN - hidden layer Trong mạng NN, nút mạng mợt sigmoid nơ-ron hàm kích hoạt chúng khác Tuy nhiên thực tế người ta thường để chúng dạng với để tính tốn cho thuận lợi Ở tầng, số lượng nút mạng (nơ-ron) khác tuỳ tḥc vào tốn cách giải Nhưng thường làm việc người ta để tầng ẩn có số lượng nơ-ron Ngoài ra, nơ-ron tầng thường liên kết đôi một với tạo thành mạng kết nối đầy đủ (full-connected network) Khi ta tính kích cỡ mạng dựa vào số tầng số nơ-ron Ví dụ hình ta có:  tầng mạng, có tầng ẩn  + ∗ + = 12 nút mạng  (3 ∗ + ∗ + ∗ 1) + (4 + + 1) = 41 tham số 27 2.3.3 Lan truyền tiến Như thấy tất nốt mạng (nơ-ron) kết hợp đôi một với theo một chiều nhất từ tầng vào tới tầng Tức nốt một tầng nhận đầu vào tất nốt tầng trước mà khơng suy luận ngược lại Hay nói cách khác, việc suy luận mạng NN suy luận tiến (feedforward): Trong đó, n(l) số lượng nút tầng l tương ứng aj Còn wij (l+1) tham số trọng lượng đầu vào aj (l) (l) nút mạng thứ j tầng l nút mạng thứ i tầng (l+1) l + bi độ lệch (bias) nút mạng thứ i tầng l + Đầu nút (l+1) mạng biểu diễn ứng với hàm kích hoạt f (zi ) tương ứng Riêng với tầng vào, thơng thường a(1) đầu vào x tương ứng mạng Để tiện tính tốn, ta coi a0 (l) mợt đầu vào wi0 (l+1) (l+1) = bi tham số trọng lượng đầu vào Lúc ta viết lại cơng thức dạng véc-tơ: Nếu nhóm tham số tầng thành một ma trận có cợt tương ứng với tham số nút mạng ta tính tốn cho tồn bợ nút một tầng véctơ: 28 2.3.4 Học với mạng NN Cũng tương tự toán học máy khác trình học tìm lấy mợt hàm lỗi để đánh giá tìm cách tối ưu hàm lỗi để kết hợp lý nhất Như đề cập nút mạng NN coi mợt bợ phân loại (logistic regression) có hàm lỗi là: Trong đó, m số lượng liệu huấn luyện, y(i) đầu thực tế liệu thứ i tập huấn luyện Còn σ(i) kết ước lượng ứng với liệu thứ i Hàm lỗi NN tương tự vậy, khác đầu mạng NN có nhiều nút nên tính đầu ta cần phải tính cho nút Giả sử số nút K yk đầu thực tế nút thứ k, σk đầu ước lượng cho nút thứ k tương ứng Khi đó, cơng thức tính hàm lỗi thành: Lưu ý rằng, tham số lúc khơng cịn đơn mợt ma trận mà một tập tất ma trận tham số tất tầng mạng nên tơi biểu diễn dạng tập hợp W Để tối ưu hàm lỗi ta sử dụng phương pháp đạo hàm đề cập viết trước Nhưng việc tính đạo hàm lúc khơng đơn logistic regression để ước lượng đầu ta phải trải qua trình lan truyền tiến Tức để tính σk ta cần mợt loạt phép tính liên hợp 2.3.5 Lan truyền ngược đạo hàm Để tính đạo hàm hàm lỗi ∇J(W) mạng NN, ta sử dụng một giải thuật đặc biệt giải thuật lan truyền ngược (backpropagation) Nhờ có giải thuật sáng 29 tạo vào năm 1986 mà mạng NN thực thi hiệu ứng dụng ngày một nhiều tận ngày Về phương pháp dựa theo quy tắc chuỗi đạo hàm hàm hợp phép tính ngược đạo hàm để thu đạo hàm theo tất tham số lúc với lần duyệt mạng Tuy nhiên viết này, đề cập tới cơng thức tính tốn cịn việc chứng minh tơi dành cho Giải thuật lan truyền ngược thực sau: * Lan truyền tiến: Lần lượt tính từ l = → L theo công thức: Trong đó, tầng vào a(1) giá trị vào mạng x * Tính đạo hàm theo z tầng ra: với a(L) , z(L) vừa tính bước * Lan truyền ngược: Tính đạo hàm theo z ngược lại từ l = (L − 1) → theo cơng thức: với z(l) tính bước tính vịng lặp trước * Tính đạo hàm: 30 Tính đạo hàm theo tham số w cơng thức: với a(l-1) tính bước tính bước 2.3.6 Kết luận Lấy cảm hứng từ mạng nơ-ron sinh học, mạng NN hình thành từ tầng nơron nhân tạo Mạng NN gồm kiểu tầng tầng vào (input layer) biểu diễn cho đầu vào, tầng (output layer) biểu diễn cho kết đầu tầng ẩn (hidden layer) thể cho bước suy luận trung gian Mỗi nơ-ron nhận tất đầu vào từ nơ-ron tầng trước sử dụng mợt hàm kích hoạt dạng (activation function) phi tuyến sigmoid, ReLU, để tính tốn đầu Q trình suy luận từ tầng vào tới tầng mạng NN trình lan truyền tiến (feedforward), tức đầu vào nơ-ron tầng lấy từ kết nơ-ron tầng trước mà khơng có q trình suy luận ngược lại Hàm lỗi mạng tương tự logistic regression có dạng cross-entropy, nhiên khác logistic regression chỗ mạng NN có nhiều đầu nên hàm lỗi phải lấy tổng lỗi tất đầu này: Để tối ưu hàm lỗi J(W) người ta sử dụng giải thuật lan truyền ngược (backpropagation) để tính đạo hàm hàm lỗi 31 Thuật toán Principal Component Analysis 2.4.1 Mở đầu Đây thuật toán sinh để giải vấn đề liệu có nhiều chiều liệu, cần giảm bớt chiều liệu nhằm tăng tốc độ xử lí, giữ lại thơng tin nhiều nhất (high variance) Chúng ta cần tìm chiều liệu có đợ quan trọng cao, nhằm giảm bớt việc tính tốn, tăng tốc đợ xử lí Hình 2.11 Chiều liệu PCA chuyển liệu từ linear thành tḥc tính khơng liên quan lẫn 32 2.4.2 Dữ liệu Chúng ta cần phân biệt loại liệu: Dữ liệu liên quan (correlated): Hình 2.12 Dữ liệu liên quan Dữ liệu không liên quan (uncorrelated): Hình 2.13 Dữ liệu khơng liên quan PCA tìm mean principal components 33 Hình 2.14 Mean principal components Các thư viện hỗ trợ 2.5.1 Scikit Learn 2.5.1.1 Lịch sử Scikit-learn ban đầu đề xuất David Cournapeau một dự án mùa hè Google vào năm 2007 Later Matthieu Brucher tham gia dự án bắt đầu sử dụng làm mợt phần luận văn tiến sĩ ông ấy Vào năm 2010, INRIA bắt đầu tài trợ phiên xuất (v0.1 beta) vào cuối tháng năm 2010 Dự án nghiên cứu một đội ngũ 30 nhà nghiên cứu đến từ công ty lớn INRIA, Google, Tinyclues Python Software Foundation 34 Hình 2.15 Giao diện Website thư viện Scikit-learn 2.5.1.2 Scikit-learn gì? Scikit-learn (Sklearn) thư viện mạnh mẽ nhất dành cho thuật toán học máy viết ngôn ngữ Python Thư viện cung cấp một tập cơng cụ xử lý tốn machine learning statistical modeling gồm: classification, regression, clustering, dimensionality reduction Thư viện cấp phép quyền chuẩn FreeBSD chạy nhiều tảng Linux Scikit-learn sử dụng một tài liệu để học tập Để cài đặt scikit-learn trước tiên phải cài thư viện SciPy (Scientific Python) Những thành phần gồm: Numpy: Gói thư viện xử lý dãy số ma trận nhiều chiều SciPy: Gói hàm tính tốn logic khoa học Matplotlib: Biểu diễn liệu dạng đồ thị chiều, chiều IPython: Notebook dùng để tương tác trực quan với Python 35 SymPy: Gói thư viện kí tự tốn học Pandas: Xử lý, phân tích liệu dạng bảng Những thư viện mở rộng SciPy thường đặt tên dạng SciKits Như thư viện gói lớp, hàm sử dụng thuật toán học máy đặt tên scikitlearn Scikit-learn hỗ trợ mạnh mẽ việc xây dựng sản phẩm Nghĩa thư viện tập trung sâu việc xây dựng yếu tố: dễ sử dụng, dễ code, dễ tham khảo, dễ làm việc, hiệu cao Mặc dù viết cho Python thực thư viện tảng scikit-learn lại viết thư viện C để tăng hiệu suất làm việc Ví dụ như: Numpy (Tính tốn ma trận), LAPACK, LibSVM Cython 2.5.1.3 Các thuật toán Scikit-learn Thư viện tập trung vào việc mơ hình hóa liệu Nó khơng tập trung vào việc truyền tải liệu, biến đổi hay tổng hợp liệu Những công việc dành cho thư viện Numpy Pandas Hình 2.16 Demo thực tốn phân cụm 36 Sau đâu mợt số nhóm thuật tốn xây dựng thư viện scikit-learn: Clustering: Nhóm thuật tốn Phân cụm liệu khơng gán nhãn Ví dụ thuật toán KMeans Cross Validation: Kiểm thử chéo, đánh giá đợ hiệu thuật tốn học giám sát sử dụng liệu kiểm thử (validation data) trình h́n luyện mơ hình Datasets: Gồm nhóm Bợ liệu tích hợp sẵn thư viện Hầu bợ liệu chuẩn hóa mang lại hiêu suất cao trình huấn luyện iris, digit, Dimensionality Reduction: Mục đích thuật tốn để Giảm số lượng tḥc tính quan trọng liệu phương pháp tổng hợp, biểu diễn liệu lựa chọn đặc trưng Ví dụ thuật tốn PCA (Principal component analysis) Ensemble methods: Các Phương pháp tập hợp sử dụng nhiều thuật tốn học tập để có hiệu śt dự đốn tốt so với bất kỳ thuật toán học cấu thành Feature extraction: Trích xuất đặc trưng Mục đích để định nghĩa tḥc tình với liệu hình ảnh liệu ngơn ngữ Feature selection: Trích chọn đặc trưng Lựa chọn đặc trưng có ý nghĩa việc h́n luyện mơ hình học giám sát Parameter Tuning: Tinh chỉnh tham số Các thuật toán phục vụ việc lựa chọn tham số phù hợp để tối ưu hóa mơ hình Manifold Learning: Các thuật tốn học tổng hợp Phân tích liệu đa chiều phức tạp Supervised Models: Học giám sát Mảng lớn thuật tốn học máy Ví dụ linear models, discriminate analysis, naive bayes, lazy methods, neural networks, support vector machines decision trees 37 Giới thiệu công cụ lập trình mơi trường vận hành 2.6.1 Anaconda Jupiter Anaconda Navigator một giao diện đồ họa desktop người dùng, cho phép chạy ứng dụng dễ dàng quản lý gói conda, mơi trường, kênh khơng cần sử dụng lệnh command-line Navigator tìm kiếm gói Anaconda Cloud kho lưu trữ cục bợ Anaconda Nó vận hành Window, Linux and MacOS Hình 2.17 Giao diện Anaconda Jupiter Notebook Là tảng tính tốn khoa học mã nguồn mở, interactive, hỗ trợ 40 ngôn ngữ lập trình, có python Là ứng dụng chạy web cho phép chạy interactive python Hơn nữa, cịn hỗ trợ vẽ đồ thị, biểu đồ, hỗ trợ viết "notebook" cách sử dụng Markdown Jupyter Notebook một công cụ tuyệt vời để:  Học thử nghiệm với Python  Xử lý / biến đổi liệu (Data processing / transformations)  Mô số học (vẽ biểu đồ) 38  Thống kê mơ hình  Machine learning Hình 2.18 Giao diện Jupiter Notebook 2.6.2 Môi trường vận hành Ứng dụng đơn giản vài đặt hệ điều hành khác nhau: Windows 10, Linux, Mac OS Ngơn ngữ lập trình: Python 3.6 Hình 2.19 Python 3.6.3 39 ... Forest Trong thuật toán sâu vào Support Vector Machine (SVM) Các thuật tốn dùng để phân nhóm liệu 2. 2.1 Support Vector Machine (SVM) SVM phương pháp học máy tiên tiến áp dụng rộng rãi lĩnh vực khai... giác máy tính Phương pháp SVM Vapnik đề xuất năm 1995, dựa lý thuyết học thống kê nên có mợt tảng toán học chặt chẽ đảm bảo kết đạt tối ưu SVM áp dụng thành công rất nhiều ứng dụng nhận dạng... A Đại lượng gọi số chuẩn hóa (normalising constant), ln giống nhau, khơng phụ thuộc vào kiện A muốn biết 2. 2 .2. 2 Giới thiệu thuật tốn Nạve Bayes Nạve Bayes (NB) phương pháp phân loại dựa vào

Ngày đăng: 30/06/2022, 14:15