Các câu hỏi có câu trả lời về Học máy (machine learning). Các câu hỏi có câu trả lời về Học máy (machine learning). Các câu hỏi có câu trả lời về Học máy (machine learning). Các câu hỏi có câu trả lời về Học máy (machine learning). Các câu hỏi có câu trả lời về Học máy (machine learning).
TRƯỜNG ĐẠI HỌC SƯ PHẠM KĨ THUẬT TP.HCM KHOA ĐÀO TẠO CHẤT LƯỢNG CAO TÀI LIỆU ÔN TẬP MACHINE LEARNING (Tài liệu dùng để ơn tập thi cuối kì, khơng dùng cho mục đích khác) Thành phố Hồ Chí Minh, Tháng năm 2022 i PHỤ LỤC CHƯƠNG 1: LÝ THUYẾT MACHINE LEARNING 1 Định nghĩa Artificial Intelligence (AI)? Cho ví dụ Định nghĩa Machine Learning? Cho ví dụ Định nghĩa Deep Learning? Cho ví dụ Định nghĩa Supervised Learning? Cho ví dụ? Liệt kê thuật toán? Định nghĩa Unsupervised Learning? Cho ví dụ? Liệt kê thuật tốn? Định nghĩa Clustering? Cho ví dụ Principle Component Analysis (PCA) gì, ưu điểm PCA Linear Discriminant Analysis (LDA) gì, ưu điểm LDA So sánh thuật toán Principle Component Analysis (PCA) Linear Discriminant Analysis (LDA)? 10 So sánh khác biệt thuật toán Supervised Learning Unsupervised Learning? Liệt kê thuật toán 11 Giải thích ngắn gọn thuật tốn Gradient Descent? 12 Regression gì? Cho ví dụ 13 Trình bày giống khác linear regression, nonlinear regression, polynomial regression 14 Giải thích thuật ngữ Data Preprocessing 15 Feature extraction gì? Cho ví dụ số thuật toán 16 Feature selection Cho ví dụ số thuật toán 17 Cross Validation gì? 18 Giải thích thuật ngữ “fold” Machine Learning? 19 “Sparse matrix” gì? Cho ví dụ? ii 20 Rescaling a feature gì? Cho ví dụ? 21 Standardizing a Feature gì? Cho ví dụ? 22 Detecting Outliers gì? Cho ví dụ? 23 Handling Outliers gì? Cho ví dụ? 24 Thresholding Numerical Feature Variance gì? dùng để làm gì? 25 Thresholding Binary Feature Variance gì? dùng để làm gì? Giải thích cho ví dụ? Câu 26: Handling Highly Correlated Features gì? dùng để làm gì? Giải thích cho ví dụ? iii Tài liệu dùng để ơn tập thi cuối kì - khơng dùng cho mục đích khác CHƯƠNG 1: LÝ THUYẾT MACHINE LEARNING Định nghĩa Artificial Intelligence (AI)? Cho ví dụ AI đề cập tới khả mà máy bắt chước trí thơng minh người động vật Vd: Trợ lí ảo, ơtơ tự lái, chatbot bot dịch vụ, Nhận dạng khuôn mặt MTCNN, Nhận dạng ăn CNN… Định nghĩa Machine Learning? Cho ví dụ ML lĩnh vực trí tuệ nhân tạo, ML ứng dụng AI mà chúng cho phép hệ thống tự động học tập thiện chất lượng từ kinh nghiệm Vd: dự đoán giá nhà boston, nhận diện tập hoa iris, lọc spam mail Định nghĩa Deep Learning? Cho ví dụ DL ứng dụng machine learning việc sử dụng thuật toán phức tạp mạng nơ-ron sâu để tạo mơ hình Vd: Trợ lí ảo, ơtơ tự lái, chatbot bot dịch vụ, Nhận dạng khuôn mặt CNN, Nhận dạng ăn CNN … Định nghĩa Supervised Learning? Cho ví dụ? Liệt kê thuật tốn? Supervised Learning khả học có giám sát, thuật tốn dự đoán đầu tập liệu (new input) dựa cặp (đầu đầu vào) biết trước Các cặp gọi (data, label) Vd: dự đoán giá nhà Boston liệu train gồm có input output Các thuật toán: Classification, Regression Định nghĩa Unsupervised Learning? Cho ví dụ? Liệt kê thuật tốn? Unsupervised Learning thuật tốn hóc khơng giám sát, thuật tốn khơng biết đầu hay nhãn mà dựa vào đầu vào Thuật tốn tiếp cận đến việc mơ hình hóa cấu trúc hay thơng tin ẩn liệu Tài liệu dùng để ôn tập thi cuối kì - khơng dùng cho mục đích khác Vd: doanh nghiệp muốn tập trung tìm hiểu khách hàng hành vi họ, như: họ ai, họ có xu hướng sử dụng loại phương tiện nào? Các thuật tốn: Clustering, Association Định nghĩa Clustering? Cho ví dụ Clusrering tốn phân nhóm tồn liệu X thành nhóm nhỏ dựa liên quan liệu nhóm Vd: cơng ty có nhiều liệu nhiều khách hàng sử dụng thuật tốn Clustering chia tồn khách hàng thành số nhóm/cụm khác dễ dàng quản lí rút gọn khối lượng cơng việc Principle Component Analysis (PCA) gì, ưu điểm PCA Trích xuất thơng tin đặc trưng ẩn từ tập liệu, định nghĩa liệu dùng thành phần dựa phương sai liệu giúp giảm số lượng dặc trưng số lượng đầu vào góp phần tính tốn đơn giản Xác định điểm liệu thuộc nhóm tập liệu mà khơng ảnh hưởng tới việc huấn luyện phân tích liệu Ưu điểm: Loại bỏ đặc trưng tương quan (giảm đặc trưng), cải thiện hiệu ѕuất thuật toán, cải thiện trực quan hóa liệu (dễ trực quan hóa có chiều) Linear Discriminant Analysis (LDA) gì, ưu điểm LDA LDA coi phương pháp giảm chiều liệu (dimensionality reduction), coi phương pháp phân lớp (classification), áp dụng đồng thời cho hai, tức giảm chiều liệu cho việc phân lớp hiệu Ưu điểm: Dùng để giảm chiều liệu, ngồi tìm kết hợp tuyến tính biến để phân chia lớp, tránh toán overfitting, tăng khả phân lớp liệu Tài liệu dùng để ôn tập thi cuối kì - khơng dùng cho mục đích khác So sánh thuật toán Principle Component Analysis (PCA) Linear Discriminant Analysis (LDA)? LCA: + Trích xuất yếu tố ẩn từ tập liệu + Xác định liệu cách sử dụng thành phần hơn, giải thích khác biệt liệu bạn + Giảm độ phức tạp tính tốn + Xác định xem điểm liệu có phải phần hay khơng nhóm điểm liệu từ tập huấn luyện PCA: + Giảm kích thước + Tìm kiếm kết hợp tuyến tính biến phân tách tốt hai lớp + Giảm overfitting + Xác định quan sát cách phân loại khỏi nhóm lớp 10 So sánh khác biệt thuật toán Supervised Learning Unsupervised Learning? Liệt kê thuật toán Đối với Supervised Learning thuật toán dự đoán đầu tập liệu (new input) dựa cặp (đầu đầu vào) biết trước Còn với Unsupervised Learning thuật tốn khơng biết đầu hay nhãn mà dựa vào đầu vào Thuật tốn tiếp cận đến việc mơ hình hóa cấu trúc hay thông tin ẩn liệu Supervised Learning có thuật tốn Classification Regression Unsupervised Learning có thuật toán Clusrering Association Tài liệu dùng để ôn tập thi cuối kì - không dùng cho mục đích khác 11 Giải thích ngắn gọn thuật tốn Gradient Descent? Gradient decent hàm tối ưu hóa bậc lặp lăp lại để tìm giá trị tối thiểu/tối đa cục hàm định 12 Regression gì? Cho ví dụ Định nghịa: Khi xây dựng mơ hình hồi quy suy mối quan hệ, dựa mối quan hệ biến dúng ta phân tích biến đầu vào hay mối quan hệ biến đầu vào hay biến đầu dự báo Ví dụ: Dự báo kết liên tục giá nhà, giá cổ phiếu doanh số, dự đốn thành cơng chiến dịch bán hàng tiếp thị bán lẻ tương lai để đảm bảo nguồn lực sử dụng hiệu quả, dự đoán xu hướng khách hàng người dùng, chẳng hạn dịch vụ phát trực tuyến trang web thương mại điện tử … 13 Trình bày giống khác linear regression, nonlinear regression, polynomial regression Linear Regression phương pháp thống kê để hồi quy liệu với biến phụ thuộc có giá trị liên tục biến độc lập có hai giá trị liên tục giá trị phân loại Nói cách khác "Hồi quy tuyến tính" phương pháp để dự đoán biến phụ thuộc (Y) dựa giá trị biến độc lập (X) Nó sử dụng cho trường hợp muốn dự đốn số lượng liên tục Ví dụ, dự đốn giao thơng cửa hàng bán lẻ, dự đoán thời gian người dùng dừng lại trang số trang truy cập vào website v.v None-Linear Regression hình thức mơ hình tốn học phản ánh kết đường cong hai biến (x & y) thay mối quan hệ đường thẳng trường hợp hồi quy tuyến tính, thường đơn giản với biểu thức y = a + bx Đặc điểm hồi quy phi tuyến tính phương trình dự đốn khơng phụ thuộc tuyến tính vào tham số chưa biết Loại hồi quy sử dụng hàm lượng giác, logarit hàm mũ Tài liệu dùng để ơn tập thi cuối kì - khơng dùng cho mục đích khác Polynomial Regression hình thức hồi quy tuyến tính mối quan hệ phi tuyến tính biến phụ thuộc độc lập, thêm số thuật ngữ đa thức để hồi quy tuyến tính để chuyển đổi thành hồi quy đa thức Giả sử có x liệu độc lập y làm liệu phụ thuộc Trước cung cấp liệu đến chế độ giai đoạn tiền xử lý, chuyển đổi biến đầu vào thành thuật ngữ đa thức cách sử dụng mức độ 14 Giải thích thuật ngữ Data Preprocessing Tiền xử lý liệu kỹ thuật khai thác liệu có liên quan đến chuyển liệu thô thành định dạng dễ hiểu liệu thực tế thường không đầy đủ, không quán có khả chứa nhiều lỗi 15 Feature extraction gì? Cho ví dụ số thuật tốn Feature extraction tự đông tạo biến cách thu thập từ liệu thơ Mục đích feature extraction giảm khối lượng liệu để giúp dễ quản lý cho tạo mơ hình 16 Feature selection Cho ví dụ số thuật tốn Feature Selection sử dụng để chọn đặc trưng có thuộc tính hữu ích để dự báo giá trị đầu mà quan tâm hay nói cách khác loại bỏ features dư thừa 17 Cross Validation gì? Cross validation kỹ thuật lấy mẫu để đánh giá mô hình học máy trường hợp liệu khơng dồi cho 18 Giải thích thuật ngữ “fold” Machine Learning? Fold học máy (machine learning) tập hợp ghi (thường liên tiếp) tập liệu (dataset) Thuật ngữ folds ta thường thấy kỹ thuật K-Fold Cross-Validation Trong K-Fold Cross-Validation, ta thường chia liệu thành k phần gọi “Folds”, Sau đó, mơ hình huấn luyện cách sử dụng k - Folds — kết hợp thành tập Tài liệu dùng để ơn tập thi cuối kì - khơng dùng cho mục đích khác huấn luyện — sau Folds cuối sử dụng tập test Chúng ta lặp lại điều k lần, lần sử dụng Folds khác làm thử nghiệm Hiệu suất mơ hình cho lần lặp lại k sau tính trung bình để tạo phép đo tổng thể 19 “Sparse matrix” gì? Cho ví dụ? Sparse matrix ma trận chứa giá trị khác không giả sử giá trị cịn lại khơng 20 Rescaling a feature gì? Cho ví dụ? Rescaling a feature là chia lại tỷ lệ giá trị đối tượng số thành khoảng hai giá trị Ví dụ: Có nhiều kĩ thuật rescaling, ví dụ đơn giản min-max scaling Min-max scaling sử dụng giá trị tối thiểu tối đa đối tượng để điều chỉnh tỷ lệ giá trị phạm vi Ta có cơng thức: 21 Standardizing a Feature gì? Cho ví dụ? Standardizing a Feature biến đổi đối tượng để có giá trị trung bình độ lệch chuẩn Ví dụ: Khi ta sử dụng thuật tốn PCA thường hoạt động tốt sử dụng tiêu chuẩn hóa 22 Detecting Outliers gì? Cho ví dụ? Dectecting Outliers phát điểm khác thường cách giả định liệu phân phối bình thường dựa giả định "vẽ" hình elip xung quanh Tài liệu dùng để ôn tập thi cuối kì - khơng dùng cho mục đích khác liệu, phân loại quan sát bên hình elip dạng phần (được gắn nhãn 1) quan sát bên hình elip phần ngoại (được gắn nhãn -1) 23 Handling Outliers gì? Cho ví dụ? 24 Thresholding Numerical Feature Variance gì? dùng để làm gì? Thresholding Numerical Feature Variance cách tiếp cận để lựa chọn đối tượng Thresholding Numerical Feature dùng để loại bỏ tính có phương sai thấp (tức chứa thơng tin) 25 Thresholding Binary Feature Variance gì? dùng để làm gì? Giải thích cho ví dụ? Thresholding Binary Feature Variance cách tiếp cận để lựa chọn đối tượng Dùng để loại bỏ tính có phương sai thấp (tức chứa thơng tin) tập hợp các đặc trưng phân loại nhị phân Câu 26: Handling Highly Correlated Features gì? dùng để làm gì? Giải thích cho ví dụ? Handling Highly Correlated Features xử lí feature có mức độ tương quan cao Nếu hai đặc điểm có mối tương quan cao, thơng tin bị dư thừa gồm feature Handling Highly Correlated Features dùng để loại bỏ feature Tài liệu dùng để ơn tập thi cuối kì - khơng dùng cho mục đích khác 27 Removing Irrelevant Features for Classification gì? Giải thích Cho ví dụ ? 28 Recursively Eliminating Features gì? Cho ví dụ 29 Baseline Regression Model gì? dùng để làm gì? 30 Baseline Classification Model gì? dùng để làm gì? 31 Cross-Validating Model gì? Cho ví dụ? 32 Confusion matrix gì? cho ví dụ? Confusion matrix hình dung dễ dàng hiệu hiệu suất phân lớp Ví dụ: Tập hoa iris có loại hoa - 13 bơng sentosa dự đốn 10 bơng sentosa - 10 bơng versicolor dự đốn 10 bơng versicolor - bơng virsinica dự đốn bơng versinica Tuy nhiên: có bơng versicolor lại bị nhận nhầm thánh virginica => Qua ta thấy mô hình cịn bị nhận sai số bơng versicolor thành virginica, từ ta có đề xuất để cải thiện chất lượng mơ hình 33 Performance metric gì? Cho ví dụ? Performance metric số liệu đại diện cho liệu hành động, khả chất lượng tổng thể mô hình Tài liệu dùng để ơn tập thi cuối kì - khơng dùng cho mục đích khác Ví dụ: accuracy, precision, recall, and F1 34 Training Set Size ảnh hưởng đến chất lượng mô hình thu sau huấn luyện? Giải thích Training Set Size làm ảnh hưởng đáng kể tới chất lương mô hình thu sau huấn luyện tăng số lượng tập liêu tới ngưỡng định chất lượng mơ hình khơng thay đổi nhiều Ví dụ: ta có tập liệu có 100 hình để phân loại ổi với táo với 50 hình ổi 50 hình táo có chất lượng mơ hình với độ xác dự đốn giả sử 50% Mặt khác, ta tăng số lượng tập huấn luyện lên thành 300 hình ổi 300 hình táo chất lượng lên tới 70%, ta tăng ổi lên 1000 táo lên 1000 chất lượng lên tới 90% Tuy nhiên, ta tăng số lượng ảnh huẩn luyện ổi lên 1600 táo lên 1600 chất lượng lên 90.1% => Ta thấy tập liệu huấn luyện ta tăng thêm chất lượng mơ hình thay đổi đáng kể, tăng tập huấn luyện lên ngưỡng chất lượng mơt hình tăng chí khơng đổi Để giả vấn đề ta cịn cách thay đổi thuật tốn để cải thiện chất lượng mơ hình 35 Ảnh hưởng Hyperparameter values đến chất lượng mơ hình thu sau huấn luyện? Trong thuật tốn có thơng số hiệu chỉnh, thay đổi thơng số dẫn đến kết mơ hình khác (tức thuật tốn ta thay đổi thơng số thuật tốn khác chất lượng mơ hình khác nhau) Để hiểu ảnh hưởng Hyperaparameter values ta đưa ví dụ nướng bánh: ta nướng bánh nhiệt độ 100 độ C ta nước thời gian q bánh chín khơng đều, ta nướng lâu q làm bánh bị khơ cháy, bánh ngon ta nướng đủ thời gian Tài liệu dùng để ôn tập thi cuối kì - khơng dùng cho mục đích khác 36 Giải thích thuật ngữ Accuracy, Precision, rRecall, F1 score Accuracy tỷ lệ giá trị dự đoán tích cực so với tổng giá trị dự đốn Precision tỷ lệ tất quan sát dự đốn tích cực, có thực tích cực Recall tỷ lệ quan sát thực tích cực, có quan sát dự đốn tích cực Để có tác dụng kết hợp Precision Recall, sử dụng điểm F1 ĐIểm F1 giá trị trung bình hài hịa độ xác thu hồi 37 Giải thích Receiving Operating Characteristic (ROC) curve? Cho ví dụ? Receiving Operating Characteristic (ROC) curve phương pháp phổ biến để đánh giá chất lượng phân loại nhị phân ROC so sánh diện dương tính thật dương tính giả ngưỡng xác suất (tức xác suất mà quan sát dự đốn lớp) 38 Giải thích thuật ngữ True Positives (TP), True Negatives (TN), False Positives (FP), False Negatives (FN) TP tất quan sát thuộc lớp positive chúng dự đoán positive Ví dụ bệnh nhân dương tính COVID 19 dự đốn xác dương tính 10 Tài liệu dùng để ơn tập thi cuối kì - khơng dùng cho mục đích khác TN tất quan sát thuộc lớp negative chúng dự đốn negative Ví dụ bệnh nhân âm tính COVID 19 dự đốn xác âm tính FP tất quan sát dự đốn thuộc lớp positive thật lớp negative Ví dụ bệnh nhân âm tính COVID 19 chuẩn đốn sai thành dương tính FN tất quan sát dự đoán thuộc lớp negative thật lớp positive Ví dụ bệnh nhân dương tính COVID 19 chuẩn đốn sai thành âm tính 39 SVM gì, ưu điểm SVM?Kernel gì, kernel có ưu điểm ?trình bày số kernel SVM tiêu biểu Ý tưởng SVM tìm siêu phẳng (hyper lane) để phân tách điểm liệu Siêu phẳng chia không gian thành miền khác miền chứa loại giữ liệu Ưu điểm SVM: Đây thuật toán hoạt động hiệu với khơng gian cao chiều Thuật tốn tiêu tốn nhớ sử dụng điểm tập hỗ trợ để dự báo hàm định Chúng ta tạo nhiều hàm định từ hàm kernel khác Thậm chí sử dụng kernel giúp cải thiện thuật tốn lên đáng kể Kernel hàm ánh xạ liệu từ khơng gian nhiều sang khơng gian nhiều chiều Đây kỹ thuật quan trọng SVM Ưu điểm: Giúp phân biệt tập hợp liệu khơng phân biệt tuyến tính cách biến đổi tập dự liệu phân biệt tuyến tính khơng gian Một số kernel radius basic function, linear 11 Tài liệu dùng để ôn tập thi cuối kì - khơng dùng cho mục đích khác 40 Decision Tree algorithm gì, ưu điểm DC, Random forest algorithm gì, có ưu điểm ? Thuật tốn decision tree thuật tốn học có giám sát, cho liệu đối tượng gồm thuộc tính với lớp (classes) nó, định sinh luật để dự đoán lớp liệu chưa biết Ưu điểm: Cây định thuật toán đơn giản phổ biến Thuật toán sử dụng rộng rãi bới lợi ích nó: Mơ hình sinh quy tắc dễ hiểu cho người đọc, tạo luật với nhánh luật Dữ liệu đầu vào là liệu missing, khơng cần chuẩn hóa tạo biến giả Có thể làm việc với liệu số liệu phân loại Có thể xác thực mơ hình cách sử dụng kiểm tra thống kê Có khả làm việc với liệu lớn Thuật toán random forest thuật toán học có giám sát, sử dụng cho hồi quy phân lớp Random forest tạo định mẫu liệu chọn ngẫu nhiên, dự đoán từ chọn giải pháp tốt cách bỏ phiếu Ưu điểm: Tránh overfitting Có thể sử dụng vấn đề phân loại hồi quy Có thể xử lý giá trị cịn thiếu Nhược điểm: Chậm tạo dự đốn có nhiều định Mơ hình khó hiểu so với định 12 Tài liệu dùng để ơn tập thi cuối kì - khơng dùng cho mục đích khác 41 Ney Bayes algorithm for classification? Ney Bayes Classifier kết hợp phẩm chất mong muốn học máy thực tế vào phân loại Ưu điểm: Có tính trực quan Có khả tốt làm việc với liệu kích thước nhỏ Chi phí tính tốn huấn luyện dự đoán thấp Kết tốt thay đổi 42 Trình bày thuật tốn K-mean? Thuật tốn Kmean dung để làm gì, ưu nhược điểm K-mean Thuật toán phân cụm k-means phương pháp sử dụng phân tích tính chất cụm liệu Nó đặc biệt sử dụng nhiều khai phá liệu thống kê Nó phân vùng liệu thành k cụm khác Giải thuật giúp xác định liệu thực sử thuộc nhóm 43 Trình bày thuật tốn K-nearest-neighbour? Thuật tốn KNN dùng để làm gì, ưu nhược điểm KNN KNN (K-Nearest Neighbors) thuật tốn học có giám sát đơn giản sử dụng nhiều khai phá liệu học máy Ý tưởng thuật tốn khơng học điều từ tập liệu học (nên KNN xếp vào loại lazy learning), tính tốn thực cần dự đoán nhãn liệu Ưu điểm: Thuật toán đơn giản, dễ dàng triển khai Độ phức tạp tính tốn nhỏ Xử lý tốt với tập liệu nhiễu Nhược điểm: Với K nhỏ dễ gặp nhiễu dẫn tới kết đưa khơng xác Cần nhiều thời gian để thực phải tính tốn khoảng cách với tất đối tượng tập liệu Cần chuyển đổi kiểu liệu thành yếu tố định tính 13 Tài liệu dùng để ôn tập thi cuối kì - khơng dùng cho mục đích khác 44 Boostrap, bagging gì, ưu điểm dùng Boostrap bagging? Bootstrap bagging giảm phương sai ước lượng cách lấy giá trị trung bình nhiều mơ hình Từ tập liệu gốc ban đầu tạo nhiều tập liệu Bagging tạo nhiều mơ hình song song Boosting tạo nhiều mơ hình Mỗi tập liệu giúp tạo mơ hình phân lớp khác nhau, sau lấy giá trị trung bình dự báo để đưa kết cuối Ưu điểm: Giúp nâng cao khả dự đốn chất lượng mơ hình kết hợp nhiều thuật tốn 45 Ensemble gì, ưu điểm nhược điểm gì? Ensemble kỹ thuật kết hợp nhiều mơ hình dự báo để tạo mơ hình có khả dự báo có chất lượng tốt Mỗi mơ hình phù hợp vs kiểu liệu Ưu điểm: Loại bỏ Phương sai, độ lệch mơ hình dự báo Tạo mơ hình dự báo mang tính tổng hợp, nơi mà độ xác mơ hình tốt độ xác mơ hình đơn lẻ tạo từ nhiều thuật tốn khác Sử dụng đa mơ hình cho chất lượng tốt đơn mơ hình Nhược điểm: Thực tốn phức tạp sử dụng nhiều thuật toán nên thời gian thực thi lâu thực thi riêng lẻ thuật toán 46 Adaboost gì? ưu điểm Adaboost? AdaBoost thuật toán boosting dùng để xây dựng phân lớp (classifier) Boosting thuật toán học quần thể cách xây dựng nhiều thuật toán học lúc (như định) kết hợp chúng lại Mục đích để tạo weak learner sau kết hợp chúng lại thành strong learner weak learner phân loại với độ xác khơng cao Một ví dụ phổ biến weak learner định cấp (decision stump) Ngược lại, strong leaner có độ xác nhiều 14 Tài liệu dùng để ôn tập thi cuối kì - khơng dùng cho mục đích khác Ưu điểm: Thuật toán đơn giản, dễ dàng thiết lập Tốc độ xử lý nhanh AdaBoost thuật toán linh hoạt kết hợp vs thuật tốn máy học làm việc với lượng lớn liệu khác 15