Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 12 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
12
Dung lượng
854,5 KB
Nội dung
Tổng hợp thuật tốn machine learning mà lập trình viên cần biết Khơng cịn nghi ngờ nữa, lĩnh vực học máy / trí tuệ nhân tạo (AI) ngày trở nên phổ biến vài năm qua Một nhánh nhỏ Big Data xu hướng hot ngành công nghệ cao nay, học máy trở nên mạnh mẽ để đưa dự đốn gợi ý tính dựa số lượng lớn liệu Một số ví dụ phổ biến học máy thuật toán Netflix để đưa gợi ý phim dựa phim mà bạn xem khứ thuật toán Amazon đề xuất sách dựa sách mà bạn mua trước Những hệ thống gợi ý (Recommended System) giúp ích nhiều cho người dùng việc đưa lựa chọn Ngồi ra, AI cịn có khả nhận dạng biển số xe tự động, giúp sửa lỗi tả, tạo robot có khả giao tiếp với người,…Cịn nhiều nhiều khả mà AI làm AI phát triển phát triển mạnh tương lai Machine Learning chia thành nhánh chính: supervised learning (học có giám sát), unsupervised learning (học khơng có giám sát), reinforcement learning (học tăng cường) Học có giám sát dùng trường hợp thuộc tính (nhãn) có sẵn cho tập liệu định (tập huấn luyện), thiếu cần dự đoán cho trường hợp khác Học khơng có giám sát ngược lại, sử dụng trường hợp khám phá mối quan hệ tiềm ẩn tập liệu không gán nhãn (các mục không định trước) Học tăng cường nằm loại – có số hình thức phản hồi có sẵn cho bước tiên đốn hành động, khơng có nhãn xác thơng báo lỗi Dưới 10 thuật toán rơi vào loại đầu tiên, hi vọng đủ để bạn quan tâm: Học có giám sát Cây định (Decision Trees) Cây định công cụ hỗ trợ định sử dụng biểu đồ dạng mơ hình định kết xảy chúng, bao gồm kết kiện ngẫu nhiên, chi phí tài nguyên lợi ích Dưới ví dụ điển hình định: Cây định cho ta gợi ý việc có đá bóng hay khơng Ví dụ, quang cảnh có nắng, độ ẩm trung bình tơi đá bóng Ngược lại, trời mưa, gió mạnh tơi khơng đá bóng Cây định mơ hình cũ, đơn giản ứng dụng nhiều hiệu Đứng góc nhìn thực tế, định danh sách tối thiểu câu hỏi dạng yes/no mà người ta phải hỏi, để đánh giá xác suất đưa định đắn Phân loại Bayes (Naïve Bayes Classification) Phân loại Bayes nhóm phân loại xác suất đơn giản dựa việc áp dụng định lý Bayes với giả định độc lập (naïve) đặc tính Trong đó: P(A|B) xác suất có điều kiện A biết B, P(A) xác suất giả thuyết A (tri thức có giải thuyết A trước có liệu B), P(B|A) xác suất có điều kiện B biết giả thuyết A,P(B) xác suất liệu quan sát B không quan tâm đến giả thuyết A Thuật toán áp dụng số toán như: Đánh dấu email spam hay không Phân loại viết tin tức thuộc lĩnh vực công nghệ, trị hay thể thao Kiểm tra đoạn văn mang cảm xúc tích cực hay tiêu cực Sử dụng cho phần mềm nhận diện khuôn mặt … Hồi quy tuyến tính (Ordinary Least Squares Regression) Nếu bạn biết thống kê, bạn nghe nói hồi quy tuyến tính trước Bình phương nhỏ phương pháp để thực hồi quy tuyến tính Bạn suy nghĩ hồi quy tuyến tính nhiệm vụ kẻ đường thẳng qua tập điểm Có nhiều chiến lược thực được, chiến lược “bình phương nhỏ nhất” – Bạn vẽ đường thẳng, sau với điểm liệu, đo khoảng cách thẳng đứng điểm đường thẳng Đường phù hợp đường mà khoảng cách nhỏ tốt Một số ví dụ người ta sử dụng mơ hình để dự đốn giá (nhà đất, chứng khoán), điểm số,… Hồi quy logistic (Logistic Regression) Hồi quy logistic cách thống kê mạnh mẽ để mơ hình hóa kết nhị thức với nhiều biến giải thích Nó đo lường mối quan hệ biến phụ thuộc phân loại nhiều biến độc lập cách ước tính xác suất sử dụng hàm logistic, phân bố tích lũy logistic Thuật tốn sử dụng số trường hợp: Điểm tín dụng ( định có cho khách hàng vay vốn hay không) Đo mức độ thành công chiến dịch marketing Dự đoán doanh thu sản phẩm định Dự đoán động đất … Support Vector Machines (SVM) SVM phương pháp phân loại nhị phân Cho tập điểm thuộc loại mơi trường N chiều, SVM cố gắng tìm N-1 mặt phẳng để phân tách điểm thành nhóm Ví dụ, cho tập điểm thuộc loại hình bên dưới, SVM tìm đường thẳng nhằm phân cách điểm thành nhóm cho khoảng cách đường thẳng điểm xa Xét quy mơ, số vấn đề lớn giải cách sử dụng SVM (với việc thực sửa đổi phù hợp) ví dụ hiển thị quảng cáo, phát giới tính dựa hình ảnh, phân loại hình ảnh có quy mơ lớn … Kết hợp phương pháp (Ensemble Methods) Phương pháp dựa kết hợp vài phương pháp kể để dự đốn kết quả, sau đưa kết cuối dựa vào trọng số phương pháp Vậy phương pháp hoạt động lại ưu việt mơ hình cá nhân? Trung bình sai số (bias): số phương pháp hoạt động tốt cho sai số nhỏ, ngược lại có số phương pháp cho sai số lớn Trung bình ta sai số chấp nhận được, nhỏ sai số sử dụng phương pháp Giảm độ phụ thuộc vào tập liệu (variance): ý kiến tổng hợp loạt mơ hình nhiễu ý kiến đơn lẻ mô hình Trong lĩnh vực tài chính, gọi đa dạng hóa – – danh mục hỗn hợp nhiều cổ phiếu biến động so với số cổ phiếu riêng lẻ Giảm over-fit: over-fit tượng mơ hình hoạt động tốt với liệu training, liệu test Việc kết hợp nhiều mơ hình lúc giúp giảm vấn đề Học khơng có giám sát Thuật tốn gom cụm (Clustering Algorithms) Gom cụm nhiệm vụ nhóm tập hợp đối tượng cho đối tượng nhóm (cluster) giống so với đối tượng nhóm khác Gom cụm có nhiều phương pháp khác nhau, sau vài số đó: Gom cụm dựa vào tâm điểm (Centroid-based algorithms) Gom cụm dựa vào tính kết nối (Connectivity-based algorithms) Gom cụm dựa vào mật độ (Density-based algorithms) Gom cụm dựa vào xác suất (Probabilistic) Gom cụm dựa giảm chiều liệu (Dimensionality Reduction) Gom cụm dựa mạng nơ-ron/deep leanring (Neural networks / Deep Learning) Phân tích thành phần (Principal Component Analysis – PCA) PCA thuật toán thống kê sử dụng phép biến đổi trực giao để biến đổi tập hợp liệu từ không gian nhiều chiều sang khơng gian chiều (2 chiều) nhằm tối ưu hóa việc thể biến thiên liệu Phép biến đổi tạo ưu điểm sau liệu: Giảm số chiều không gian chứa liệu có số chiều lớn, khơng thể thể không gian hay chiều Xây dựng trục tọa độ mới, thay giữ lại trục khơng gian cũ, lại có khả biểu diễn liệu tốt tương đương, đảm bảo độ biến thiên liệu chiều Tạo điều kiện để liên kết tiềm ẩn liệu khám phá khơng gian mới, mà đặt khơng gian cũ khó phát liên kết khơng thể rõ Đảm bảo trục tọa độ không gian trực giao đôi với nhau, khơng gian ban đầu trục khơng trực giao Một số ứng dụng PCA bao gồm nén, đơn giản hóa liệu để dễ dàng học tập, hình dung Lưu ý kiến thức miền quan trọng lựa chọn có nên tiếp tục với PCA hay khơng Nó khơng phù hợp trường hợp liệu bị nhiễu (tất thành phàn PCA có độ biến thiên cao) Singular Value Decomposition Trong đại số tuyến tính, SVD thừa số ma trận phức tạp thực Đối với ma trận m*n xác định M, tồn phân rã cho M = UΣV, U V ma trận đơn Σ ma trận chéo PCA thực ứng dụng đơn giản SVD Trong khoa học máy tính, thuật tốn nhận dạng khuôn mặt sử dụng PCA SVD để biểu diễn khuôn mặt kết hợp tuyến tính “eigenfaces”, làm giảm kích thước, sau kết hợp khn mặt với tính chất thông qua phương pháp đơn giản Mặc dù phương pháp đại phức tạp nhiều, nhiều người phụ thuộc vào kỹ thuật tương tự 10 Phân tích thành phần độc lập (Independent Component Analysis) ICA kỹ thuật thống kê nhằm tìm yếu tố ẩn nằm biến ngẫu nhiên, phép đo tín hiệu ICA định nghĩa mơ hình phát sinh cho liệu đa biến quan sát được, thường đưa sở liệu lớn mẫu Trong mơ hình, biến số liệu giả định hỗn hợp tuyến tính số biến tiềm ẩn chưa biết, hệ thống hỗn hợp không rõ Các biến tiềm ẩn giả định không gaussian độc lập với nhau, chúng gọi thành phần độc lập liệu quan sát ICA có liên quan đến PCA, kỹ thuật mạnh nhiều, có khả tìm yếu tố bên nguồn phương pháp cổ điển thất bại hoàn toàn Ứng dụng bao gồm hình ảnh kỹ thuật số, sở liệu tài liệu, số kinh tế đo lường tâm lý Kết thúc viết đây, hi vọng bạn đọc có nhìn tổng quan thuật toán phổ biến AI Nếu cảm thấy thích thú, đào sâu chúng để tạo ứng dụng có “trí tuệ nhân tạo” phục vụ cho người ... số liệu giả định hỗn hợp tuyến tính số biến tiềm ẩn chưa biết, hệ thống hỗn hợp không rõ Các biến tiềm ẩn giả định không gaussian độc lập với nhau, chúng gọi thành phần độc lập liệu quan sát ICA... leanring (Neural networks / Deep Learning) Phân tích thành phần (Principal Component Analysis – PCA) PCA thuật toán thống kê sử dụng phép biến đổi trực giao để biến đổi tập hợp liệu từ không gian nhiều... quan hệ biến phụ thuộc phân loại nhiều biến độc lập cách ước tính xác suất sử dụng hàm logistic, phân bố tích lũy logistic Thuật tốn sử dụng số trường hợp: Điểm tín dụng ( định có cho khách hàng