Các nhánh trong ML

Một phần của tài liệu Nhận diện và phân loại các thành phần giao diện của ứng dụng từ ảnh chụp màn hình (Trang 31 - 34)

2 Nền tảng và các cơng trình liên quan

2.12 Các nhánh trong ML

Học có giám sát

Học có giám sát (SL - Supervised Learning) là một phương pháp học giúp dự đoán đầu ra (outcome) của một dữ liệu mới dựa vào các cặp (input, outcome) đã có từ trước. Cặp dữ liệu này cịn được gọi là (data, label). Ta có thể biểu diễn ở dạng tốn học như sau:

Ta có một tập biến dữ liệu đầu vàoX ={x1,x2,. . .,xn} và một tập nhãn tương ứng Y ={y1,y2,. . .,yn} trong đóxi,yi là các vector. Các cặp dữ liệu biết trước (xi,yi) được gọi là dữ liệu huấn luyện (training data). Từ tập training, ta cần tìm hàm số ánh xạ mỗi phần tử của tậpX sang một phần tử (xấp xỉ) của tập Y:

yif(xi) ∀i=1, 2,. . .,n

Khi có một dữ liệu mới x, ta có thể tính được nhãn tương ứng của nó nếu ta

xấp xỉ hàm f(x) thật tốt.

Trong Supervised Learning chia làm 2 loại chính đó là: Phân loại (Classifica- tion) và Hồi quy (Regression).

Học không giám sát

Trong phương pháp học không giám sát (UL - Unsupervised Learning), dữ liệu sẽ không được gán nhãn trước. Thay vào đó, thuật tốn sẽ tìm ra một mơ hình hay cấu trúc bị ẩn bơi tập dữ liệu KHÔNG được gán nhãn cho trước. UL khác với SL là không thể xác định trước output từ tập dữ liệu huấn luyện được.

Một cách toán học, Unsupervised Learning là khi chúng ta chỉ có dữ liệu vào

X mà khơng biết nhãn Y tương ứng.

Học không giám sát được chia nhỏ làm 2 loại: Clustering và Association

Học tăng cường

Học tăng cường (Reinforcement Learning) là các bài toán giúp cho một hệ thống tự động xác định hành vi dựa trên hoàn cảnh để đạt được lợi ích cao nhất (maximizing the performance). Hiện tại, Reinforcement learning chủ yếu được áp dụng vào Lý Thuyết Trò Chơi (Game Theory), các thuật toán cần xác định nước đi tiếp theo để đạt được điểm số cao nhất.

Thách thức đối với Machine Learning

• Thu thập dữ liệu Dữ liệu đóng vai trị quan trọng trong ML và chiếm hầu hết khối lượng công việc của một data scientist. Tuy nhiên việc thu thập dữ liệu không hề đơn giản do các vấn đề như thời gian, chi phí,...). Sau khi thu tập dữ liệu cần phải cấu trúc nó và lưu trữ vào CSDL.

• Q ít dữ liệu để training. Sau khi thu thập dữ liệu, chúng ta cần xem xét liệu nó có đủ để sử dụng chưa. Việc quan trọng thứ hai là phải lựa chọn giải thuật và đào tạo model sử dụng dữ liệu thu thập được. • Dữ liệu có chất lượng nghèo nàn. Chúng ta khơng muốn hệ thống của

mình đưa ra các dự đốn sai. Vì vậy chất lượng của dữ liệu là rất quan trọng để có được kết quả chính xác. Cần thực hiện cơng đoạn tiền xử lý dữ liệu bằng cách lọc các giá trị bị thiếu, trích xuất và sắp xếp lại những gì model cần.

• Các đặc trưng không liên quan. Nếu dữ liệu training chứa một số lượng lớn các đặc trưng không liên quan, mơ hình sẽ khơng cho kết quả như mong đợi. Một trong những khía cạnh quan trọng cần thiết cho sự thành cơng của một dự án ML là việc lựa chọn các đặc trưng tốt để training model.

• Overfitting và Underfitting. Overfitting là hiện tượng khi mơ hình xây dựng thể hiện được chi tiết bộ dữ liệu training. Điều này có nghĩa là cả dữ liệu nhiễu, hoặc dữ liệu bất thường trong tập training đều được chọn và học để đưa ra quy luật mơ hình. Những quy luật này sẽ khơng có ý nghĩa nhiều khi áp dụng với bộ dữ liệu mới có thể có dạng dữ liệu nhiễu khác. Khi đó, nó ảnh hưởng tiêu cực tới độ chính xác của mơ hình nói chung. Underfitting (chưa khớp) là hiện tượng khi mơ hình xây dựng chưa có độ chính xác cao trong tập dữ liệu training cũng như tổng quát hóa với tổng thể dữ liệu. Khi hiện tượng Underfitting xảy ra, mơ hình đó sẽ khơng phải là tốt với bất kì bộ dữ liệu nào trong vấn đề đang nhắc tới.

Artificial Neural Network

Artificial Neural Network(hình 2.13) hay mạng neuron nhân tạo, là một loại mơ hình tính tốn được thiết kế mơ phỏng các neuron trong não bộ con người. Cấu trúc của neural network gồm nhiều nút tính tốn gọi là neuron kết nối với nhau tạo thành 1 mạng neuron. Một mạng neuron gồm tập các

neuron input và neuron output. Mỗi liên kết giữa 2 neuron có một trọng số để điều chỉnh mức độ tiếp nhận dữ liệu từ neuron này với neuron khác, các neuron thực hiện tính trung bình tổng tích trong số với các giá trị input truyền vào , các giá trị này được tổng hợp lại ở neuron output và cho đi qua một hàm phi tuyến gọi là activation function hay hàm kích hoạt rồi mởi cho ra output. Ý nghĩa của mạng neuron là tìm ra được một cơng thức để xấp xỉ kết quả đầu ra cho một loại dữ liệu đầu vào nào đó. Hàm kích hoạt được dùng để thêm sự phi tuyến vào mơ hình tính tốn, giúp kết quả đạt được tốt hơn.

Một phần của tài liệu Nhận diện và phân loại các thành phần giao diện của ứng dụng từ ảnh chụp màn hình (Trang 31 - 34)

Tải bản đầy đủ (PDF)

(101 trang)