CHƯƠNG 2 THIẾT KẾ VÀ THỰC THI KHỐI MÁY HỌC MLBLOCKS
2.2. KHÁI NIỆM MLBLOCK
MLBlocks là một hệ thống máy học cho phép các nhà khoa học dữ liệu có thể khám phá khơng gian dữ liệu dựa trên các kỹ thuật mơ hình hóa một cách dễ dàng và hiệu quả. Khối trong MLBlocks cung cấp khả năng tái sử dụng các module phần mềm, các thuật toán khai phá dữ liệu trong việc xây dựng và đào tạo mạng nơ ron nhân tạo. Khái niệm MLBlocks ra đời từ năm 2015 và hiện nay vẫn đang được các nhà khoa học dữ liệu nghiên cứu, phát triển theo hướng xây dựng như một khung phát triển (framework) cho các hệ thống máy học sau này.
Một số phương pháp thơng dụng của kỹ thuật mơ hình hóa:
Mơ hình phân biệt: Các mơ hình thuộc thể loại này có thể kể đến như: SVMs,
Logistic Regression, Perceptron, Passive Aggressive. Mơ hình này áp dụng nhiều trong các bài tốn xác suất, kỹ thuật mơ hình này cố gắng để mơ hình hóa xác suất P có điều kiện (x | y), trong đó Y là "nhãn" (giá trị muốn dự đoán) và X là “mẫu” truy vấn.
Mơ hình sản sinh: Kỹ thuật mơ hình này cố gắng phân phối những điểm chung của 𝑃 (𝑋, 𝑌), nó được gọi là "sản sinh" vì mơ này có thể tạo ra những mẫu có giá trị dự đốn tốt hơn. Ví dụ như mơ hình Markov ẩn, mơ hình hỗn hợp Gaussian và Naive Bayes.
Mơ hình phân nhóm: Một kỹ thuật học không giám sát, hệ thống sẽ tự học
tập bằng cách sử dụng trực tiếp các giá trị đã có để dự đốn một giá trị kế tiếp. Nó nhóm dữ liệu dựa theo các điểm "tương tự như" và mỗi nhóm dữ liệu này được xem như tham số trong q trình phân nhóm kế tiếp.
Mơ hình hóa phân cụm: Một sự kết hợp của ba kỹ thuật trước đó. Đầu tiên,
hệ thống sẽ áp dụng mơ hình phân nhóm đối với các tập dữ liệu, sau đó sử dụng mơ hình phân biệt hoặc mơ hình sản sinh cho từng cụm dữ liệu khác nhau. Mơ hình này
sẽ có hiệu năng xử lý tốt hơn bởi vì đối với từng loại dữ liệu khác nhau thì sẽ được áp dụng phương pháp mơ hình hóa khác nhau.