CHƯƠNG 2 THIẾT KẾ VÀ THỰC THI KHỐI MÁY HỌC MLBLOCKS
2.2. KHÁI NIỆM MLBLOCK
MLBlocks là một hệ thống máy học cho phép các nhà khoa học dữ liệu cĩ thể khám phá khơng gian dữ liệu dựa trên các kỹ thuật mơ hình hĩa một cách dễ dàng và hiệu quả. Khối trong MLBlocks cung cấp khả năng tái sử dụng các module phần mềm, các thuật tốn khai phá dữ liệu trong việc xây dựng và đào tạo mạng nơ ron nhân tạo. Khái niệm MLBlocks ra đời từ năm 2015 và hiện nay vẫn đang được các nhà khoa học dữ liệu nghiên cứu, phát triển theo hướng xây dựng như một khung phát triển (framework) cho các hệ thống máy học sau này.
Một số phương pháp thơng dụng của kỹ thuật mơ hình hĩa:
Mơ hình phân biệt: Các mơ hình thuộc thể loại này cĩ thể kể đến như: SVMs,
Logistic Regression, Perceptron, Passive Aggressive. Mơ hình này áp dụng nhiều trong các bài tốn xác suất, kỹ thuật mơ hình này cố gắng để mơ hình hĩa xác suất P cĩ điều kiện (x | y), trong đĩ Y là "nhãn" (giá trị muốn dự đốn) và X là “mẫu” truy vấn.
Mơ hình sản sinh: Kỹ thuật mơ hình này cố gắng phân phối những điểm chung của 𝑃 (𝑋, 𝑌), nĩ được gọi là "sản sinh" vì mơ này cĩ thể tạo ra những mẫu cĩ giá trị dự đốn tốt hơn. Ví dụ như mơ hình Markov ẩn, mơ hình hỗn hợp Gaussian và Naive Bayes.
Mơ hình phân nhĩm: Một kỹ thuật học khơng giám sát, hệ thống sẽ tự học
tập bằng cách sử dụng trực tiếp các giá trị đã cĩ để dự đốn một giá trị kế tiếp. Nĩ nhĩm dữ liệu dựa theo các điểm "tương tự như" và mỗi nhĩm dữ liệu này được xem như tham số trong quá trình phân nhĩm kế tiếp.
Mơ hình hĩa phân cụm: Một sự kết hợp của ba kỹ thuật trước đĩ. Đầu tiên,
hệ thống sẽ áp dụng mơ hình phân nhĩm đối với các tập dữ liệu, sau đĩ sử dụng mơ hình phân biệt hoặc mơ hình sản sinh cho từng cụm dữ liệu khác nhau. Mơ hình này
sẽ cĩ hiệu năng xử lý tốt hơn bởi vì đối với từng loại dữ liệu khác nhau thì sẽ được áp dụng phương pháp mơ hình hĩa khác nhau.