Quy trình xây dựng mô hình học máy

Một phần của tài liệu Xây dựng mô hình cảnh báo sớm kết quả học tập cho sinh viên đại học chính quy tại học viện ngân hàng (Trang 23 - 28)

Quy trình xây dựng mô hình học máy là một quá trình theo chu kỳ để xây dựng một mô hình học máy hiệu quả. Quy trình xây dựng mô hình học máy bao gồm bảy bước chính:

(1) Xác định mục tiêu thực tế của mô hình học máy;

(2) Xác định dữ liệu;

(3) Chuẩn bị dữ liệu;

(4) Lựa chọn mô hình học máy và huấn luyện mô hình;

(5) Đánh giá hiệu suất mô hình;

(6) Đưa mô hình vào hoạt động thực tế;

(7) Cải tiến mô hình;

1.3.1. Xác định mục tiêu thực tế của mô hình học máy

Các dự án thực tế ứng dụng học máy thường bắt đầu bằng việc xác định rõ được mục tiêu và các yêu cầu thực tế cần đặt ra. Các mục tiêu cần xác định rõ, chi tiết và cụ thể, đo lường được. Ngoài ra, cần phải xác định bối cảnh hoạt động kinh doanh thực tế, tính khả thi của dự án về dữ liệu, tài chính, hiệu quả dự kiến mang lại. Để xác định được rõ ràng và đầy đủ các mục tiêu của dự án học máy cần thực hiện trả lời các câu hỏi sau:

(1). Mục tiêu cụ thể của dự án học máy này là gì?

24 (2). Các tiêu chí đo lường đánh giá mức độ thành công của dự án là gì?

(3). Vấn đề đang được giải quyết có đặc điểm gì?

(4). Đặc điểm của dữ liệu của vấn đề đang giải quyết là gì? Các đặc điểm này có hỗ trợ hướng tới lựa chọn giải thuật phân cụm hay phân lớp hoặc các giải thuật học sâu khác không?

(5). Các kỳ vọng đặt ra về đầu vào và đầu ra của mô hình là gì?

(6). Mức độ chấp nhận đối với độ chính xác của mô hình trong khoảng nào?

(7). Lợi ích của mô hình mang lại là gì? Cách thức để xác định và đo lường các lợi ích đó như thế nào?

(8). Dự án có cần phải lưu ý gì về các vấn đề đạo đức không?

Trả lời được đầy đủ và chi tiết các câu hỏi của bước đầu tiên này sẽ giúp cho dự án xác định rõ được bức tranh toàn cảnh về vấn đề từ đó định hình được kế hoạch thực hiện của các bước tiếp theo. Trong đó, vấn đề quan trọng cốt lõi của bước đầu tiên này là xác định được mục tiêu và tính khả thi của dự án học máy.

1.3.2. Xác định dữ liệu

Dữ liệu được coi là nguyên liệu của các mô hình học máy và tác động đến hiệu quả của mô hình học máy. Dữ liệu được chia thành 02 phần train/test (huấn luyện và kiểm tra), trong đó phần dữ liệu huấn luyện sẽ đưa vào để mô hình học và dữ liệu kiểm tra sẽ thực hiện nhiệm vụ đánh giá độ chính xác của mô hình sau huấn luyện. Do đó, để có mô hình học máy hiệu quả đạt được các mục tiêu đề ra cần xác định được nguồn dữ liệu đầu vào tốt. Do đó, xác định dữ liệu là bước quan trọng tiếp theo của quy trình xây dựng các mô hình học máy. Mục tiêu của giai đoạn này này là xác định và thu được tất cả các vấn đề liên quan đến dữ liệu.

Trong giai đoạn này, cần xác định các nguồn dữ liệu khác nhau, vì dữ liệu có thể được thu thập từ nhiều nguồn khác nhau như tệp, dữ liệu có cấu trúc từ các cơ sở dữ liệu của các hệ thống thông tin của tổ chức, các dữ liệu phi cấu trúc trên các nền tảng mạng xã hội, internet hoặc thiết bị di động. Số lượng và chất lượng

25 của dữ liệu được thu thập sẽ quyết định hiệu quả của đầu ra. Dữ liệu càng nhiều thì dự đoán càng chính xác.

Trong giai đoạn này cần đặt ra và trả lời các câu hỏi để có thể hiểu và xác định được dữ liệu cần thiết cho mô hình học máy:

(1). Nguồn dữ liệu cần thiết cho các mô hình học máy ở đâu?

(2). Các mô hình học máy cần số lượng dữ liệu tối thiểu như thế nào để đạt được các mục tiêu đã đề ra?

(3). Nguồn dữ liệu hiện tại đang có như thế nào cả về chất lượng và số lượng?

(4). Phân chia tập dữ liệu đào tạo và tập dữ liệu kiểm tra theo tỷ lệ nào để phù hợp với mô hình học máy?

(5). Với các mô hình học có giám sát, liệu có thể gán nhãn cho các dữ liệu hiện tại được không?

(6). Các nguồn dữ liệu được truy cập theo thời gian thực hay không?

(7). Các khó khăn, trở ngại trong việc tiếp cận các nguồn dữ liệu cho các mô hình học máy là gì?

(8). Chất lượng các nguồn dữ liệu hiện có cho các mô hình như thế nào?

Khi trả lời được đầy đủ và chi tiết các câu hỏi trên sẽ giúp dự án ngay từ những giai đoạn đầu tiên đã hình dung ra được cách thức tổng thể để xác định được nguồn dữ liệu cần thiết cho mô hình học máy hoạt động.

Mặt khác, trong giai đoạn này cần hình dung ra mô hình học máy của dự án sẽ hoạt động như thế nào trên dữ liệu thế giới thực. Mô hình sử dụng dữ liệu offline để huấn luyện sau đó kiểm tra đánh giá và đưa mô hình sau huấn luyện vào hoạt động với dữ liệu thực tế hay mô hình hoạt động với dữ liệu theo thời gian thực, học liên tục với dữ liệu online, cập nhật mô hình liên tục và trả ra kết quả trực tiếp? Vấn đề này cần xác định rõ để có thể xác định được nguồn dữ liệu cần thiết và đưa ra các yêu cầu truy cập dữ liệu cho các mô hình hoạt động.

26 Bằng cách thực hiện tác vụ trên, dự án học máy bước đầu sẽ có được một bộ dữ liệu nhất quán, còn được gọi là tập dữ liệu . Đây sẽ là cơ sở quan trọng để có các kế hoạch và hoạt động thực thi thu thập dữ liệu cho mô hình học máy.

1.3.3. Chuẩn bị dữ liệu

Kết thúc giai đoạn 2 xác định dữ liệu, dự án đã xác định được các nguồn dữ liệu quan trọng đảm bảo cho mô hình học máy hoạt động. Giai đoạn 3 của quá trình này là thực hiện chuẩn bị dữ liệu cho mô hình dựa trên các nguồn dữ liệu đã được xác định ở giai đoạn 2. Giai đoạn này bao gồm các hoạt động thu thập dữ liệu, làm sạch dữ liệu, tổng hợp dữ liệu, nâng cấp dữ liệu, mã hóa và gán nhãn dữ liệu, chuẩn hóa dữ liệu theo các mô hình và thực hiện chuyển đổi dữ liệu,… đối với tất cả các nguồn dữ liệu đã xác định ở giai đoạn 2 bao gồm các dữ liệu có cấu trúc, dữ liệu phi cấu trúc và dữ liệu bán cấu trúc. Ngoài ra còn một loạt hoạt động trong giai đoạn này như thay thế các dữ liệu không chính xác, loại bỏ dữ liệu rác, trùng lặp, mã hóa và ẩn danh các dữ liệu nhạy cảm, tăng cường dữ liệu với các nguồn dữ liệu khác từ bên thứ ba, sử dụng các kỹ thuật để mở rộng dữ liệu nếu nguồn dữ liệu chưa đủ cho mô hình. Kết thúc giai đoạn này phải thu được tập dữ liệu sạch, đầy đủ cả về số lượng và chất lượng thực hiện chia thành các tập dữ liệu train/test (huấn luyện/kiểm tra) để đưa vào các mô hình học máy.

Đây là giai đoạn chiếm nhiều thời gian và chi phí nhất của dự án xây dựng mô hình học máy và chiếm khoảng 80% thời gian và chi phí. Để có được dữ liệu chất lượng đưa vào các giai đoạn tiếp theo của dự án xây dựng mô hình học máy, các dự án thường tập trung nhiều nguồn lực quan trọng cho giai đoạn này.

1.3.4. Lựa chọn mô hình học máy và thực hiện huấn luyện mô hình

Khi đã có dữ liệu cần lựa chọn mô hình phù hợp và đưa dữ liệu vào huấn luyện. Lựa chọn được mô hình, thiết lập các tham số cần thiết cho mô hình, thực hiện các cải tiến và điều chỉnh mô hình sao cho tối ưu nhất với dữ liệu hiện có của mô hình. Các nội dung cần thực hiện trong giai đoạn này bao gồm:

(1). Dựa trên mục tiêu thực tế đã xác định, tập dữ liệu đã có ở giai đoạn 3 thực hiện lựa chọn mô hình học máy phù hợp nhất.

27 (2). Thiết lập cấu hình tối ưu cho mô hình học máy. Xác định các kỹ thuật xử lý dữ liệu huấn luyện sao cho mô hình học máy có hiệu suất tối ưu nhất.

(3). Xem xét mô hình học máy có khả năng giải quyết được các vấn đề đặt ra hay không?

(4). Cải tiến mô hình để nâng cao hiệu suất của mô hình (5). Huấn luyện mô hình với tập dữ liệu huấn luyện 1.3.5. Đánh giá hiệu suất của mô hình học máy

Mô hình sau huấn luyện cần thực hiện đánh giá. Thực hiện đánh giá hiệu suất của mô hình thông qua các bước sau:

(1). Đánh giá độ chính xác của mô hình với tập dữ liệu kiểm tra

(2). Sử dụng các thông số khác để đánh giá hiệu suất như độ chính xác mô hình, ma trận nhầm lẫn, F1,…

(3). Lựa chọn mô hình tối ưu sau huấn luyện mô hình bằng các so sánh giữa các mô hình với nhau.

(4). Đánh giá mô hình học máy sau huấn luyện xem có đáp ứng được các mục tiêu thực tế đã đề ra.

1.3.6. Đưa mô hình vào hoạt động thực tế

Khi mô hình học máy được huấn luyện, đánh giá có hiệu suất tốt với dữ liệu kiểm thử, tiếp theo là giai đoạn đưa mô hình học máy với dữ liệu thực tế.

Giai đoạn này chính là giai đoạn vận hành của mô hình trên thực tế. Vận hành liên tục và lặp lại các mô hình học máy để đo lường độ chính xác của mô hình trên thực tế. Các dự án trí tuệ nhân tạo nói chung và học máy nói riêng muốn thành công cần lặp đi lặp lại các mô hình trên nhiều môi trường khác nhau để đảm bảo các mô hình học máy có thể cung cấp các giá trị dự báo có độ tin cậy hay không.

1.3.7. Cải tiến mô hình

Khi mô hình đã được triển khai trên thực tế nhưng vẫn cần liên tục theo dõi hiệu suất của mô hình và có các điều chỉnh cải tiến phù hợp. Công nghệ, môi

28 trường, các yêu cầu thực tiễn luôn luôn thay đổi cần có các cải tiến mô hình cho phù hợp. Một số hoạt động để xác định cải tiến mô hình:

(1). Xác định các yêu cầu thực tế phát sinh cho các tính năng của mô hình.

(2). Do dữ liệu mới phát sinh đòi hỏi đào tạo mở rộng mô hình để mở rộng tính năng và nâng cao độ chính xác của mô hình.

(3) Xác định nhu cầu cải tiến mô hình để nâng cao hiệu suất và độ chính xác của mô hình.

Cải tiến liên tục mô hình học máy đó là cách thức các mô hình thích nghi được với các yêu cầu hoặc sự thay đổi liên tục của môi trường công nghệ, kinh doanh hiện nay.

Một phần của tài liệu Xây dựng mô hình cảnh báo sớm kết quả học tập cho sinh viên đại học chính quy tại học viện ngân hàng (Trang 23 - 28)

Tải bản đầy đủ (PDF)

(73 trang)