báo cáo bài tập lớn phân loại sản lượng giống cây trồng bằng kỹ thuật hồi quy tuyến tính

Hiện nay, việc dự đoán năng suất cây trồng thông quaphương pháp truyền thống đòi hỏi sự kinh nghiệm và kiến thức sâu rộng về nôngnghiệp, đồng thời tốn nhiều thời gian và công sức.Học máy

tổng quan về đề tài

Lý do chọn đề tài

Hiện nay, vấn đề an ninh lương thực là vấn đề quan trọng của thế giới, vì con người không thể sống thiếu thức ăn Nông nghiệp vẫn là một trong những ngành kinh tế quan trọng, đóng góp phần lớn GDP ở nhiều quốc gia Trong thời đại công nghệ mới hiện nay, công nghệ đã giúp cho ngành nông nghiệp tăng cường sản lượng, năng suất, người nông dân giảm bớt được sự vất vả, hạn chế được mất mùa do thiên tai, sâu bệnh,

Nâng cao hiệu suất nông nghiệp: Sử dụng học máy để dự đoán năng suất cây trồng có thể giúp nông dân đưa ra các quyết định kịp thời và chính xác về việc chăm sóc cây trồng, giúp tăng cường hiệu suất nông nghiệp và giảm thiểu lỗ hại.

Tiết kiệm thời gian và công sức: Phương pháp ước lượng năng suất cây trồng truyền thống yêu cầu sự can đảm và công sức lớn từ nông dân, bao gồm việc thu thập thông tin thủ công và áp dụng kiến thức kinh nghiệm Sử dụng học máy có thể giảm bớt công việc thủ công và tự động hóa quy trình dự đoán.

Tối ưu quản lý: Học máy dự đoán năng suất cây trồng giúp nông dân nắm rõ hiệu suất cây trồng và đất Từ đó, họ có thể lập kế hoạch quản lý tốt hơn, tối ưu sử dụng tài nguyên và đảm bảo tính bền vững trong sản xuất nông nghiệp Góp phần nghiên cứu khoa học: Nghiên cứu dự đoán năng suất cây trồng bằng học máy không chỉ cải thiện năng suất nông nghiệp mà còn đóng góp vào sự phát triển của AI và khoa học dữ liệu.

Tính cấp thiết của đề tài

Dự đoán năng suất cây trồng là lĩnh vực thiết yếu trong nông nghiệp và nghiên cứu khoa học, giúp chúng ta hiểu rõ hơn về hiệu suất cây trồng và tìm ra các phương pháp cải thiện năng suất Bằng cách dự đoán chính xác năng suất cây trồng, nông dân và nhà khoa học có thể tối ưu hóa chiến lược canh tác, đảm bảo an ninh lương thực và nâng cao chất lượng cuộc sống.

Tuy nhiên, tính cấp thiết của đề tài này phụ thuộc vào nhiều yếu tố, bao gồm:

Nhu cầu: Dự đoán năng suất cây trồng có thể giúp đáp ứng nhu cầu ngày càng tăng về lương thực cho dân số đang gia tăng.

Hiệu quả: Nếu dự đoán năng suất cây trồng có thể giúp tăng hiệu quả sản xuất, giảm thiểu lãng phí và sử dụng tài nguyên một cách bền vững, thì đề tài này sẽ có tính cấp thiết cao. Ứng dụng: Dự đoán năng suất cây trồng có thể được áp dụng trong nhiều lĩnh vực, từ quản lý nông trại đến phân tích thị trường và dự báo nguồn cung cầu. Điều này làm cho đề tài này trở nên hữu ích và có tính ứng dụng cao.

Mục tiêu nghiên cứu

Phân loại sản lượng các loại giống cây trồng theo loại cây, quốc gia, năm, nhiệt độ, lượng mưa.

Có thể dựa vào đó để thay đổi về trồng trọt, môi trường, đất,…

Tính cấp thiết của đề tài

Tăng hiệu suất nông nghiệp:

- Việc phân loại sản lượng giống cây trồng có thể giúp nông dân và nhà nghiên cứu tìm ra các giống cây có khả năng sinh trưởng tốt, chịu sâu bệnh, và mang lại sản lượng cao hơn Điều này đồng nghĩa với việc tăng cường hiệu suất nông nghiệp và cung cấp nguồn thực phẩm đáp ứng nhu cầu ngày càng tăng của dân số.

- Phân loại sản lượng giống cây trồng có thể giúp tối ưu hóa sử dụng tài nguyên như nước, phân bón và thuốc trừ sâu Các giống cây được chọn lọc có thể có khả năng thích ứng tốt với điều kiện môi trường cụ thể, giảm lãng phí và tối ưu hóa sản xuất.

Chống chọi với biến đổi khí hậu:

- Các biến đổi khí hậu đang tạo ra thách thức lớn cho nông nghiệp Việc phát triển các giống cây có khả năng chịu nhiệt độ cao, hạn chế tác động của môi trường khắc nghiệt là rất quan trọng để đảm bảo an ninh thực phẩm trong tương lai.

Tiết kiệm thời gian và chi phí:

Sử dụng học máy để phân loại sản lượng giống cây có thể giúp giảm thời gian và chi phí so với việc thử nghiệm thực tế trên quy mô lớn Các mô hình máy học có khả năng nhanh chóng và chính xác xác định các đặc điểm quan trọng của cây, giúp tiết kiệm thời gian và công sức trong quá trình đánh giá thủ công của con người.

Thúc đẩy nghiên cứu và phát triển:

- Đề tài này có thể thúc đẩy hoạt động nghiên cứu và phát triển trong lĩnh vực học máy và nông nghiệp thông minh Sự tiếp cận này không chỉ mang lại lợi ích ngay lập tức mà còn góp phần vào sự tiến bộ của ngành công nghiệp nông nghiệp và giáo dục.

Phạm vi nghiên cứu

Sản lượng cây lương thực ở một số quốc gia thuộc những khu vực:

Algeria, Angola, Burkina Faso, Burundi, Cameroon, Central African Republic, Egypt, Eritrea, Ghana, Guinea, Kenya, Lesotho, Libya, Madagascar, Malawi, Mali, Mauritania, Mauritius, Morocco, Mozambique, Namibia, Niger, Nigeria, Rwanda, Senegal, South Africa, Sudan, Swaziland (Eswatini), Tanzania, Tunisia, Uganda, Zambia, Zimbabwe.

Armenia, Azerbaijan, Bahrain, Bangladesh, India, Indonesia, Iraq, Japan, Kazakhstan, Lebanon, Malaysia, Nepal, Pakistan, Papua New Guinea, Qatar, Saudi Arabia, Sri Lanka, Tajikistan, Thailand, Turkey, United Arab Emirates, Uzbekistan.

Albania, Austria, Belarus, Belgium, Bulgaria, Croatia, Denmark, Estonia, Finland, France, Germany, Hungary, Ireland, Italy, Latvia, Lithuania, Montenegro, Netherlands, Norway, Poland, Portugal, Romania, Slovenia, Spain, Sweden, Switzerland, Ukraine, United Kingdom.

Argentina, Bahamas, Brazil, Canada, Chile, Colombia, Dominican Republic, Ecuador, El Salvador, Guyana, Haiti, Honduras, Jamaica, Mexico, Peru, Suriname, United States, Uruguay.

cơ sở lý thuyết mô hình

Học máy là gì?

Học máy (ML) là một công nghệ phát triển từ lĩnh vực trí tuệ nhân tạo Các thuật toán ML là các chương trình máy tính có khả năng học hỏi về cách hoàn thành các nhiệm vụ và cách cải thiện hiệu suất theo thời gian.

Trong quá trình phân tích dữ liệu bằng ML, việc đánh giá của con người vẫn đóng vai trò quan trọng Các chuyên gia cần hiểu rõ cơ sở dữ liệu và lựa chọn kỹ thuật phân tích phù hợp Ngoài ra, để đảm bảo kết quả phân tích chính xác, dữ liệu đầu vào phải được làm sạch, không chứa lỗi hoặc dữ liệu giả.

Các mô hình ML yêu cầu lượng dữ liệu đủ lớn để "huấn luyện" và đánh giá mô hình Trước đây, các thuật toán ML thiếu quyền truy cập vào một lượng lớn dữ liệu cần thiết để mô hình hóa các mối quan hệ giữa các dữ liệu Sự tăng trưởng trong dữ liệu lớn (big data) đã cung cấp các thuật toán ML với đủ dữ liệu để cải thiện độ chính xác của mô hình và dự đoán.

Phân loại thuật toán học máy

(nguồn:https://images.app.goo.gl/hAkhq3CKdEwVgUy49)

Khi thiết kế và xây dựng hệ thống học máy cần quan tâm tới những yếu tố sau.

– Thứ nhất, kinh nghiệm hoặc dữ liệu cho học máy được cho dưới dạng nào?

– Thứ hai, lựa chọn biểu diễn cho hàm đích ra sao? Hàm đích có thể biểu diễn dưới dạng hàm đại số thông thường nhưng cũng có thể biểu diễn dưới những dạng khác như dạng cây, dạng mạng nơ ron, công thức xác suất v.v.

Việc sử dụng những dạng kinh nghiệm và dạng biểu diễn khác nhau dẫn tới những dạng học máy khác nhau Có ba dạng học máy chính như sau:

2.2.1 Học máy có giám sát:

Trong học có giám sát, máy tính học cách mô hình hóa các mối quan hệ dựa trên dữ liệu được gán nhãn (labeled data) Sau khi tìm hiểu cách tốt nhất để mô hình hóa các mối quan hệ cho dữ liệu được gắn nhãn, các thuật toán được huấn luyện được sử dụng cho các bộ dữ liệu mới. Ứng dụng của kĩ thuật học có giám sát: Xác định tín hiệu hay biến số tốt nhất để dự báo lợi nhuận trong tương lai của cổ phiếu hoặc dự đoán xu hướng thị trường chứng khoán.

(Nguồn:https://blog.luyencode.net/hoc-co-giam-sat-la-gi/)

2.2.2 Học máy không giám sát:

Trong học không giám sát, máy tính không được cung cấp dữ liệu được dán nhãn mà thay vào đó chỉ được cung cấp dữ liệu mà thuật toán tìm cách mô tả dữ liệu và cấu trúc của chúng. Ứng dụng của học không giám sát: Phân loại các công ty thành các nhóm công ty tương đồng dựa trên đặc điểm của chúng thay vì sử dụng tiêu chuẩn của các nhóm ngành hoặc các quốc gia.

(Nguồn:https://images.app.goo.gl/woVYnqequW9suHeT7)

2.2.3 Học máy bán giám sát (Semi-supervised Learning)

Với lượng dữ liệu không ngừng tăng nhanh chóng, không có cách nào để nó được gắn nhãn một cách kịp thời, đó là lý do chúng ta cần đến học máy bán giám sát Semi-supervised Learning là việc sử dụng cả dữ liệu đã gắn nhãn và chưa gán nhãn để huấn luyện máy tính Cụ thể trong quá trình đào tạo, chúng ta sử dụng một tập dữ liệu có nhãn nhỏ hơn để hướng dẫn phân loại và trích xuất tính năng từ một tập dữ liệu lớn mà chưa được gắn nhãn Học máy bán giám sát được sử dụng để giải quyết các tình huống không có đủ dữ liệu được gắn nhãn để đào tạo cho máy tính học tập có giám sát.

Học máy bán giám sát thường được sử dụng để nhận diện giọng nói, phân loại nội dung web, phân loại tài liệu,…

Hình 2 Học máy không giám sát

(Nguồn:https://images.app.goo.gl/xRy4yyjjTz3mnKTj6) 2.2.4 Học tăng cường

Học tăng cường (RL) là kỹ thuật máy học (ML) giúp đào tạo phần mềm đưa ra quyết định nhằm thu về kết quả tối ưu nhất Kỹ thuật này bắt chước quy trình học thử và sai mà con người sử dụng để đạt được mục tiêu đã đặt ra RL giúp phần mềm tăng cường các hành động hướng tới mục tiêu, đồng thời bỏ qua các hành động làm xao lãng mục tiêu

Thuật toán RL sử dụng mô hình khen thưởng và trừng phạt trong quy trình xử lý dữ liệu Các thuật toán này tiếp thu ý kiến phản hồi của từng hành động và tự khám phá ra con đường xử lý tốt nhất để thu về kết quả cuối cùng Thuật toán RL còn có khả năng trì hoãn khen thưởng Chiến lược tổng thể tốt nhất có thể đòi hỏi phải đánh đổi một vài lợi ích trước mắt, vì vậy cách tiếp cận tốt nhất mà RL khám phá ra có thể bao gồm một số trừng phạt hoặc giai đoạn quay lui RL là phương pháp hiệu suất cao giúp hệ thống trí tuệ nhân tạo (AI) đạt kết quả tối ưu trong môi trường chưa biết phươngpháphiệu suất cao giúp hệ thống trí tuệ nhân tạo (AI) đạt kết quả tối ưu trong môi trường chưa biết

Hình 3 Học máy bán giám sát

2.3 Ứng dụng của học máy:

Xử lý ngôn ngữ tự nhiên (NLP) là một lĩnh vực trong học máy tập trung vào việc xử lý và hiểu ngôn ngữ con người Các ứng dụng phổ biến của NLP bao gồm nhận dạng ngôn ngữ, dịch máy, phân loại văn bản, phân tích tình cảm và chatbot Những ứng dụng này đã cách mạng hóa cách chúng ta tương tác với máy tính và mở ra nhiều khả năng mới trong việc xử lý dữ liệu và giao tiếp với máy móc.

Nhận dạng hình ảnh: Học máy được sử dụng để nhận dạng đối tượng, khuôn mặt, biển số xe, vết thương và phân tích hình ảnh y tế.

Tư vấn và gợi ý: Hệ thống tư vấn và gợi ý sử dụng học máy để cung cấp thông tin, sản phẩm hoặc nội dung phù hợp với sở thích và nhu cầu của người dùng.

Xử lý giọng nói: Các ứng dụng học máy trong xử lý giọng nói như nhận dạng giọng nói, tổng hợp giọng nói và phân tích ngữ điệu giọng nói.

Học máy được ứng dụng trong nhiều lĩnh vực, bao gồm tài chính, thương mại điện tử, dự báo thời tiết, y tế và giao thông Trong lĩnh vực này, học máy được dùng để dự đoán và đưa ra dự báo với độ chính xác cao.

Tự động hóa công việc: Học máy được sử dụng để tự động hóa công việc như tổ chức và phân loại dữ liệu, quản lý hợp đồng và quản lý quy trình sản xuất.

Xác định lưu lượng mạng: Học máy được sử dụng để dự đoán lưu lượng mạng, phân tích dữ liệu và tối ưu hóa mạng.

Xác định gian lận và bảo mật: Học máy được sử dụng để phát hiện gian lận trong giao dịch tài chính và xác định các hoạt động đáng ngờ trong hệ thống bảo mật.

Tự động lái và robot: Học máy được sử dụng trong xe tự hành và robot để nhận biết môi trường, lập kế hoạch và ra quyết định.

Dự báo và quản lý dự án: Học máy được sử dụng để dự đoán và quản lý các yếu tố có thể ảnh hưởng đến dự án như thời tiết, tài nguyên và rủi ro.

Hình 6:Hồi quy tuyên tính

(Nguồn :https://plus.vtc.edu.vn/machine-learning-la-gi)

Thu thập dữ liệu (Data Collection) Đây là công việc quan trọng và tiêu tốn nhiều thời gian nhất trong cả quá trình Để máy móc hiểu và giải quyết vấn đề, chúng ta cần cung cấp cho chúng các tệp dữ liệu Chất lượng dữ liệu thu được sẽ ảnh hưởng trực tiếp đến kết quả của Machine Learning Vì thế dữ liệu thu được phải đảm bảo độ chính xác, mức độ đáng tin cậy cao để tránh làm kết quả dự đoán sai sót.

Về vấn đề độ tin cậy của dữ liệu, ngày nay chúng ta đã và đang triển khai công nghệ Blockchain Công nghệ này đã tạo ra bước ngoặt mới cho việc ghi và lưu trữ dữ liệu bởi bất kỳ ai cũng không thể sửa đổi hoặc tấn công Như vậy dữ liệu ghi nhận được đều có độ tin cậy cao và kết quả dự đoán của Machine Learning càng chính xác.

Tiền xử lý dữ liệu (Data Processing)

Các mô hình học máy

2.5.1 Mô hình học máy là gì?

Mô hình học máy là một biểu hiện của một thuật toán quét qua hàng núi dữ liệu để tìm ra các mẫu hình hoặc đưa ra dự đoán Được cung cấp dữ liệu, các mô hình học máy (ML) là “động cơ” toán học của trí tuệ nhân tạo Ví dụ: mô hình ML cho thị giác máy tính có thể xác định ô tô và người đi bộ trong video thời gian thực.

Loại mô hình ML Các trường hợp sử dụng

Phân loại / hồi quy tuyến tính Các mẫu trong dữ liệu số, chẳng hạn như bảng tính tài chính Mô hình đồ họa Phát hiện gian lận hoặc nhận thức tình cảm Cây quyết định / Rừng ngẫu nhiên

Mạng nơ-ron học sâu Thị giác máy tính, xử lý ngôn ngữ tự nhiên và hơn thế nữa

2.5.2 Phân loại các mô hình machine learning

Bảng 1 mô hình học máy

2.5.3 Mô hình phân loại (Classification)

Classification là một bài toán được sử dụng vô cùng rộng rãi trong Machine

Learning với các tính ứng dụng đa dạng như nhận diện khuôn mặt, phân loại video Youtube, phân loại văn bản, phân loại giọng nói, …

Có thể kể tới một vài mô hình tiêu biểu như Support Vector Machine (SVM), Logistic Regression, Decision Trees, Random Forest, XGboost, …

Dưới đây là một số metrics để đánh giá mô hình phân loại mà cole.vn sưu tầm được:

Confusion Matrix (Đây không phải là 1 metric, nhưng rất quan trọng)

Chúng ta cùng tìm hiểu một thuật ngữ cơ bản được sử dụng trong các bài toán phân loại – Confusion matrix (AKA error matrix) Nó thể hiện được có bao nhiêu điểm dữ liệu thực sự thuộc vào một class, và được dự đoán là rơi vào một class Để dễ hiểu hơn, chúng ta cùng làm một ví dụ nhé

Ví dụ một bài toán phân loại ảnh đó là mèo hay không, trong dữ liệu dự đoán có 100 ảnh là mèo, 1000 ảnh không phải là mèo Ở đây, kết quả dự đoán là như sau

Trong quá trình dự đoán, khi có 100 bức ảnh của mèo, hệ thống đã dự đoán đúng 90 bức là ảnh mèo 10 bức ảnh còn lại bị dự đoán sai thành là ảnh không phải mèo Để đánh giá độ chính xác của hệ thống, ta chia các bức ảnh vào các nhóm: True Positive: 90 ảnh mèo được dự đoán đúng là mèo; True Negative: 10 ảnh không phải mèo được dự đoán đúng là không phải mèo; False Positive: 60 ảnh không phải mèo nhưng lại bị dự đoán sai là ảnh mèo.

Có thể tới đây nhiều người sẽ khá là lẫn lộn, “True”, “False” rồi “Positive”,

“Negative” Vậy để có một cách dễ nhớ, có một mánh nhỏ như sau

True/False ý chỉ những gì ta đã dự đoán là đúng hay chưa

Positive/Negative chỉ những gì ta dự đoán (có hoặc không) Nói cách khách, nếu thấy chữ True tức là dự đoán là đúng (là cat hay non-cat, chỉ cần đúng), còn False thì ngược lại. Đây là độ đo của bài toán phân loại mà đơn giản nhất, tính toán bằng cách lấy số dự đoán đúng chia cho toàn bộ các dự đoán Ví dụ với bài toán Cat/Non-cat như trên, độ chính xác sẽ được tính như sau:

Nhược điểm của cách đánh giá này là chỉ cho ta biết được bao nhiêu phần trăm lượng dữ liệu được phân loại đúng mà không chỉ ra được cụ thể mỗi loại được phân loại như thế nào, lớp nào được phân loại đúng nhiều nhất hay dữ liệu của lớp nào thường bị phân loại nhầm nhất vào các lớp khác.

Như đã nói phía trên, sẽ có rất nhiều trường hợp thước đo Accuracy không phản ánh đúng hiệu quả của mô hình Giả sử mô hình dự đoán tất cả 1100 ảnh là Non-cat, thì Accuracy vẫn đạt tới 1000/1100 = 90.9%, khá cao nhưng thực chất mô hình khá là tồi Vì vậy chúng ta cần một metric có thể khắc phục được những yếu điểm này Precision là một trong những metrics có thể khắc phục được, công thức như sau: Áp dụng vào bài toán Cat/Non-cat, Precision sẽ được tính như sau:

Precision(cat) = 90/(90+60) = 60% Precision(non-cat) = 940/(940+10) 98.9%

Có thể thấy việc dự đoán Cat chưa thực sự tốt nhờ phép Precision này.

Precision sẽ cho chúng ta biết thực sự có bao nhiêu dự đoán Positive là thật sự True.

Recall cũng là một metric quan trọng, nó đo lường tỷ lệ dự báo chính xác các trường hợp positive trên toàn bộ các mẫu thuộc nhóm positive Công thức của Recall như sau: Áp dụng vào bài toán Cat/Non-cat, Precision sẽ được tính như sau:

Recall cao đồng nghĩa với việc True Positive Rate cao, tức là tỷ lệ bỏ sót các điểm thực sự là positive là thấp.

Ranking được coi là một vấn đề cơ bản trong Machine Learning, nó xếp hạng một danh sách các mục dựa vào sự liên quan giữa chúng trong các bài toán cụ thể (ví dụ như xếp hạng các pages trên Google dựa vào sự liên quan với câu truy vấn tìm kiếm) Theo mình tìm hiểu được, Ranking được ứng dụng rộng rãi trong thương mại điện tử (E-commerce) và các công cụ tìm kiếm (search engines), cụ thể:

Gợi ý phim ảnh (Netflix, Youtube) Xếp hạng page của Google

Xếp hạng sản phẩm thương mại điện tử (Amazon) Tự động hoàn thiện câu truy vấn

Tìm kiếm hình ảnh (vimeo) Tìm kiếm nhà nghỉ (Expedia/Booking)

Trong bài toán Ranking, mô hình cố gắng dự đoán thứ hạng (hoặc chỉ số liên quan) của một danh sách các mục đối với task cụ thể Thuật toán đối với Ranking có thể chia làm các nhóm sau:

Point-wise models: Dự đoán một điểm số đối với từng cặp truy vấn-văn bản trong dataset, và sử dụng nó để xếp hạng các mục

Pairwise models: Học một phân loại nhị phân mà có thể trả lời rằng văn bản này có liên quan tới truy vấn này hay không?

List-wise models: Tối ưu hóa trực tiếp giá trị của một trong các thước đô đánh giá, được tính trung bình trên tất cả các truy vấn.

Trong quá trình đánh giá, dự trên thức tự thực của danh sách các mục cho một số truy vấn, chúng ta muốn biết việc dự đoán các mục đó tốt như thế nào Có khá nhiều metrics được đề xuất như MRR, Precision@K, DCG&NDCG, MAP,Kendall’s tau, …

2.5.5 Mô hình hồi quy tuyến tính a Giới thiệu mô hình hồi quy tuyến tính:

Hồi quy tuyến tính (Linear Regression) được phát triển thành mô hình hồi quy tuyến tính – LRM (Liner Regression Model) là 1 trong công cụ quan trọng trong Kinh tế lượng và là phương pháp thống kê giúp hồi quy và dự báo dữ liệu theo thuật toán giữa một một giá trị liên tục với một hoặc nhiều các giá trị liên tục, định danh hay phân loại có liên quan Hiểu 1 cách đơn giản thì Hồi quy tuyến tính là phương pháp tiếp cận tuyến tính để dự đoán biến phụ thuộc Y (biến kết cục) trên trục tung Y dựa trên các biến độc lập X (biến giải thích) trên trục hoành X trong mô hình.

Trong thống kê học, hồi quy tuyến tính là một phương pháp tiếp cận tuyến tính nhằm mô hình hóa mối quan hệ giữa biến phản ứng và các biến giải thích Cách tiếp cận này sử dụng các phương pháp toán học để tìm mối quan hệ tuyến tính giữa các biến và dự đoán giá trị của biến phản ứng dựa trên các giá trị của biến giải thích.

Bắt đầu bằng mô hình hồi quy tuyến tính bội (multiple regression model) với dạng mô hình hồi quy tổng thể (population regression model) với n -1 biến giải thích có dạng như sau:

Yi = β1 + β2X2i + β3X3i + … + βnXni + ui (Mô hình 1) Trong đó:

Hình 4 Hồi quy tuyến tính

Y là biến phụ thuộc (dependent variable) hoặc còn gọi là regressand;

Đánh giá mô hình machine learning & deep learning

Khi bạn đã xây dựng một mô hình machine learning và huấn luyện nó trên một tập dữ liệu, điều tiếp theo bạn nên làm là đánh giá hiệu năng của mô hình trên tập dữ liệu mới

Việc đánh giá mô hình giúp chúng ta giải quyết những vấn đề sau:

Mô hình đã được huấn luyện thành công hay chưa?

Mức độ thành công của mô hình tốt đến đâu?

Khi nào nên dừng quá trình huấn luyện?

Khi nào nên cập nhật mô hình?

Trả lời được 4 câu hỏi trên, chúng ta có thể quyết định mô hình này có thực sự phù hợp cho bài toán hay không. Đánh giá một mô hình có tốt hay không thường được thực hiện trên dữ liệu mà mô hình chưa được huấn luyện Tỷ lệ thường thấy của một tập dữ liệu huấn luyện so với tập dữ liệu thử nghiệm là 70% và 30%

Chúng ta sử dụng dữ liệu mới khi đánh giá mô hình nhằm giảm thiểu khả năng quá khớp (overfitting) đối với tập huấn luyện Đôi khi sẽ hữu ích khi đánh giá mô hình và cùng lúc huấn luyện nó để tìm ra các chỉ số tốt nhất của một mô hình.

Tuy nhiên, chúng ta không thể sử dụng bộ thử nghiệm để thực hiện đánh giá này.

Hoặc chúng ta sẽ phải chọn các thông số hoạt động tốt nhất trên dữ liệu thử nghiệm, nhưng có thể không phải là các tham số bao quát nhất. Đánh giá các mô hình học máy

Trong quá trình xây dựng một mô hình Machine Learning, một phần không thể thiếu để xét xem mô hình có chất lượng tốt hay không chính là đánh giá mô hình Đánh giá mô hình giúp chúng ta chọn lựa được các mô hình phù hợp với bài toán cụ thể Để có thể áp dụng đúng thước đo đánh giá mô hình phù hợp, chúng ta cần hiểu bản chất, ý nghĩa cũng như các trường hợp sử dụng nó Cùng phân tích và Để rõ ràng hơn, mình sẽ tập trung phân tích các metric đánh giá đối với: mô hình phân loại (classification), mô hình hồi quy (regression) và xếp hạng (Ranking)

Chuẩn bị dữ liệu

Nguồn gốc dữ liệu

Bộ dữ liệu được sử dụng trong nghiên cứu này là bộ dữ liệu Crop Yield, được cung cấp trên trang web Kaggle bởi tác giả RISHI PATEL vào năm 2021.

Liên kết dữ liệu: https://www.kaggle.com/code/patelris/crop-yield-eda-viz/input?select=yield_df.csv

Thu thập dữ liệu

Bộ dữ liệu Crop Yield [EDA + Viz] trên kaggle là tài liệu quý báu trong việc thực hiện phân loại năng suất giống cây trồng Bộ dữ liệu ban đầu tải về dưới dạng file zip, sau khi giải nén xuất ra file csv File csv chứa đầy đủ thông tin và nhãn.

Trong file csv chứa đầy đủ thông tin cơ bản về nông nghiệp và giống cây trồng để thực hiện chương trình như: Vùng, Loại cây trồng, Năm, Sản lượng, Nhiệt độ trung bình, Thuốc bảo vệ thực vật, Lượng mưa trung bình năm.

Quá trình thu thập dữ liệu

Tôi truy cập trang web Kaggle và đăng nhập vào tài khoản cá nhân của mình.

Sau đó, tìm kiếm dự án liên quan đến Crop Yield EDA + Viz sử dụng chức năng tìm kiếm của Kaggle

Khi tìm thấy dự án phù hợp, tôi đã tải xuống tệp dữ liệu từ trang dự án đó.

Dữ liệu về Crop Yield EDA + Viz thường được cung cấp dưới dạng tệp CSV hoặc tệp nén ZIP chứa thông tin về giống cây trồng và sản lượng Sau khi tải xuống, tôi đã kiểm tra kỹ lưỡng để đảm bảo rằng dữ liệu đúng định dạng và đầy đủ Nếu cần, tôi đã giải nén tệp để truy cập thông tin chi tiết hơn Tùy thuộc vào yêu cầu của dự án, tôi đã thực hiện các bước tiền xử lý dữ liệu như chia thành tập huấn luyện và tập kiểm tra, chuẩn hóa dữ liệu và các bước tiền xử lý khác

Cuối cùng, quá trình nghiên cứu sẽ sử dụng dữ liệu thu thập được để phát triển mô hình phân loại sản lượng giống cây trồng, góp phần vào sự hiểu biết sâu hơn về lĩnh vực này Trong quá trình nghiên cứu, tuân thủ các quy định về bản quyền và điều khoản sử dụng được coi trọng, đảm bảo tính toàn vẹn và tính pháp lý của công trình.

Hiểu biết về bộ dữ liệu

Bảng 2 hiểu biết dữ liệu

Year Năm hg/ha_yield Sản lượng average_rain_fall_mm_per_year Lượng mưa trung bình pesticides_tonnes Thuốc avg_temp Nhiệt độ trung bình

Mô tả dữ liệu

Bộ dữ liệu có 7 trường và có 28241 dữ liệu Trường (hg/ha_yield) là trường dãn nhãn dùng để phân tích.

Các trường (Area, Item, Year, average_rain_fall_mm_per_year, avg_temp) làm trường để phân tích dữ liệu

Làm sạch dữ liệu

Lọc dữ liệu đang có, kiểm tra, kiểm thử dữ liệu.

3.6.2 Kết quả làm sạch Đã làm sạch, bộ dữ liệu đầy đủ.

Chương 4 Huấn luyện mô hình

Lý do chọn mô hình

Vì những lý do trên, tôi chọn mô hình hồi quy tuyến tính cho bài của tôi:

Mô hình hồi quy tuyến tính nổi bật với đặc điểm dễ hiểu và dễ triển khai Không cần đòi hỏi quá nhiều kiến thức toán học cao cấp, nên ngay cả những người mới tiếp cận học máy cũng có thể làm quen và sử dụng thành thạo mô hình này Điểm mạnh này giúp hồi quy tuyến tính trở thành lựa chọn lý tưởng cho người mới bắt đầu.

● Tính tường minh: Các hệ số của mô hình tuyến tính có thể được diễn giải một cách dễ dàng Điều này có ý nghĩa trong việc trình bày và giải thích kết quả của nghiên cứu.

● Phù hợp cho các vấn đề tương đối đơn giản: Khi mối quan hệ giữa biến đầu vào và biến mục tiêu có thể được mô tả bằng một đường thẳng hoặc một siêu mặt phẳng, mô hình tuyến tính thường cho kết quả tốt.

● Tốt cho dự báo: Đối với các vấn đề dự báo, đặc biệt khi có sự biến thiên tuyến tính, mô hình hồi quy tuyến tính thường mang lại kết quả khá tốt.

● Chấp nhận và ổn định với dữ liệu nhiễu: Mô hình hồi quy tuyến tính có thể ổn định đối với dữ liệu có nhiễu tương đối nhỏ.

Mô hình tuyến tính dễ dàng mở rộng và kết hợp với các phương pháp khác, cho phép tạo nên các mô hình phức tạp hơn Ví dụ, khi kết hợp với hồi quy Ridge, Lasso, ElasticNet và các phương pháp hồi quy khác, mô hình tuyến tính có thể giải quyết nhiều vấn đề thực tế hiệu quả hơn Điều này làm tăng tính linh hoạt và ứng dụng rộng rãi của mô hình tuyến tính trong các lĩnh vực khác nhau.

● Hiệu suất tốt trên các tập dữ liệu lớn: Khi có nhiều quan sát, mô hình hồi quy tuyến tính thường cho kết quả tốt với thời gian huấn luyện và dự báo tương đối nhanh chóng.

● Tái sử dụng dễ dàng: Khi bạn đã xây dựng một mô hình tuyến tính,bạn có thể dễ dàng áp dụng nó vào các tập dữ liệu mới có cùng cấu trúc.

Cài đặt mô hình bằng python

4.2.1/ Công cụ sử dụng: google colab 4.2.2/ Cài đặt mô hình: a/ Quy trình thực hiện: Đầu tiên, cần import các thư viện cần thiết Đọc file data dùng để huấn luyện mô hình:

Chọn biến độc lập và biến phụ thuộc:

Chia dữ liệu để lấy tập huấn luyện và kiểm tra:

Bắt đầu huấn luyện mô hình hồi quy tuyến tính Đầu tiên, cần xây dựng mô hình hồi quy và huấn luyện.

Nhập 3 phần dữ liệu để dự đoán sản lượng nông nghiệp:

Bắt đầu dự đoán thông qua dữ liệu nhập từ bàn phím và in ra kết quả trên màn hình:

Vẽ biểu đồ dữ liệu dự đoán và thực tế:

Tiếp theo, sẽ dự đoán sản lượng cho năm tiếp theo: Đầu tiên, nhập dữ liệu dự kiến cho năm tiếp theo

Sau đó, lấy dữ liệu nhập từ bàn phím huấn luyện và in kết quả ra màn hình

In ra kết quả dự đoán theo dữ liệu nhập từ bàn phím

Biểu đồ dự đoán sản lượng nông nghiệp

Dự đoán cho năm tiếp theo:

Tiêu đề	Phân Loại Sản Lượng Giống Cây Trồng Bằng Kỹ Thuật Hồi Quy Tuyến Tính
Tác giả	Nguyễn Quang Linh
Người hướng dẫn	TS Phạm Thị Tố Nga
Trường học	Trường Đại học Đại Nam
Chuyên ngành	Học Máy
Thể loại	Bài tập lớn
Năm xuất bản	2023
Thành phố	Hà Nội

Định dạng
Số trang	45
Dung lượng	894,46 KB