Những điều trên được hiểu là nó có thể thực hiện tự động, nhanh chóng đểtạo ra những mô hình cho phép phân tích các dữ liệu có quy mô lớn hơn và phứctạp hơn đồng thời đưa ra những kết qu
Trang 1TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
KHOA CÔNG NGHỆ THÔNG TIN
BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN HỌC
MÁY NÂNG CAO
XÂY DỰNG MÔ HÌNH HỌC MÁY DỰ BÁO CHÁY RỪNG
TỪ DỮ LIỆU ẢNH Sinh viên thực hiện : NGUYỄN THỊ THU HUYỀN
: TRỊNH MỸ DUYÊN : HOÀNG MINH ĐẠO Giảng viên hướng dẫn :TS TRẦN TRUNG
Hà Nội, 15 tháng 11 năm 2024
Trang 2PHIẾU CHẤM ĐIỂM
Sinh viên thực hiện:
STT Họ và tên sinh viên Nội dung thực hiện Điểm Chữ ký
1 Nguyễn Thị Thu Huyền
Trang 3MỤC LỤC
DANH MỤC HÌNH ẢNH 3
LỜI CẢM ƠN 1
LỜI MỞ ĐẦU 2
CHƯƠNG 1 TỔNG QUAN VỀ HỌC MÁY 3
1.1.Khái niệm về học máy 3
1.2.Phân nhóm các thuật toán học máy 3
1.2.1 Học có giám sát (Supervised Learning) 3
1.2.2 Học phi giám sát (Unsupervised Learning)-UL 4
1.2.3 Học tăng cường (Reinforcement Learning) 7
1.2.4 Học bán giám sát (semi-Supervised Learning) 7
1.3.Ứng dụng của học máy 8
CHƯƠNG 2 THUẬT TOÁN HỒI QUY SỬ DỤNG KỸ THUẬT LINEAR REGRESSION
11 2.1 Giới thiệu 11
2.2 Mô hình 12
2.3 Kỹ thuật học máy Linear Regression 13
CHƯƠNG 3: ỨNG DỤNG THUẬT TOÁN DỰ ĐOÁN DOANH THU BÁN HÀNG QUA CHI PHÍ QUẢNG CÁO, DỰ ĐOÁN LƯỢNG KHÍ THẢI CO2 TỪ Ô TÔ
15 3.1 Bài toán dự đoán chi phí quảng cáo 15
3.1.1 Dự đoán bài toán 15
3.1.2 Yêu cầu bài toán 15
3.1.3 Xây dựng bộ dữ liệu 16
3.1.4 Áp dụng thuật toán vào bài toán 17
3.1.5 Kết quả 18
Trang 43.2.2 Yêu cầu bài toán 21
3.2.3 Xây dựng bộ dữ liệu 21
3.2.4 Áp dụng thuật toán Linear Regression để giải quyết bài toán 23
3.2.5 Kết quả 24
3.3 Bài toán dự đoán doanh thu của cửa hàng bán xe ô tô thông qua các phần trên trang web của khách hàng 26 3.3.1 Phát biểu bài toán 26
3.3.2 Yêu cầu bài toán 27
3.3.3 Xây dựng bộ dữ liệu 27
3.3.4 Kết quả 29
KẾT LUẬN 33
TÀI LIỆU THAM KHẢO 34
Trang 5DANH MỤC HÌNH ẢNH
CHƯƠNG 1 TỔNG QUAN VỀ HỌC MÁY
Hình 1.1 : Mô hình học có giám sát 4
Hình 1.2 : Mô hình học không giám sát 5
Hình 1.3 : Sự khác biệt giữa 2 mô hình SL và UL 5
Hình 1.4 : Học tăng cường 7
Hình 1.5 : Học bán giám sát 8
CHƯƠNG 2 THUẬT TOÁN HỒI QUY SỬ DỤNG KỸ THUẬT LINEAR REGRESSION Hình 2.1 : Quan hệ y = 3+4x 11
Hình 2.2 : Bảng dữ liệu về chiều cao và cân nặng của 15 người 13
Hình 2.3 : Khai báo biểu diễn dữ liệu trên đồ thị 14
Hình 2.4 : Đồ thị kết quả dự đoán 14
CHƯƠNG 3: ỨNG DỤNG THUẬT TOÁN DỰ ĐOÁN DOANH THU BÁN HÀNG QUA CHI PHÍ QUẢNG CÁO, DỰ ĐOÁN LƯỢNG KHÍ THẢI CO2 TỪ Ô TÔ Hình 3.1 : Bộ dữ liệu Advertising.csv 16
Hình 3.2 : Code của bài toán 17
Hình 3.3 : Dữ liệu đầu vào X 18
Hình 3.4 : Dữ liệu đầu ra Y 18
Hình 3.5 : Kết quả 19
Hình 3.6 : Linear regression for sales 20
Hình 3.7 : Dữ liệu dự đoán khí thải CO2 22 Hình 3.8 : Áp dụng thuật toán Linear Regression để giải quyết bài toán 23
Trang 6Hình 3.11 : Kết quả thử nghiệm 25
Hình 3.12 : Biểu đồ mô phỏng dự đoán lượng khí thải CO2 26
Hình 3.13 : Dữ liệu tập test.csv 28
Hình 3.14 : Dữ liệu đầu vào 29
Hình 3.15 : Dữ liệu đầu ra 30
Hình 3.16 : Kết quả mô phỏng dự đoán 31
Hình 3.17 :Biểu đồ mô phỏng dự đoán doanh thu qua yêu cầu lái thử 32
Trang 7LỜI CẢM ƠN
Chúng em xin chân thành cảm ơn các thầy, cô giáo trong Khoa Công nghệ thông tin, trường Đại học Điện Lực, đã tạo điều kiện cho em thực hiện đề tài này
Để có thể hoàn thành báo cáo đề tài “Xây dựng mô hình học máy dự báo cháy rừng từ dữ liệu ảnh”, chúng em xin gửi lời cảm ơn chân thành nhất tới thầyTrần Trung đã truyền đạt, giảng dạy cho chúng em những kiến thức, những kinhnghiệm quý báu trong thời gian học tập và rèn luyện, tận tình hướng dẫn chúng
em trong quá trình làm báo cáo này
Chúng em cũng gửi lời cảm ơn tới bạn bè đã đóng góp những ý kiến quý bàu để chúng em có thể hoàn thành báo cáo tốt hơn
Tuy nhiên, do thời gian và trình độ có hạn nên báo cáo này không tránh khỏi những thiếu sót, chúng em rất mong được sự đóng góp ý kiến của các thầy
và toàn thể các bạn
Một lần nữa, em xin chân thành cảm ơn và luôn mong nhận được sự đóng góp quý báu của tất cả mọi người
Trang 8LỜI MỞ ĐẦU
Công nghệ ngày càng phổ biến và không ai có thể phủ nhận được tầm quan trọng và những hiệu quả mà nó đem lại cho cuộc sống chúng ta Bất kỳ trong lĩnh vực nào, sự góp mặt của trí tuệ nhân tạo sẽ giúp con người làm việc
và hoàn thành tốt công việc hơn Và gần đây, một thuật ngữ “machine learning” rất được nhiều người quan tâm Thay vì phải code phần mềm với cách thức thủ công theo một bộ hướng dẫn cụ thể nhằm hoàn thành một nhiệm vụ đề ra thì máy sẽ tự “học hỏi” bằng cách sử dụng một lượng lớn dữ liệu cùng những thuật toán cho phép nó thực hiện các tác vụ
Đây là một lĩnh vực khoa học tuy không mới, nhưng cho thấy lĩnh vực trí tuệ nhân tạo đang ngày càng phát triển và có thể tiến xa hơn trong tương lai Đồng thời, thời điểm này nó được xem là một lĩnh vực “nóng” và dành rất nhiềumối quan tâm để phát triển nó một cách mạnh mẽ, bùng nổ hơn
Hiện nay, việc quan tâm machine learning càng ngày càng tăng lên là vì nhờ có machine learning giúp gia tăng dung lượng lưu trữ các loại dữ liệu sẵn, việc xử lý tính toán có chi phí thấp và hiệu quả hơn rất nhiều
Những điều trên được hiểu là nó có thể thực hiện tự động, nhanh chóng đểtạo ra những mô hình cho phép phân tích các dữ liệu có quy mô lớn hơn và phứctạp hơn đồng thời đưa ra những kết quả một cách nhanh và chính xác hơn.Chính sự hiệu quả trong công việc và các lợi ích vượt bậc mà nó đem lại cho chúng ta khiến machine learning ngày càng được chú trọng và quan tâm nhiều hơn Vì vậy chúng em đã chọn đề tài “Xây dựng mô hình học máy dự báo cháy rừng từ dữ liệu ảnh”
Trang 9CHƯƠNG 1 TỔNG QUAN VỀ HỌC MÁY 1.1.Khái niệm về học máy
Học máy (Machine learning) là một lĩnh vực con của Trí tuệ nhân tạo (Artificial Intelligence) sử dụng các thuật toán cho phép máy tính có thể học từ
dữ liệu để thực hiện các công việc thay vì được lập trình một cách rõ ràng, cung cấp cho hệ thống khả năng tự động học hỏi và cải thiện hiệu suất, độ chính xác dựa trên những kinh nghiệm từ dữ liệu đầu vào Học máy tập trung vào việc phát triển các phần mềm, chương trình máy tính có thể truy cập vào dữ liệu và tận dụng nguồn dữ liệu đó để tự học
Học máy vẫn đòi hỏi sự đánh giá của con người trong việc tìm hiểu dữ liệu cơ sở và lựa chọn các kĩ thuật phù hợp để phân tích dữ liệu Đồng thời, trước khi sử dụng, dữ liệu phải sạch, không có sai lệch và không có dữ liệu giả.Các mô hình học máy yêu cầu lượng dữ liệu đủ lớn để "huấn luyện" và đánh giá mô hình Trước đây, các thuật toán học máy thiếu quyền truy cập vào một lượng lớn dữ liệu cần thiết để mô hình hóa các mối quan hệ giữa các dữ liệu Sự tăng trưởng trong dữ liệu lớn (big data) đã cung cấp các thuật toán học máy với đủ dữ liệu để cải thiện độ chính xác của mô hình và dự đoán
1.2 Phân nhóm các thuật toán học máy
1.2.1 Học có giám sát (Supervised Learning)
Là phương pháp sử dụng những dữ liệu đã được gán nhãn từ trước để suyluận ra quan hệ giữa đầu vào và đầu ra Các dữ liệu này được gọi là dữ liệu huấn luyện và chúng là cặp các đầu vào-đầu ra Học có giám sát sẽ xem xét các tập huấn luyện này để từ đó có thể đưa ra dự đoán đầu ra cho 1 đầu vào mới chưa gặp bao giờ Ví dụ dự đoán giá nhà, phân loại email Các mô hình như mạng Nơ-ron, SVM, CNN,…
Trang 10Hình 1.1 : Mô hình học có giám sát
Supervised Learning Là thuât toán dự đoán đầu ra (outcome) của một dữ liệu mới (new input) dựa trên cặp (input, outcome) đã biết tư trước Cặp dữ liệu này còn đươc gọi là data, label tức dữ liệu, nhãn Supervised Learning Là nhóm phổ biến nhất trong các thuật toán Machine learning
1.2.2 Học phi giám sát (Unsupervised Learning)-UL
Khác với học có giám sát, học phi giám sát sử dụng những dữ liệu chưa được gán nhãn từ trước để suy luận Phương pháp này thường được sử dụng để tìm cấu trúc của tập dữ liệu Tuy nhiên lại không có phương pháp đánh giá đượccấu trúc tìm ra được là đúng hay sai Ví dụ như phân cụm dữ liệu, triết xuất thành phần chính của một chất nào đó K-mean Ứng dụng phổ biến nhất của họckhông giám sát là gom cụm (cluster)
Trang 11Hình 1.2 : Mô hình học không giám sát
Trong thuật toán này, chúng ta không biết được dữ liệu đầu ra hay nhãn
mà chỉ có dữ liệu đầu vào Thuật toán Học không giám sát dựa vào cấu trúc của
dữ liệu để thực hiện một công việc nào đó, ví dụ như phân nhóm hoặc giảm số chiều của dữ liệu để thuận tiện trong việc lưu trữ và tính toán
Một cách toán học, Học không giám sát là khi chúng ta chỉ có dữ liệu vào
X mà không biết nhãn Y tương ứng
Sự khác nhau giữa học có giám sát và học không giám sát:
Hình 1.3 : Sự khác biệt giữa 2 mô hình SL và UL
Trang 12Học có giám sát: Là cách huấn luyện một mô hình trong đó dữ liệu học cóđầu vào và đầu ra tương ứng đầu vào đó Mô hình được huấn luyện bằng cách giảm thiểu sai số lỗi (loss) của các dự đoán tại các vòng lặp huấn luyện Sau quátrình huấn luyện mô hình sẽ có khả năng đưa ra dự đoán về đầu ra với một đầu vào mới gặp (không có trong dữ liệu học) Nếu không gian đầu ra được biểu diễn dứới dạng rời rạc, ta gọi đó là bài toán phân loại (classification) Nếu không gian đầu ra được biểu diễn dưới dạng liên tục, ta gọi đó là bài toán hồi quy (regression).
Học không giám sát: Là cách huấn luyện một mô hình trong đó dữ liệu học chỉ bao gồm đầu vào mà không có đầu ra Mô hình sẽ được huấn luyện cách
để tìm cấu trúc hoặc mối quan hệ giữa các đầu vào Một trong những phương pháp học không giám sát quan trọng nhất là phân cụm (clustering): Tạo các cụmkhác nhau với mỗi cụm biểu diễn một đặc trưng nào đó của dữ liệu và phân các đầu vào mới vào các cụm theo các đặc trưng của đầu vào đó Các phương pháp học không giám sát khác có thể kể đến như: phát hiện điểm bất thường (anomaly detection), Singular-value decomposition,
Trang 131.2.3 Học tăng cường (Reinforcement Learning)
Phương pháp học tăng cường tập trung vào việc làm sao để cho 1 tác tử trong môi trường có thế hành động sao cho lấy được phần thưởng nhiều nhất có thể Khác với học có giám sát nó không có cặp dữ liệu gán nhãn trước làm đầu vào và cũng không có đánh giá các hành động là đúng hay sai
Hình 1.4 : Học tăng cường
1.2.4 Học bán giám sát (semi-Supervised Learning)
Các bài toán khi chúng ta có một lượng lớn dữ liệu X nhưng chỉ một phầntrong chúng được gán nhãn được gọi là Semi-Supervised Learning Những bài toán thuộc nhóm này nằm giữa hai nhóm được nêu bên trên Một ví dụ điển hình của nhóm này là chỉ có một phần ảnh hoặc văn bản được gán nhãn (ví dụ bức ảnh về người, động vật hoặc các văn bản khoa học, chính trị) và phần lớn các bức ảnh/văn bản khác chưa được gán nhãn được thu thập từ internet.Thực tế cho thấy rất nhiều các bài toán Machine Learning thuộc vào nhóm này vì việc thu thập dữ liệu có nhãn tốn rất nhiều thời gian và có chi phí
Trang 14(ảnh y học chẳng hạn) Ngược lại, dữ liệu chưa có nhãn có thể được thu thập với chi phí thấp từ internet.
Các kết quả tìm kiếm trên web
Quảng cáo theo thời gian thực trên các trang web và các thiết bị
di động
Phân tích tình cảm dựa trên văn bản
Điểm số tín dụng và lời mời chào tiếp theo tốt nhất
Dự đoán những hư hỏng của thiết bị
Trang 15Những lĩnh vực đang áp dụng Machine learning hiện nay:
Các dịch vụ tài chính
Ngân hàng và những doanh nghiệp hoạt động trong lĩnh vực tài chính sử dụng công nghệ Machine Learning với 2 mục đích chính: xác định insights trong dữ liệu và ngăn chặn lừa đảo Insights sẽ biết được các cơ hội đầu tư hoặc thông báo đến nhà đầu tư thời điểm giao dịch hợp lý Data mining cũng có thể tìm được những khách hàng đang có hồ sơ rủi ro cao hoặc sử dụng giám sát mạng để chỉ rõ những tín hiệu lừa đảo
Chăm sóc sức khỏe
Machine learning là 1 xu hướng phát triển nhanh chóng trong ngành chămsóc sức khỏe, nhờ vào sự ra đời của các thiết bị và máy cảm ứng đeo được sử dụng dữ liệu để đánh giá tình hình sức khỏe của bệnh nhân trong thời gian thực (real-time) Công nghệ Machine Learning còn giúp các chuyên gia y tế xác địnhnhững xu hướng hoặc tín hiệu để cải thiện khả năng điều trị, chẩn đoán bệnh
Marketing và sales
Dựa trên hành vi mua hàng trước đây, các trang web sử dụng Machine Learning phân tích lịch sử mua hàng, từ đó giới thiệu những vật dụng mà bạn cóthể sẽ quan tâm và yêu thích Khả năng tiếp nhận dữ liệu, phân tích và sử dụng những dữ liệu đó để cá nhân hóa trải nghiệm mua sắm (hoặc thực hiện chiến
Trang 16Dầu khí
Tìm kiếm những nguồn nguyên liệu mới Phân tích các mỏ dầu dưới đất
Dự đoán tình trạng thất bại của bộ cảm biến lọc dầu Sắp xếp các kênh phân phối để đạt hiệu quả và tiết kiệm chi phí Có thể nói, số lượng các trường hợp sửdụng Machine Learning trong ngành công nghiệp này cực kì lớn và vẫn ngày càng mở rộng
Vận tải
Phân tích dữ liệu để xác định patterns & các xu hướng là trọng tâm trong ngành vận tải vì đây là ngành phụ thuộc vào khả năng tận dụng hiệu quả trên mỗi tuyến đường và dự đoán các vấn đề tiềm tàng để gia tăng lợi nhuận Các chức năng phân tích dữ liệu và modeling của Machine learning đóng vai trò quan trọng với các doanh nghiệp vận chuyện, vận tải công cộng và các tổ chức vận chuyển khác
Trang 17CHƯƠNG 2 THUẬT TOÁN HỒI QUY SỬ DỤNG KỸ THUẬT
LINEAR REGRESSION 2.1 Giới thiệu
Thuật toán Linear Regression hay được gọi là Hồi Quy Tuyến Tính thuộcnhóm Supervised learning ( Học có giám sát ) Hồi quy tuyến tính là một phương pháp rất đơn giản nhưng nó rất hữu ích vì nó đã được chứng minh cho một số lượng lớn các tình huống Hồi quy chính là một phương pháp thống kê
để thiết lập mối quan hệ giữa một biến phụ thuộc và một nhóm tập hợp các biến độc lập
Mục tiêu của giải thuật hồi quy tuyến tính là dự đoán giá trị của một hoặcnhiều biến mục tiêu liên tục (continuous target variable , ) y dựa trên một vectơ đầu vào x
Ví dụ: dự đoán giá nhà ở Hà Nội dựa vào thông tin về diện tích, vị trí, năm xây dựng của ngôi nhà thì thông tin ở đây sẽ là giá nhà và x=(x1, x x2,3) với 1 là diện tích, 2 là vị trí và 3 là năm xây dựng.x x x
Về cơ bản thì ta sẽ có một tập huấn luyện chứa các cặp x(i y(i), )) tương ứng và nhiệm vụ của ta là phải tìm giá trị ứng với một đầu vào mới Để làm y x
điều này ta cần tìm được quan hệ giữa và để từ đó đưa ra được dự đoán Hayx y
nói cách trừu tượng hơn là ta cần vẽ được một đường quan hệ thể hiện mối quan
hệ trong tập dữ liệu
Trang 18Như hình minh họa phía trên thì ta có thể vẽ được một đường màu xanh y=3+4x để thể hiện quan hệ giữa x và y dựa vào các điểm dữ liệu huấn luyện đã biết Thuật toán hồi quy tuyến tính sẽ giúp ta tự động tìm được đường màu xanh đó để từ đó ta có thể dự đoán được y cho một x chưa từng xuất hiện bao giờ.
2.2 Mô hình
Mô hình hồi quy tuyến tính đơn biến dùng để xem xét mối quan hệ tuyến tính giữa biến phụ thuộc y (biến kết cục) và biến độc lập x (biến dự đoán) Phương trình tuyến tính (đường thẳng) đơn biến có dạng:
y= α + βxiTrong đó α là điểm cắt trên trục tung, β là độ dốc (trong thống kê gọi là hệ
số hồi quy) và ε là phần dư
Mô hình hồi quy tuyến tính đa biến có dạng:
y= α + β1x1i+ β2x2i +β3x3i + + + βkxki
Trong phân tích hồi quy tuyến tính đa biến, ta cần biết mức độ ảnh hưởng của từng yếu tố lên biến kết cục y (bề dày lớp NTM trong ví dụ này) Muốn biếtmức độ ảnh hưởng cần lưu ý đến các trị số sau:
1 Hệ số tương quan R (coefficient of correlation): yếu tố nào có R càng lớn thì ảnh hưởng càng nhiều
2 Bình phương của R (R square): yếu tố nào có R 2 càng lớn thì mối quan
hệ giữa yếu tố đó và biến y càng chặt chẽ
3 Hệ số hồi quy (regression coefficient): yếu tố nào có cao thì ảnhhưởng nhiều hơn, tuy nhiên các yếu tố có đơn vị khác nhau (tuổi, mmol/L,