Phân tích mối quan hệ giữa các đặc trưng: Tìm kiếm các đặc trưng có ảnh hưởng đến khả năng hỏng của động cơ, dựa vào các thống kê và biểu đồ phân phối.. Ví dụ: Nếu dự án của bạn là dự
Trang 1BÁO CÁO DỰ ÁN
MÔ HÌNH DỰ BÁO KHẢ NĂNG HỎNG CỦA ĐỘNG CƠNhóm thực hiện : Lê Cao Trí
Ngô Thị Thu HạnhTrần Huy HoàngNguyễn Tấn HưngNguyễn Ngọc Nguyên
Trang 2I GIỚI THIỆU:
Database: Dữ liệu thông tin thu thập được từ các bộ cảm biến của các động cơ
Yêu cầu: Phân tích, đánh giá dũ liệu đã có đưa ra mô hình dự báo khả năng hỏng của động
cơ
Kết quả: Mô hình học máy với dữ liệu đầu vào là thông tin liên quan đến các động cơ, mô
hình sẽ cho biết khả năng hỏng của động cơ
II TIẾN TRÌNH THỰC HIỆN:
1 Phân tích dữ liệu: Kiểm tra nội dung của hai tệp dữ liệu train.csv và test.csv để hiểu
các thông tin được thu thập từ cảm biến
2 Xử lý dữ liệu: Kiểm tra các giá trị thiếu, xử lý các dữ liệu không hợp lệ hoặc không
đầy đủ, và thực hiện chuẩn hóa nếu cần thiết
3 Phân tích mối quan hệ giữa các đặc trưng: Tìm kiếm các đặc trưng có ảnh hưởng
đến khả năng hỏng của động cơ, dựa vào các thống kê và biểu đồ phân phối
4 Xây dựng mô hình dự báo: Sử dụng các thuật toán học máy (như Logistic
Regression, Random Forest, SVM hoặc các mạng neuron) để dự báo khả năng hỏng của động cơ
5 Đánh giá mô hình: Sử dụng các chỉ số như độ chính xác, độ nhạy, độ đặc hiệu, và
F1-score để đánh giá mô hình
III BÁO CÁO:
1 Phân tích dữ liệu:
Đầu tiên, dùng pandas để đọc tệp train.csv và lưu vào biến train_data DataFrame này sẽ chứa toàn bộ dữ liệu huấn luyện từ tệp CSV với các hàng và cột tương ứng
Tương tự, đọc tệp test.csv và lưu vào biến test_data DataFrame này chứa dữ liệu kiểm tra (test)
để sử dụng cho dự báo hoặc kiểm tra mô hình
( Dữ liệu Huấn luyện (Training Data)
Định nghĩa: Đây là tập dữ liệu mà mô hình sử dụng để học Nó bao gồm cả đầu vào (features) và đầu ra mong muốn (labels hoặc targets).
Mục tiêu: Mô hình sẽ tìm ra các mẫu, quan hệ và quy luật từ dữ liệu huấn luyện để có thể đưa ra dự đoán chính xác Các thuật toán học máy điều chỉnh các tham số dựa trên dữ liệu này.
Ví dụ: Nếu dự án của bạn là dự báo khả năng hỏng của động cơ, thì dữ liệu huấn luyện
sẽ bao gồm các thông tin từ cảm biến và nhãn cho biết liệu động cơ có bị hỏng hay không hoặc thời gian còn lại trước khi động cơ hỏng.
Dữ liệu Kiểm tra (Testing Data)
Trang 3 Định nghĩa: Đây là tập dữ liệu độc lập được sử dụng để đánh giá hiệu suất của mô hình sau khi đã được huấn luyện Dữ liệu kiểm tra cũng bao gồm đầu vào và nhãn mong muốn nhưng không được dùng trong quá trình huấn luyện.
Mục tiêu: Kiểm tra xem mô hình có thể tổng quát hóa tốt không, nghĩa là nó có thể đưa
ra dự đoán chính xác cho dữ liệu mới mà nó chưa từng thấy trong quá trình huấn luyện.
Ví dụ: Trong dự án dự báo hỏng động cơ, dữ liệu kiểm tra sẽ bao gồm các cảm biến và nhãn, cho phép bạn kiểm tra xem mô hình có thể dự báo chính xác trạng thái của động
cơ trên dữ liệu mới hay không.
Tóm lại, dữ liệu huấn luyện là để mô hình học, còn dữ liệu kiểm tra là để đánh giá xem mô hình
đã học tốt đến mức nào )
Trang 4Thông qua tìm hiểu, quan sát, dữ liệu gồm các thông tin sau:
1 Cấu trúc: Cả tập train.csv và test.csv đều có 71 cột, bao gồm các giá trị đo lường từ cảm
biến (s1 đến s21), các chỉ số trung bình (av1 đến av21), và độ lệch chuẩn (sd1 đến sd21) cùng với các cột cấu hình khác như setting1, setting2, setting3, cột cycle trong dữ liệu biểu diễn số lượng chu kỳ hoạt động của động cơ từ khi nó bắt đầu hoạt động đến thời điểm hiện tại của bản ghi dữ liệu
2 Cột mục tiêu: Cột ttf đại diện cho số chu kỳ còn lại trước khi động cơ hỏng, trong khi
label_bnc và label_mcc có thể đại diện cho nhãn liên quan đến tình trạng hỏng của động
cơ (ví dụ, hỏng hay không hỏng)
Tuy nhiên, bởi vì test.csv có sẵn các nhãn này, chúng sẽ được dùng để đánh giá mức độ chính xác của mô hình sau khi dự đoán
(Sau khi xây dựng mô hình, chúng ta sẽ sử dụng test.csv để nhập vào mô hình đã được huấn luyện nhằm dự đoán khả năng hỏng của động cơ Kết quả dự đoán sẽ được so sánh với nhãn có sẵn (nếu có) trong test.csv để đánh giá độ chính xác của mô hình.)
( ttf thường là viết tắt của Time to Failure, tức là thời gian còn lại trước khi hỏng Cột này đại diện cho số chu kỳ còn lại trước khi động cơ gặp sự cố hoặc cần bảo trì Đây là một biến mục tiêu phổ biến trong các bài toán dự đoán hỏng hóc.
label_bnc và label_mcc:
bnc có thể là viết tắt của Binary Classification, tức là phân loại nhị phân Cột label_bnc thường biểu thị một nhãn cho biết động cơ có đang ở trạng thái hỏng (1) hoặc không hỏng (0), sử dụng phân loại nhị phân.
mcc có thể là viết tắt của Multi-Class Classification, tức là phân loại đa lớp Cột
label_mcc có thể đại diện cho nhãn phân loại theo nhiều cấp độ của tình trạng động cơ, chẳng hạn như mức độ hỏng hóc khác nhau (như bình thường, cảnh báo, nghiêm trọng ).
3 Thông tin biến thiên: Các cột setting và các cảm biến (s1 đến s21) cho thấy nhiều biến
đổi liên tục trong các giá trị cảm biến, ta đoán sẽ có ảnh hưởng đến khả năng dự báo
Trang 52 Xử lý dữ liệu: Kiểm tra các giá trị thiếu, xử lý các dữ liệu không hợp lệ hoặc không đầy đủ,
và thực hiện chuẩn hóa nếu cần thiết
Kiểm tra kích thước các tệp dữ liệu
Thống kê tóm tắt :
1 count: Số lượng giá trị không thiếu trong cột.
2 mean: Giá trị trung bình của cột.
3 std: Độ lệch chuẩn, đo lường mức độ biến động của dữ liệu quanh giá trị trung bình.
4 min: Giá trị nhỏ nhất trong cột.
5 25% (Quartile 1): Phân vị thứ nhất, tức là 25% giá trị nhỏ nhất trong cột có giá trị dưới
mức này.
Trang 66 50% (Median): Phân vị thứ hai, hay trung vị, là giá trị ở giữa khi sắp xếp tất cả các giá
trị trong cột theo thứ tự.
7 75% (Quartile 3): Phân vị thứ ba, tức là 25% giá trị lớn nhất trong cột có giá trị trên
mức này.
8 max: Giá trị lớn nhất trong cột.
Ý nghĩa của các thống kê này:
count giúp đảm bảo rằng cột không có giá trị thiếu.
mean và std cho biết xu hướng và độ biến động chung của dữ liệu.
min, 25%, 50%, 75%, và max giúp hiểu được phân phối và độ lệch của dữ liệu, cho thấy
các điểm bất thường hoặc ngoại lai.
Trang 7Không có giá trị thiếu:
Trang 8So sánh sự phân bố:
Đa số các cột có sự phân bố tương tự giữa tập train và test, cho thấy rằng dữ liệu trong hai tập khá đồng nhất về mặt phân phối
Ý nghĩa:
1 Đánh giá tính tương đồng của dữ liệu huấn luyện và dữ liệu kiểm tra
Tính nhất quán của phân phối giữa hai tập dữ liệu (train và test) giúp đảm bảo rằng dữ
liệu kiểm tra có cùng đặc điểm với dữ liệu huấn luyện.
Nếu các phân phối khác nhau quá nhiều, mô hình có thể gặp khó khăn khi tổng quát hóa, dẫn đến khả năng giảm hiệu suất khi áp dụng trên dữ liệu kiểm tra Vì vậy, sự tương
Trang 9đồng phân phối là một dấu hiệu tốt cho thấy dữ liệu kiểm tra đại diện tốt cho dữ liệu huấn luyện, giúp mô hình dễ dự đoán hơn và ít bị sai lệch.
2 Phân tích đặc điểm của từng cột cảm biến và các thông số cấu hình
Cấu hình và cảm biến ổn định: Nếu các cột cảm biến (s1 đến s21) và các thông số cấu
hình (setting1, setting2, setting3) có phân phối tập trung trong một khoảng hẹp, điều đó cho thấy hoạt động của động cơ ổn định ở mức nhất định.
Cảnh báo về thay đổi đột ngột: Nếu có những cảm biến có phân phối lệch hoặc có các
giá trị khác biệt lớn, điều này có thể chỉ ra một sự thay đổi đột ngột trong hoạt động của động cơ Những cảm biến này có thể là tín hiệu tiềm năng cho dự báo hỏng hóc.
3 Giúp xác định các đặc trưng quan trọng
Phân tích phân phối có thể giúp xác định các cảm biến nào có sự thay đổi nhiều hơn theo thời gian Các cảm biến có sự biến thiên cao hơn hoặc có phân phối không đồng đều có thể là đặc trưng quan trọng để mô hình học được các dấu hiệu của hao mòn hoặc hỏng hóc.
Giảm số chiều dữ liệu: Nếu một số cảm biến không có sự thay đổi đáng kể trong cả hai
tập dữ liệu, chúng có thể không đóng góp nhiều vào mô hình và có thể được loại bỏ hoặc kết hợp, giúp đơn giản hóa mô hình.
4 Phát hiện dữ liệu ngoại lai (outliers)
Sự khác biệt giữa phân phối của tập train và test có thể cho thấy sự xuất hiện của dữ liệu ngoại lai trong tập test.
Những dữ liệu ngoại lai này có thể là những điểm dữ liệu quan trọng hoặc có thể là lỗi
đo lường Điều này giúp chúng ta xác định xem có cần xử lý đặc biệt cho những ngoại lệ này không.
Trang 103 Phân tích mối quan hệ giữa các đặc trưng: Tìm kiếm các đặc trưng có ảnh hưởng đến khả
năng hỏng của động cơ, dựa vào các thống kê và biểu đồ phân phối
Kiểm tra mối quan hệ tương quan giữa các cảm biến này để xác định nhóm cảm biến nào có thể
hỗ trợ dự đoán tốt nhất:
1 Tính toán ma trận tương quan giữa các cảm biến (s1 đến s21) trong tập train.csv.
2 Trực quan hóa ma trận tương quan bằng biểu đồ nhiệt để dễ dàng quan sát các cặp
cảm biến có mối quan hệ chặt chẽ nhất
3 Đánh giá các cặp cảm biến có tương quan cao (ví dụ, tương quan > 0.8) để xác định
nhóm cảm biến có thể cung cấp thông tin tương tự và có khả năng ảnh hưởng lớn đến dự đoán
Trang 11Một số quan sát từ ma trận tương quan này:
1 Các cặp cảm biến có tương quan cao: Một số cảm biến có mối quan hệ chặt chẽ (hệ số
tương quan lớn hơn 0.8), cho thấy các cặp này có xu hướng thay đổi cùng nhau Ví dụ:
o s2 và s3
o s4 và s5
o s11 và s12
2 Cảm biến ít tương quan: Một số cảm biến như s1, s6, và s15 có tương quan thấp với
hầu hết các cảm biến khác, cho thấy chúng có thể cung cấp thông tin độc lập về tình trạngcủa động cơ
3 Ý nghĩa trong mô hình: Các cảm biến có tương quan cao thường có thể bị giảm bớt
trong mô hình (chọn một đại diện cho cả nhóm cảm biến tương quan), giúp đơn giản hóa
mô hình mà không làm mất quá nhiều thông tin
Chọn lọc cảm biến để loại bỏ các cảm biến trùng lặp:
1 Xác định các nhóm cảm biến có tương quan cao: Xác định các cặp cảm biến có hệ số
tương quan lớn hơn 0.8 (hoặc một ngưỡng tương quan cao khác), từ đó chọn một đại diệntrong mỗi nhóm để loại bỏ các cảm biến trùng lặp
2 Chọn các cảm biến đại diện: Với mỗi nhóm cảm biến tương quan cao, tôi sẽ giữ lại một
cảm biến tiêu biểu và loại bỏ các cảm biến còn lại
3 Cập nhật tập dữ liệu: Tạo một tập dữ liệu đã giảm bớt số lượng cảm biến để chuẩn bị
cho bước tiếp theo trong quy trình xây dựng mô hình
Trang 12Tạo tập dữ liệu mới cho cả train.csv và test.csv, chỉ giữ lại các cảm biến đã được chọn lọc cùng với các thông tin bổ sung cần thiết như id, cycle, ttf, label_bnc, và label_mcc:
Thống kê tóm tắt, kiểm tra các giá trị thiếu, xử lý các dữ liệu không hợp lệ hoặc không đầy đủ trong tập dữ liệu mới:
Trang 13Không có giá trị thiếu trong cả hai tập dữ liệu train.csv và test.csv đã được chọn lọc, cho thấy dữ liệu hiện tại là đầy đủ.
Không có giá trị bất thường: Các cảm biến khác nằm trong khoảng giá trị hợp lý và không có dữ liệu nào nằm ngoài phạm vi kỳ vọng
Trang 14Phân tích hệ số tương quan giữa các cảm biến (s1 đến s21) với nhãn ttf và xem xét các giá trị cảm biến nào có hệ số tương quan cao, giúp xác định đặc trưng quan trọng nhất để dự đoán khả năng hỏng của động cơ.
Kết quả tương quan giữa các cảm biến và nhãn ttf cho thấy một số cảm biến có mối quan hệ chặt chẽ với khả năng hỏng của động cơ:
1 Cảm biến có tương quan dương cao với ttf:
s12 (0.67), s7 (0.66), s21 (0.64), và s20 (0.63) là các cảm biến có tương quan dương cao với ttf, cho thấy rằng khi các giá trị này tăng, thời gian còn lại trước khi hỏng cũng có xu hướng tăng
2 Cảm biến có tương quan âm cao với ttf:
s4 (-0.68), s11 (-0.70), s15 (-0.64), và s2 (-0.61) là những cảm biến có tương quan
âm mạnh với ttf, cho thấy khi các giá trị này tăng, thời gian còn lại trước khi động
cơ hỏng giảm đáng kể
3 Các cảm biến không có giá trị tương quan:
Một số cảm biến như s1, s5, s10, s16, s18, và s19 có giá trị tương quan NaN, nghĩa là chúng không có mối liên hệ rõ ràng với ttf hoặc giá trị của chúng không thay đổi trong tập dữ liệu
Biểu đồ phân phối cho một số cảm biến có tương quan cao với ttf để dễ dàng quan sát và hiểu rõ hơn về mối quan hệ giữa chúng và khả năng hỏng của động cơ:
Trang 15Các biểu đồ trên thể hiện mối quan hệ giữa thời gian còn lại trước khi hỏng (TTF) và các cảm biến có tương quan cao nhất:
Cảm biến có tương quan dương cao với ttf: s12, s7, s21, và s20 có xu hướng tăng khi
ttf tăng Điều này cho thấy khi các giá trị cảm biến này cao hơn, thời gian còn lại trước khi hỏng của động cơ có xu hướng dài hơn
Cảm biến có tương quan âm cao với ttf: s4, s11, s15, và s2 có xu hướng giảm khi ttf
tăng, nghĩa là khi các giá trị này cao, động cơ có xu hướng hỏng nhanh hơn
Trang 16Phân tích mối quan hệ giữa các cảm biến và nhãn phân loại label_bnc và label_mcc:
Trang 17Kết quả tính toán hệ số tương quan giữa các cảm biến và nhãn label_bnc và label_mcc cho thấy:
1 Cảm biến có tương quan dương cao với label_bnc và label_mcc:
o s11, s4, s15, s17, s2, s3 có tương quan dương đáng kể với cả hai nhãn, nghĩa là khi các cảm biến này tăng, khả năng động cơ rơi vào trạng thái hỏng cũng tăng
2 Cảm biến có tương quan âm cao với label_bnc và label_mcc:
o s20, s21, s7, và s12 có tương quan âm với cả hai nhãn, cho thấy khi các giá trị cảm biến này tăng, khả năng hỏng của động cơ giảm
Trang 18Biểu đồ phân phối cho một số cảm biến có tương quan cao nhất với label_bnc và label_mcc để
dễ dàng quan sát và xác định các đặc trưng quan trọng cho mô hình phân loại:
Trang 19Biểu đồ trên minh họa sự phân phối của một số cảm biến có tương quan cao với nhãn label_bnc Các cảm biến như s11, s4, và s15 có giá trị cao hơn rõ rệt khi label_bnc = 1 (trạng thái hỏng), trong khi các cảm biến như s20, s21, và s7 lại có giá trị thấp hơn khi động cơ ở trạng thái hỏng.
Trang 20Biểu đồ trên minh họa sự phân phối của một số cảm biến có tương quan cao với nhãn label_mcc.Các cảm biến như s11, s4, và s15 có xu hướng giá trị cao hơn khi label_mcc = 1 (hoặc các trạng thái hỏng cụ thể), trong khi các cảm biến như s20, s21, và s7 có giá trị thấp hơn trong trường hợphỏng.
Trang 21Chọn các mô hình Logistic Regression, Random Forest, và Gradient Boosting là một chiến lược hợp lý trong các bài toán phân loại và hồi quy, bởi vì mỗi mô hình có đặc điểm riêng, giúp phân tích dữ liệu từ nhiều góc độ khác nhau Đây là lý do cụ thể cho từng mô hình:
1 Logistic Regression
Tính đơn giản và dễ hiểu: Logistic Regression là một mô hình tuyến tính đơn giản
nhưng rất mạnh mẽ cho các bài toán phân loại nhị phân Nó giúp hiểu rõ mối quan hệ tuyến tính giữa các đặc trưng đầu vào và khả năng dự đoán kết quả, đặc biệt là với label_bnc (có thể có hai trạng thái như "hỏng" và "không hỏng")
Giải thích được các đặc trưng: Hệ số của các đặc trưng trong Logistic Regression có
thể diễn giải dễ dàng, giúp bạn hiểu tác động của từng đặc trưng đến kết quả dự đoán
2 Random Forest
Khả năng tổng quát hóa tốt: Random Forest là mô hình dựa trên tập hợp cây quyết
định, giúp khắc phục vấn đề quá khớp (overfitting) nhờ cơ chế trung bình kết quả từ nhiều cây khác nhau Điều này đặc biệt hữu ích khi dữ liệu có nhiều biến hoặc nhiều mức
độ của label_mcc
Khả năng xử lý đặc trưng phi tuyến: Mô hình Random Forest xử lý tốt các mối quan
hệ phi tuyến và không yêu cầu các đặc trưng phải tuyến tính như Logistic Regression
Độ chính xác cao: Đối với các bài toán phân loại đa lớp hoặc hồi quy như ttf, Random
Forest thường cho kết quả chính xác cao
3 Gradient Boosting
Hiệu suất cao cho các dữ liệu phức tạp: Gradient Boosting xây dựng một chuỗi các cây
quyết định, mỗi cây sẽ tập trung vào các lỗi mà cây trước đó chưa giải quyết tốt Điều này giúp Gradient Boosting rất hiệu quả trong việc dự đoán chính xác các kết quả phân loại phức tạp và hồi quy như ttf
Thích hợp cho tối ưu hóa và điều chỉnh: Gradient Boosting dễ dàng điều chỉnh tham số
và thường đạt hiệu suất cao trong các bài toán phân loại và hồi quy
Khả năng dự báo mạnh mẽ: Với dữ liệu có nhiều nhiễu và mối quan hệ phức tạp,
Gradient Boosting thường vượt trội hơn so với các mô hình khác
Tóm lại
Mỗi mô hình mang lại những lợi ích riêng:
Logistic Regression cung cấp tính đơn giản và dễ hiểu.
Random Forest có khả năng tổng quát tốt và xử lý phi tuyến hiệu quả.
Gradient Boosting đem lại hiệu suất cao và khả năng xử lý các bài toán phức tạp.