1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Báo cáo dự Án mô hình dự báo khả năng hỏng của Động cơ

22 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Mô hình dự báo khả năng hỏng của động cơ
Tác giả Lê Cao Trí, Ngô Thị Thu Hạnh, Trần Huy Hoàng, Nguyễn Tấn Hưng, Nguyễn Ngọc Nguyên
Thể loại Báo cáo dự án
Định dạng
Số trang 22
Dung lượng 1,84 MB

Nội dung

Phân tích mối quan hệ giữa các đặc trưng: Tìm kiếm các đặc trưng có ảnh hưởng đến khả năng hỏng của động cơ, dựa vào các thống kê và biểu đồ phân phối..  Ví dụ: Nếu dự án của bạn là dự

Trang 1

BÁO CÁO DỰ ÁN

MÔ HÌNH DỰ BÁO KHẢ NĂNG HỎNG CỦA ĐỘNG CƠNhóm thực hiện : Lê Cao Trí

Ngô Thị Thu HạnhTrần Huy HoàngNguyễn Tấn HưngNguyễn Ngọc Nguyên

Trang 2

I GIỚI THIỆU:

Database: Dữ liệu thông tin thu thập được từ các bộ cảm biến của các động cơ

Yêu cầu: Phân tích, đánh giá dũ liệu đã có đưa ra mô hình dự báo khả năng hỏng của động

Kết quả: Mô hình học máy với dữ liệu đầu vào là thông tin liên quan đến các động cơ, mô

hình sẽ cho biết khả năng hỏng của động cơ

II TIẾN TRÌNH THỰC HIỆN:

1 Phân tích dữ liệu: Kiểm tra nội dung của hai tệp dữ liệu train.csv và test.csv để hiểu

các thông tin được thu thập từ cảm biến

2 Xử lý dữ liệu: Kiểm tra các giá trị thiếu, xử lý các dữ liệu không hợp lệ hoặc không

đầy đủ, và thực hiện chuẩn hóa nếu cần thiết

3 Phân tích mối quan hệ giữa các đặc trưng: Tìm kiếm các đặc trưng có ảnh hưởng

đến khả năng hỏng của động cơ, dựa vào các thống kê và biểu đồ phân phối

4 Xây dựng mô hình dự báo: Sử dụng các thuật toán học máy (như Logistic

Regression, Random Forest, SVM hoặc các mạng neuron) để dự báo khả năng hỏng của động cơ

5 Đánh giá mô hình: Sử dụng các chỉ số như độ chính xác, độ nhạy, độ đặc hiệu, và

F1-score để đánh giá mô hình

III BÁO CÁO:

1 Phân tích dữ liệu:

Đầu tiên, dùng pandas để đọc tệp train.csv và lưu vào biến train_data DataFrame này sẽ chứa toàn bộ dữ liệu huấn luyện từ tệp CSV với các hàng và cột tương ứng

Tương tự, đọc tệp test.csv và lưu vào biến test_data DataFrame này chứa dữ liệu kiểm tra (test)

để sử dụng cho dự báo hoặc kiểm tra mô hình

( Dữ liệu Huấn luyện (Training Data)

Định nghĩa: Đây là tập dữ liệu mà mô hình sử dụng để học Nó bao gồm cả đầu vào (features) và đầu ra mong muốn (labels hoặc targets).

Mục tiêu: Mô hình sẽ tìm ra các mẫu, quan hệ và quy luật từ dữ liệu huấn luyện để có thể đưa ra dự đoán chính xác Các thuật toán học máy điều chỉnh các tham số dựa trên dữ liệu này.

Ví dụ: Nếu dự án của bạn là dự báo khả năng hỏng của động cơ, thì dữ liệu huấn luyện

sẽ bao gồm các thông tin từ cảm biến và nhãn cho biết liệu động cơ có bị hỏng hay không hoặc thời gian còn lại trước khi động cơ hỏng.

Dữ liệu Kiểm tra (Testing Data)

Trang 3

Định nghĩa: Đây là tập dữ liệu độc lập được sử dụng để đánh giá hiệu suất của mô hình sau khi đã được huấn luyện Dữ liệu kiểm tra cũng bao gồm đầu vào và nhãn mong muốn nhưng không được dùng trong quá trình huấn luyện.

Mục tiêu: Kiểm tra xem mô hình có thể tổng quát hóa tốt không, nghĩa là nó có thể đưa

ra dự đoán chính xác cho dữ liệu mới mà nó chưa từng thấy trong quá trình huấn luyện.

Ví dụ: Trong dự án dự báo hỏng động cơ, dữ liệu kiểm tra sẽ bao gồm các cảm biến và nhãn, cho phép bạn kiểm tra xem mô hình có thể dự báo chính xác trạng thái của động

cơ trên dữ liệu mới hay không.

Tóm lại, dữ liệu huấn luyện là để mô hình học, còn dữ liệu kiểm tra là để đánh giá xem mô hình

đã học tốt đến mức nào )

Trang 4

Thông qua tìm hiểu, quan sát, dữ liệu gồm các thông tin sau:

1 Cấu trúc: Cả tập train.csv và test.csv đều có 71 cột, bao gồm các giá trị đo lường từ cảm

biến (s1 đến s21), các chỉ số trung bình (av1 đến av21), và độ lệch chuẩn (sd1 đến sd21) cùng với các cột cấu hình khác như setting1, setting2, setting3, cột cycle trong dữ liệu biểu diễn số lượng chu kỳ hoạt động của động cơ từ khi nó bắt đầu hoạt động đến thời điểm hiện tại của bản ghi dữ liệu

2 Cột mục tiêu: Cột ttf đại diện cho số chu kỳ còn lại trước khi động cơ hỏng, trong khi

label_bnc và label_mcc có thể đại diện cho nhãn liên quan đến tình trạng hỏng của động

cơ (ví dụ, hỏng hay không hỏng)

Tuy nhiên, bởi vì test.csv có sẵn các nhãn này, chúng sẽ được dùng để đánh giá mức độ chính xác của mô hình sau khi dự đoán

(Sau khi xây dựng mô hình, chúng ta sẽ sử dụng test.csv để nhập vào mô hình đã được huấn luyện nhằm dự đoán khả năng hỏng của động cơ Kết quả dự đoán sẽ được so sánh với nhãn có sẵn (nếu có) trong test.csv để đánh giá độ chính xác của mô hình.)

( ttf thường là viết tắt của Time to Failure, tức là thời gian còn lại trước khi hỏng Cột này đại diện cho số chu kỳ còn lại trước khi động cơ gặp sự cố hoặc cần bảo trì Đây là một biến mục tiêu phổ biến trong các bài toán dự đoán hỏng hóc.

label_bnc và label_mcc:

bnc có thể là viết tắt của Binary Classification, tức là phân loại nhị phân Cột label_bnc thường biểu thị một nhãn cho biết động cơ có đang ở trạng thái hỏng (1) hoặc không hỏng (0), sử dụng phân loại nhị phân.

mcc có thể là viết tắt của Multi-Class Classification, tức là phân loại đa lớp Cột

label_mcc có thể đại diện cho nhãn phân loại theo nhiều cấp độ của tình trạng động cơ, chẳng hạn như mức độ hỏng hóc khác nhau (như bình thường, cảnh báo, nghiêm trọng ).

3 Thông tin biến thiên: Các cột setting và các cảm biến (s1 đến s21) cho thấy nhiều biến

đổi liên tục trong các giá trị cảm biến, ta đoán sẽ có ảnh hưởng đến khả năng dự báo

Trang 5

2 Xử lý dữ liệu: Kiểm tra các giá trị thiếu, xử lý các dữ liệu không hợp lệ hoặc không đầy đủ,

và thực hiện chuẩn hóa nếu cần thiết

Kiểm tra kích thước các tệp dữ liệu

Thống kê tóm tắt :

1 count: Số lượng giá trị không thiếu trong cột.

2 mean: Giá trị trung bình của cột.

3 std: Độ lệch chuẩn, đo lường mức độ biến động của dữ liệu quanh giá trị trung bình.

4 min: Giá trị nhỏ nhất trong cột.

5 25% (Quartile 1): Phân vị thứ nhất, tức là 25% giá trị nhỏ nhất trong cột có giá trị dưới

mức này.

Trang 6

6 50% (Median): Phân vị thứ hai, hay trung vị, là giá trị ở giữa khi sắp xếp tất cả các giá

trị trong cột theo thứ tự.

7 75% (Quartile 3): Phân vị thứ ba, tức là 25% giá trị lớn nhất trong cột có giá trị trên

mức này.

8 max: Giá trị lớn nhất trong cột.

Ý nghĩa của các thống kê này:

count giúp đảm bảo rằng cột không có giá trị thiếu.

mean và std cho biết xu hướng và độ biến động chung của dữ liệu.

min, 25%, 50%, 75%, và max giúp hiểu được phân phối và độ lệch của dữ liệu, cho thấy

các điểm bất thường hoặc ngoại lai.

Trang 7

Không có giá trị thiếu:

Trang 8

So sánh sự phân bố:

Đa số các cột có sự phân bố tương tự giữa tập train và test, cho thấy rằng dữ liệu trong hai tập khá đồng nhất về mặt phân phối

Ý nghĩa:

1 Đánh giá tính tương đồng của dữ liệu huấn luyện và dữ liệu kiểm tra

Tính nhất quán của phân phối giữa hai tập dữ liệu (train và test) giúp đảm bảo rằng dữ

liệu kiểm tra có cùng đặc điểm với dữ liệu huấn luyện.

Nếu các phân phối khác nhau quá nhiều, mô hình có thể gặp khó khăn khi tổng quát hóa, dẫn đến khả năng giảm hiệu suất khi áp dụng trên dữ liệu kiểm tra Vì vậy, sự tương

Trang 9

đồng phân phối là một dấu hiệu tốt cho thấy dữ liệu kiểm tra đại diện tốt cho dữ liệu huấn luyện, giúp mô hình dễ dự đoán hơn và ít bị sai lệch.

2 Phân tích đặc điểm của từng cột cảm biến và các thông số cấu hình

Cấu hình và cảm biến ổn định: Nếu các cột cảm biến (s1 đến s21) và các thông số cấu

hình (setting1, setting2, setting3) có phân phối tập trung trong một khoảng hẹp, điều đó cho thấy hoạt động của động cơ ổn định ở mức nhất định.

Cảnh báo về thay đổi đột ngột: Nếu có những cảm biến có phân phối lệch hoặc có các

giá trị khác biệt lớn, điều này có thể chỉ ra một sự thay đổi đột ngột trong hoạt động của động cơ Những cảm biến này có thể là tín hiệu tiềm năng cho dự báo hỏng hóc.

3 Giúp xác định các đặc trưng quan trọng

Phân tích phân phối có thể giúp xác định các cảm biến nào có sự thay đổi nhiều hơn theo thời gian Các cảm biến có sự biến thiên cao hơn hoặc có phân phối không đồng đều có thể là đặc trưng quan trọng để mô hình học được các dấu hiệu của hao mòn hoặc hỏng hóc.

Giảm số chiều dữ liệu: Nếu một số cảm biến không có sự thay đổi đáng kể trong cả hai

tập dữ liệu, chúng có thể không đóng góp nhiều vào mô hình và có thể được loại bỏ hoặc kết hợp, giúp đơn giản hóa mô hình.

4 Phát hiện dữ liệu ngoại lai (outliers)

Sự khác biệt giữa phân phối của tập train và test có thể cho thấy sự xuất hiện của dữ liệu ngoại lai trong tập test.

Những dữ liệu ngoại lai này có thể là những điểm dữ liệu quan trọng hoặc có thể là lỗi

đo lường Điều này giúp chúng ta xác định xem có cần xử lý đặc biệt cho những ngoại lệ này không.

Trang 10

3 Phân tích mối quan hệ giữa các đặc trưng: Tìm kiếm các đặc trưng có ảnh hưởng đến khả

năng hỏng của động cơ, dựa vào các thống kê và biểu đồ phân phối

Kiểm tra mối quan hệ tương quan giữa các cảm biến này để xác định nhóm cảm biến nào có thể

hỗ trợ dự đoán tốt nhất:

1 Tính toán ma trận tương quan giữa các cảm biến (s1 đến s21) trong tập train.csv.

2 Trực quan hóa ma trận tương quan bằng biểu đồ nhiệt để dễ dàng quan sát các cặp

cảm biến có mối quan hệ chặt chẽ nhất

3 Đánh giá các cặp cảm biến có tương quan cao (ví dụ, tương quan > 0.8) để xác định

nhóm cảm biến có thể cung cấp thông tin tương tự và có khả năng ảnh hưởng lớn đến dự đoán

Trang 11

Một số quan sát từ ma trận tương quan này:

1 Các cặp cảm biến có tương quan cao: Một số cảm biến có mối quan hệ chặt chẽ (hệ số

tương quan lớn hơn 0.8), cho thấy các cặp này có xu hướng thay đổi cùng nhau Ví dụ:

o s2 và s3

o s4 và s5

o s11 và s12

2 Cảm biến ít tương quan: Một số cảm biến như s1, s6, và s15 có tương quan thấp với

hầu hết các cảm biến khác, cho thấy chúng có thể cung cấp thông tin độc lập về tình trạngcủa động cơ

3 Ý nghĩa trong mô hình: Các cảm biến có tương quan cao thường có thể bị giảm bớt

trong mô hình (chọn một đại diện cho cả nhóm cảm biến tương quan), giúp đơn giản hóa

mô hình mà không làm mất quá nhiều thông tin

Chọn lọc cảm biến để loại bỏ các cảm biến trùng lặp:

1 Xác định các nhóm cảm biến có tương quan cao: Xác định các cặp cảm biến có hệ số

tương quan lớn hơn 0.8 (hoặc một ngưỡng tương quan cao khác), từ đó chọn một đại diệntrong mỗi nhóm để loại bỏ các cảm biến trùng lặp

2 Chọn các cảm biến đại diện: Với mỗi nhóm cảm biến tương quan cao, tôi sẽ giữ lại một

cảm biến tiêu biểu và loại bỏ các cảm biến còn lại

3 Cập nhật tập dữ liệu: Tạo một tập dữ liệu đã giảm bớt số lượng cảm biến để chuẩn bị

cho bước tiếp theo trong quy trình xây dựng mô hình

Trang 12

Tạo tập dữ liệu mới cho cả train.csv và test.csv, chỉ giữ lại các cảm biến đã được chọn lọc cùng với các thông tin bổ sung cần thiết như id, cycle, ttf, label_bnc, và label_mcc:

Thống kê tóm tắt, kiểm tra các giá trị thiếu, xử lý các dữ liệu không hợp lệ hoặc không đầy đủ trong tập dữ liệu mới:

Trang 13

Không có giá trị thiếu trong cả hai tập dữ liệu train.csv và test.csv đã được chọn lọc, cho thấy dữ liệu hiện tại là đầy đủ.

Không có giá trị bất thường: Các cảm biến khác nằm trong khoảng giá trị hợp lý và không có dữ liệu nào nằm ngoài phạm vi kỳ vọng

Trang 14

Phân tích hệ số tương quan giữa các cảm biến (s1 đến s21) với nhãn ttf và xem xét các giá trị cảm biến nào có hệ số tương quan cao, giúp xác định đặc trưng quan trọng nhất để dự đoán khả năng hỏng của động cơ.

Kết quả tương quan giữa các cảm biến và nhãn ttf cho thấy một số cảm biến có mối quan hệ chặt chẽ với khả năng hỏng của động cơ:

1 Cảm biến có tương quan dương cao với ttf:

s12 (0.67), s7 (0.66), s21 (0.64), và s20 (0.63) là các cảm biến có tương quan dương cao với ttf, cho thấy rằng khi các giá trị này tăng, thời gian còn lại trước khi hỏng cũng có xu hướng tăng

2 Cảm biến có tương quan âm cao với ttf:

s4 (-0.68), s11 (-0.70), s15 (-0.64), và s2 (-0.61) là những cảm biến có tương quan

âm mạnh với ttf, cho thấy khi các giá trị này tăng, thời gian còn lại trước khi động

cơ hỏng giảm đáng kể

3 Các cảm biến không có giá trị tương quan:

Một số cảm biến như s1, s5, s10, s16, s18, và s19 có giá trị tương quan NaN, nghĩa là chúng không có mối liên hệ rõ ràng với ttf hoặc giá trị của chúng không thay đổi trong tập dữ liệu

Biểu đồ phân phối cho một số cảm biến có tương quan cao với ttf để dễ dàng quan sát và hiểu rõ hơn về mối quan hệ giữa chúng và khả năng hỏng của động cơ:

Trang 15

Các biểu đồ trên thể hiện mối quan hệ giữa thời gian còn lại trước khi hỏng (TTF) và các cảm biến có tương quan cao nhất:

Cảm biến có tương quan dương cao với ttf: s12, s7, s21, và s20 có xu hướng tăng khi

ttf tăng Điều này cho thấy khi các giá trị cảm biến này cao hơn, thời gian còn lại trước khi hỏng của động cơ có xu hướng dài hơn

Cảm biến có tương quan âm cao với ttf: s4, s11, s15, và s2 có xu hướng giảm khi ttf

tăng, nghĩa là khi các giá trị này cao, động cơ có xu hướng hỏng nhanh hơn

Trang 16

Phân tích mối quan hệ giữa các cảm biến và nhãn phân loại label_bnc và label_mcc:

Trang 17

Kết quả tính toán hệ số tương quan giữa các cảm biến và nhãn label_bnc và label_mcc cho thấy:

1 Cảm biến có tương quan dương cao với label_bnc và label_mcc:

o s11, s4, s15, s17, s2, s3 có tương quan dương đáng kể với cả hai nhãn, nghĩa là khi các cảm biến này tăng, khả năng động cơ rơi vào trạng thái hỏng cũng tăng

2 Cảm biến có tương quan âm cao với label_bnc và label_mcc:

o s20, s21, s7, và s12 có tương quan âm với cả hai nhãn, cho thấy khi các giá trị cảm biến này tăng, khả năng hỏng của động cơ giảm

Trang 18

Biểu đồ phân phối cho một số cảm biến có tương quan cao nhất với label_bnc và label_mcc để

dễ dàng quan sát và xác định các đặc trưng quan trọng cho mô hình phân loại:

Trang 19

Biểu đồ trên minh họa sự phân phối của một số cảm biến có tương quan cao với nhãn label_bnc Các cảm biến như s11, s4, và s15 có giá trị cao hơn rõ rệt khi label_bnc = 1 (trạng thái hỏng), trong khi các cảm biến như s20, s21, và s7 lại có giá trị thấp hơn khi động cơ ở trạng thái hỏng.

Trang 20

Biểu đồ trên minh họa sự phân phối của một số cảm biến có tương quan cao với nhãn label_mcc.Các cảm biến như s11, s4, và s15 có xu hướng giá trị cao hơn khi label_mcc = 1 (hoặc các trạng thái hỏng cụ thể), trong khi các cảm biến như s20, s21, và s7 có giá trị thấp hơn trong trường hợphỏng.

Trang 21

Chọn các mô hình Logistic Regression, Random Forest, và Gradient Boosting là một chiến lược hợp lý trong các bài toán phân loại và hồi quy, bởi vì mỗi mô hình có đặc điểm riêng, giúp phân tích dữ liệu từ nhiều góc độ khác nhau Đây là lý do cụ thể cho từng mô hình:

1 Logistic Regression

Tính đơn giản và dễ hiểu: Logistic Regression là một mô hình tuyến tính đơn giản

nhưng rất mạnh mẽ cho các bài toán phân loại nhị phân Nó giúp hiểu rõ mối quan hệ tuyến tính giữa các đặc trưng đầu vào và khả năng dự đoán kết quả, đặc biệt là với label_bnc (có thể có hai trạng thái như "hỏng" và "không hỏng")

Giải thích được các đặc trưng: Hệ số của các đặc trưng trong Logistic Regression có

thể diễn giải dễ dàng, giúp bạn hiểu tác động của từng đặc trưng đến kết quả dự đoán

2 Random Forest

Khả năng tổng quát hóa tốt: Random Forest là mô hình dựa trên tập hợp cây quyết

định, giúp khắc phục vấn đề quá khớp (overfitting) nhờ cơ chế trung bình kết quả từ nhiều cây khác nhau Điều này đặc biệt hữu ích khi dữ liệu có nhiều biến hoặc nhiều mức

độ của label_mcc

Khả năng xử lý đặc trưng phi tuyến: Mô hình Random Forest xử lý tốt các mối quan

hệ phi tuyến và không yêu cầu các đặc trưng phải tuyến tính như Logistic Regression

Độ chính xác cao: Đối với các bài toán phân loại đa lớp hoặc hồi quy như ttf, Random

Forest thường cho kết quả chính xác cao

3 Gradient Boosting

Hiệu suất cao cho các dữ liệu phức tạp: Gradient Boosting xây dựng một chuỗi các cây

quyết định, mỗi cây sẽ tập trung vào các lỗi mà cây trước đó chưa giải quyết tốt Điều này giúp Gradient Boosting rất hiệu quả trong việc dự đoán chính xác các kết quả phân loại phức tạp và hồi quy như ttf

Thích hợp cho tối ưu hóa và điều chỉnh: Gradient Boosting dễ dàng điều chỉnh tham số

và thường đạt hiệu suất cao trong các bài toán phân loại và hồi quy

Khả năng dự báo mạnh mẽ: Với dữ liệu có nhiều nhiễu và mối quan hệ phức tạp,

Gradient Boosting thường vượt trội hơn so với các mô hình khác

Tóm lại

Mỗi mô hình mang lại những lợi ích riêng:

Logistic Regression cung cấp tính đơn giản và dễ hiểu.

Random Forest có khả năng tổng quát tốt và xử lý phi tuyến hiệu quả.

Gradient Boosting đem lại hiệu suất cao và khả năng xử lý các bài toán phức tạp.

Ngày đăng: 11/11/2024, 20:52

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w