Dữ liệu rung động được thu thập đối với tải động cơ từ 0 w đến 500W với tốc độ vòng động cơ từ 1356 đến 1484 vòng/phút.
Như vậy, bộ dữ liệu bao gồm 27 tệp dữ liệu, được chia thành 3 nhóm NO (bình thường), IR (Lỗi vịng trong), OR (Lỗi vịng ngồi).Trong mỗi nhóm, dữ liệu được chia thành tệp dữ liệu nhỏ dựa theo kích thước lỗi trên vịng bi và giá trị tải trọng hoạt động. Đối với tên của tệp dữ liệu, chữ cái đầu tiên là trạng thái vòng bi, ba số tiếp theo biểu thị đường kính lỗi và số cuối cùng biểu thị tải trọng. Ví dụ tệp dữ liệu IR002_105 chứa lỗi vịng trong, có đường kính lỗi là 0,2 mm và được vận hành dưới tải 500 W.
48
Bảng 3-1: Bộ dữ liệu rung động
Trạng thái vòng bi
Kích thước lỗi Trạng thái tải trọng Tệp dữ liệu
Bình thường 0 mm 0 W NO_100 250 W NO_102 500 W NO_105 Lỗi vịng ngồi 0,2 mm 0 W OR002_100 250 W OR002_102 500 W OR002_105 0,6 mm 0 W OR006_100 250 W OR006_102 500 W OR006_105 1 mm 0 W OR010_100 250 W OR010_102 500 W OR010_105 1,5 mm 0 W OR015_100 250 W OR015_102 500 W OR015_105 Lỗi vòng trong 0,2 mm 0 W IR002_100 250 W IR002_102 500 W IR002_105 0,6 mm 0 W IR006_100 250 W IR006_102 500 W IR006_105 1 mm 0 W IR010_100 250 W IR010_102 500 W IR010_105 1,5 mm 0 W IR015_100 250 W IR015_102 500 W IR015_105
Sau khi tạo được bộ dữ liệu về lỗi vòng bi, để phục vụ cho bài toán học sâu ta chuyển đổi dữ liệu sang dạng ảnh. Từ ảnh phổ thu được bằng phép biến đổi STFT, ta sẽ chia nhỏ thành các ảnh với kích thước nhỏ hơn để tăng số lượng ảnh trong dữ liệu.Ta sẽ tính tốn số lượng ảnh thu được qua mỗi mẫu lỗi của bộ dữ liệu.
49 -Với bốn tốc độ của động cơ sử dụng để lấy tín hiệu, ta thấy tần số thấp nhất ứng với tốc độ động cơ nhỏ nhất (Khơng tính lỗi tại lồng của vịng bi).
-Số mẫu trong một cửa sổ với tốc độ lấy mẫu bằng 12000Hz là:
(điểm)
-Tần số lỗi có thể sai lệch từ 1-2%, do đó trong đồ án này, ta tính theo tỉ lệ sai lệch là 2%. Khi đó, số mẫu trong một cửa sổ (độ dày của hàm cửa sổ) là:
n=577*1.02= 577(điểm)
-Do phép tính FFT tối ưu khi số lượng mẫu N = 2s (S > 0), do đó em lựa chọn độ dài của hàm cửa sổ là 1024 điểm. Với tỉ lệ chồng lấn là 75%, ta có số lượng mẫu bị chồng lấn là:
overlap = 1024*75%=768 (điểm) -Độ dài bước nhảy là:
hop = n – overlap = 1024 – 768 = 256 (điểm) -Số điểm dữ liệu sinh ra từ phép biến đổi STFT:
Số điểm dữ liệu = (Tổng số mẫu-độ dài hàm cửa sổ)/ hop +1=499 -Tần số lỗi xuất hiện là 76,5 Hz và 121,8 Hz
-Hình ảnh được nhận từ phép biến đổi STFT nên có độ dài là 1 chu kỳ lỗi để có thể bao hàm các đặc tính tần số của dữ liệu. Số điểm dữ liệu ứng với 1 chu kỳ xuất hiện lỗi là:
Vậy mỗi ảnh được trích xuất sẽ bao gồm 5 điểm dữ liệu từ phép biến đổi STFT. Mỗi ảnh sẽ được tạo ra bằng cách dịch chuyển 2 điểm dữ liệu trên tập dữ liệu để só được mối quan hệ về thời gian giữa các ảnh thu được
50
Bảng 3-2: Số lượng ảnh lấy từ phép biến đổi STFT
Dữ liệu chuyển về dưới dạng ảnh phổ năng lượng theo thời gian và tần số được sắp xếp vào các nhóm lỗi ban đầu.
Hình 3-11: Ảnh phổ lỗi vịng trong a) Tải 0W b) Tải 250W c) Tải 500W
Vị trí lỗi Tốc độ Số mẫu Số ảnh Rãnh trong 1481 128000 247 1436 128000 247 1356 128000 247 Rãnh ngoài 1481 128000 247 1436 128000 247 1356 128000 247 Bình thường 1481 128000 247 1436 128000 247 1356 128000 247
51
Hình 3-12:Ảnh phổ bình thường a) Tải 0W b) Tải 250W c) Tải 500W
52 Số lượng ảnh thu được cho mỗi lỗi động cơ là 247 ảnh, tổng số mẫu ảnh là 2223 ảnh. Sau đó tập dữ liệu được phân loại ngẫu nhiên thành tập dữ liệu đào tạo vào tập dữ liệu kiểm tra theo tỷ lệ 8:2. Trong đó, số lượng ảnh được dùng để huấn luyện là 1778 ảnh và số ảnh được dùng để kiểm tra là 445 ảnh.
3.5 Áp dụng phương pháp học sâu để chẩn đốn lỗi vịng bi
Sau khi đã tìm hiểu về mạng Nơron tích chập, tác giả đề xuất mơ hình mạng Nơron để phục vụ cho việc xử lý dữ liệu. Mơ hình được xây dựng dự trên phép tính Depthwise Separable Convolution mơ hình Mobile Net và kiến trúc mạng Lenet 5 để giảm kích thước và độ phức tạp của thuật tốn.
A. Phép tính Depthwise Separable Convolution
Trước khi hiểu về DSC chúng ta cùng nhắc lại một chút về Convolution. Convolution ta có thể đơn giản nó là một cữa sổ trượt trên một ma trận, các lớp Convolution có các parameter (Kernel Matrix) sẽ tiến hành tính tốn và đưa ra các giá trị đặc trưng nhờ đó có thể trích suất các điểm đặc trưng và giảm chiều tính tốn.
Hình 3-14: Hình ảnh phép tích chập thơng thường
Trên là hình ảnh của mơt kernel. Ta thấy một hình ảnh bình thường (2D) có 3 chiều tương ứng với các thông số (h,w,c), h là chiều cao, w là chiều dài, c là chiều sâu. Một kernel bình thường gồm (k,k,c) (k là độ lớn, c là chiều sâu ảnh).
Xét trên một kernel, độ phức tạp tính tốn sẽ (h′×w′) × (k×k×c) (Với h′,w′ là chiều của feature map sau khi quét qua tất cả h và w). Vì thực tế chúng ta có nhiều kernel nên độ phức tạp sẽ là:
(h′×w′×c′) ×(k×k×c) (với c′ là số kernel)
Như chúng ta thấy độ phực tạp tính tốn trên khá lớn, khó có thể áp dụng vào những dự án trên các thiết bị nhỏ gọn như Smartphone hay máy tính nhúng.
Do đó, ta hay sử dụng kỹ thuật Separable Convolutions, một kỹ thuật mới vô cùng mạnh mẽ giúp giảm lượng tham số mơ hình trong mạng CNN mà vẫn đáp ứng đẩy đủ các yêu cầu trong việc học các features của ảnh. Với separable convolutions, chúng ta có thể hướng đến việc giải quyết các bài toán realtime khả thi hơn rất nhiều so với các mơ hình mạng CNN truyền thống.
Kỹ thuật Separable Convolutions được chia thành 2 loại chính là Spatial Separable Convolutionsvà Depthwise Separable Convolution.
53 Đầu tiên, ta sẽ nói về phép tính Spatial Separable Convolutions.Ý tưởng của phép tính là chia 1 convolution thành 2 bước thay vì một như trước, giúp giảm lượng phép tính cần phải thực hiện. Trong tích chập thơng thường, nếu chúng ta có sử dụng kernel 3 x 3 cho 1 lớp tích chập thì trong phép tính Spatial Separable Convolutions,ta có thể chia kernel 3 x 3 thành 2 kernel 3 x 1 và kernel 1 x 3. Sau đó, trong Spatial Separable Convolutions, đầu tiên chúng ta thực hiện phép tích chập với kernel 3 x 1 rồi đến kernel 1 x 3. Điều này yêu cầu 6 thay vì 9 tham số so với tích chập thơng thường, và do đó, tham số hiệu quả hơn (yêu cầu thêm ít phép nhân ma trận hơn).
Hình 3-15: Hình ảnh minh họa phép tính Spatial Separable Convolutions
Tuy nhiên, vấn đề chính đối với Spatial Separable Convolutions đó là khơng phải tất cả kernel đều có thể chia thành 2 kernel nhỏ hơn, dẫn đến khó khăn trong q trình chúng ta huấn luyện. Đó là lý do vì sao nó khơng được sử dụng nhiều trong Deep Learning.Từ đó người ta đã xây dựng, phát triển lên phép tính Depthwise Separable Convolution dựa trên cơ sở của Spatial Separable Convolutions
Không giống Spatial Separable Convolutions, Depthwise Separable Convolution hoạt động được với các kernel không thể chia thành các kernel nhỏ hơn.Ý tưởng của Depthwise Separable Convolution [15] là chia phép convolution làm 2 phần: Depthwise Convolution và Pointwise convolution.
Depthwise convolution là một loại tích chập trong đó chúng ta áp dụng một bộ lọc tích chập duy nhất cho mỗi kênh đầu vào. Trong phép tích chập 2D thơng thường được thực hiện trên nhiều kênh đầu vào, bộ lọc cũng sâu như đầu vào và cho phép chúng ta tự do trộn các kênh để tạo ra từng phần tử trong đầu ra. Ngược lại, sự biến đổi theo chiều sâu giữ cho mỗi kênh riêng biệt. Các bước thực hiện:
- Tách đầu vào và lọc thành các kênh.
- Chuyển đổi từng đầu vào với bộ lọc tương ứng. - Xếp chồng các kết quả đầu ra được biến đổi với nhau.
54
Hình 3-16: Hình ảnh tích chập chiều sâu Depthwise convolution
Mỗi một kênh sẽ áp dụng một bộ lọc khác nhau và hồn tồn khơng chia sẻ tham số. Điều này có ba tác dụng chính cho mơ hình:
- Nhận diện đặc trưng: Quá trình học và nhận diện đặc trưng sẽ được tách biệt theo từng bộ lọc. Nếu đặc trưng trên các channels là khác xa nhau thì sử dụng các bộ lọc riêng cho channel sẽ chuyên biệt hơn trong việc phát hiện các đặc trưng. Chẳng hạn như đầu vào là ba kênh RGB thì mỗi kênh áp dụng một bộ lọc khác nhau chuyên biệt.
- Giảm thiểu khối lượng tính tốn: Để tạo ra một điểm pixel trên output thì tích chập thơng thường cần sử dụng k×k×c phép tính trong khi tích chập chiều sâu tách biệt chỉ cần k×k phép tính.
- Giảm thiểu số lượng tham số: ở tích chập chiều sâu cần sử dụng
c×k×k tham số.Số lượng này ít hơn gấp c′ lần so với tích chập chiều sâu thơng thường.
Kết quả sau tích chập thu được là một khối tensor3D có kích thước h′×w′×c. Tích chập điểm (Pointwise Convolution): Có tác dụng thay đổi độ sâu của output bước trên từ c sang c′. Chúng ta sẽ áp dụng c′ bộ lọc kích thước 1×1×c. Như vậy kích thước width và height không thay đổi mà chỉ độ sâu thay đổi.
55 Kết quả sau cùng chúng ta thu được là một output có kích thước h′×w′×c′. Số lượng tham số cần áp dụng ở trường hợp này là c′×c.
Để cùng tạo ra một output shape có kích thước h′×w′×c′ thì tích chập thơng thường cần thực hiện: (h′×w′×c′) ×(k×k×c) Trong đó h′×w′×c′ là số lượng pixels cần tính và k×k×c là số phép nhân để tạo ra một pixel.
Tích chập tách biệt chiều sâu chỉ phải thực hiện lần lượt trên: - Tích chập chiều sâu: (h′×w′×c)×(k×k) phép nhân.
- Tích chập điểm: (h′×w′×c)× c′ phép nhân. Tỷ lệ các phép tính giữa tích chập chiều sâu và tích chập thơng thường :
-
(25)
Đây là một tỷ lệ khá lớn cho thấy tích chập chiều sâu tách biệt có chi phí tính tốn thấp hơn rất nhiều so với tích chập thơng thường. Do đó việc sử dụng phép tính Depthwise Separable Convolution giúp cho thuật toán giảm số lượng tài nguyên cần sử dụng và tối ưu hóa thời gian hoạt động của thuật tốn.
B. Mơ hình Lenet-5
Đây là mơ hình được phát triển bởi Yann LeCunn (Director of AI Research Facebook) cùng với Léon Bottou, Yoshua Bengio (đồng tác giả với Ian Goodfellow của cuốn “Deep Learning”) và Patrick Haffner [16].
Các mơ hình LeNet được phát triển dựa trên dữ liệu MNIST. Tập dữ liệu này bao gồm các chữ số được viết tay 0-9; sáu mươi nghìn hình ảnh được sử dụng để đào tạo / xác nhận mơ hình và sau đó một nghìn hình ảnh được sử dụng để kiểm tra mơ hình. Các hình ảnh trong tập dữ liệu này có kích thước 28 × 28 pixel.
Hình 3-18: Hình ảnh kiến trúc mơ hình Lenet-5
Cấu trúc mơ hình đề xuất của LeNet-5 có 7 lớp, khơng bao gồm các lớp đầu vào. Như được mô tả trong phần dữ liệu, hình ảnh được sử dụng trong mơ hình này là hình ảnh viết tay MNIST. Cấu trúc được đề xuất có thể được nhìn thấy trong hình trên giấy. Chi tiết của mỗi lớp như sau:
56 - Lớp C1: là lớp Conv đầu tiên có 6 bản đồ đặc trưng với các bước là 1. Sử dụng công thức cho trong phụ lục, người ta có thể tính tốn kích thước đầu ra của lớp này là 28 × 28 với 156 tham số có thể tra được (tham khảo phụ lục 1 để biết thêm chi tiết). Chức năng kích hoạt của lớp này là tanh (tham khảo phụ lục 2 để biết thêm chi tiết).
- Lớp S2: là lớp gộp trung bình. Lớp này ánh xạ các giá trị trung bình từ lớp Chuyển đổi trước sang lớp Chuyển đổi tiếp theo. Lớp Pooling được sử dụng để giảm sự phụ thuộc của mơ hình vào vị trí của các đối tượng hơn là hình dạng của các đối tượng. Lớp gộp trong mơ hình LeNet có kích thước là 2 và bước tiến là 2.
- Lớp C3: là tập thứ hai của lớp phức hợp với 16 bản đồ đặc trưng. Kích thước đầu ra của lớp này là 10 với 2.416 tham số. Chức năng kích hoạt của lớp này là tanh.
- Lớp S4: là một lớp tổng hợp trung bình khác có kích thước là 2 và kích thước sải chân là 2.
- Lớp tiếp theo chịu trách nhiệm làm phẳng đầu ra của lớp trước thành mảng một chiều. Kích thước đầu ra của lớp này là 400 (5 × 5 × 16).
- Lớp C5: là một khối dày đặc (lớp kết nối đầy đủ) với 120 kết nối và 48.120 tham số (400 × 120). Chức năng kích hoạt của lớp này là tanh. - Lớp F6: là một khối dày đặc khác với 84 tham số và 10.164 tham số (84 ×
120 + 84). Chức năng kích hoạt của lớp này là tanh.
- Lớp đầu ra có 10 kích thước (bằng số lớp trong cơ sở dữ liệu) với 850 tham số (10 × 84 + 10). Chức năng kích hoạt của lớp đầu ra là sigmoid (tham khảo phụ lục 2 để biết thêm chi tiết).
Lenet 5 là một trong các mơ hình được xây dựng và phát triển sớm nhất trong các mạng Nơron tích chập. Mơ hình Lenet 5 có kiên trúc đơn giản và dễ hiểu nên được sử dụng rất phổ biến trong việc xây dựng và phát triển các mạng Nơron mới, hiện đại hơn về sau này.
Sau khi đã tìm hiểu về mạng Nơron tích chập và các mơ hình thuật tốn cơ bản, Tác giả đưa ra mơ hình thuật tốn đề xuất để phục vụ cho bài tốn phân tích lỗi vòng bi trong động cơ. Mơ hình mạng Nơron đề xuất sẽ được xây dựng dự trên cấu trúc cơ bản của mơ hình Lenet-5 gồm 7 lớp, trong đó ta sẽ thay thế các lớp tích chập thơng thường bằng các lớp tích chập chiều sâu tách biệt để giảm thiểu số lượng tham số của mơ hình từ đó sẽ giảm thiểu thời gian tính tốn và tối ưu hóa độ chính xác của mơ hình.
57 Mơ hình đề xuất:
Bảng 3-3: Kiến trúc của mơ hình đề xuất
Tầng Kích thước bộ lọc Bước trượt Hàm kích hoạt Tham số Conv Dw1 5×5×6 1 - 156 Conv Pw1 1×1×6 1 Tanh 42 Max Pooling1 2×2×6 1 - - Conv Dw2 5×5×16 1 312 Conv Pw2 1×1×16 1 Tanh 208 Max Pooling2 2×2×16 1 - - Conv Dw3 5×5×120 1 624 Conv Pw3 1×1×120 1 Tanh 4168 Fully Connected - - Tanh 10164 Fully Connected - - Softmax 340
Số lượng tham số của thuật toán là 16014 (tham số). Tỉ lệ tham số giữa mơ hình đề xuất và mơ hình Lenet-5 là
Từ đó ta thấy rõ rằng sử dụng phép tích chập Depthwise Separable làm giảm đáng kể lượng tham số so với việc sử dụng phép tích chập thơng thường.
3.6 Kết luận chương
Phần đầu chương 3 đã phân tích và lựa chọn hiệu rung động để phát hiện và chẩn đốn lỗi vịng bi trong động cơ điện. Sau đó ta sẽ xử lý tín hiệu trong miền thời gian-tần số để chuyển tín hiệu về dạng ảnh phục vụ cho mơ hình học sâu để chẩn đốn và phát hiện lỗi vòng bi. Phần tiếp theo giới thiệu các tập dữ liệu lớn về lỗi vòng bi được thu thập trên thế giới. Tiến hành thiết kế mơ hình thu nhận tín hiệu rụng động trong động cơ và xây dựng bộ dữ liệu lỗi vịng bi từ q trình thu tín hiệu rung động. Phần cuối chương đã đề xuất ra mơ hình học sâu để phát hiện và chẩn đốn lỗi vịng bi
58
CHƯƠNG 4. KẾT QUẢ
4.1 Dữ liệu thu thập
4.1.1 Đánh giá các đặc trưng cơ bản của dữ liệu
Bộ dữ liệu thu được dưới dạng số . Ta sẽ đánh giá các đặc trưng cơ bản của tập dữ liệu về độ tập trung, độ phân tán và sự phân bố của dữ liệu
Bảng 4-1: Các đặc trưng cơ bản của bộ dữ liệu