ra hiệu suất tốt, tuy nhiên độ phức tạp thời gian cao. Do đó chúng tôi sử dụng các tham số của các phân phối Gaussian làm vector nhúng đại diện cho các ảnh bình thường, vì tính tổng quát cũng như giảm độ phức tạp thời gian.
Hướng tiếp cận được đề xuất sử dụng mô hình được huấn luyện trước để trích xuất các vector nhúng. Các vector nhúng này mang ý nghĩa từ nhiều lớp bằng cách nối các đặc trưng được tạo từ các lớp (layer) trong mô hình. Từ các ảnh trong tập huấn luyện, sau khi trích xuất các vector nhúng, ảnh bình thường sẽ được đại diện bởi phân phối Gaussian đa biến. Vì vector nhúng mang ý nghĩa từ nhiều lớp, do đó phân phối Gaussian xem xét sự tương quan giữa đặc trưng của các lớp, mang lại hiệu suất nhận diện tốt hơn.
3.1.1 Kiến trúc mô hình đề xuất
Hướng tiếp cận dựa nhúng mang lại hiệu suất tốt do sử dụng mô hình được huấn luyện trước mà không cần tinh chỉnh. Kết quả mang lại đều do việc sử dụng các đặc trưng được trích xuất từ mô hình.
Với các mô hình nhẹ (như ResNet18), sau khi mỗi ảnh đi qua 3 khối (block) đầu tiên của mô hình, các vector đặc trưng được giữ lại cho quá trình huấn luyện (3 vector tương ứng với 3 lớp cuối của mỗi khối). Hoặc với mô hình nặng hơn như VGG16, các vector đặc trưng sau các lớp 9, 16, 23 được giữ lại. Nối các vector tương ứng với mỗi lớp (layer), lựa chọn ngẫu nhiên các giá trị trong vector (tương ứng theo chỉ số với tất cả các vector tạo ra từ các), chúng tôi có được vector đại điện cho bức ảnh. Sau khi có vector đại diện cho mỗi ảnh, chúng tôi mô hình phân phối Gaussian đại diện cho lớp được quan sát.
Sử dụng phân phối Gaussian này, khi có một ảnh cần kiểm thử, bức ảnh sẽ được gán điểm bất thường. So sánh điểm bất thường này với một ngưỡng định nghĩa trước, ảnh cần kiểm thử sẽ được phân lớp xem ảnh có thuộc lớp bình thường hay không.
3.1.2 Hàm mục tiêu
Để đánh giá điểm bất thường cho ảnh, chúng tôi dùng khoảng cách Mahalanobis [12]. Khoảng cách Mahalanobis được dùng để xác định liệu một mẫu có thuộc một phân phối cho trước hay không, phù hợp với mục tiêu bài toán.
Khoảng cách Mahalanobis của vector x = (x1, x2, x3, . . . , xN)T so mới một nhóm có trung bình là µ = (µ1, µ2, µ3, . . . , µN)T và ma trận hiệp phương sai S được định nghĩa
Chương 3. Phân lớp một lớp dùng mô hình phân phối vùng như sau:
DM(x) =p(x−µ)TS−1(x−µ)
3.2 Huấn luyện
Giai đoạn huấn luyện bao gồm 2 bước: 1. Trích xuất vector nhúng
2. Tạo phân phối Gaussian
• Trích xuất vector nhúng
Các mạng tích chập có khả năng trích xuất ra các đặc trưng sử dụng trong bài toán phát hiện bất thường. Vì vậy, chúng tôi chỉ sử dụng các mạng đơn giản, không cồng kềnh, nhằm tạo ra các vector nhúng. Trong quá trình huấn luyện, mỗi vị trí của các hình bình thường có một vector nhúng tương ứng về mặt không gian.
Các vector đặc trưng được trích xuất từ các lớp của mạng tích chập được nối lại với nhau để tạo thành vector mang thông tin từ nhiều mức độ, mã hóa nhiều thông tin từ toàn cục tới chi tiết. Vì các ánh xạ kích hoạt (activation map) có kích thước nhỏ hơn kích thước ảnh đầu vào nên có nhiều điểm ảnh (trong ảnh đầu vào, chưa thu nhỏ) có cùng vector nhúng. Do đó, ảnh đầu vào sau khi đã thu nhỏ có thể được chia thành lưới các vị trí (i, j)∈ [1, W] × [1, H], với W × H là kích thước của ảnh dùng để tạo ra vector nhúng. Cuối cùng, tại vị trí (i, j) trong lưới sẽ tương ứng với một embedding vector.
Các vector nhúng được tạo ra có thể chứa nhiều thông tin dư thừa. Để giảm kích thước của vector này, có thể sử dụng các phương pháp thu giảm chiều dữ liệu như Phân tích thành phần chính (PCA), tuy nhiên, khi thử nghiệm, việc chọn ngẫu nhiên các chiều trong vector cũng mang lại hiệu quả ngang bằng với PCA. Với việc chọn ngẫu nhiên, chi phí tính toán sẽ ít hơn nhiều so với dùng phương pháp PCA.
• Tạo phân phối Gaussian
Để tạo được đặc điểm bình thường tại vị trí (i, j), chúng tôi lấy tập các vector nhúng tại vị trí (i, j) từ các ảnh trong tập huấn luyện, Xij ={xk
ij, k∈[1, N]}, sử dụng phân phối Gaussian đa biến để tổng hợp thông tin từ tập này. Phân phối Gaussian được
Chương 3. Phân lớp một lớp dùng mô hình phân phối vùng thể hiện như sau:
Xij ∼ N(µij,Σij)
với µij là trung bình mẫu của tập Xij và P
ij là hiệp phương sai của mẫu:
Σij = 1 N −1 N X k=1 (xkij −µij)(xkij −µij)T +ǫI ǫI là phần chính quy làm cho P
ij trở thành ma trận hạng đầy đủ và khả nghịch. Khi đó, mỗi vị trí (i, j) được thể hiện bằng một phân phối Gaussian đa biến.
Vì các vector nhúng mang thông tin từ nhiều mức độ, do đó, phân phối Gaussian học được thông tin ở nhiều mức khác nhau, với P
ij chứa sự tương quan giữa các mức.
3.3 Kiểm thử
Sau khi kết thúc giai đoạn huấn luyện, trong quá trình kiểm thử, chúng tôi tính toán ma trận điểm bất thường cho từ vị trí (i, j) trong ảnh. Sau khi mô hình hóa phân phối Gaussian cho các vị trí của bức ảnh, trong giai đoạn kiểm nghiệm, chúng tôi tính toán điểm bất thường cho điểm ảnh của ảnh cần kiểm tra bằng cách sử dụng khoảng cách Mahalanobis M(xij). M(xij) được xem như khoảng cách giữa vector nhúng xij với phân phối đã học đượcN(µij, Σij).
M(xij) = q(xij −µij)TΣ−1
ij (xij −µij)
Ma trận khoảng cách MahalanobisM = (M(xij))1<i<W,1<j<H được dùng để tính toán điểm bất thường cho ảnh cần kiểm tra. Giá trị tại vị trí (i, j) càng cao chỉ ra rằng điểm ảnh tại vị trí (i, j) có khả năng cao là điểm bất thường. Ảnh được phân loại là bất thường hay không phụ thuộc vào điểm số lớn nhất trong toàn bộ ma trận khoảng cách Mahalanobis. 3.4 Tối ưu thời gian và bộ nhớ
Phương pháp được đề xuất sử dụng có mô hình đã được huấn luyện trước.Các mô hình đã được huấn luyện trước trên các tập dữ liệu chuẩn (ImageNet, ...) có khả năng trích xuất được các đặc trưng từ cơ bản tới chi tiết. Tận dùng điều này, phương pháp
Chương 3. Phân lớp một lớp dùng mô hình phân phối vùng được đề xuất đã giảm chi phí huấn luyện đi rất nhiều. Phương pháp đề xuất sử dụng việc chọn ngẫu nhiên các chiều dữ liệu trong vector đặc trưng thay vì sử dụng các phương pháp thu giảm chiều dữ liệu cũng giúp giảm được thời gian trong quá trình huấn luyện và thử nghiệm.
Chương 4
Hiện thực và ứng dụng
Chương này trình bày bộ dữ liệu ảnh của các vật thể trong công nghiệp, thiết lập thực nghiệm và đánh giá.
4.1 Mô tả dữ liệu và thiết lập thực nghiệm 4.1.1 Tập dữ liệu
Luận văn này sử dụng tập dữ liệu MVTec AD. MVTec AD là tập dữ liệu dùng để đánh giá các phương pháp phát hiện bất thường, chú trọng vào bài toán kiểm tra công nghiệp. Tập dữ liệu này chứa hơn 5000 ảnh của các vật thể và kết cấu khác nhau, bao gồm ảnh huấn luyện không lỗi. ảnh thử nghiệm có lỗi và ảnh thử nghiệm không có lỗi
Tập dữ liệu MVTec AD chứa 5354 ảnh màu chất lượng cao, đã được căn chỉnh của 15 loại vật thể và kết cấu khác nhau bao gồm 3629 ảnh ảnh huấn luyện không lỗi,1725 ảnh thử nghiệm không lỗi và ảnh thử nghiệm có lỗi, mặt nạ lỗi cho các ảnh thử nghiệm có lỗi. Bộ dữ liệu MVTec AD đã được tiền xử lý, căn chỉnh trước. Tuy nhiên, với một vài lớp trong tập dữ liệu, chúng tôi có thể làm gia tăng dữ liệu bằng cách xoay ngẫu nhiên từ -10 đến 10 độ, cắt ngẫu nhiên 224× 224 từ ảnh đã được thu nhỏ về 256× 256. Việc lựa chọn cách làm gia tăng dữ liệu dựa theo sự không chắc chắn trong công nghiệp, khi ảnh chụp không phải luôn được căn chỉnh.