1. Trang chủ
  2. » Tất cả

Luận văn nghiên cứu phương pháp phát hiện sự kiện cực hiếm bằng mô hình autoencoder và ứng dụng vào dự báo trước sự cố trong nhà máy giấy

62 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 62
Dung lượng 1,93 MB

Nội dung

10 MỞ ĐẦU Lý chọn đề tài Ngày bối cảnh cách mạng công nghiệp 4.0 phát triển vũ bão, doanh nghiệp ngày trọng đầu tư vào hoạt động nghiên cứu, phát triển ứng dụng công nghệ thông tin vào quản lý sản xuất kinh doanh Ngay Việt Nam, gần 90% doanh nghiệp bước ứng dụng Công nghệ thông tin vào quản lý doanh nghiệp nhằm nâng cao hiệu hoạt động sản xuất kinh doanh để bắt kịp với xu hướng tồn cầu Trong lĩnh vực cơng nghệ thơng tin áp dụng vào phục vụ sản xuất kinh doanh, nghiên cứu ứng dụng để phân loại dự báo hướng ứng dụng sử dụng nhiều đem lại hiệu cao cho doanh nghiệp, tăng khả cạnh tranh doanh nghiệp bối cảnh hội nhập quốc tế sâu rộng Thông thường lĩnh vực phân loại dự báo, nghiên cứu thường hay sử dụng liệu có số phần tử lớp tương đối cân Tuy nhiên thực tế, số trường hợp có số phần tử liệu cân Đa số trường hợp liệu có số phần tử lớp bất đối xứng, chênh lệch nhiều lần Trong tốn phân loại lớp, thường trường hợp lớp cần dự đoán kiện xảy với tần suất thấp Tuy không thường xuyên xảy kiện lại có tác động lớn làm ổn định hệ thống, gây nhiều hậu nghiêm trọng, thiệt hại kinh tế lẫn tính mạng người Các kiện gọi chung kiện [1] Sự kiện có tự nhiên [2] (như động đất, sóng thần, bão lũ, núi lửa …) xã hội (như chiến tranh, cố nhà máy công nghiệp, sụp đổ thị trường tài chính, cố hàng khơng …), thường gây thiệt hại mát lớn Chính việc dự báo trước kiện [3] có ý nghĩa vơ to lớn, khơng giúp người giảm bớt nhiều thiệt hại kiện gây mà nhiều trường hợp người ngăn chặn để kiện không xảy Do kiện kiện xảy so với kiện bình thường, nên liệu thu thập kiện cân Một 11 liệu kiện thường có số lượng liệu dán nhãn dương tính chiếm từ 5% đến 10% tổng số mẫu liệu Không có nhiều kiện xảy ra, liệu có số lượng nhãn dương tính 1% Với liệu cân vậy, mơ hình phân lớp dự báo mạng nơ- ron nhân tạo (Artificial neural networks – ANN) truyền thống [4], mơ hình thường hoạt động tốt với liệu cân bằng, lại không hoạt động tốt việc phân loại dự báo kiện cực [5] Chính cần phải dùng phương pháp, mơ hình phân loại dự báo khác để giải trường hợp Một phương pháp hiệu phương pháp phân loại lớp mơ hình Autoencoder [6] Autoencoder hay cịn gọi mã hóa tự động mạng nơ-ron nhân tạo có đầu mạng giống hệt với đầu vào [7] Bộ mã hóa tự động sử dụng để tìm đặc trưng nén liệu hiệu phương pháp học khơng giám sát Mục đích Autoencoder tìm hiểu cách biểu diễn (mã hóa) cho liệu, thường để giảm kích thước liệu đầu vào [8], cách đào tạo mạng bỏ qua tín hiệu nhiễu [9], giữ lại đặc tính quan trọng [10] để khơi phục liệu Đồng thời, Autoencoder cịn có khối chức tái tạo lại liệu từ đặc trưng nén, đảm bảo liệu giải mã giống với đầu vào tốt Chính đào tạo Autoencoder khái quát hóa đặc trưng quan trọng kiện bình thường Sau trình huấn luyện, mơ hình có khả tái tạo tốt với kiện bình thường, kiện hiếm, kiện bất thường lại gây tỉ lệ lỗi cao Vì liệu sau chạy qua mã hóa tự động Autoencoder có đặc trưng khác hẳn đầu vào có khả kiện [11] Bài luận văn tập trung nghiên cứu, cải tiến ứng dụng mơ hình Autoencoder để dự báo kiện cực hiếm, áp dụng mô hình vào dự đốn trước cố dây chuyền sản xuất nhà máy giấy [12] Để sản xuất giấy, nhà máy giấy có dây chuyền gồm nhiều phận hoạt động liên tục suốt ngày đêm Tuy nhiên đặc điểm giấy mỏng, dễ bị đứt, nên có phận dây chuyền trục trặc, đồng phận khơng cịn trơn tru, giấy lớn 12 bị phá vỡ Bất xảy cố phá vỡ giấy, toàn dây chuyền sản xuất nhà máy phải dừng lại để kiểm tra khôi phục Thông thường phải để máycó thể khơi phục hoạt động trở lại bình thường Trong khoảng thời gian chết này, nhà máy thiệt hại khoảng 10 nghìn đơ-la kỹ sư phải vào khu vực nguy hiểm để kiểm tra khôi phục lại dây chuyền sản xuất Trung bình cố xảy vài lần ngày, gây tổn thất cho doanh nghiệp hàng triệu đô-la năm, kèm theo mối nguy hiểm, rủi ro cho sức khỏe cơng nhân phục hồi hệ thống Chính việc giảm 5% số cố mang lại lợi ích đáng kể nhà máy kinh tế lẫn sức khỏe nhân viên Để phục vụ việc dự báo trước cố phá vỡ giấy, doanh nghiệp cho lắp đặt 60 cảm biến đặt phận khác dọc theo dây chuyền Các cảm biến lấy mẫu tự động định kỳ phút/lần tạo mẫu liệu Khi có cố dây chuyền sản xuất, mẫu liệu sau xảy cố đánh dấu dương tính loại bỏ qua mẫu thu thập khoảng thời gian nghỉ để khắc phục cố Chính số lượng mẫu dương tính liệu thu thập từ cảm biến chiếm tỉ lệ thấp, khoảng 0.67% tổng số mẫu Bài luận văn nghiên cứu xây dựng mơ hình mã hóa tự động Autoencoder nhằm đạt mục tiêu chính: dự đốn trước cố phá vỡ giấy dây chuyền sản xuất nhà máy giấy xác định phận có khả cao gây cố Từ nội dung nêu lựa chọn đề tài “Nghiên cứu phương pháp phát kiện cực mơ hình Autoencoder ứng dụng vào dự báo trước cố nhà máy giấy” làm luận văn tốt nghiệp thạc sĩ 13 Mục đích nghiên cứu Áp dụng số mơ hình mã hóa tự động Autoencoder vào toán dự báo kiện cực Nhiệm vụ nghiên cứu Nội dung nhiệm vụ chủ yếu nghiên cứu vấn đề liên quan đến việc dự báo kiện sử dụng mơ hình mã hóa tự động Autoencoder để dự báo kiện cực hiếm, ứng dụng vào toán thực tế dự đoán cố dây chuyền sản xuất nhà máy giấy Đối tượng phạm vi nghiên cứu Đối tượng phạm vi nghiên cứu đề tài luận văn số mơ hình mạng nơ-ron nhân tạo, số giải pháp xử lý liệu phân lớp kiện bật, mơ hình mã hóa tự động Autoencoder Phương pháp nghiên cứu Phương pháp nghiên cứu sử dụng xuyên suốt trình thực luận văn phương pháp nghiên cứu lý thuyết phương pháp thực nghiệm 14 CHƯƠNG TỔNG QUAN VỀ SỰ KIỆN HIẾM Chương luận văn giới thiệu tổng quan khái niệm kiện hiếm, kiện tự nhiên xã hội tác động đến sống người Tiếp đó, chương trình bày ý nghĩa tầm quan trọng toán dự báo trước kiện số nghiên cứu khoa học bật kiện gặp thực tế 1.1 KHÁI NIỆM VỀ SỰ KIỆN HIẾM 1.1.1 Định nghĩa kiện Các kiện kiện xuất cách riêng biệt, quan sát không thường xuyên xảy Đây kiện xảy với tần suất thấp thường có tác động lan rộng làm ổn định toàn hệ thống, gây hậu nghiêm trọng Các phân tích nghiên cứu khoa học kiện thường tập trung vào kiện gây tác động tiêu cực đáng kể đến xã hội, thường thiệt hại mặt kinh tế ảnh hưởng tới sức khỏe tính mạng người Thông thường, dựa vào tần suất xảy kiện, phân loại kiện thành loại: kiện hiếm, kiện kiện cực − Sự kiện (tương đối hiếm): Số mẫu dương tính có tần suất xuất từ 5-10% tổng số mẫu − Sự kiện hiếm: Số mẫu dương tính có tần suất xuất từ 1-5% tổng số mẫu − Sự kiện cực hiếm: Số mẫu dương tính có tần suất xuất từ nhỏ 1% tổng số mẫu Đối với kiện tương đối hiếm, mơ hình phương pháp phân loại dự báo truyền thống thông qua q trình xử lý mẫu cho độ xác tương đối, với kiện hay cực mơ hình mạng nơ-ron truyền thống khó học từ mẫu dương tính q trình đào tạo Chính kiện cực cần xây dựng mơ hình khác hợp lý để dự báo 15 1.1.2 Các kiện tự nhiên xã hội Trong đời sống, chứng kiến nhiều kiện xảy tự nhiên xã hội Trong tượng tự nhiên, điển hình cho kiện nhiều nhà nghiên cứu quan tâm tượng thiên tai như: động đất, sóng thần, bão lũ, núi lửa, đại dịch, sét đánh Đây kiện xảy ra, có hàng chục năm lại có lần Tuy nhiên kiện xuất thường gây thiệt hại kinh tế vô to lớn gây nên mát to lớn người chúng không cảnh báo kịp thời Sức tàn phá khủng khiếp kiện thiên tai số năm gần thể qua thống kê đây: − Năm 2008, trận động đất mạnh 8.0 độ richter Tứ Xuyên, Trung Quốc làm gần 380.000 người chết, hàng triệu người việc làm, thiệt hại kinh tế trực tiếp tỷ đô-la kéo theo mát hàng chục tỉ đơ-la năm sau để hồi phục − Năm 2011, trận động đất 9.0 độ richter ngồi khơi Nhật Bản gây sóng thần dọc bờ biển Thái Bình Dương, ảnh hưởng trực tiếp tới 20 quốc gia Đồng thời trận động đất sóng thần gây cố rị rỉ phóng xạ nhà máy điện hạt nhân Fukushima, Nhật Bản Cuộc khủng hoảng kép làm 15.000 người chết, 125.000 nhà bị phá hủy, chất phóng xạ rò rỉ khu vực rộng lớn, ảnh hưởng kinh tế ước tính lên tới hàng trăm tỉ đơ-la − Hàng năm, vành đai lửa Thái Bình Dương xảy hàng chục vụ phun trào núi lửa, có nhiều vụ nghiêm trọng gây chết hàng chục nghìn người khơng kịp thời dự báo trước để di tản cư dân khu vực − Dịch bệnh Covid-19 ảnh hưởng tới tất quốc gia giới, hàng triệu người nhiễm bệnh, hàng trăm nghìn người chết, kinh tế tất nước sụt giảm nghiêm trọng, ước tính thiệt hại kinh tế tồn giới lên tới hàng chục nghìn tỷ đơ-la Bên cạnh tượng gây nhiều thiệt hại người của, tự nhiên có nhiều kiện gây tổn thất 16 nhiều nhà khoa học quan tâm nghiên cứu, điển tượng thiên văn học: nhật thực, nguyệt thực, sáp nhập sao, hố đen… Trong xã hội có nhiều kiện xuất xảy gây thiệt hại to lớn kinh tế chiến tranh, sụp đổ thị trường tài chính, cố hàng không, nổ nhà máy hạt nhân … Thường kiện xảy ra, hàng thập kỷ lại xuất hiện, nhiên xảy gây nhiều thiệt hại, người lẫn vật chất Một số kiện xã hội gây nhiều mát kể đến như: − Chiến tranh giới thứ (1937-1945) gây chết 61 triệu người, thiệt hại kinh tế hàng nghìn tỉ đơ-la − Thảm họa hạt nhân Chernobyl năm 1986 gây chết 31 người trực tiếp, sơ tán 330.000 người, ước tính hàng chục ngàn người chết ảnh hưởng phóng xạ năm sau − vụ rơi máy bay Boeing 737-Max năm 2018-2019 lỗi thiết kế gây chết toàn hành khách phi hành đồn, nhiều tháng tìm ngun nhân lỗi Boeing thiệt hại hàng chục đến hàng trăm tỉ đơ-la − Sự sụp đổ thị trường chứng khốn phố Wall 1929 bắt đầu cho đại khủng hoảng kinh tế kéo dài 12 năm, kéo theo hàng chục triệu người thất nghiệp, vô số doanh nghiệp phá sản Đối với phạm vi doanh nghiệp, thấy nhiều kiện hiếm, thường cố xảy quan, nhà máy, đặc biệt nhiều dây chuyền sản xuất công nghiệp Các cố gây ngừng hoạt động nhà máy thời gian dài, ảnh hưởng lớn tới sức khỏe, tính mạng kinh tế doanh nghiệp 17 1.2 BÀI TOÁN DỰ BÁO TRƯỚC SỰ KIỆN HIẾM Do kiện tự nhiên lẫn xã hội thường gây thiệt hại mát vật chất sinh mạng vô to lớn nên việc dự báo trước kiện [13] có ý nghĩa to lớn Nếu dự báo trước kiện bất thường khơng mong muốn này, người có thời gian để chuẩn bị ứng phó, từ giảm bớt nhiều thiệt hại kinh tế sức khỏe, tính mạng người Đối với liệu cân số lượng mẫu lớp, phương pháp phân lớp dự báo thành công hiệu sử dụng mơ hình mạng nơ-ron nhân tạo (Artificial neural networks - ANN), đặc biệt mạng học sâu Tuy nhiên áp dụng mơ hình dự báo truyền thống vào liệu kiện hiếm, hầu hết mơ hình lại gặp nhiều khó khăn trở nên khơng xác Ngun nhân việc tần suất xảy vô thấp kiện dẫn đến số lượng mẫu có nhãn dương tính vơ ỏi so với số mẫu dán nhãn âm tính Chính cân q lớn, q trình huấn luyện mạng, mơ hình dự báo thường dễ dàng học tập từ mẫu âm tính bỏ qua khơng học mẫu dương tính, dẫn tới việc dự báo mơ hình khơng hiệu Chính để dự báo trước kiện hiếm, đặc biệt kiện cực (có xác suất 1%) nhà nghiên cứu khoa học nghiên cứu đề xuất nhiều thuật toán phương pháp xử lý đặc thù Một số nghiên cứu toán kiện tự nhiên xã hội bật nêu đây: Trong sách “Modelling extremal events: For insurance and finance” [14] nhóm tác giả Embrechts P nghiên cứu mơ hình hóa kiện hiếm, kiện cực đoan với ngành bảo hiểm tài Trong báo khoa học “Extreme events: Dynamics, statistics and prediction.” [15] nhóm tác giả Ghil M phân tích, thống kê dự đốn kiện cực đoan, tập trung nghiên cứu áp dụng vào dự đoán chấn động 18 địa lý Trong sách “Extreme events and natural hazards: The complexity perspective.” [2] nhóm tác giả Sharma S phân tích ngun nhân khó khăn, phức tạp đề số phương pháp giải nghiên cứu kiện cực tự nhiên gây nguy hiểm cho người Ngồi cịn có nhiều tác giả với nhiều báo khoa học nghiên cứu kiện cực khác Mục 2.1 luận văn trình bày cụ thể nội dung phương pháp nghiên cứu giới để dự báo kiện 19 CHƯƠNG PHƯƠNG PHÁP PHÁT HIỆN SỰ KIỆN HIẾM Chương luận văn sâu nghiên cứu trình bày số phương pháp sử dụng để giải toán dự báo kiện nghiên cứu giới Tiếp theo mục 2.2, luận văn trình bày mơ hình mã hóa tự động Autoencoder, mơ hình vơ hiệu ứng dụng vào nhiều lĩnh vực công nghệ thông tin khác phương pháp ứng dụng mô hình Autoencoder để phát dự báo trước kiện cực 2.1 TÌM HIỂU CÁC PHƯƠNG PHÁP PHÁT HIỆN SỰ KIỆN HIẾM Trong mục 1.2, nguyên nhân gây khó khăn cho việc dự đốn kiện mơ hình ANN cân số lượng mẫu lớp: tỉ lệ mẫu dương tính nhỏ so với số mẫu âm tính Chính nhà nghiên cứu khoa học đề xuất phương pháp nhằm cân lại số lượng mẫu dương tính mẫu âm tính Các kết thực nghiệm chứng minh giải pháp cải thiện đáng kể tính hiệu mơ hình dự báo kiện Các phương pháp cân số lượng mẫu lớp bật trình bày chi tiết 2.1.1 Nhân mẫu dương tính Nhân mẫu dương tính phương pháp tăng số lượng mẫu dương tính cách lặp lại mẫu dương tính nhiều lần (hình 2.1) nhằm giảm bớt chênh lệch số lượng mẫu dương tính âm tính Đây giải pháp đơn giản giúp tăng tỉ lệ nhãn dương tính khơng tốn nhiều chi phí tính tốn Tuy nhiên nhược điểm phương pháp mẫu dương tính đơn nhân lên khơng có thay đổi nên số mẫu dương tính q nhỏ, mơ hình đào tạo khuyến khích học vẹt mẫu dương tính, giảm bớt khái qt hóa đặc điểm Chính phương pháp nhân nhãn dương tính có giới hạn số lần lặp Nếu số lượng mẫu dương tính nhỏ, lặp lại hàng chục lần dễ gây tượng overfit trình huấn luyện 57 Hình 3.15 Dữ liệu trước sau dán nhãn lại Loại bỏ trường không cần thiết Trong trường đầu vào mẫu, có trường khơng có nhiều ý nghĩa cho mơ hình đào tạo trường “time” thời điểm lấy mẫu, trường “x28” chứa giá trị phân loại kiểu lựa chọn vài giá trị tự nhiên xác định nên ta loại bỏ Như đầu vào 59 trường liệu liên tục chuẩn hóa Loại bỏ mẫu nhiễu Trong liệu có số khoảng thời gian từ lúc khởi động dây chuyền đến lúc xảy cố ngắn vài lần lấy mẫu Như có khả mẫu chưa đạt trạng thái bình thường lúc dây chuyền hoạt động ổn định, gây nên nhiễu ta đưa vào huấn luyện Vì với mẫu nằm chu kỳ hoạt động tương đối ngắn ta loại bỏ Tạo mẫu phù hợp với mơ hình LSTM Autoencoder 58 Cả bước tiền xử lý phía tương tự mơ hình MLP Autoencoder Tuy nhiên mơ hình LSTM Autoencoder đòi hỏi biến đổi nhiều chút so với MLP Autoencoder Các mơ hình hồi quy có nghĩa nhìn khứ Tại thời điểm t, LSTM xử lý liệu lên đến (t – khoảng thời gian nhìn lại) để đưa dự đốn Bài luận văn lựa chọn khoảng thời gian nhìn lại lần thời gian lấy mẫu Như mẫu để đào tạo cho mạng LSTM gồm liệu mẫu liên tiếp từ (t – 4) đến t, nên cần phải tạo mẫu gộp có mẫu liên tiếp để phù hợp làm đầu vào đầu cho mạng Hình 3.16 Dữ liệu đầu vào cho mơ hình LSTM Autoencoder 3.3.3.2 Phân chia liệu Trong toán thực tế, để đánh giá tính xác mơ hình cần phải có liệu: train, valid test − Bộ liệu train: dùng để huấn luyện cho mơ hình − Bộ liệu valid: dùng để đánh giá độ xác mơ hình, từ định lựa chọn mơ hình tham số phù hợp − Bộ liệu test: dùng để xác thực độ xác cuối Đây coi liệu chưa biết, không dùng liệu test để lựa chọn mơ hình tham số tối ưu liệu valid Bởi phần xác định mơ hình khảo sát cụ thể MLP Autoencoder khảo sát tất tham số khơng nhằm mục đích tối ưu tham số phù hợp nên không cần sử dụng liệu valid Chính tác giả chia liệu thành liệu train test với tỉ lệ số lượng mẫu 59 70:30 Do toán chuỗi thời gian đa biến, giá trị mẫu cạnh có xu hướng tương tự nhau, ta phân chia tập train test hồn tồn ngẫu nhiên vị trí gây tượng overfit, khơng đánh giá xác kết Chính tác giả lựa chọn 70% số mẫu chuỗi thời gian hoạt động tính từ lúc bắt đầu đến lúc xảy cố làm tập train, 30% số mẫu sau làm tập test có chứa mẫu dương tính Chuẩn hóa giá trị đầu vào Do đầu vào giá trị đo từ cảm biến nên biến có khoảng giá trị biến đổi khác Để mạng nơ-ron học tập hiệu cần chuẩn hóa lại giá trị đầu vào Sau phân chia liệu tác giả chuẩn hóa giá trị cảm biến đầu vào dạng chuẩn phân phối Gauss dựa giá trị biết liệu train 3.3.3.3 Xây dựng mơ hình LSTM Autoencoder Tác giả sử dụng thư viện Keras Python để xây dựng mơ hình LSTM Autoencoder, sử dụng thuật toán Adam để cập nhật trọng số, mse làm hàm mát # Xây dựng Model LSTM Autoencoder lstm_autoencoder = Sequential() # Encoder lstm_autoencoder.add(LSTM(32, activation='relu', input_shape=(timesteps, n_features), return_sequences=False)) lstm_autoencoder.add(Dense(4, activation='relu')) lstm_autoencoder.add(RepeatVector(timesteps)) # Decoder lstm_autoencoder.add(LSTM(32, activation='relu', return_sequences=True)) lstm_autoencoder.add(TimeDistributed(Dense(n_features))) Hình 3.17 Lập trình mạng nơ-ron LSTM Autoencoder 60 Hình 3.18 Cấu trúc mơ hình LSTM Autoencoder Như hình 3.18, với mơ hình mạng MLP Autoencoder với lớp mã nút, tổng số tham số tự cần phải huấn luyện 18.591 tham số Đây số lượng tham số không lớn mạng phải mã hóa tái tạo liệu mẫu 3.3.3.4 Huấn luyện mơ hình Ta sử dụng liệu train làm đầu vào đầu cho mơ hình, sau huấn luyện mơ hình 100 chu kỳ huấn luyện với kích thước lô 32 epochs = 100 batch = 32 adam = optimizers.Adam() lstm_autoencoder.compile(loss='mse', optimizer=adam) lstm_autoencoder_history = lstm_autoencoder.fit(X_train, X_train,epochs=epochs, batch_size=batch, validation_data=(X_valid, X_valid), verbose=2).history Hình 3.19 Mơ-đun huấn luyện mơ hình LSTM Autoencoder 61 Hình 3.20 Huấn luyện mơ hình LSTM Autoencoder 3.3.4 Kết thử nghiệm đánh giá mơ hình 3.3.4.1 Kết thử nghiệm Lịch sử huấn luyện mô hình Trước tiên nhìn vào lịch sử huấn luyện hình 3.21 thấy mạng LSTM Autoencoder với kích thươc khối mã 16 dần hội tụ sau 100 chu kỳ huấn luyện, sai số tập train test giảm dần mát tập test có xu hướng hội tụ quanh mốc 0.23 62 Hình 3.21 Lịch sử huấn luyện mạng LSTM Autoencoder Khi thử nghiệm với kích thước mã khác tác giả thu giá trị hội tụ hàm mát mạng bảng 3.3 Từ giá trị hội tụ thấy kích thước lớp mã lớn giải mã tín hiệu đầu giống với tín hiệu đầu vào Bảng 3.3 Giá trị hàm mát mơ hình LSTM Autoencoder Encoding_dim 16 32 Test Loss 0.44 0.31 0.26 0.23 0.2 Tỷ lệ thu hồi Tương tự mơ hình MLP Autoencoder, để đánh giá xác tính hiệu việc dự báo mơ hình LSTM Autoencoder kiểm tra biểu đồ ROC-AUC hình 3.22 ma trận Confusion hình 3.23 với ngưỡng báo động nhầm mức 4% Sau thử nghiệm với kích thước mã biến đổi từ đến 16, tác giả nhận thấy với kích thước lớp mã mơ hình 63 có khả dự đốn xác nhất, thu hồi cao (xem Bảng 3.5) cao mơ hình MLP Autoencoder chút : ngưỡng báo động nhầm 4%, LSTM Autoencoder thu hồi 17.4% so với 16.3% MLP Autoencoder Ở ngưỡng báo động nhầm cao ta thấy mơ hình LSTM Autoencoder có cải thiện rõ rệt so với MLP Autoencoder : 30% ngưỡng báo động nhầm 10% so với 25% mơ hình MLP (Bảng 3.4) Chỉ số AUC 0.693 cao chút so với 0.673 MLP Bảng 3.4 So sánh tỉ lệ thu hồi MLP LSTM Autoencoder MLP Autoencoder LSTM Autoencoder FPR = 4% 0.173913 0.163043 FPR = 10% 0.304347826 0.25 AUC 0.693 0.673 Hình 3.22 Biểu đồ ROC, AUC mơ hình MLP Autoencoder 64 Bảng 3.5 Tỉ lệ thu hồi LSTM Autoencoder ngưỡng FPR = 4% Encoding_dim Tỉ lệ thu hồi 130435 16 32 0.173913 0.163043 0.130435 0.119565 65 Hình 3.23 Kết dự báo mơ hình LSTM Autoencoder Tỉ lệ báo động nhầm Tỉ lệ báo động nhầm mơ hình LSTM Autoencoder tương tự MLP Autoencoder chủ yếu tập trung số chu kỳ hoạt động Trên hình 3.24 ta thấy ngồi chu kỳ hoạt động gây nhiều cảnh báo nhầm, mạng LSTM Autoencoder có giá trị lỗi mẫu bình thường thấp tỉ lệ báo động nhầm mẫu đơn lẻ khác thấp mạng MLP Autoencoder Hình 3.24 Phân bố lỗi theo mục MLP Autoencoder 3.3.4.2 Đánh giá kết Mơ hình LSTM Autoencoder sau trình huấn luyện cho kết dự đốn trước cố phá vỡ giấy xác mơ hình MLP Autoencoder : có khả thu hồi 17.4% trường hợp dương tính so với 16.3% MLP Autoencoder ngưỡng báo động giả 4% ; thu hồi 30% trường hợp dương tính so với 25% MLP Autoencoder ngưỡng báo động giả 10% 66 Kết thử nghiệm cho thấy với kích thước mã cho tỉ lệ dự đốn xác cao Kích thước mã lớn cho tỉ lệ xác giảm dần sai số đầu đầu vào thấp Điều chứng tỏ tạo nút thắt cổ chai phù hợp, mạng LSTM Autoencoder học đặc điểm nhận dạng tốt liệu loại trừ nhiễu đầu vào Tỉ lệ báo động nhầm mơ hình LSTM Autoencoder tương tự MLP Autoencoder chủ yếu tập trung số chu kỳ hoạt động riêng rẽ Tỉ lệ báo động nhầm mẫu đơn lẻ khác mạng LSTM thấp mạng MLP Autoencoder Với tỉ lệ thu hồi 17.4% ngưỡng báo động nhầm 4% 30% ngưỡng báo động nhầm 10% việc áp dụng mơ hình LSTM Autoencoder để dự báo trước cố dây chuyền sản xuất giấy phù hợp Tùy vào điều kiện thực tế doanh nghiệp lựa chọn ngưỡng thu hồi thích hợp 67 CHƯƠNG KẾT LUẬN VÀ KIẾN NGHỊ 4.1 KẾT LUẬN Việc dự báo trước kiện cực toán khó có ý nghĩa vơ thiết thực đời sống Độ hiệu mơ hình dự báo phụ thuộc lớn vào chất nguồn liệu phù hợp mơ hình lựa chọn với toán Trong luận văn này, học viên trình bày phương pháp sử dụng mã hóa tự động Autoencoder kết hợp với mơ hình mạng nơron cụ thể MLP LSTM để ứng dụng vào toán dự đoán kiện cực chuỗi thời gian đa biến điển hình : dự đoán trước cố dây chuyền sản xuất nhà máy giấy Cả mơ hình mã hóa tự động đạt kết định : dự báo khoảng 17% số cố dây chuyền sản xuất nhà máy giấy ngưỡng báo động nhầm 4% Mơ hình LSTM Autoencoder dự đốn xác cao MLP Autoencoder ít, đặc biệt ngưỡng báo động nhầm cao ( lớn 10%) Các vấn đề mà luận văn làm : Trình bày tổng quan kiện : khái niệm kiện hiếm, kiện tự nhiên, xã hội, cần thiết việc dự báo trước kiện Tìm hiểu đánh giá số phương pháp phát dự báo kiện nhằm cân lại số lượng mẫu lớp Trình bày tổng quan mơ hình mã hóa tự động Autoencoder : định nghĩa mơ hình Autoencoder, phân loại mơ hình Autoencoder ứng dụng vào lĩnh vực sống Trình bày phương pháp ứng dụng mơ hình Autoencoder để giải toán dự báo kiện cực Xây dựng thành cơng chương trình thử nghiệm đánh giá kết phương pháp kết hợp Autoencoder với mơ hình mạng nơ-ron cụ thể MLP LSTM để giải toán dự báo kiện cực chuỗi thời gian đa biến điển hình : dự báo trước cố nhà máy giấy 68 4.2 KIẾN NGHỊ Trong toán dự báo cố dây chuyền sản xuất nhà máy giấy, mơ hình mã hóa tự động MLP Autoencoder LSTM Autoencoder cho kết dự báo khả quan ngưỡng thu hồi khoảng 20%-30% tăng ngưỡng thu hồi lên cao tỉ lệ báo động nhầm tăng lên nhanh chóng Để tăng hiệu việc dự báo tốn nhà máy giấy nói riêng toán dự báo kiện thực tế nói chung, tác giả tiếp tục hướng nghiên cứu sau: − Nghiên cứu cải thiện hiệu phương pháp sử dụng mã hóa tự động Autoencoder giúp mạng nơ-ron tìm đặc điểm quan trọng đưa vào khối mã − Nghiên cứu phương pháp sử dụng khối mã Autoencoder làm đầu vào cho mạng nơ-ron phân loại Từ sử dụng khối mã kiện cực để đào tạo cho mô hình dự báo khơng phải loại bỏ hồn tồn mã hóa tự động Việc kết hợp thêm liệu kiện gặp cách hợp lý sau mã hóa qua Autoencoder hứa hẹn hướng khả quan việc cải thiện hiệu suất dự báo kiện cực thực tế 69 TÀI LIỆU THAM KHẢO [1] Morio J., Balesdent M., 2015, Estimation of Rare Event Probabilities in Complex Aerospace and Other Systems, Elsevier Science [2] Sharma A S., Bunde A., Dimri V P., Baker D N., 2012, Extreme events and natural hazards: The complexity perspective, Wiley [3] Ghil M., Yiou P., Hallegatte S., Malamud B D., Naveau P., Soloviev A., Friederichs P., 2011, Extreme events: Dynamics, statistics and prediction, Nonlinear Processes in Geophysics [4] Goodfellow Ian, Bengio Yoshua, Courville Aaron, 2016, Deep Learning, MIT Press [5] Goodwin P., Wright G., 2010, The limits of forecasting methods in anticipating rare events., Technological Forecasting and Social Change [6] Sakurada M., Yairi T., 2014, Anomaly detection using Autoencoders with nonlinear dimensionality reduction, MLSDA'14 2014 [7] Welling Max, Kingma Diederik P, 2019, An Introduction to Variational Autoencoders, Foundations and Trends in Machine Learning [8] Hinton G E., Salakhutdinov R R., 2006, Reducing the Dimensionality of Data with Neural Networks, Science [9] Vincent Pascal, Larochelle Hugo, 2010, Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion, The Journal of Machine Learning Research [10] Diederik Kingma P., Welling Max, 2013, Auto-Encoding Variational Bayes, arXiv:1312.6114 [11] Zhou C., Paffenroth R C., 2017, Anomaly detection with robust deep autoencoders, ACM SIGKDD 2017 International Conference on Knowledge Discovery and Data Mining [12] Ranjan C., Mustonen M., Paynabar K., Pourak K., 2018, Dataset: Rare Event Classification in Multivariate Time Series 70 [13] King G., Zeng L., 2001, Logistic regression in rare events data, Political Analysis [14] Embrechts P., Klüppelberg C., Mikosch T , 1997, Modelling extremal events: For insurance and finance, Vol 33 Springer [15] Chicco Davide, Sadowski Peter, Baldi Pierre, 2014, Deep Autoencoder neural networks for gene ontology annotation predictions, ACM BCB 2014 [16] Nitesh V., Kevin W., Lawrence O., Philip W., 2002, SMOTE: Synthetic Minority Over-sampling Technique, Journal of Artificial Intelligence Research [17] Nicola L., Giovanna M., Nicola T., 2014, ROSE: A Package for Binary Imbalanced Learning, The R Journal [18] An J., Cho S., 2015, Variational autoencoder based anomaly detection using reconstruction probability, Special Lecture on IE [19] Ribeiro M., Lazzaretti A E., Lopes H S., 2018, A study of deep convolutional auto-encoders for anomaly detection in videos, Pattern Recognition Letters [20] Arpit Devansh, Zhou Yingbo, Ngo Hung, Govindaraju Venu, 2015, Why Regularized Auto-Encoders learn Sparse Representation?, arXiv:1505.05561 [21] Salakhutdinov Ruslan, Hinton Geoffrey, 2009, Semantic hashing, International Journal of Approximate Reasoning Special Section on Graphical Models and Information Retrieval [22] Cho K., 2013, Simple sparsification improves sparse denoising autoencoders in denoising highly corrupted images, In International Conference on Machine Learning [23] Zeng Kun, Yu Jun, Wang Ruxin, Li Cuihua, Tao Dacheng, 2017, Coupled Deep Autoencoder for Single Image Super-Resolution, IEEE Transactions on Cybernetics [24] Gondara Lovedeep, 2016, Medical Image Denoising Using Convolutional Denoising Autoencoders, 2016 IEEE 16th International Conference on Data Mining Workshops 71 [25] Tzu-Hsi Song, Sanchez Victor, Hesham,EIDaly, Nasir Rajpoot M., 2017, Hybrid deep autoencoder with Curvature Gaussian for detection of various types of cells in bone marrow trephine biopsy images, 2017 IEEE 14th International Symposium on Biomedical Imaging [26] Xu Jun, Xiang Lei, Liu Qingshan, Gilmore Hannah, Wu Jianzhong, Tang Jinghai, Madabhushi Anant, 2016, Stacked Sparse Autoencoder (SSAE) for Nuclei Detection on Breast Cancer Histopathology Images, IEEE Transactions on Medical Imaging [27] Martinez-Murcia Francisco J., Ortiz Andres, Gorriz Juan M., Ramirez Javier, Castillo-Barnes Diego, 2020, Studying the Manifold Structure of Alzheimer's Disease: A Deep Learning Approach Using Convolutional Autoencoders, IEEE Journal of Biomedical and Health Informatics [28] Ranjan C., Mustonen M., Paynabar K., Pourak, K., 2018, Dataset: Rare Event Classification in Multivariate Time Series, arXiv:1809.10717 ... luận văn tập trung nghiên cứu, cải tiến ứng dụng mơ hình Autoencoder để dự báo kiện cực hiếm, áp dụng mô hình vào dự đốn trước cố dây chuyền sản xuất nhà máy giấy [12] Để sản xuất giấy, nhà máy. .. ? ?Nghiên cứu phương pháp phát kiện cực mơ hình Autoencoder ứng dụng vào dự báo trước cố nhà máy giấy? ?? làm luận văn tốt nghiệp thạc sĩ 13 Mục đích nghiên cứu Áp dụng số mơ hình mã hóa tự động Autoencoder. .. phương pháp nghiên cứu giới để dự báo kiện 19 CHƯƠNG PHƯƠNG PHÁP PHÁT HIỆN SỰ KIỆN HIẾM Chương luận văn sâu nghiên cứu trình bày số phương pháp sử dụng để giải toán dự báo kiện nghiên cứu giới

Ngày đăng: 15/01/2023, 14:47

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w