Xử lý dữ liệu thiếu trong các chuyến bay chặng Hà Nội - TPHCM của Vietnam Airlines

3 2 0
Xử lý dữ liệu thiếu trong các chuyến bay chặng Hà Nội - TPHCM của Vietnam Airlines

Đang tải... (xem toàn văn)

Thông tin tài liệu

Bài viết Xử lý dữ liệu thiếu trong các chuyến bay chặng Hà Nội - TPHCM của Vietnam Airlinestrình bày việc sử dụng một số phương pháp học máy thống kê để điền dữ liệu thiếu cho chặng bay Hà Nội - TPHCM.

Tuyển tập Hội nghị Khoa học thường niên năm 2018 ISBN: 978-604-82-2548-3 XỬ LÝ DỮ LIỆU THIẾU TRONG CÁC CHUYẾN BAY CHẶNG HÀ NỘI - TPHCM CỦA VIETNAM AIRLINES Tạ Anh Tuấn1 , Nguyễn Thanh Tùng2 Lớp Cao học 24CNTT - Trường Đại học Thủy lợi, e-mail: tuanta@tlu.edu.vn Khoa Công nghệ thông tin - Trường Đại học Thủy lợi, e-mail: tungnt@tlu.edu.vn nhiều nhiệm vụ quản lý Vì vậy, nâng cao chất lượng liệu để có bảng Hãng hàng không Quốc gia Việt Nam (tên liệu FIMS đầy đủ sở nhiều giao dịch tiếng Anh Vietnam Airlines, viết định chuyến bay Trong báo tắt VNA) VNA hãng hàng không quốc ngắn này, sử dụng số phương gia nước Cộng hòa xã hội chủ nghĩa Việt pháp học máy thống kê để điền liệu thiếu Nam, thành phần nịng cốt Tổng cơng cho chặng bay Hà Nội - TPHCM ty Hàng khơng Việt Nam VNA có đường bay đến khu vực Đông Nam Á, Đông PHƯƠNG PHÁP VÀ KẾT QUẢ Á, châu Âu châu Đại Dương, NGHIÊN CỨU khai thác nhiều đường bay thường lệ tới nhiều điểm nội địa nhiều điểm đến quốc tế Vấn đề đặt điền giá trị thiếu với 400 chuyến bay ngày (khoảng biến số bảng có nhiều biến 14000 chuyến bay năm) với gần 100 số khác Nguyên lý chung giải pháp máy bay loại Boeing Airbus lời giải dựa vào việc xác định quy luật FIMS VNA chứa sở liệu biến số ta quan tâm (như xác định phân (CSDL) tổng hợp thông tin liên quan bố xác suất) mối liên quan biến số đến hoạt động bay VNA với ngữ cảnh (các biến số khác) Ý tưởng CSDL thiết yếu VNA giải pháp sau Đại thể, chuyến bay VNA mô Về chất tốn dự đốn giá trị tả dịng CSDL FIMS với biến liên tục Ý tưởng khai khoảng 300 biến số (thuộc tính), mô tả thông thác tối đa tương tự chuyến bay tin máy bay, chuyến bay, tổ lái, sân bay, chuyến bay có giá trị thiếu tính giá thời tiết, cất cánh, hạ cánh, lượng nhiên liệu theo yêu cầu phi công (FUEL_ORDER), trị dự đốn dựa vào kỹ thuật thích hợp - Phân chia chuyến bay thành lượng nhiên liệu hệ thống dề xuất nhóm theo thuộc tính: kiểu máy bay, (FUEL_BLOCK), v.v Một vấn đề FIMS làm tuyến bay (các điểm điểm đến cụ thể theo để điền liệu thiếu cho chặng bay tuyến ngồi nước), thời tiết, v.v Đây tốn quan trọng VNA (gọi tắt nhóm bay) Việc dự đoán giá trị đề cập đến Do nhiều nguyên nhân, từ máy thiếu chuyến bay dựa theo móc đến người, liệu FIMS nhóm bay chuyến bay Các kỹ thuật biết chưa hồn tồn xác, có nhiễu dự đoán sau áp dụng, kết cuối có cịn nhiều CSDL chưa có liệu thêm tổ hợp dự đoán (missing values) Việc điền liệu thiếu - Dự đoán 1: Theo giá trị trung bình thiết yếu để có thơng tin FIMS đáng tin cậy biến số nhóm bay GIỚI THIỆU CHUNG 190 Tuyển tập Hội nghị Khoa học thường niên năm 2018 ISBN: 978-604-82-2548-3 - Dự đoán 2: Theo giá trị xuất nhiều biến số nhóm bay - Dự đốn 3: Theo kết phương pháp random forest regression - Dự đoán 4: Theo quan hệ biến xét với biến liên quan (nếu tồn quan hệ này) Trong khuôn khổ báo ngắn này, sử dụng gói MICE [3] kết hợp với randomForest môi trường R [1, 2] Dữ liệu thực nghiệm gồm 59 ghi với 15 biến ghi lại quan sát chặng bay Hà Nội TPHCM năm 2016 tàu bay VNA390 (VNA392_HANSGN_2016) Trong Hình 1, nửa trái thể tần xuất toàn liệu trống tập liệu huấn luyện, nửa bên phải hiển thị vị trí giá trị trống biến Hình hiển trị trực quan vị trí ghi biến chứa giá trị trống (các dòng màu đỏ) Ta hình dung tỷ lệ vị trí liệu trống bảng liệu chặng bay năm 2016 tàu VNA392 Trong Hình Hình 4, ta thấy tỷ lệ diễn giải mơ hình hồi quy RF tập liệu VNA392_HANSGN_2016 dùng phương pháp điền missing value có kết tốt (95.81%, MSE=48570.17 lít dầu) so với phương pháp dùng mean (90.76, MSE=106361.9 lít dầu) Hình Lỗi training thuật toán RF tập VNA392_HANSGN_2016 điền giá trị trống (Na) mean Type of random forest: regression Number of trees: 1000 No of variables tried at each split: Mean of squared residuals: 106361.9 % Var explained: 90.76 Hình Tỷ lệ số liệu trống liệu chặng bay Hà Nội - TPHCM Hình Lỗi training thuật toán RF tập VNA392_HANSGN_2016 điền giá trị trống (Na) sử dụng RF MICE Hình Tỷ lệ số liệu trống thuộc tính Mean of squared residuals: 48570.17 % Var explained: 95.81 191 Tuyển tập Hội nghị Khoa học thường niên năm 2018 ISBN: 978-604-82-2548-3 KẾT LUẬN TÀI LIỆU THAM KHẢO Trong báo ngắn này, trình [1] L Breiman, “Random forests ,” Machine learning, vol 45, no 1, pp 5–32, 2001 bày toán điền số liệu trống vào CSDL [2] A Liaw and M Wiener randomForest 4.6FIMS VNA Chúng thử nghiệm cách R package, 2012 điền thông thường giá trị trung bình, cách kết hợp MICE RF Kết thực [3] Buuren, S van, and Karin GroothuisOudshoorn "mice: Multivariate imputation nghiệm cho thấy phương pháp tiên tiến by chained equations in R." Journal of RF cho kết tốt góp phần nâng statistical software (2010): 1-68 cao chất lượng CSDL, phục vụ công tác thống kê, dự báo VNA tốt 192 ... explained: 90.76 Hình Tỷ lệ số liệu trống liệu chặng bay Hà Nội - TPHCM Hình Lỗi training thuật tốn RF tập VNA392_HANSGN_2016 điền giá trị trống (Na) sử dụng RF MICE Hình Tỷ lệ số liệu trống thuộc tính... này) Trong khuôn khổ báo ngắn này, chúng tơi sử dụng gói MICE [3] kết hợp với randomForest môi trường R [1, 2] Dữ liệu thực nghiệm gồm 59 ghi với 15 biến ghi lại quan sát chặng bay Hà Nội TPHCM. .. học thường niên năm 2018 ISBN: 97 8-6 0 4-8 2-2 54 8-3 - Dự đoán 2: Theo giá trị xuất nhiều biến số nhóm bay - Dự đoán 3: Theo kết phương pháp random forest regression - Dự đoán 4: Theo quan hệ biến xét

Ngày đăng: 25/10/2022, 11:26

Tài liệu cùng người dùng

Tài liệu liên quan