1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu và đề xuất giải pháp lấy mẫu đa luồng phục vụ bài toán phân tích dữ liệu

47 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 47
Dung lượng 1,47 MB

Nội dung

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA ——————– * ——————— PHẠM ANH DŨNG NGHIÊN CỨU VÀ ĐỀ XUẤT GIẢI PHÁP LẤY MẪU ĐA LUỒNG PHỤC VỤ BÀI TỐN PHÂN TÍCH DỮ LIỆU Chun ngành: Khoa Học Máy Tính Mã số: 8480101 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 02 năm 2023 Cơng trình hồn thành tại: Trường Đại học Bách Khoa – ĐHQG-HCM Cán hướng dẫn khoa học: PSG.TS Thoại Nam Cán chấm nhận xét 1: TS Lê Thanh Vân Cán chấm nhận xét 2: PGS.TS Huỳnh Trung Hiếu Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp.HCM ngày 08 tháng 02 năm 2023 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: 1: PGS.TS Trần Văn Hoài 2: TS Lê Thành Sách 3: TS Lê Thanh Vân 4: PGS.TS Huỳnh Trung Hiếu 5: TS Dương Ngọc Hiếu Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG (Họ tên chữ ký) TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH (Họ tên chữ ký) ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Phạm Anh Dũng MSHV: 2070093 Ngày, tháng, năm sinh: 29/01/1998 Nơi sinh: Bà Rịa Vũng Tàu Chuyên ngành: Khoa Học Máy Tính Mã số : 8480101 I TÊN ĐỀ TÀI: Nghiên cứu đề xuất giải pháp lấy mẫu đa luồng phục vụ tốn phân tích liệu II NHIỆM VỤ VÀ NỘI DUNG: (1) Nghiên cứu đề xuất giải pháp lấy mẫu đa luồng (2) Đề xuất phát triển giải pháp lấy mẫu điều kiện dòng liệu cân cân (3) Đánh giá giải pháp đề xuất hướng cải thiện III NGÀY GIAO NHIỆM VỤ : (Ghi theo QĐ giao đề tài) 05/09/2022 IV NGÀY HOÀN THÀNH NHIỆM VỤ: (Ghi theo QĐ giao đề tài) 18/12/2022 V.CÁN BỘ HƯỚNG DẪN (Ghi rõ học hàm, học vị, họ, tên): PGS.TS Thoại Nam Tp HCM, ngày 08 tháng 03 năm 2023 CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) HỘI ĐỒNG NGÀNH (Họ tên chữ ký) TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH (Họ tên chữ ký) Ghi chú: Học viên phải đóng tờ nhiệm vụ vào trang tập thuyết minh LV i Lời cảm ơn Lời đầu tiên, em muốn gửi lời cảm ơn chân thành sâu sắc đến Thầy hướng dẫn PGS.TS.Thoại Nam tận tình giành tâm huyết hướng dẫn em suốt chặng đường vừa qua Trong suốt chặng đường tháng, làm việc Thầy niềm vinh hạnh em Thầy ln người tận tình bảo, hướng dẫn nhiều em chưa hiểu cố gắng giải thích nhiều lần đến lúc em hiểu thơi Em cảm ơn Thầy dành thời gian quý báu để hướng dẫn hỗ trợ em suốt thời gian qua Khơng có hướng dẫn tận tình từ Thầy, chắn em làm tốt công việc báo cáo Em cảm ơn Thầy nhiều Em muốn dành lời cảm ơn đến quý Thầy Cô khoa, luôn hỗ trợ em suốt trình học tập trình làm luận văn Có thắc mắc q Thầy Cơ hỗ trợ nhiệt tình Và em cảm ơn hội đồng bảo vệ đề cương cho em góp ý sửa đổi, mang tính xây dựng để em có cải thiện tốt cho luận văn em Cảm ơn tất bạn, anh chị khoa đồng hành hỗ trợ giúp đỡ suốt trình học tập Đặc biệt trình làm luận văn này, thủ tục, tài liệu liên quan người tận tình hỗ trợ hướng dẫn em nhiều Từ tiếng anh, quy trình làm đề cương đến luận văn điều nhỏ nhặt q trình Cảm ơn tất người ln bên em, ủng hộ đồng hành em ii Tóm tắt nội dung Việc đựa lượng liệu lớn lưu trữ phân tán vị trí khác nơi trung tâm để huấn luyện mơ hình dẫn đến tốn chi phí vận chuyển, lưu trữ, xử lý thời gian huấn luyện mơ hình Đặc biệt, việc cập nhật huấn luyện mơ hình thực nhiều lần dẫn đến chi phí lớn Từ vấn đề đó, đề tài nhằm nghiên cứu cách thức tối ưu chi phí mang lại hiệu mơ hình tốt thơng qua việc lấy mẫu Bằng cách mang trung tâm mẫu có giá trị cho việc cập nhật huấn luyện mơ hình Những mẫu có giá trị cho việc huấn luyện lại mơ hình xác định việc sử dụng mơ hình huấn luyện trung tâm trước Với phương pháp Biased Reservoir Sampling Biased Stratified Reservoir Sampling, nghiên cứu cách thức lấy mẫu trực tuyến nút cạnh, giải vấn đề nên lựa chọn mẫu để đưa trung tâm cập nhật mơ hình sau khoảng thời gian xác định Ngoài ra, giải vấn đề xác định số lượng phân bổ mẫu cần lấy hợp lý trường hợp dòng liệu cân Biased Reservoir Sampling Biased Stratified Reservoir Sampling mang lại kết tốt so với hai giải pháp sở Reservoir Sampling Stratified Reservoir Sampling, bên cạnh mơ hình huấn luyện mẫu lấy phương pháp đề xuất có tính ổn định độ xác qua thời gian Và gửi trung tâm 10% số lượng mẫu hiệu mơ hình tính R2 qua lần huấn luyện lại tiệm cận so với cách thức gửi toàn mẫu trung tâm iii Abstract One of the most common architectures to train a machine learning model is central learning In that architecture, data which is stored in a distribution manner is sent to a central place to train the model But sending the big data to the centre will cause a big problem regarding transmission cost, storage cost, processing cost and the time needed to train the model, especially in case when we have to re-train our model frequently So this thesis is to research and and propose solution to reduce the cost by applying sampling methods Specifically, we select tuples which are valuable for updating and re-training the model We define if a new coming tuple is valuable for the model by using the model have trained at that time We propose sampling methods which are Biased Reservoir Sampling and Biased Stratified Reservoir Sampling In the methods, we showed how to conduct online sampling at the edge nodes (where data is stored) Solving the primary problems when handling the online sampling for streaming data, the first one is to select the "right" tuples to send the to centre and second one is to allocate optimally the number of samples should be selected for each sub-stream The performance of Biased Reservoir Sampling and Biased Stratified Reservoir Sampling is better than the base-line solutions which are Reservoir Sampling and Stratified Reservoir Sampling respectively Besides, the performance of the methods is stable over time compared to the baseline approaches While sending just 10% of the total data, the R2 of the proposed sampling methods is nearly the same with the sending total data approach after 10 rounds of re-training model iv Lời cam đoan Tơi xin cam đoan cơng trình nghiên cứu riêng hướng dẫn PSG.TS Thoại Nam Nội dung nghiên cứu kết trung thực Các số liệu sử dụng cho q trình phân tích, nhận xét thu thập từ nhiều nguồn khác ghi rõ phần tài liệu tham khảo Ngồi ra, chúng tơi có sử dụng số nhận xét, đánh giá số liệu tác giả khác, quan tổ chức khác Tất có trích dẫn thích nguồn gốc Nếu phát có gian lận nào, tơi xin hoàn toàn chịu trách nhiệm nội dung luận văn tốt nghiệp Trường đại học Bách Khoa thành phố Hồ Chí Minh khơng liên quan đến vi phạm tác quyền, quyền gây trình thực v Mục lục Giới thiệu 1.1 Đóng góp nghiên cứu 1.2 Nghiên cứu liên quan 1 2 Cơ sở lý thuyết 2.1 Phương pháp lấy mẫu 2.2 Phương pháp huấn luyện mơ hình 2.3 Dữ liệu dòng (streaming data) 5 10 Giải pháp lấy mẫu đa luồng phục vụ tốn phân tích liệu 3.1 Vấn đề 1: Những mẫu chọn dòng liệu con? 3.2 Vấn đề 2: Số lượng mẫu cần lấy cho dòng liệu 3.3 Thảo luận đánh giá 15 16 19 22 Đánh giá kết 4.1 Thiết kế cài đặt hệ thống thực nghiệm 4.2 Kết thực nghiệm 25 25 28 Kết luận hướng phát triển tương lai 34 Tài liệu tham khảo 36 vi Danh sách hình vẽ 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 Lấy mẫu theo phương pháp lựa chọn ngẫu nhiên Lấy mẫu theo phương pháp phân tổ Mô kiến trúc học tập trung (centralized learning) Kiến trúc phân tán liệu phân tán (distributed learning) Kiến trúc mơ hình học liên kết (Federated learning) Kiến trúc hệ thống liệu dạng dòng (tham khảo [1]) Mơ hình publish/subscribe (tham khảo [1]) Các thành phần hệ thống hàng đợi (tham khảo [1]) Cửa sổ trượt (tham khảo [1]) Cửa sổ lật (tham khảo [1]) 6 10 11 12 12 13 14 3.1 3.2 3.3 3.4 3.5 Kiến trúc hệ thống Các dịng liệu có số lượng qua ∆t Các dòng liệu cân mặt số lượng qua ∆t Tính tốn phân bổ số lượng cho dịng liệu vào cuối ∆t Tính tốn phân bổ số lượng cho dịng liệu liên tục khoảng ∆t 16 16 19 20 21 4.1 4.2 4.3 4.4 4.5 4.6 4.7 Kiến trúc mô cho hệ thống thực nghiệm Phân bố liệu sử dụng thực nghiệm Bộ liệu sau xử lý Kết điều kiện dòng liệu cân Kết điều kiện dòng liệu cân Kết điều kiện dòng liệu cân Kết điều kiện dòng liệu cân 25 27 28 29 31 32 33 vii Chương Giới thiệu Ngày lượng liệu doanh nghiệp sinh liên tục lớn Với nhu cầu rút trích sử dụng giá trị từ lượng liệu lớn vào hoạt động kinh doanh thường ngày doanh nghiệp Thông thường, liệu sinh lưu trữ phân tán nhiều nơi lúc cần sử dụng đưa liệu cần thiết nơi tập trung để tiến hành phân tích Và mơ hình học máy ngày triển khai chủ yếu dựa vào kiến trúc đó, gọi mơ hình học tập trung Nghĩa là, liệu sinh lưu trữ nút biên cục bộ, sau liệu đưa nơi tập trung để thực huấn luyện mơ huấn luyện lại mơ hình qua thời gian Tuy nhiên vấn đề đưa tất lượng liệu lớn lưu trữ nút cạnh nơi trung tâm để huấn luyện mơ hình chi phí lớn tải hệ thống Chi phí tải, vận chuyển, lưu trữ, tính tốn thời gian xử lý, giới hạn băng thông thách thức lớn triển khai theo cách tiếp cận Để giải vấn đề đó, kĩ thuật lấy mẫu áp dụng Và ngữ cảnh liệu lớn, nghiên cứu đề xuất giải pháp lấy mẫu đa luồng trực tuyến nút cạnh để tránh nút thắt cổ chai (bottleneck) tải hệ thống thực đơn luồng Khơng cần phải đưa tồn liệu trung tâm huấn luyện, cần đưa lượng nhỏ mẫu chọn lọc đảm bảo tính xác mơ hình Nghiên cứu đóng góp điểm sau: 1.1 Đóng góp nghiên cứu Kĩ thuật lấy mẫu đa luồng liệu dòng: Những nghiên cứu lấy mẫu cho liệu dòng chủ yếu tập trung vào đơn luồng Tuy nhiên thực tế liệu sinh đa luồng làm để lấy mẫu trực tuyến luồng đó, để kích hoạt, mẫu gửi trung tâm để thực phân tích xây dựng mơ hình Với vấn đề nên lựa chọn mẫu dòng để mang lại giá trị tốt cho mơ hình trung tâm, nghiên cứu cứu đề xuất giải pháp Biased Reservoir Sampling Giải pháp tập trung vào việc ưu tiên mẫu mà mơ hình dự đốn sai để đưa trung tâm cập nhật mơ hình Giải pháp cho vấn đề cân liệu dòng liệu: Mặc dù giải vấn đề nên lựa chọn mẫu dòng liệu Chúng ta cần phải xác định thêm dòng cần lấy bao nhiêu, cụ thể trường hợp dịng liệu cân bằng, việc phân bố hợp lý số lượng cần lấy cho dòng quan trọng để đảm bảo phân bổ liệu tập mẫu so với tổng thể Để giải vấn đề tối ưu phân bố số lượng liệu cần lấy cho dòng, nghiên cứu đề xuất giải pháp Biased Stratified Reservoir Sampling, giải pháp ưu tiên lấy mẫu mà mơ hình dự đốn sai Và có chế giao tiếp vị Bên cạnh liệu gần với thơng thường có giá trị so với liệu mà sinh từ lâu trước Với phương pháp đề xuất, sau lần gửi mẫu trung tâm mẫu hồn tồn mang giá trị thông tin gần Tuy nhiên cộng dồn vào tập liệu huấn luyện có sẵn trung tâm, theo thời gian số lượng mẫu gửi có giá trị chiếm phần nhỏ với liệu hữu trước Vì vậy, phải có cách thức phù hợp để đẩy giá trị thông tin gần cho việc huấn luyện lại mơ hình Tóm lại, với giải pháp đề xuất Biased Reservoir Sampling Biased Stratified Reservoir Sampling, có ưu nhươc điểm sau: Ưu điểm: • Trong trường hợp mà tốn địi hỏi tính xác cao mơ hình ví dụ toán phát gian lận (frad detection) hay xếp hạng tín dụng cho vay (credit scoring) , vv, lần dự đốn sai dẫn đến hậu lớn Vì việc ưu tiên hết mẫu sai giúp mô hình học nhiều đặc trưng khiến mơ hình dự đốn sai, để từ cải thiện lần dự đốn tương lai • Một ưu điểm khác mơ hình khoảng thời gian ∆t có r hồn toàn mới, nghĩa lần lấy mẫu khoảng thời gian sau thay hết mẫu mẫu lấy khoảng thời gian ∆t trước đó, ý tưởng tương tự cửa sổ lật trình bày lý thuyết liệu dòng Điều giúp ích việc, mơ hình cập nhật lại với liệu nhất, liệu mới, gần thơng thường có giá trị mẫu liệu từ lâu trước Hạn chế: • Trong trường hợp có nhiều mẫu dự đoán sai (nhiều so với số lượng mẫu cần lấy, nhiều so với tổng thể) Những mẫu sai đến từ bất thường liệu khoảng thời gian Vì trọng ưu tiên vào mẫu mà mơ hình dự đốn sai mơ hình có thiên hướng học lệch mẫu sai, từ dự đốn sai ln cho mẫu mà đáng phải dự đoán Và phải khoảng thời gian sau cập nhật huấn luyện lại Thì suốt khoảng thời gian chưa huấn luyện lại đó, kết dự đốn khơng mong đợi • Những lần huấn luyện lại cập nhật với mẫu hoàn toàn so với lần huấn luyện trước Hay nói cách khác, ∆t có r để gửi trung tâm Và mơ hình huấn luyện tiếp từ có khả kiến thức học từ lâu khơng cịn tương lai Vì thế, việc xem xét loại bỏ liệu cũ trước cần xem xét thêm vào giải pháp 24 Chương Đánh giá kết Chương trình bày kết đánh giá độ hiệu phương pháp lấy mẫu đề xuất Để hiểu rõ kết đánh giá, phần chương trình bày kiến trúc thiết kế cài đăt cho hệ thống thực nghiệm, ngồi liệu sử dụng, mơ hình xây dựng trung tâm phương pháp đánh giá độ hiệu trình bày Sau kết giải thuật Biased Reservoir Sampling Biased Stratified Reservoir Sampling cho trường hợp liệu đến từ 2,3,4,5 dịng trình bày 4.1 Thiết kế cài đặt hệ thống thực nghiệm Kiến trúc hệ thống thực nghiệm Để đánh giá kết giải thuật, tiến hành cài đặt hệ thống mơ để thực đánh giá Mơ hình có kiến trúc hình 4.1 Hình 4.1: Kiến trúc mơ cho hệ thống thực nghiệm 25 Từ tập liệu tĩnh có trước, tiến hành chia thành nhiều tập nhỏ cách ngẫu nhiên để mô cho việc liệu đến từ nhiều nguồn khác Trong kết thực nghiệm, chúng tối thực mô chia thành 2,3,4,5 nguồn khác Và nguồn lấy ngẫu nhiên (nếu trường hợp liệu nguồn nhau) cân Dữ liệu nguồn phân thành nhiều n phần (trong nghiên cứu n = 10) Mục đích việc chia nguồn thành 10 phần để mơ lại q trình huấn luyện, n = 10 mô cho việc huấn luyện lại mơ hình 10 lần Và 10 phần xếp theo trình tự thời gian, nghĩa thời điểm t1 , biết mẫu sinh từ t1 trở trước Tại vịng lặp huấn luyện lại mơ hình, liệu gom thành nơi gọi cửa sổ Kafka (Kafka window), việc lấy mẫu theo chiến lược thực Trong thực tế, để không xảy tải vị trí gom tất liệu nguồn thời điểm nơi, giai đoạn lấy mẫu thực cục vị trí, khơng cần gom chỗ Tuy nhiên, việc gom lại hình 4.1 để đơn giản hố kiến trúc đánh giá kết giải pháp lấy mẫu Tại giai đoạn lấy mẫu (Sampling), giải pháp lấy ngẫu nhiên, lấy theo Biased Rervoir Sampling, vv thực Sau mẫu gửi trung tâm thực trình cập nhật tập huấn luyện (update train set) Sau lần gửi, tập liệu huấn luyện bao gồm ln mẫu liệu trước để phục vụ cho việc huấn luyện lại mơ hình Sau huấn luyện lại, mơ hình đưa vị trí cục thực dự đốn mẫu mà mơ hình chưa nhìn thấy Tồn q trình hệ thống thực nghiệm này, mơ cơng cụ lập trình Google Collab sử dụng ngôn ngữ Python cho trình thực nghiệm Bộ liệu thực nghiệm [26] Để thực đánh giá, liệu doanh thu ngày cửa hàng cho mặt hàng sử dụng Bộ liệu ban đầu có 913,000 dịng với cột là: "date" - thời gian ghi nhận doanh thu bán hàng, kéo dài liên tục từ 2013-01-01 đến 2017-12-31, không bị ngắt quảng thiếu cho nghỉ lễ hay đóng cửa, "store" - mã cửa hàng bao gồm 10 cửa hàng, "item" - mã sản phẩm bao gồm 50 sản phẩm, cuối "sales" - doanh thu ngày hơm Ý nghĩa liệu thể hiện, ngày cửa hàng X bán sản phẩm A với doanh thu bao nhiêu? Và mục đích việc sử dụng liệu cho trình đánh giá liệu thể yếu tố phân bố trôi theo thời gian (distribution drift), thể hình 4.2, trường hợp mà cần phải huấn luyện lại mơ hình để bắt kịp thay đổi theo thời gian liệu Ngoài nghiên cứu tập trung vào liệu chiều, nên xét đến yếu tố doanh thu bán hàng phù hợp để thực đánh giá Từ liệu gốc trình bày, nghiên cứu loại bỏ trường liệu "store" "item" mơ hình dự đốn chung doanh thu ngày hơm khơng xét đến chi tiết sản phẩm cho cửa hàng Sau loại bỏ trường liệu tổng hợp liệu doanh thu theo ngày Tập liệu cuối có 1826 dòng liệu, tương ứng dòng doanh thu bán hàng ngày hơm Và để chuẩn bị cho tốn xây dựng mơ hình, liệu tạo thuộc tính doanh thu 1,2,3 12 ngày trước Sau loại bỏ liệu missing, tập liệu cuối có 1814 dịng 14 cột Minh hoạ 10 dịng liệu tập liệu cuối sau xử lý hình 4.3 26 Hình 4.2: Phân bố liệu sử dụng thực nghiệm Mơ hình trung tâm Các phương pháp lẫy mẫu đề xuất nghiên cứu dựa vào ý tưởng sử dụng mơ hình để xác định mẫu nên gửi trung tâm phục vụ cho trình huấn luyện lại mơ hình Vì cần nắm rõ mơ hình xây dựng trung tâm thực nào? Với toán dự đoán doanh thu ngày doanh nghiệp Mơ hình sử dụng Linear Regression Các thuộc tính tập huấn luyện mơ hình doanh thu ngày trước (1 đến 12 ngày trước đó) trình bày phần "bộ liệu thực nghiệm", nhãn mơ hình doanh thu ngày hơm Và sau mơ hình huấn luyện đưa nút cạnh để thực dự đốn Chỉ số đánh giá độ hiệu mơ hình R2 Ở thực nghiệm, mơ hình huấn luyện lại 10 lần, với tập liệu huấn luyện cập nhật qua 10 lần Ở lấn huấn luyện lại, liệu sau lấy mẫu gửi trung tâm mơ hình huấn luyện tiếp liệu Hay nói cách khác, tập liệu huấn luyện cập nhật với mẫu liệu gửi xây dựng lại mơ hình tồn liệu Với cách tiếp cận này, tập liệu huấn luyện cập nhật lại phân bố, mẫu liệu sai ưu tiên để gửi về, từ mơ hình học thơng tin từ việc điều chỉnh phân bổ tập liệu huấn luyện Phương pháp đánh giá độ hiệu Các mẫu sau lựa chọn gửi trung tâm, mơ hình máy học đơn giản xây dựng hồi quy tuyến tính Sau mơ hình gửi cục sử dụng cho việc dự đoán, số R2 sử dụng để đo độ xác mơ hình lần dự đốn Để đánh giá mức độ hiệu giải thuật lấy mẫu, Biased Reservoir sampling Biased Stratified Reservoir Sampling so sánh với chiến lược lấy mẫu khác nhau: Reservoir Sampling, Stratified Reservoir Sampling tổng thể Cụ thể cách thức cách hoạt động phương pháp để đánh giá sau: • Reservoir Sampling: Tại thời điểm, liệu gửi cửa sổ Kafka sau hồ liệu (reservoir) lấp đầy với |r| mẫu ngẫu nhiên gửi trung tâm • Stratified Reservoir sampling: Khác với Reservoir Sampling, thời điểm, phải tính tốn phân bổ vị trí nên lấy phụ thuộc vào tỷ tệ số lượng nguồn liệu 27 Hình 4.3: Bộ liệu sau xử lý • Biased Reservoir Sampling Biased Stratified Reservoir: sau lựa chọn ngẫu nhiên mẫu để gửi trung tâm cho việc huấn luyện vòng Mơ hình đưa cục dự đoán đề cập giải thuật [2] [3] Vì thuộc dạng tốn hồi quy tuyến tính, nên để xác định mẫu dự đoán sai hay đúng, dựa vào số RMSE Nếu giá trị dự đoán (y predicted ) lớn bé giá trị thực tế (ylabel ) khoảng RMSE mẫu dự đốn xem dự đốn sai Hay nói cách khác abs(y predicted - ylabel ) >= RMSE mẫu đánh dự đốn sai • Tổng thể (Total): Để biết độ xác tối đa mà mơ hình đạt kỹ thuật lấy mẫu có làm giảm độ xác nhiều khơng việc gửi trung tâm tất số lượng mẫu lần huấn luyện thực hiện, để từ so sánh hiệu mơ hình sau áp dụng lấy mẫu so với mức tối đa mà đạt Các chiến lượng thực bước đề cập phần kiến trúc hệ thống thực nghiệm Mỗi giải thuật chạy lần lấy kết trung bình lần chạy để so sánh 4.2 Kết thực nghiệm Trong trường hợp dòng liệu cân Để đánh giá việc ưu tiên chọn mẫu mà mơ hình dự đốn sai có phải giải pháp phù hợp cho vấn đề nên lựa chọn mẫu nào? Từ tập liệu đầu vào tĩnh, sau chia thành 2, 3, dòng khác Và hình 4.4 kết phần đánh giá giải 28 pháp Như đề cập phần phương pháp đánh giá chương này, giải pháp Biased Stratified Sampling so sánh với giải thuật hồ chứa mẫu (reservoir sampling) so sánh với việc gửi tồn số lượng liệu mà khơng thực lấy mẫu Nên kết hiểu là, lần huấn luyện lại mơ hình lần thứ 2,3,4,5, 10 số R2 phương pháp lấy mẫu Lưu ý, huấn luyện lại lần thứ 2, lần đầu tiên, ngoại trừ phương pháp "Total" mẫu liệu lựa chọn ngẫu nhiên mà gửi trung tâm khởi tạo mơ hình Vì vậy, kết lần khơng bao gồm phần đánh giá Hình 4.4: Kết điều kiện dòng liệu cân Nhìn chung tất trường hợp chia liệu thành nhiều dịng khác nhau, giải pháp Biased Reservoir Sampling tốt so với phương pháp lấy mẫu Reservoir Sampling hiệu mơ hình huấn luyện lại với mẫu lấy phương pháp Biased Reservoir Sampling tiệm cận với đường "Total" Và đáng ý thêm nhiều liệu gửi trung tâm để huấn luyện lại, độ xác tiệm cận với việc gửi tổng thể Sau huấn luyện lại lần thứ 10, phương pháp Biased Reservoir Sampling trung bình sai lệch so với tổng thể 3%, phương pháp lấy mẫu Reservoir sai lệch trung bình 10% Ở tất trường hợp chia thành nhiều dịng khác nhau, hình dáng đường hiệu mơ hình huấn luyện lại với phương pháp Biased Reservoir Sampling Total gần không thay đổi nhiều Nhưng phương pháp Reservoir Sampling, đường hiệu mơ hình thay đổi hình dáng theo cách ngẫu nhiên Ở lần huấn luyện lại (2,3,4), liệu huấn luyện mơ hình trung tâm chưa nhiều nhìn chung khơng có khác biệt nhiều phương pháp Biased Reservoir Sampling Reservoir Sampling Cả có kết R2 giao 29 động ngưỡng từ 0.85 trở xuống cách xa so với phương pháp "Total", từ vòng huấn luyện lại đầu tiên, phương pháp có kết R2 giao động ngưỡng 0.95 Tuy nhiên khác biệt hai phương pháp Biased Reservoir Sampling Reservoir Sampling bắt đầu xuất sau lần huấn luyện lại thứ Sau đợt huấn luyện lại này, phương pháp Biased Reservoir Sampling có kết R2 giao động mức gần 0.95, xấp xỉ tiệm cận với đường Total, với phương pháp Reservoir Sampling, kết ngang mức 0.9 có cịn giảm sâu mức 0.85 trường hợp chia thành dòng liệu (ở lần huấn luyện lại thứ 8) Trong trường hợp dòng liệu cân Cũng cách thức đánh giá trường hợp liệu dòng liệu cân trình bày Tuy nhiên trường hợp dòng liệu cân bằng, từ tập liệu đầu vào tĩnh ban đầu chia thành 2,3,4 nguồn khác Và với trường hợp chia 2,3,4 có tỷ lệ cân dòng Cụ thể tỷ lệ cân sau: • Trường hợp chia thành dòng liệu con: trường hơp cân là: 7/3 (dòng chiếm 70% dòng chiếm 30%), 4/6, 6/4, 8/2 2/8 • Trường hợp chia thành dòng liệu con: trường hơp cân là: 2/5/3, 4/2/4 2/7/1 • Trường hợp chia thành dòng liệu con: trường hơp cân là: 2/4/3/1, 3/2/4/1, 1/2/3/4 Nhìn chung, tất trường hợp chia dòng liệu cân bằng, giải pháp Biased Stratified Reservoir Sampling có kết R2 tốt so với giải pháp Stratified Reservoir Sampling kết qua lần huấn luyện lại mơ hình bám sát so với việc không áp dụng lấy mẫu (Total) Đối với trường hợp liệu đến từ nhiều dòng con, hiệu mơ hình việc sử dụng phương pháp Stratified Reservoir giao động mạnh so với giải pháp đề xuất Biased Stratified Reservoir Để hiểu rõ kết chi tiết trương hợp chia, vào hình 4.5, 4.6 4.7 bên Hình 4.5 thể kết trường hợp liệu đến từ dòng liệu khác Và có kết chi tiết tất trường hợp cân dòng nêu Với trường hợp cân dòng khác nhau, kết cho thấy giải pháp đề xuất Biased Reservoir Sampling tốt so với giải pháp Stratified Reservoir Sampling Tuy nhiên khơng có khác biệt lớn đường hiệu mơ hình Điều đặc biệt là, với hai phương pháp lấy mẫu kết mơ hình lần huấn luyện lại cuối (8,9,10) gần tiệm cận với Total, đặc biệt giải pháp Biased Stratfied Reservoir, lần huấn luyện lại cuối R2 gần với Total Tuy nhiên khác biệt rõ xảy với trường hợp chia dòng liệu chiếm 20% dòng liệu chiếm 80% Và xu hướng nêu phần đánh giá kết chia dòng liệu cân Hiệu mơ hình vịng huấn luyện lại giao động mức thấp (dưới 0.9) tăng dần lên mức lần huấn luyện lại sau Và kết dòng liệu cân trường hợp có nhiều dịng liệu Hình 4.6 bên thể kết chia tập liệu tĩnh ban đầu thành dòng liệu khác có tỷ lệ cân liệu khác Khác với trường hợp liệu đến từ dòng trên, trường hợp liệu đến từ dịng khác kết có khác biệt rõ ràng phương pháp lấy mẫu Biased Stratified Reservoir Sampling Stratified Reservoir Sampling Sự khác biệt rõ rệt lần huấn luyện lại mơ hình trước lần thứ So với phương pháp Stratified Reservoir Sampling 30 Hình 4.5: Kết điều kiện dòng liệu cân phương pháp Biased Reservoir Sampling mang lại hiệu mơ hình tốt mà cịn ổn định theo thời gian Đặc biệt giao động mạnh hiệu mơ hình phương pháp Stratified Reservoir Sampling trường hợp chia dòng theo tỷ lệ 4/2/4, lần huấn luyện lại thứ R2 giảm sâu so với lần trước đó, rớt xuống mức 0.8 Và hình 4.7 bên thể kết chia tập liệu đầu vào thành dòng liệu Kết tương tự việc chia thành hay dòng liệu Hiệu mơ hình sau lần huấn luyện lại lại thứ việc lấy mẫu theo phương pháp đề xuất Biased Stratified Reservoir Sampling tốt hẳn so với phương pháp Stratified Reservoir Sampling Và điều đáng ý sử dụng phương pháp Biased Stratified Reservoir Sampling hiệu mơ hình tiệm cận so với việc gửi toàn mẫu trung tâm, cần gửi lượng mẫu nhỏ 10% Và ngồi tốt độ hiệu quả, tính ổn mơ hình thể rõ chia liệu thành dịng 31 Hình 4.6: Kết điều kiện dòng liệu cân 32 Hình 4.7: Kết điều kiện dòng liệu cân 33 Chương Kết luận hướng phát triển tương lai Kết luận Luận văn tập trung vào nghiên cứu đề xuất giải pháp lấy mẫu đa luồng phục vụ cho tốn phân tích liệu, cụ thể xây dựng mơ hình học máy vị trí trung tâm Giải vấn đề giảm số lượng liệu gửi trung tâm huấn luyện mơ hình đạt độ hiệu mong đợi Trong lấy mẫu đa luồng, hai vấn đề mà nghiên cứu tập trung giải làm để lựa chọn mẫu có giá trị việc huấn luyện mơ hình trung tâm phân bố sổ lượng dòng liệu xảy trường hợp cân liệu Đối với vấn đề nên lựa chọn mẫu dòng để mơ hình đạt hiệu tốt Nghiên cứu đặt để tốn điều kiện dịng liệu có số lượng gửi đến thời điểm khoảng thời gian Với phương pháp đề xuất Biased Stratified Reservoir Sampling, kết thực nghiệm cho thấy việc ưu tiên mẫu mà mơ hình dự đốn sai gửi trung tâm để huấn luyện lại mơ hình mang lại kết tốt so với việc lấy mẫu ngẫu nhiên mà khơng sử dụng mơ hình việc lựa chọn Đối với vấn đề nên lấy số lượng cho dòng, giải pháp Biased Stratified Reservoir Sampling xem xét đến yếu tố tỷ lệ dòng gửi đến thời điểm định từ tính tốn số lượng cần phân bổ cho phù hợp dịng Ngồi việc phân bố số lượng phù hợp cho dòng, giải pháp áp dụng cách thức ưu tiên mẫu mà mô hình dự đốn sai dịng để gửi trung tâm thực huấn luyện lại mơ hình Và kết thực nghiệm cho thấy hướng tiếp cận mang lại kết tốt so so sánh với giải pháp gửi toàn mẫu trung tâm Không mang lại kết tốt so với phương pháp lấy mẫu bản, hai giải pháp đề xuất Biased Reservoir Sampling Biased Stratified Reservoir Sampling cịn mang lại hiệu cho mơ hình tiệm cận so với cách thức gửi toàn liệu trung tâm Mặc dù chi phí 10% so với giải pháp gửi tổng thể này, độ hiệu mơ hình tương đương Ngồi ra, giải pháp có tính ổn định qua lần huấn luyện lại mơ hình, thơng qua việc R2 tăng dần qua thời gian 34 Hướng phát triển tương lai Xác định ngưỡng tối đa số lượng cần lấy cho mẫu sai: Để hạn chế việc mơ hình học lệch mẫu mà dự đốn sai trước Việc xem xét đến ngưỡng giới hạn tỷ lệ cho mẫu dự đoán sai lựa chọn giải pháp Khi đó, tỷ lệ mẫu dự đốn sai khơng vượt q ngưỡng cho phép, phần lại chỗ mẫu mà mơ hình dự đốn Việc xác định tỷ lệ ngưỡng phù hợp để mơ hình cải thiện từ mẫu dự đoán sai, giữ phân phối tổng thể hướng phát triển tương lai nghiên cứu Ưu tiên mẫu sai cách "xem xét lại": Hai giải pháp lấy mẫu đề xuất ưu tiên cho những mẫu sai, cách loại bỏ mẫu để thay mẫu sai trình lấy mẫu Tuy nhiên việc ưu tiên cho mẫu sai giảm lại cách cho thêm hội lần không lựa chọn Cụ thể là, mẫu sai hay mẫu đến, chúng có xác suất để lựa chọn (r/n) Tuy nhiên, mẫu sai khơng lựa chọn, cho thêm hội lần thứ hai, nghĩa xem lại Và lần khơng lựa chọn coi bỏ qua mẫu Phát triển giải thuật theo hướng tiếp cận hướng phát triển tương lai Xem xét mức độ xác mơ hình dịng phân bố số lượng mẫu: Hai giải pháp Biased Reservoir Sampling Biased Stratified Reservoir Sampling mà nghiên cứu đề xuất, quan tâm đến việc ưu tiên mẫu mà mơ hình dự đốn sai chưa xem xét đến khía cạnh tỷ lệ dự đốn sai mơ hình dịng Tuy nhiên việc mơ hình dự đốn sai dòng nhiều yếu tố quan trọng xem xét đến việc lấy mẫu Ví dụ mơ hình dự đốn sai nhiều dịng 1,3,4 dòng lấy thêm mẫu để từ cải thiện tương lại? Và tỉ trọng lấy mẫu cho dịng mà mơ hình dự đốn sai nhiều nơi mà mơ hình làm chưa tốt tính tốn nào? Lấy mẫu lại tập liệu huấn luyện trung tâm sau khoảng thời gian: Để tăng giá trị thông tin gần nhất, sau khoảng thời gian thực lấy mẫu tập huấn luyện Mục đích để giảm số lượng tập huấn luyện, từ mẫu gửi trung tâm có đóng góp lớn cho việc huấn luyện lại mơ hình Thực nghiệm nhiều tập liệu với nhiều loại mô hình khác trung tâm: Đề tài thực thực nghiệm tập liệu với mơ hình hồi quy tuyến tính Vì việc thực nghiệm nhiều tập liệu khác với nhiều loại mơ hình khác huấn luyện trung tâm cần thiết để có kết luận khái quát 35 Tài liệu tham khảo [1] N Thoại Class Lecture, Topic: “Data streaming in big data” Computer Science and Engineering Faculty, HCMUT Sep, 2021 [2] Z Jiang et al, “Training sample selection for deep learning of distributed data,” in 2017 IEEE International Conference on Image Processing (ICIP), pp 2189–2193, IEEE, 2017 [3] S Chinchali et al “Sampling training data for continual learning between robots and the cloud,” in International Symposium on Experimental Robotics, pp 296–308, Springer, 2020 [4] M Al-Kateb and B S Lee, “Stratified reservoir sampling over heterogeneous data streams,” in International Conference on Scientific and Statistical Database Management, pp 621–639, Springer, 2010 [5] T D Nguyen et al, “Stratified random sampling from streaming and stored data,” Distributed and Parallel Databases, vol 39, no 3, pp 665–710, 2021 [6] J Neyman, “On the two different aspects of the representative method: the method of stratified sampling and the method of purposive selection,” in Breakthroughs in statistics, pp 123–150, Springer, 1992 [7] M D Bankier, “Power allocations: determining sample sizes for subnational areas,” The American Statistician, vol 42, no 3, pp 174–177, 1988 [8] J S Vitter, “Random sampling with a reservoir,” ACM Transactions on Mathematical Software (TOMS), vol 11, no 1, pp 37–57, 1985 [9] P S Efraimidis and P G Spirakis, “Weighted random sampling with a reservoir,” Information processing letters, vol 97, no 5, pp 181–185, 2006 [10] E Liberty et al, “Stratified sampling meets machine learning,” in International conference on machine learning, pp 2320–2329, PMLR, 2016 [11] L Hăubschle-Schneider and P Sanders, Parallel weighted random sampling,” ACM Transactions on Mathematical Software (TOMS), vol 48, no 3, pp 1–40, 2022 [12] R Jayaram et al, “Weighted reservoir sampling from distributed streams,” in Proceedings of the 38th ACM SIGMOD-SIGACT-SIGAI Sym-posium on Principles of Database Systems, pp 218–235, 2019 [13] P S Efraimidis, “Weighted random sampling over data streams,” Algorithms, Probability, Networks, and Games: Scientific Papers and Essays Dedicated to Paul G Spirakis on the Occasion of His 60th Birthday, pp 183–195, 2015 [14] M Al-Kateb et al, “Adaptive-size reservoir sampling over data streams,” in 19th International Conference on Scientific and Statistical Database Management (SSDBM 2007), pp 22–22, IEEE, 2007 [15] M Al-Kateb and B S Lee, “Adaptive stratified reservoir sampling over heterogeneous data streams,” Information Systems, vol 39, pp 199–216, 2014 36 [16] D L Quoc, et al, “Streamapprox: Approximate computing for stream analytics,” in Proceedings of the 18th ACM/IFIP/USENIX Middleware Conference, pp 185–197, 2017 [17] Z Wen et al, “Approxiot: Approximate analytics for edge computing” in 2018 IEEE 38th International Conference on Distributed Computing Sys-tems (ICDCS), pp 411–421, IEEE, 2018 [18] C Karras et al, “Pattern recognition and event detection on iot data streams,” arXiv preprint arXiv:2203.01114, 2022 [19] D.-g Zhang et al, “A novel edge computing architecture based on adaptive stratified sampling,” Computer Communi-cations, vol 183, pp 121–135, 2022 [20] C Huyen, Designing Machine Learning Systems O’Reilly Media, Inc., pp 123-125 May 2022 [21] B R Methodology, “Simple random sampling.” https://research-methodology net/sampling-in-primary-data-collection/random-sampling/, 2021 [Online; accessed 17-November-2022].of distributed data,” [22] S AbdulRahman et al, “A survey on federated learning: The journey from centralized to distributed on-site learning and beyond,” IEEE Internet of Things Journal, vol 8, no 7, pp 5476–5497, 2020 [23] T Addair, “Decentralized and distributed machine learning model training with actors,” [24] Microsoft, “Distributed training with azure machine learning.” https://learn.microsoft.com/en-us/azure/machine-learning/ concept-distributed-training, 21-Oct-2022 [Online; accessed 20-November2022] [25] M S Murshed et al, “Machine learning at the network edge: A survey,” ACM Computing Surveys (CSUR), vol 54, no 8, pp 1–37, 2021 [26] Kaggle , “Store item demand forecasting challenge.” Internet: https:// www.kaggle.com/competitions/demand-forecasting-kernels-only/data select=train.csv, 2018 [Online; accessed 10-Sep-2022] 37 PHẦN LÝ LỊCH TRÍCH NGANG Họ tên: Phạm Anh Dũng Ngày, tháng, năm sinh: 29/01/1998 Nơi sinh: Bà Rịa Vũng Tàu Địa liên lạc: 17 đường số 21, phường Tân Quy, quận 7, Thành phố Hồ Chí Minh Q TRÌNH ĐÀO TẠO 2016 – 2020: Sinh viên khoa Công Nghệ Thông Tin Kinh Doanh, ngành Hệ Thống Thông Tin Quản Lý, trường đại học Kinh Tế Thành Phố Hồ Chí Minh 2020 – nay: Cao học ngành Khoa Học Máy Tính, khoa Khoa Học Kỹ Thuật Máy Tính, trường đại học Bách Khoa Thành Phố Hồ Chí Minh Q TRÌNH CƠNG TÁC 2019 – 2022: Chun viên phân tích liệu cơng ty Prudential Vietnam 2022 – nay: Chuyên viên khoa học liệu công ty Zalopay

Ngày đăng: 20/06/2023, 21:46

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

w