(Luận văn) sử dụng thuật toán knn kết hợp với bài toán điểm biên cho khai phá dữ liệu lớn trong spark

57 0 0
(Luận văn) sử dụng thuật toán knn kết hợp với bài toán điểm biên cho khai phá dữ liệu lớn trong spark

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC QUY NHƠN NGUYỄN THỊ LÝ PHƢƠNG lu an va SỬ DỤNG THUẬT TOÁN KNN n KẾT HỢP VỚI BÀI TOÁN ĐIỂM BIÊN p ie gh tn to CHO KHAI PHÁ DỮ LIỆU LỚN TRONG SPARK nl w d oa Chuyên ngành: Khoa học máy tính oi lm ul nf va an lu Mã số: 8480101 at nh z z Ngƣời hƣớng dẫn: TS Hồ Văn Lâm gm @ om l.c an Lu n va ac th si LỜI CAM ĐOAN Tôi xin cam đoan luận văn công trình nghiên cứu tơi, khơng chép cơng trình khoa học trƣớc Các kết nêu luận văn có nguồn gốc rõ ràng đƣợc trích dẫn đầy đủ Luận văn đƣợc hồn thành thời gian làm Học viên Cao học Khoa Công nghệ Thông tin, Trƣờng Đại học Quy Nhơn Tơi xin chịu hồn tồn trách nhiệm luận văn Quy Nhơn, ngày tháng năm 2021 lu an Học viên n va p ie gh tn to Nguyễn Thị Lý Phƣơng d oa nl w oi lm ul nf va an lu at nh z z gm @ om l.c an Lu n va ac th si LỜI CẢM ƠN Tôi xin chân thành cảm ơn thầy cô giáo Khoa Công nghệ thông tin Trƣờng Đại học Quy Nhơn truyền đạt kiến thức bổ ích, đồng thời xin cảm ơn Phịng Đào Tạo Sau đại học Trƣờng Đại học Quy Nhơn tạo điều kiện thuận lợi trình học tập thực luận văn tốt nghiệp Tôi xin gửi lời biết ơn chân thành đến TS Hồ Văn Lâm, ngƣời tận tình hƣớng dẫn góp ý cho tơi suốt q trình nghiên cứu, cho lu an nhiều lời động viên nhƣ hƣớng dẫn q báu để tơi thực n va tốt đƣợc đề tài tn to Trong trình thực đề tài, khơng thể khơng kể đến giúp đỡ, p ie gh đóng góp ý kiến lời động viên từ phía gia đình, ngƣời thân, đồng nghiệp bạn bè xung quanh, điều thật động lực lớn giúp tơi hồn nl w thành tốt đề tài nghiên cứu d oa Xin chân thành cảm ơn! ul nf va an lu Học viên oi lm Nguyễn Thị Lý Phƣơng at nh z z gm @ om l.c an Lu n va ac th si MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN DANH MỤC CÁC CHỮ VIẾT TẮT DANH MỤC HÌNH ẢNH MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ THUẬT TOÁN lu KNN TRONG SPARK an 1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU va n 1.1.1 Khái niệm 1.1.3 Các bƣớc trình khai phá liệu 1.1.4 Khái quát kỹ thuật KPDL p ie gh tn to 1.1.2 Quá trình khai phá liệu 1.1.5 Ứng dụng KPDL .10 nl w 1.1.6 Những thách thức nghiên cứu ứng dụng KPDL .12 oa d 1.2 THUẬT TOÁN KNN TRONG KHAI PHÁ DỮ LIỆU 13 lu an 1.2.1 Giới thiệu chung KNN .13 nf va 1.2.2 Cơ sở toán học thuật toán KNN cho toán phân lớp 14 lm ul 1.2.3 Thuật toán KNN cho toán phân lớp 15 1.2.4 Ứng dụng KNN 15 oi nh 1.2.5 Thách thức ƣu điểm KNN 16 at 1.3 TỔNG QUAN VỀ SPARK 16 z z 1.3.1 Giới thiệu Apache Spark 17 @ gm 1.3.2 Thành phần Spark 18 om l.c 1.3.3 Những điểm bật Spark mục tiêu sử dụng 19 1.4 TIỂU KẾT CHƢƠNG 20 Lu CHƢƠNG THUẬT TOÁN KNN KẾT HỢP VỚI BÀI TOÁN ĐIỂM BIÊN an TRONG SPARK CHO BÀI TOÁN DỮ LIỆU LỚN 21 n va ac th si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 2.1 GIỚI THIỆU CHUNG VÀ PHÁT BIỂU BÀI TOÁN 21 2.1.1 Giới thiệu .21 2.1.2 Phát biểu toán 22 2.2 THUẬN TOÁN KNN VÀ BÀI TOÁN ĐIỂM BIÊN CHO DỮ LIỆU LỚN 23 2.2.1 Ý tƣởng KNN 24 2.2.2 Thuật toán phân lớp KNN .24 2.2.3 Điểm biên bà ứng dụng xử lý liệu lớn 25 2.3 THUẬT TOÁN KNN KẾT HỢP BÀI TOÁN ĐIỂM BIÊN CHO DỮ LIỆU lu LỚN 30 an va 2.3.1 Thuật toán KNN cho liệu lớn .30 n 2.3.2 Kết hợp KNN toán điểm biên cho liệu lớn .31 to 2.3.4 Phƣơng pháp kết hợp KNN toán điểm biên cho liệu lớn 32 p ie gh tn 2.3.3 Ý tƣởng kết hợp KNN toán điểm biên cho liệu lớn 31 2.3.5 Thuật toán kết hợp KNN toán điểm biên cho liệu lớn 33 nl w 2.4 TRIỂN KHAI THUẬT TOÁN KNN KẾT HỢP BÀI TOÁN ĐIỂM BIÊN d oa CHO DỮ LIỆU LỚN TRONG SPARK 36 an lu 2.4.1 Giới thiệu .37 va 2.4.2 Tổng quan KNN Tham gia MapReduce dựa Hadoop 38 ul nf 2.4.3 Triển khai KNN kết hợp với toán điểm biên dựa Spark 39 lm 2.5 TIỂU KẾT CHƢƠNG 41 oi CHƢƠNG CÀI ĐẶT MÔ PHỎNG THỰC NGHIỆM 42 nh at 3.1 MÔI TRƢỜNG VÀ CÔNG CỤ 42 z 3.1.1 Phát biểu toàn 42 z gm @ 3.1.2 Mơi trƣờng ngơn ngữ lập trình 42 3.1.3 Công cụ thƣ viện 43 om l.c 3.1.4 Bộ liệu 43 3.2 CÀI ĐẶT MÔ PHỎNG 43 Lu an 3.2.1 Cài đặt .43 n va ac Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 3.2.2 Các tham số kết đạt đƣợc 45 3.2.3 So sánh đánh giá kết đạt đƣợc .46 KẾT LUẬN 48 TÀI LIỆU THAM KHẢO 49 lu an n va p ie gh tn to d oa nl w oi lm ul nf va an lu at nh z z gm @ om l.c an Lu n va ac Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an DANH MỤC CÁC CHỮ VIẾT TẮT Chữ viết tắt Tên đầy đủ Nghĩa tiếng Việt Data minining Khái phá liệu KDD Knowledge Discovery in Phát tri thức sở Database liệu CSDL Database Cơ sở liệu KNN K-nearest neighbors K-Hàng xóm gần RDD Resilient Distributed Cấu trúc liệu Datasets Spark Principal Component Thuật tốn phân tích thành Analysis phần lu KPDL an n va PCA p ie gh tn to d oa nl w oi lm ul nf va an lu at nh z z gm @ om l.c an Lu n va ac Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an DANH MỤC HÌNH ẢNH Hình 1.1 Quá trình KPDL Hình 1.2 Các bƣớc KPDL Hình 1.3 Một ví dụ cách tính khoảng cách d hai điểm liệu không gian hai chiều .14 Hình 1.4 Các mốc thời gian phát triển Spark 17 Hình 1.5 Các thành phần Spark 18 Hình 2.1 Ví dụ điểm ranh giới điểm liệu nằm lề (hoặc lu cụm) liệu đƣợc phân phối dày đặc 26 an Hình 2.2 Khơng thể vẽ đƣờng thẳng để phân tách lớp không va n gian đặc trƣng cách hồn hảo Ba dịng đƣợc vẽ, to gh tn nhƣng dịng dẫn đến số phân loại sai 27 p ie Hình 2.3 Quyết định ranh giới theo 1-NN cho điểm liệu lớp khác biệt với 28 nl w Hình 2.4 Các vùng lân cận gần cho tập liệu huấn luyện gồm hai lớp, d oa mẫu huấn luyện lớp đƣợc hiển thị với dấu an lu „*‟ màu đỏ, vùng lớp đƣợc hiển thị „◦‟ màu xanh nf va lam 28 lm ul Hình 2.5 Ranh giới định vùng định cho phân 1-NN oi cho hai lớp 29 at nh Hình 2.6 Các vùng lân cận gần cho tập liệu huấn luyện gồm ba lớp .29 z Hình 2.7 Ranh giới định vùng định cho phân loại z hàng xóm 1-NN cho ba lớp 30 @ gm Hình 2.8 Tính khơng hiệu thƣớc đo khoảng cách đến trung tâm om l.c cụm nhƣ tiêu chí để chọn cụm thích hợp .31 Hình 2.9 Ảnh hƣởng mật độ cụm đến hiệu suất thuật tốn KNN .33 Lu an Hình 2.10 KNN kết hợp với toán điểm biên Spark .41 n va ac Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an MỞ ĐẦU Ngày nay, Big Data – liệu lớn trở thành thuật ngữ phổ biến thịnh hành nhiều lĩnh vực cơng nghiệp học thuật Nó đƣợc sử dụng để mô tả loạt khái niệm từ khả công nghệ để lƣu trữ, tổng hợp xử lý liệu Việc xử lý lƣợng lớn liệu trở thành nhiệm vụ cần thiết số lƣợng lớn ứng dụng giới thực Khi nói đến việc đối phó với liệu lớn, tiêu chuẩn kỹ lu thuật khai thác liệu thƣờng không giải đƣợc khối lƣợng nhƣ an n va thuật toán trở nên hiệu KNN phƣơng pháp học có học máy tính đơn giản nhƣng hiệu tiếng rộng rãi khai thác gh tn to giám sát khai thác liệu đơn giản đƣợc sử dụng rộng rãi lĩnh vực p ie liệu Khi huấn luyện, thuật toán khơng học điều từ liệu huấn luyện, lý thuật toán đƣợc xếp vào loại lazy learning – máy nl w lƣời học, tính tốn đƣợc thực cần dự đoán kết liệu oa d Một cách ngắn gọn, KNN thuật tốn tìm đầu điểm lu an liệu cách dựa thông tin K điểm liệu tập liệu nf va huấn luyện gần (K-lân cận), khơng quan tâm đến việc có vài lm ul điểm liệu điểm gần nhiễu Có điều đáng lƣu ý oi KNN phải nhớ tất điểm liệu huấn luyện, việc không đƣợc lợi nh nhớ thời gian tính tốn liệu lớn at z Ứng dụng thực tế mơ hình miền liệu lớn không khả z gm @ thi hạn chế thời gian nhớ Một số giải pháp thay phân tán đƣợc đề xuất phép phƣơng pháp xử lý liệu quy mô lớn Tuy om l.c nhiên, hiệu suất chúng đƣợc cải thiện với thiết kế Lu phù hợp với công nghệ phát sinh Ngoài ra, thời gian tác giả an hoàn thành luận văn này, đại dịch COVID-19 diễn biến phức tạp, n va ac Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an nhà khoa học cơng bố cơng trình nghiên cứu khai thác liệu đƣợc phát triển có mơ số cơng trình có sử dụng mơ hình KNN để đƣa giải pháp nhằm dự báo điều trị góp phần giúp giới ngăn chặn đại dịch Với tầm quan trọng toán nghiên cứu nhƣ ứng dụng, chọn “Sử dụng thuật toán KNN kết hợp với toán điểm biên cho khai phá liệu lớn Spark” làm đề tài nghiên cứu cho luận văn Luận văn đƣợc kiến trúc thành 03 chƣơng lu Chƣơng Tổng quan khai phá liệu thuật toán KNN Spark an Chƣơng Thuật toán KNN kết hợp với toán điểm biên Spark cho va n toán liệu lớn Cuối chƣơng có phần Tiểu kết để tổng kết lại nội dung p ie gh tn to Chƣơng Cài đặt mơ thực nghiệm chƣơng nl w Ngồi chƣơng nêu trên, luận văn kết thúc với phần Kết d oa luận hƣớng phát triển để tóm tắt kết đạt đƣợc, vấn đề oi lm ul nf va an lu tồn dự kiến hƣớng phát triển luận văn at nh z z gm @ om l.c an Lu n va ac Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 35 luyện đƣợc gom lại thành m phần riêng biệt Sau cụm đƣợc xác định, kích thƣớc chúng trải rộng chúng trục khác không gian liệu ( ) đƣợc tính tốn cho cụm Sử dụng Thuật tốn 1, chọn nhóm liệu thích hợp nhất.Vì đầu q trình KNN phụ thuộc vào liệu huấn luyện đƣợc sử dụng, việc chọn nhóm liệu tốt có ảnh hƣởng đáng kể đến q trình phân loại cuối Do đó, thuật tốn KNN đƣợc áp dụng phần chọn liệu huấn luyện để tìm k lân cận gần đó, để ƣớc tính lớp mẫu thử nghiệm Mã giả lu Thuật toán đƣợc đề xuất đƣợc hiển thị bên dƣới đây: an n va Thuật toán KNN kết hợp với toán điểm biên cho liệu lớn tn to Đầu vào: lượng lớn liệu tập hợp mẫu thử nghiệm cần gh phân loại (khơng gian liệu có n chiều) p ie Đầu ra: loại ước tính mẫu thử nghiệm Begin nl w Chia lượng lớn liệu thành m cụm riêng biệt thuật toán k-mean oa d For each cluster i = 1… m lu ul nf (j=1…n) Tính va an Tính tốn kích thước cụm (số lượng mẫu liệu) lm Đối với mẫu thử nghiệm oi Chọn nhóm liệu thích hợp cách sử dụng Thuật toán nh at Sử dụng thuật tốn KNN cụm chọn để tìm lớp ước tính mẫu thử z nghiệm z @ gm End lần lƣợt thể khoảng cách trung bình om l.c Các tham số Lu mẫu thử nghiệm đƣờng viền trung tâm cụm Hơn an nữa, α β hai tham số điều chỉnh (trong phạm vi từ đến 1) đƣợc đề xuất n va ac Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 36 tƣơng ứng 0,5 0,7, dựa kết thực nghiệm Giá trị cao tham số α có nghĩa có tầm quan trọng khoảng cách đến số trung tâm cụm để chọn cụm thích hợp Ngồi ra, giá trị thấp tham số β có tầm quan trọng mật độ số liệu cụm 2.4 TRIỂN KHAI THUẬT TOÁN KNN KẾT HỢP BÀI TOÁN ĐIỂM BIÊN CHO DỮ LIỆU LỚN TRONG SPARK Khi khối lƣợng kích thƣớc liệu tăng lên, có phƣơng pháp tiếp cận phân tán thực hoạt động lớn lu thời gian định Các cơng trình gần đƣợc thực việc an thực giải pháp hiệu cách sử dụng mơ hình lập trình giảm va n đồ đƣợc sử dụng để phân phối xử lý liệu quy mô lớn Mặc dù gh tn to cơng trình cung cấp giải pháp khác cho vấn đề, p ie nhƣng cơng trình có ràng buộc tính chất cụ thể Khi số lƣợng liệu tăng lên, chạy mô hình nl w ứng dụng thực tế máy đơn hạn chế nhớ thời gian Ngày nay, d oa mơ hình quy trình hàng loạt phổ biến đƣợc gọi MapReduce chạy an lu cụm với số lƣợng lớn máy tính đƣợc sử dụng rộng rãi để xử lý nf va liệu quy mô lớn Hadoop làmột khuôn khổ để triển khai MapReduce, nhƣng lm ul hiệu suất đƣợc cải thiện khn khổ có oi tên Spark Khai thác luồng liệu lớn tốc độ cao số at nh thách thức đại học máy Để giải điều này, luận văn z trình bày phân loại dựa thuật toán láng giềng kết hợp với toán z điểm biên đƣợc giới thiệu phần trƣớc đƣợc triển khai Apache @ gm Spark Trong luận văn này, triển khai KNN dựa Spark Với om l.c lợi khả tính tốn nhớ, nhanh hiệu Hadoop an Lu n va ac Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 37 2.4.1 Giới thiệu K hàng xóm gần (KNN) loại thuật toán học máy Ý tƣởng cốt lõi thuật toán đƣa tập liệu kiểm tra R tập liệu huấn luyện S, với liệu r R, tìm k lân cận gần liệu S Trƣớc đây, thƣờng đƣợc sử dụng tập liệu Khi khối lƣợng liệu tăng lên, cách xử lý với liệu kích thƣớc lớn KNN gặp nhiều khó khăn nhƣ giới thiệu phần trƣớc Các cách tiếp cận triển khai chung dành cho r R, bắt buộc để quét toàn tập liệu S, tính tốn khoảng cách r lu s S Do đó, độ phức tạp KNN O (| R | × | S | × | d |), an d chiều liệu Có nhiều cơng trình liên quan để giải vấn va n đề này, nhƣng quy mô liệu tăng lên, việc chạy bị hạn chế gh tn to đáng kể thuật toán máy Phƣơng pháp hiệu phân p ie phối song song cụm MapReduce mơ hình lập trình để dễ dàng viết ứng dụng xử nl w lý lƣợng lớn liệu (tập liệu nhiều terabyte) song song cụm d oa lớn (hàng nghìn nút) phần cứng theo cách thức đáng tin cậy, có khả an lu chịu lỗi Nó lần đƣợc đề xuất Google đƣợc thực nf va Hadoop, khung phần mềm mã nguồn mở Các chƣơng trình MapReduce lm ul đọc liệu đầu vào từ đĩa, ánh xạ chức toàn liệu, thu nhỏ oi kết đồ lƣu trữ kết thu nhỏ đĩa Vì vậy, Hadoop z toán thời gian thực at nh MapReduce mơ hình tính tốn hàng loạt khơng thể thích ứng với tính z Đƣợc phát triển ban đầu Đại học California, AMPLab Berkeley, @ gm Spark hệ thống tính tốn cụm đa nhanh chóng Spark cung cấp om l.c cho lập trình viên giao diện lập trình ứng dụng tập trung vào cấu trúc liệu đƣợc gọi tập liệu phân tán có khả phục hồi (RDD) Các Lu an RDD Spark hoạt động nhƣ tập hợp làm việc cho chƣơng trình n va ac Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 38 phân tán cung cấp dạng nhớ đƣợc chia sẻ phân tán bị hạn chế (có chủ ý) Vì vậy, dựa tính tốn nhớ chạy chƣơng trình nhanh tới 100 lần so với hadoop MapReduce nhớ nhanh 10 lần đĩa xử lý yêu cầu thời gian thực Spark hỗ trợ công cụ cấp cao phong phú bao gồm Spark SQL cho SQL xử lý liệu có cấu trúc, MLlib cho máy học, GraphX để xử lý đồ thị Spark Streaming Trong phần này, trình bày phƣơng pháp dựa lu MapReduce phƣơng pháp tiếp cận cho KNN tham gia chạy Spark Chúng an chia tập liệu R cho nhiều phân vùng S cho nhiều khối nhớ cache va n để thích ứng với liệu lớn Với r R, tính khoảng cách với khối gh tn to nhớ cache S, sau kết hợp với tốn điểm biên trình bày để p ie để tìm k hàng xóm gần 2.4.2 Tổng quan KNN Tham gia MapReduce dựa Hadoop nl w Giải pháp KNN tham gia đƣợc chia thành hai loại: Giải pháp d oa xác Giải pháp gần Trong tài liệu, nhà nghiên cứu cung cấp an lu giải pháp xác đƣợc gọi H-BNLJ (Hadoop Block Nested Loop Join) Ý tƣởng phân vùng R S thành tập { ,,…, } }, cặp tập (một giá trị từ R giá trị khác từ S) lm ul {{ , ,,…, nf va , )) at nh pha đồ oi đƣợc phân vùng thành nhóm (mỗi nhóm bao gồm cặp nhƣ ( , Trong nhóm, khoảng cách r đƣợc tính z s z gm @ tốn, sau thứ tự ghi theo khoảng cách nhƣ (r_id,s_id,distance(r,s)) đƣợc lƣu trữ pha reduce Trong thủ tục MapReduce này, nhóm đƣợc om l.c ghi vào tệp đƣợc tạo Trong giai đoạn MapReduce thứ hai, đọc tất tệp mà MapReduce cuối tạo Đối với r_id, lấy khoảng cách Lu an tối thiểu top-k xác định phân loại Tổng chi phí CPUlà O (| R || S | + | R | n va ac Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 39 nklogk) Để cải thiện hiệu suất, nghiên cứu cung cấp phƣơng pháp khác gọi H_BRJ (Hadoop Block R-tree Join) sử dụng Cây R 2.4.3 Triển khai KNN kết hợp với toán điểm biên dựa Spark Trong tập liệu S, ghi định dạng dƣới dạng nhƣ (s_id, c, ,…, , phân loại ), s_id số nhận dạng ghi, c ,…, , thuộc tính Trong tập liệu R, ghi định dạng dƣới dạng nhƣ(r_id, ghi, …, , , …, ), r_id định danh thuộc tính lu Bởi tập huấn luyện tập thử nghiệm có kích thƣớc cao an va tập liệu lớn, làm để phân vùng chúng để KNN chạy Spark n hiệu nhiệm vụ đầy thách thức Có nhiều điểm khác cần đƣợc gh tn to xem xét nhƣ số lƣợng đồ số lƣợng khối nhớ cache S p ie Chúng tơi trình bày ý tƣởng đƣa thuật toán cốt lõi (1) Đọc tập liệu thử nghiệm lớn (R) thành m phân vùng Nó oa nl w đƣợc triển khai đơn giản Spark api Điều có nghĩa có m nhiệm d vụ bắt đầu độ song song m an lu (2) Đọc tập liệu huấn luyện (S) vào biến quảng bá Spark Giá trị nf va biến quảng bá đƣợc phân phối cho nhớ nút phụ Vì vậy, nhớ lm ul chứa tất liệu, nên chia S thành n tập (đƣợc biểu oi diễn biến s_subset Thuật toán 1) Đầu tiên lấy tập hợp at nh (tính tốn dịng thuật tốn 2.4.1) vào biến quảng bá để sử dụng, sau z lặp lại tất tập hợp đƣợc sử dụng z @ gm Thuật toán 2.4.1: Tách S thành biến Broadcast om l.c 1: val s_RDD = textFile (SPath) an Lu 2: val sTotalNum = S.count () // tổng ghi lưu trữ tập liệu n va ac Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 40 3: val s_subset = sTotalNum / sCacheBlockNum // số ghi khối nhớ cache 4: val s_broadcast = broadcast (lấy ghi s_subset từ S) 5: for (i = to sCacheBlockNum) { 6: hoạt động khác sử dụng s_broadcast 7: s_broadcast = broadcast (lấy ghi s_subset khác từ S) 8: } lu an (3) Minh họa hoạt động dịng thuật tốn Hàm ánh xạ va n R đƣợc sử dụng để tính khoảng cách với tập i S cho gh tn to ghi Đối với khóa r_id, giá trị tạo thành đồ phân loại p ie khoảng cách (khoảng cách khóa đồ phân loại giá trị đồ) Sau đó, cặp khóa-giá trị đƣợc xuất dƣới dạng (r_id, map ) Để xếp phần tử đồ theo khoảng cách, chúng d oa sử dụng TreeMap làm thực đồ Thuật toán 2.4.2 cung cấp an lu chi tiết trình lm ul 1: R.map {r => nf va Thuật tốn 2.4.2 : Ánh xạ R cặp khóa-giá trị đầu oi 2: var map = new TreeMap (khoảng cách, phân loại) z 4: tính khoảng cách r s at nh 3: foreach (s tập S) { z 6:} gm @ 5: sau đưa vào đồ (khoảng cách, phân loại) om l.c 7: return (r_id, đồ (khoảng cách, phân loại)) 8: } Lu an (4) Một RDD đƣợc tạo cho lần lặp kết hợp tất n va ac Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 41 RDD để tạo thành RDD cuối Khóa RDD cuối r_id giá trị danh sách đồ đƣợc biểu diễn dƣới dạng Danh sách (5) Chức Reduce đƣợc sử dụng RDD cuối cùng, hợp tất đồ danh sách, Bản đồ TreeMap tất phần tử đƣợc xếp theo khoảng cách Sau đó, chúng tơi lấy k giá trị từ đồ xác định phân loại Đầu cặp khóa-giá trị nhƣ (r_id, phân loại) Các bƣớc đƣợc minh họa hình 2.10 lu an n va p ie gh tn to d oa nl w lm ul nf va an lu at nh 2.5 TIỂU KẾT CHƢƠNG oi Hình 2.10 KNN kết hợp với tốn điểm biên Spark z Nội dung chƣơng này, luận văn trình bày chi tiết từ ý tƣởng đến z cách thức hoạt động thuật toán KNN truyền thống Đồng thời @ gm điểm hạn chế thuật toán KNN đối diện với liệu om l.c lớn Qua chúng tơi trình bày ý tƣởng hợp thuật tốn KNN toán điểm biên để giải cho toán liệu lớn chạy Spark nhằm phát huy an Lu sức mạnh KNN n va ac Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 42 CHƢƠNG CÀI ĐẶT MÔ PHỎNG THỰC NGHIỆM Trong nội dung chƣơng cuối này, sở lý thuyết đƣợc trình bày chƣơng chƣơng Dựa tìm hiểu nghiên cứu cơng cụ, thƣ viện mã nguồn mở tích hợp sẳn có nhằm rút ngắn trình lập trình Cũng nhƣ tìm kiếm liệu nhằm mục tiêu cài đặt giải thuật KNN kết hợp với tốn điểm biên đƣợc trình bày chƣơng để tiến hanh cài đặt thông qua công cụ mã nguồn mở đƣợc trình bày giới thiệu lu 3.1 MƠI TRƢỜNG VÀ CƠNG CỤ an 3.1.1 Phát biểu tồn va n Bài tốn mơ chƣơng xem xét liệu MNIST gh tn to (Modified National Institute of Standards and Technology database) nhƣ p ie liệu lớn, chúng tơi xem xét xử lý dƣới góc độ liệu có số lƣợng lớn mật độ phân bố hay lân cân điểm liệu nl w liệu dày đặc để tiến hành cài đặt thuật toán KNN kết hợp với d oa tốn điểm biên nhƣ trình bày chƣơng hai an lu Cụ thể, luận văn tiến hành xử lý liệu toán phân nf va điểm biên liệu sau tiến hành thuật tốn KNN cục lm ul cụm liệu thay áp dụng KNN cho tồn q trình tính tốn tất oi điểm liệu phân lớp điểm liệu liệu z tốn thực tế at nh Spark Từ rút nhận xét đánh giá cho việc vận dụng giải z @ 3.1.2 Môi trƣờng ngôn ngữ lập trình gm Để tiến hành cài đặt mơ luận văn sử dụng hệ điều hành Windows om l.c 10, 64 bit ngơn ngữ lập trình Python 3.7 chạy tảng Anacoda Anaconda tảng phân phối miễn phí ngơn ngữ lập trình Python Lu an R cho tính tốn khoa học (khai phá liệu, khoa học liệu, học máy, xử n va ac Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 43 lý liệu lớn, phân tích dự đốn, v.v.), nhằm mục đích đơn giản hóa việc quản lý triển khai Nó chạy Windows, MacOS Linux 3.1.3 Công cụ thƣ viện Luận văn sử dụng gói thƣ viện Pyspark, PySpark đƣợc phát hành để hỗ trợ hợp tác Apache Spark Spark tên công cụ để thực tính tốn cụm PySpark thƣ viện Python để sử dụng Spark PySpark giao diện cho Apache Spark Python Nó không cho phép bạn viết ứng dụng Spark cách sử dụng API Python mà lu cung cấp để phân tích tƣơng tác liệu môi trƣờng phân tán PySpark an hỗ trợ hầu hết tính Spark nhƣ Spark SQL, DataFrame, va n Streaming, MLlib (Machine Learning) Spark Core Trong phần cài đạt sử dụng liệu MNIST p ie gh tn to 3.1.4 Bộ liệu (Modified National Institute of Standards and Technology database) Là nl w sở liệu lớn chứa chữ số viết tay thƣờng đƣợc dùng việc d oa huấn luyện hệ thống xử lý hình ảnh Cơ sở liệu đƣợc sử dụng an lu rộng rãi để huấn luyện kiểm thử lĩnh vực học máy lm ul 3.2.1 Cài đặt nf va 3.2 CÀI ĐẶT MÔ PHỎNG oi Trong phần này, tính tốn chủ yếu dựa khung liệu spark at nh RDD Dự liệu đầu vào Csv đƣợc đọc qua trình đọc spark csv tạo z Dataframe với nhãn 784 cột đặc trƣng z gm @ om l.c an Lu n va ac Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 44 lu an Hình 3.1 Đƣa liệu vào chƣơng trình va n Sau đó, khung liệu qua VectorAssember để tự định to p ie gh tn dạng nl w d oa Hình 3.2 Định dạng khung liệu an lu Bƣớc tiếp theo, kích thƣớc đặc trƣng đƣợc giảm bớt với va trợ giúp thuật tốn PCA để đẩy nhanh q trình chạy lm ul nf Trƣớc sử dụng KNN kết hợp với thuật toán điểm biêm nhƣ giới thiệu chƣơng 2, chúng tơi trích xuất pca_feature nhãn liệu oi at nh huấn luyện tính tốn chúng thành mảng quảng bá đến nút z z gm @ om l.c an Lu n va ac Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 45 lu Hình 3.3 Trích xuất đặc trƣng quảng bá đến nút an n va Tiếp theo tính tốn KNN Sau đó, xếp ma trận theo hàng trả liệu kiểm tra p ie gh tn to nhãn K Nhãn xuất nhiều nhãn dự đoán điểm d oa nl w an lu va Hình 3.4 Tiến hành tính tốn KNN ul nf 3.2.2 Các tham số kết đạt đƣợc oi lm Với cấu hình thơng số nhƣ sau: trình thực thi, lõi, PCA = 50, D nh = Kết đạt đƣợc chƣơng trình mơ phịng đƣợc thể hình 3.4 at Để đánh giá đƣợc giá trị này, sử dụng ma trận đƣợc z z gm @ gọi confusion matrix om l.c an Lu n va ac Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 46 lu an n va p ie gh tn to d oa nl w lu Hình 3.5 Kết đạt đƣợc va an Cách tính sử dụng độ xác (accuracy) nhƣ cho ul nf biết đƣợc phần trăm lƣợng liệu đƣợc phân loại mà không lm đƣợc cụ thể loại đƣợc phân loại nhƣ nào, lớp đƣợc phân oi loại nhiều nhất, liệu thuộc lớp thƣờng bị phân loại nhầm vào nh at lớp khác z 3.2.3 So sánh đánh giá kết đạt đƣợc z gm @ Ở lần chạy đầu tiên, chúng tơi sƣ dụng thuật tốn KNN cổ điển để tiến om l.c hành phân lớp điểm liệu, tính tốn chúng hàng Trong trƣờng hợp này, nhiều thời gian để hoàn thành tất bƣớc an khoảng để hồn thành Lu thƣờng khơng hiệu Cụ thể thời gian chạy với thông số nêu n va ac Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 47 Ở lần chạy chúng tơi tiến hành sử dụng thuật tốn KNN kết hợp với tốn điểm biên để tính tốn dƣờng nhƣ tiết kiệm nhiều thời gian cần ánh xạ 10000 lần thay 600 triệu Nó giúp tơi cắt giảm thời gian hồn thành xuống cịn phút Sắp xếp ln công đoạn nhiều thời gian Tôi sử dụng để xếp mảng hai chiều với nhãn cột khoảng cách cột khác Với trợ giúp Argsort, cần xếp danh sách khoảng cách trả mục danh sách theo thứ tự tăng dần Sau đó, lu cần sử dụng mục để ánh xạ danh sách nhãn trả nhãn theo an thứ tự khoảng cách tăng dần Theo cách này, trƣớc tốn 0,02 giây cho va n đầu tốn 0,0075 giây cho đầu ra, nhanh lần to gh tn Broadcast - chức tích hợp ngữ cảnh Sparkđể truyền p ie giá trị đến nút khác Trong trƣờng hợp này, nút tiết kiệm thời gian thu thập ngữ cảnh lần từ nút Tuy nhiên, trƣờng nl w hợp khác nhau, kết ngƣợc lại Khi tơi chạy chƣơng trình với K = d oa PCA = 50, chƣơng trình có phát chậm chƣơng trình khơng có sóng 20 an lu giây Đối với chƣơng trình có K = 10 PCA = 100, với trợ giúp việc nf va phát sóng, cắt giảm tổng thể 70s Do đó, phụ thuộc vào tần lm ul suất hỏi ngữ cảnh từ nút Nếu tần số đủ cao việc phát sóng oi giúp giảm tần suất Ngƣợc lại, tần số thấp, thời lƣợng phát sóng lấn z trở nên cần thiết at nh át thời gian hỏi tổng thể Do đó, với đầu vào lớn hơn, việc sử dụng phát sóng z gm @ om l.c an Lu n va ac Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an 48 KẾT LUẬN Luận văn tìm hiểu, nghiên cứu kết hợp thuật tốn KNN toán điểm biên Spark để giải vấn đề liệu Sau đó, chúng tơi tiến hình chƣơng trình cài đặt mơ cho KNN kết hợp với toan điểm biên dựa Spark Kết cài đặt bƣớc đầu tƣơng đối khả quan liệu thu thập đƣợc Một số hƣớng phát triển đề tài: lu Trong nghiên cứu tƣơng lai, đánh giá cách tiếp cận chúng an liệu lớn với liệu thông số đƣợc sử dụng va n luận văn Và dự định tiếp tục nghiên cứu, cải tiến để triển gh tn to khai cài đạt nhiều liệu hơn, tạo nhiều kết có giá trị hơn, hỗ p ie trợ truy vấn phức tạp Chúng tơi có kế hoạch thực thử nghiệm mở rộng nhƣ sử nhanh d oa nl w dụng công nghệ nhƣ Spark để làm cho q trình tính tốn oi lm ul nf va an lu at nh z z gm @ om l.c an Lu n va ac Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn th Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn si C.33.44.55.54.78.65.5.43.22.2.4 22.Tai lieu Luan 66.55.77.99 van Luan an.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.C.33.44.55.54.78.655.43.22.2.4.55.22 Do an.Tai lieu Luan van Luan an Do an.Tai lieu Luan van Luan an Do an Stt.010.Mssv.BKD002ac.email.ninhd 77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77.77.99.44.45.67.22.55.77.C.37.99.44.45.67.22.55.77t@edu.gmail.com.vn.bkc19134.hmu.edu.vn.Stt.010.Mssv.BKD002ac.email.ninhddtt@edu.gmail.com.vn.bkc19134.hmu.edu.vn

Ngày đăng: 31/07/2023, 20:29

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan