Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 57 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
57
Dung lượng
1,08 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC QUY NHƠN NGUYỄN THỊ LÝ PHƢƠNG SỬ DỤNG THUẬT TOÁN KNN KẾT HỢP VỚI BÀI TOÁN ĐIỂM BIÊN CHO KHAI PHÁ DỮ LIỆU LỚN TRONG SPARK h Chuyên ngành: Khoa học máy tính Mã số: 8480101 Ngƣời hƣớng dẫn: TS Hồ Văn Lâm LỜI CAM ĐOAN Tôi xin cam đoan luận văn cơng trình nghiên cứu tơi, khơng chép cơng trình khoa học trƣớc Các kết nêu luận văn có nguồn gốc rõ ràng đƣợc trích dẫn đầy đủ Luận văn đƣợc hồn thành thời gian tơi làm Học viên Cao học Khoa Công nghệ Thông tin, Trƣờng Đại học Quy Nhơn Tơi xin chịu hồn tồn trách nhiệm luận văn Quy Nhơn, ngày tháng năm 2021 Học viên Nguyễn Thị Lý Phƣơng h LỜI CẢM ƠN Tôi xin chân thành cảm ơn thầy cô giáo Khoa Công nghệ thông tin Trƣờng Đại học Quy Nhơn truyền đạt kiến thức bổ ích, đồng thời xin cảm ơn Phòng Đào Tạo Sau đại học Trƣờng Đại học Quy Nhơn tạo điều kiện thuận lợi trình học tập thực luận văn tốt nghiệp Tôi xin gửi lời biết ơn chân thành đến TS Hồ Văn Lâm, ngƣời tận tình hƣớng dẫn góp ý cho tơi suốt q trình nghiên cứu, cho tơi nhiều lời động viên nhƣ hƣớng dẫn quý báu để tơi thực tốt đƣợc đề tài Trong q trình thực đề tài, khơng thể khơng kể đến giúp đỡ, đóng góp ý kiến lời động viên từ phía gia đình, ngƣời thân, đồng nghiệp bạn bè xung quanh, điều thật động lực lớn giúp tơi hồn h thành tốt đề tài nghiên cứu Xin chân thành cảm ơn! Học viên Nguyễn Thị Lý Phƣơng MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN DANH MỤC CÁC CHỮ VIẾT TẮT DANH MỤC HÌNH ẢNH MỞ ĐẦU CHƢƠNG TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ THUẬT TOÁN KNN TRONG SPARK 1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1.1 Khái niệm 1.1.2 Quá trình khai phá liệu 1.1.3 Các bƣớc trình khai phá liệu 1.1.4 Khái quát kỹ thuật KPDL h 1.1.5 Ứng dụng KPDL .10 1.1.6 Những thách thức nghiên cứu ứng dụng KPDL .12 1.2 THUẬT TOÁN KNN TRONG KHAI PHÁ DỮ LIỆU 13 1.2.1 Giới thiệu chung KNN .13 1.2.2 Cơ sở toán học thuật toán KNN cho toán phân lớp 14 1.2.3 Thuật toán KNN cho toán phân lớp 15 1.2.4 Ứng dụng KNN 15 1.2.5 Thách thức ƣu điểm KNN 16 1.3 TỔNG QUAN VỀ SPARK 16 1.3.1 Giới thiệu Apache Spark 17 1.3.2 Thành phần Spark 18 1.3.3 Những điểm bật Spark mục tiêu sử dụng 19 1.4 TIỂU KẾT CHƢƠNG 20 CHƢƠNG THUẬT TOÁN KNN KẾT HỢP VỚI BÀI TOÁN ĐIỂM BIÊN TRONG SPARK CHO BÀI TOÁN DỮ LIỆU LỚN 21 2.1 GIỚI THIỆU CHUNG VÀ PHÁT BIỂU BÀI TOÁN 21 2.1.1 Giới thiệu .21 2.1.2 Phát biểu toán 22 2.2 THUẬN TOÁN KNN VÀ BÀI TOÁN ĐIỂM BIÊN CHO DỮ LIỆU LỚN 23 2.2.1 Ý tƣởng KNN 24 2.2.2 Thuật toán phân lớp KNN .24 2.2.3 Điểm biên bà ứng dụng xử lý liệu lớn 25 2.3 THUẬT TOÁN KNN KẾT HỢP BÀI TOÁN ĐIỂM BIÊN CHO DỮ LIỆU LỚN 30 2.3.1 Thuật toán KNN cho liệu lớn .30 2.3.2 Kết hợp KNN toán điểm biên cho liệu lớn .31 2.3.3 Ý tƣởng kết hợp KNN toán điểm biên cho liệu lớn 31 2.3.4 Phƣơng pháp kết hợp KNN toán điểm biên cho liệu lớn 32 h 2.3.5 Thuật toán kết hợp KNN toán điểm biên cho liệu lớn 33 2.4 TRIỂN KHAI THUẬT TOÁN KNN KẾT HỢP BÀI TOÁN ĐIỂM BIÊN CHO DỮ LIỆU LỚN TRONG SPARK 36 2.4.1 Giới thiệu .37 2.4.2 Tổng quan KNN Tham gia MapReduce dựa Hadoop 38 2.4.3 Triển khai KNN kết hợp với toán điểm biên dựa Spark 39 2.5 TIỂU KẾT CHƢƠNG 41 CHƢƠNG CÀI ĐẶT MÔ PHỎNG THỰC NGHIỆM 42 3.1 MÔI TRƢỜNG VÀ CÔNG CỤ 42 3.1.1 Phát biểu toàn 42 3.1.2 Môi trƣờng ngơn ngữ lập trình 42 3.1.3 Công cụ thƣ viện 43 3.1.4 Bộ liệu 43 3.2 CÀI ĐẶT MÔ PHỎNG 43 3.2.1 Cài đặt .43 3.2.2 Các tham số kết đạt đƣợc 45 3.2.3 So sánh đánh giá kết đạt đƣợc .46 KẾT LUẬN 48 TÀI LIỆU THAM KHẢO 49 h DANH MỤC CÁC CHỮ VIẾT TẮT Chữ viết tắt Tên đầy đủ Nghĩa tiếng Việt KPDL Data minining Khái phá liệu KDD Knowledge Discovery in Phát tri thức sở Database liệu CSDL Database Cơ sở liệu KNN K-nearest neighbors K-Hàng xóm gần RDD Resilient Distributed Cấu trúc liệu Datasets Spark Principal Component Thuật tốn phân tích thành Analysis phần PCA h DANH MỤC HÌNH ẢNH Hình 1.1 Q trình KPDL Hình 1.2 Các bƣớc KPDL Hình 1.3 Một ví dụ cách tính khoảng cách d hai điểm liệu không gian hai chiều .14 Hình 1.4 Các mốc thời gian phát triển Spark 17 Hình 1.5 Các thành phần Spark 18 Hình 2.1 Ví dụ điểm ranh giới điểm liệu nằm lề (hoặc cụm) liệu đƣợc phân phối dày đặc 26 Hình 2.2 Khơng thể vẽ đƣờng thẳng để phân tách lớp không gian đặc trƣng cách hồn hảo Ba dịng đƣợc vẽ, nhƣng dòng dẫn đến số phân loại sai 27 Hình 2.3 Quyết định ranh giới theo 1-NN cho điểm liệu lớp h khác biệt với 28 Hình 2.4 Các vùng lân cận gần cho tập liệu huấn luyện gồm hai lớp, mẫu huấn luyện lớp đƣợc hiển thị với dấu „*‟ màu đỏ, vùng lớp đƣợc hiển thị „◦‟ màu xanh lam 28 Hình 2.5 Ranh giới định vùng định cho phân 1-NN cho hai lớp 29 Hình 2.6 Các vùng lân cận gần cho tập liệu huấn luyện gồm ba lớp .29 Hình 2.7 Ranh giới định vùng định cho phân loại hàng xóm 1-NN cho ba lớp 30 Hình 2.8 Tính khơng hiệu thƣớc đo khoảng cách đến trung tâm cụm nhƣ tiêu chí để chọn cụm thích hợp .31 Hình 2.9 Ảnh hƣởng mật độ cụm đến hiệu suất thuật tốn KNN .33 Hình 2.10 KNN kết hợp với toán điểm biên Spark .41 MỞ ĐẦU Ngày nay, Big Data – liệu lớn trở thành thuật ngữ phổ biến thịnh hành nhiều lĩnh vực cơng nghiệp học thuật Nó đƣợc sử dụng để mô tả loạt khái niệm từ khả công nghệ để lƣu trữ, tổng hợp xử lý liệu Việc xử lý lƣợng lớn liệu trở thành nhiệm vụ cần thiết số lƣợng lớn ứng dụng giới thực Khi nói đến việc đối phó với liệu lớn, tiêu chuẩn kỹ thuật khai thác liệu thƣờng không giải đƣợc khối lƣợng nhƣ thuật tốn trở nên hiệu KNN phƣơng pháp học có giám sát khai thác liệu đơn giản đƣợc sử dụng rộng rãi lĩnh vực học máy tính đơn giản nhƣng hiệu tiếng rộng rãi khai thác liệu Khi huấn luyện, thuật tốn khơng học điều từ liệu huấn h luyện, lý thuật toán đƣợc xếp vào loại lazy learning – máy lƣời học, tính tốn đƣợc thực cần dự đốn kết liệu Một cách ngắn gọn, KNN thuật tốn tìm đầu điểm liệu cách dựa thông tin K điểm liệu tập liệu huấn luyện gần (K-lân cận), khơng quan tâm đến việc có vài điểm liệu điểm gần nhiễu Có điều đáng lƣu ý KNN phải nhớ tất điểm liệu huấn luyện, việc không đƣợc lợi nhớ thời gian tính tốn liệu lớn Ứng dụng thực tế mơ hình miền liệu lớn không khả thi hạn chế thời gian nhớ Một số giải pháp thay phân tán đƣợc đề xuất phép phƣơng pháp xử lý liệu quy mơ lớn Tuy nhiên, hiệu suất chúng đƣợc cải thiện với thiết kế phù hợp với công nghệ phát sinh Ngoài ra, thời gian tác giả hoàn thành luận văn này, đại dịch COVID-19 diễn biến phức tạp, nhà khoa học công bố cơng trình nghiên cứu khai thác liệu đƣợc phát triển có mơ số cơng trình có sử dụng mơ hình KNN để đƣa giải pháp nhằm dự báo điều trị góp phần giúp giới ngăn chặn đại dịch Với tầm quan trọng toán nghiên cứu nhƣ ứng dụng, tơi chọn “Sử dụng thuật tốn KNN kết hợp với toán điểm biên cho khai phá liệu lớn Spark” làm đề tài nghiên cứu cho luận văn Luận văn đƣợc kiến trúc thành 03 chƣơng Chƣơng Tổng quan khai phá liệu thuật toán KNN Spark Chƣơng Thuật toán KNN kết hợp với toán điểm biên Spark cho toán liệu lớn Chƣơng Cài đặt mơ thực nghiệm Cuối chƣơng có phần Tiểu kết để tổng kết lại nội dung h chƣơng Ngồi chƣơng nêu trên, luận văn kết thúc với phần Kết luận hƣớng phát triển để tóm tắt kết đạt đƣợc, vấn đề tồn dự kiến hƣớng phát triển luận văn