(Luận văn) nghiên cứu một số phương pháp phân tích dữ liệu trên bảng quyết định trong hệ thống dữ liệu lớn

81 2 0
(Luận văn) nghiên cứu một số phương pháp phân tích dữ liệu trên bảng quyết định trong hệ thống dữ liệu lớn

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

i HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - lu an TRẦN ANH VIỆT n va gh tn to p ie NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP PHÂN TÍCH DỮ nl w LIỆU TRÊN BẢNG QUYẾT ĐỊNH TRONG HỆ THỐNG d oa DỮ LIỆU LỚN u nf va an lu LUẬN VĂN THẠC SĨ KỸ THUẬT KỸ THUẬT ll m oi (Theo định hướng ứng dụng) z at nh z m co l gm @ an Lu HÀ NỘI - 2019 n va ac th si i HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - lu an TRẦN ANH VIỆT n va NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP PHÂN TÍCH DỮ gh tn to LIỆU TRÊN BẢNG QUYẾT ĐỊNH TRONG HỆ THỐNG p ie DỮ LIỆU LỚN d oa nl w Chuyên ngành: Hệ thống Thông tin lu ll u nf va an Mã số: 8.48.01.04 m oi LUẬN VĂN THẠC SĨ KỸ THUẬT z at nh z NGƢỜI HƢỚNG DẪN KHOA HỌC : GS.TS VŨ ĐỨC THI m co l gm @ an Lu HÀ NỘI - 2019 n va ac th si i LỜI CAM ĐOAN 1) Tôi xin cam đoan luận văn sản phẩm nghiên cứu 2) Một số định lý, định nghĩa hệ quả, thuật tốn tơi lấy từ nguồn tài liệu xác có trích dẫn tên tài liệu tên tác giả rõ ràng 3) Chƣơng trình thử nghiệm tơi viết cài đặt 4) Tơi xin chịu trách nhiệm hồn tồn sản phẩm nghiên cứu lu Tác giả an n va gh tn to Trần Anh Việt p ie d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si ii LỜI CẢM ƠN Để hồn thành đề tài luận văn thạc sĩ cách hoàn chỉnh, bên cạnh nỗ lực cố gắng thân có hƣớng dẫn nhiệt tình q thầy cơ, nhƣ động viên ủng hộ gia đình bạn bè suốt thời gian học tập nghiên cứu thực luận văn thạc sĩ Tôi xin chân thành bày tỏ lòng biết ơn đến GS.TS Vũ Đức Thi, ngƣời hết lòng giúp đỡ tạo điều kiện tốt cho tơi hồn thành luận văn Xin gửi lời cảm ơn chân thành điều mà Thầy dành cho lu an Tôi xin chân thành bày tỏ lịng biết ơn tơi đến tồn thể q thầy cô va n giảng dạy truyền đạt kiến thức cho tơi để tơi hồn thành môn học tn to suốt thời gian học Học viện Cơng nghệ Bƣu Viễn thơng niên khóa Xin chân thành bày tỏ lòng biết ơn đến gia đình, ngƣời khơng p ie gh 2018-2020 nl w ngừng động viên, hỗ trợ tạo điều kiện tốt cho suốt thời gian d oa học tập thực luận văn an lu Cuối cùng, xin chân thành bày tỏ lòng cảm ơn đến anh chị, đồng u nf va nghiệp hỗ trợ cho nhiều suốt trình học tập, nghiên cứu thực đề tài luận văn thạc sĩ cách hoàn chỉnh ll m oi Hà nội, tháng 11 năm 2019 z at nh Học viên z @ m co l gm Trần Anh Việt an Lu n va ac th si iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii DANH MỤC CÁC BẢNG v DANH MỤC CÁC HÌNH vi DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT vii BẢNG CÁC THUẬT NGỮ VIẾT TẮT viii MỞ ĐẦU CHƢƠNG 1: NGHIÊN CỨU CÁC NỀN TẢNG CỦA HỆ THỐNG DỮ LIỆU LỚN lu an Nghiên cứu số tảng hệ thống liệu lớn (BigData) n va 1.1 Định nghĩa mô tả đặc trưng Dữ liệu lớn(BigData) 1.3 Các thách thức BigData 18 gh tn to 1.2 Sự phát triển BigData Công nghệ liên quan 10 p ie 1.4 Các phương pháp tiền xử lý liệu cho BigData 20 w 1.5 Các hướng ứng dụng BigData 21 oa nl Nghiên cứu số lĩnh vực phân tích Big Data 23 d Kết luận chƣơng 27 an lu CHƢƠNG 2: NGHIÊN CỨU MỘT SỐ CÁC PHƢƠNG PHÁP PHÂN TÍCH DỮ u nf va LIỆU TRÊN BẢNG QUYẾT ĐỊNH 28 2.1 Nghiên cứu khái quát hƣớng khai phá liệu sử dụng lý thuyết tập thô 28 ll oi m 2.1.1 Những khái niệm lý thuyết tập thô 28 z at nh 2.1.2 Mơ hình tập thơ truyền thống 30 2.2 Nghiên cứu phân tích số thuật tốn liên quan đến tập rút gọn bảng z định rút gọn quán: 34 @ gm 2.2.1 Đặt vấn đề 34 l 2.2.2 Thuật tốn tìm tất thuộc tính rút gọn 35 m co 2.2.3 Thuật tốn tìm tập rút gọn 36 an Lu 2.2.4 Thuật tốn tìm họ tất tập rút gọn 39 2.2.5 Thuật tốn tìm bảng định không dư thừa 41 n va ac th si iv 2.3 Kết luận chƣơng 43 CHƢƠNG 3: THIẾT KẾ VÀ XÂY DỰNG CHƢƠNG TRÌNH THỬ NGHIỆM 44 3.1 Đặt vấn đề 44 3.2 Yêu cầu phần mềm tảng cấu hình phần cứng máy PC 44 3.2.1 Yêu cầu phần mềm tảng 44 3.2.2 Cấu hình phần cứng máy PC 44 3.3 Giới thiệu chƣơng trình cách sử dụng 44 3.3.1 Cấu trúc chương trình 44 3.3.2 Giới thiệu chương trình 45 lu 3.4 Thực thuật toán với liệu Flu, EXAMPLE1, EXAMPLE 48 an va 3.4.1 Bộ liệu Flu 48 n 3.4.2 Bộ liệu “EXAMPLE1” 49 gh tn to 3.4.3 Bộ liệu “EXAMPLE” 51 ie 3.5 Kết luận chƣơng 53 p KẾT LUẬN VÀ ĐỀ NGHỊ 55 d oa nl w TÀI LIỆU THAM KHẢO 57 ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si v DANH MỤC CÁC BẢNG Bảng 1.1 Các phƣơng pháp phân tích Big Data 24 Bảng 2.1 Bảng thông tin bệnh cúm .31 Bảng 2.2 Bảng định bệnh cúm 33 Bảng 2.3 Bảng liệu tính bao đóng 37 Bảng 2.4 Bảng liệu đầu vào tìm tập rút gọn 38 Bảng 2.5 Bảng liệu đầu vào tìm họ tất tập rút gọn 40 Bảng 2.6 Bảng liệu đầu vào tìm bảng định khơng dƣ thừa 42 lu Bảng 3.1 Bảng mơ tả hàm chƣơng trình tìm tất tập rút gọn bảng an định quán 45 va n Bảng 3.2 Triệu chứng cúm bệnh nhân 48 tn to Bảng 3.3 Bảng định liệu Example1 .49 p ie gh Bảng 3.4 Bảng định liệu Example 51 d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si vi DANH MỤC CÁC HÌNH Hình 1.1: Mơ hình “3Vs” Big Data Hình 1.2: Mơ hình 5vs Big Data Hình 1.3: Kiến trúc điện tốn đám mây .13 Hình 1.4: Bộ cảm biến đo độ ẩm nhiệt độ DHT22 chip ESP8266MOD 14 Hình 1.5 Hệ thống trung tâm liệu 16 Hình 1.6 Kiến trúc hệ thống Hadoop 17 Hình 3.1 Giao diện chƣơng trình tìm tất tập rút gọn bảng lu định quán 46 an Hình 3.2 Chọn file liệu đầu vào cho chƣơng trình .47 va n Hình 3.3 Giao diện chƣơng trình hiển thị liệu đầu vào .47 tn to Hình 3.4 Tìm tất thuộc tính rút gọn 48 ie gh Hình 3.5 Kết liệu Flu 49 p Hình 3.6 Kết thực thuật toán với liệu Example1 .51 Hình 3.7 Kết tìm tập rút gọn với liệu Example 53 d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si vii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Ký hiệu, từ viết tắt Diễn giải IS = (U,A,V,f) Hệ thông tin, hệ thông tin đầy đủ IIS = (U,A,V,f) Hệ thông tin không đầy đủ DS =(U,C  D,V,f) Bảng định, bảng định đầy đủ IDS =(U,C  D,V,f) Bảng định không đầy đủ lu an n va Số đối tƣợng C Số thuộc tính điều kiện bảng định A Số thuộc tính hệ thông tin BX B- xấp xỉ dƣới X tn to U Xấp xỉ X ie gh BX B – Miền biên D POSB(D) B- Miền dƣơng D p BNB(D) w Phân hoạch U sinh tập thuộc tính B lu Sơ đồ quan hệ an Entropy Shannon có điều kiện Q biết P u nf va H(Q/P) d SĐQH oa U/B Họ tất tập rút gọn Entropy Shannon nl HRED(C) Entropy liang mở rộng tập thuộc tính P hệ ll thơng tin đầy đủ oi m IE(P) Quan hệ B không phân biệt TB Terabyte PB Petabyte z at nh IND(B) z m co l gm @ an Lu n va ac th si viii BẢNG CÁC THUẬT NGỮ VIẾT TẮT Thuật ngữ CNTT RBDMS Tiếng Anh Tiếng Việt Information Technology Công nghệ thông tin Relational Database Hệ quản trị sở liệu quan Management System hệ Hệ thống tệp tin đƣợc phân lu GFS Google File System IoT Internet of Thing Internet kết nối vạn vật AI Artificial Intelligence Trí tuệ nhân tạo phối độc quyền Google an International Data Tập đoàn liệu quốc tế Corporation n va IDC tn to ie gh IBM Tập đồn cơng nghệ máy tính Machines đa quốc gia Hadoop Distributed File p Hệ thống file phân tán System d oa nl w HDFS International Business ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th si TÀI LIỆU THAM KHẢO Tiếng Việt [1] Vũ Đức Thi(1997) Cơ sở liệu – Kiến thức thực hành, Nhà xuất Thống kê, Hà Nôi [2] Vũ Đức Thi, Công nghệ tri thức, Nhà xuất khoa học tự nhiên công nghệ, tái lần thứ nhất, tháng 10 năm 2018 [3] Vũ Đức Thi (2018) Một vấn đề thuật toán liên quan đến tập rút gọn lu bảng định quán Kỷ yếu hội nghị quốc gia “ Nghiên cứu an n va ứng dụng CNTT” lần thứ XI, Hà Nội, 8/2018, tr 150 – 157 tn to [4] Vũ Đức Thi, Nguyễn Long Giang (2011) Một số phƣơng pháp rút gọn thuộc gh tính bảng định dựa ENTROPY cải tiến Tạp chí Tin học điều p ie khiển T 27, S , tr 166 – 175 nl w [5] Vũ Đức Thi, Nguyễn Long Giang Thuật tốn tìm tất tập rút gọn d oa bảng định Tạp chí Tin học điều khiển T 27, S 3, tr 211-218 an lu [6] Nguyễn Long Giang, Vũ Đức Thi (2011), “Some Problems Concering u nf va Condition Attributes and Reducts in Decision Tables”, Proceeding of the Fifsh National Symposium “Fundamental and Applied Information Technology ll oi m Research” (FAIR), Bien Hoa, Dong Nai, pp.142 – 152 z at nh [7] Hoàng Thị Lan Giao (2007), “Khía cạnh đại số logic phát luật theo tiếp cận tập thơ”, Luận án tiến sĩ tốn học, Viện công nghệ thông tin z m co l gm @ an Lu n va ac th 57 si Tiếng Anh [8] Agrawal R., Imielinski T., Swami A.(1993) Mining association rules between sets of items in large database Procceedings of the ACM SIGMOD conference, Washington DC, USA, pp.207-216 [9] Demetrovics J., Thi V D Duong T.H.(2015) An Algorithm to mine normalized weighted sequential patterns using prefix-projeted database SERDICA J of computing Bulgarian Academy of Sciences V.9.N 2.pp.111-118 [10] Dinh V V., Thi V D., Giang N L (2014) Generallized Discernibility lu an function Based Attribute Reduction Incomplete Decision Systems, SERDICA va n Journal of Computing, Bulgarial Academy of Sciences, V 7,No4, pp.374-388 gh tn to [11] Giang N L., Thi V D.(2012) Some problems Concerning Condition Attributes and Reducts in Decision Tables, Proceeding of the fifth National ie p Symposium “Fundamental and Applied Information Technology Research” (FAIR), oa nl w Dong Nai, Viet Nam, pp.142-152 d [12] Pawlak Z (1991), Rough sets: Theoretical Aspects of Reasoning About an lu Data, Kluwer Aca-demic Publishers u nf va [13] Pawlak Z (1998), “Rough set theory and its applications to data analysis”, ll Cysbernetics and systems 29, pp 661-688 m oi [14] DeWitt D., Gray J (1992) Parallel database systems: the future of high z at nh performance database systems Commun ACM 35(6):85-98 [15] Walter T (2009) Teradata past, present, and future UCI ISG lecture z l gm @ series on scalable data management m co [16] Ghemawat S., Gobioff H., Leung S-T (2003) The google file sys-tem In: ACM SIGOPS Operating Systems Review, vol 37 ACM, pp 29-43 an Lu n va ac th 58 si [17] Dean J., Ghemawat S (2008) Mapreduce: simplified data process-ing on large clusters Commun ACM 51(1):107-113 [18] Hey AJG., Tansley S., Tolle KM et al (2009) The fourth paradigm: dataintensive scientific discovery [19] Bahga A, Madisetti VK (2012) Analyzing massive machine maintenance data in a computing cloud IEEE Transac Parallel Distrib Syst 23(10): 1831-1843 lu an n va p ie gh tn to d oa nl w ll u nf va an lu oi m z at nh z m co l gm @ an Lu n va ac th 59 si PHỤ LỤC using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using System.Text; using System.Threading.Tasks; lu an using System.Windows.Forms; n va { public partial class MainForm : Form p ie gh tn to namespace FindAllReductAttribute w { oa nl private OpenFileDialog openFileDialog1; d private DataTable dataTable1; lu an private string[] head; u nf va private List header1; private List header2; ll oi m private List reductAttributes; public MainForm() z { z at nh private List deleteAttributes; m co dataTable1.Rows.Clear(); l dataTable1 = new DataTable(); gm @ InitializeComponent(); an Lu } n va ac th 60 si private void loadingToolStripMenuItem_Click(object sender, EventArgs e) { openFileDialog1 = new OpenFileDialog() { FileName = "Select a text file", Filter = "Text files (*.txt)|*.txt", Title = "Open text file" }; if (openFileDialog1.ShowDialog() == DialogResult.OK) lu an { n va try to { gh tn var filePath = openFileDialog1.FileName; p ie string[] textData = System.IO.File.ReadAllLines(filePath); head = textData[0].Split(','); nl w string[] headers = textData[0].Split(','); d oa header1 = new List(); an lu header2 = new List(); u nf { va for(int i=0;i 0) n va ac th 62 si { calculateEqualitySet(); for(int i=0;i

Ngày đăng: 12/07/2023, 17:28

Tài liệu cùng người dùng

Tài liệu liên quan