Mục đích của Luận văn này là nghiên cứu và tìm hiểu một số nền tảng của hệ thống dữ liệu lớn. Tìm hiểu một số lĩnh vực phân tích tìm các giá trị của hệ thống dữ liệu lớn (thực chất là khai phá dữ liệu tìm các tri thức). Nghiên cứu và tìm hiểu một số thuật toán liên quan đến tập rút gọn (tập thuộc tính rút gọn bảo toàn thông tin phân lớp của bảng quyết định). Trên cơ sở này tiến hành xây dựng phần mềm thử nghiệm. Mời các bạn cùng tham khảo!
HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - TRẦN ANH VIỆT NGHIÊN CỨU MỘT SỐ PHƢƠNG PHÁP PHÂN TÍCH DỮ LIỆU TRÊN BẢNG QUYẾT ĐỊNH TRONG HỆ THỐNG DỮ LIỆU LỚN Chuyên ngành: Hệ thống Thông tin Mã số: 8.48.01.04 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2019 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: GS.TS VŨ ĐỨC THI Phản biện 1: TS Nguyễn Duy Phương Phản biện 2: PGS.TS Nguyễn Hải Châu Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thông MỞ ĐẦU Lý chọn đề tài Các hệ thống liệu lớn phương pháp phân tích liệu lớn nhiều nhà khoa học quan tâm nghiên cứu Hướng phân tích liệu bảng định mà cụ thể nghiên cứu toán liên quan đến tập rút gọn bảng định phát triển sôi động có nhiều ứng dụng thực tiễn Trong năm gần đây, phát triển mạnh mẽ công nghệ thông tin làm cho khả thu thập lưu trữ thông tin hệ thống thông tin tăng nhanh cách nhanh chóng Sự bùng nổ dẫn tới yêu cầu cấp thiết cần có kỹ thuật cơng cụ để tự động chuyển đổi lượng liệu khổng lồ thành tri thức có ích Từ đó, kỹ thuật khai phá liệu trở thành lĩnh vực thời công nghệ thông tin giới nói chung Việt Nam nói riêng Khai phá liệu áp dụng cách rộng rãi nhiều lĩnh vực kinh doanh đời sống khác nhau: Market tinh, tài ngân hàng bảo hiểm, khoa học kinh tế…Rất nhiều tổ chức công ty lớn giới áp dụng kỹ thuật khai phá liệu vào hoạt động sản xuất kinh doanh thu nhiều lợi ích to lớn Trong lý thuyết tập thô, liệu biểu diễn thông qua hệ thông tin IS=(U,A) với U tập đối tượng A tập thuộc tính Phương pháp tiếp cận lý thuyết tập thô dựa quan hệ không phân biệt để đưa tập xấp xỉ xấp xỉ Xấp xỉ bao gồm đối tượng chắn thuộc tập đó, cịn xấp xỉ chứa tất đối tượng có khả thuộc tập Nếu tập xấp xỉ tập xấp xỉ tập đối tượng cần quan sát tập rõ Ngược lại tập thô Các tập xấp xỉ sở để đưa kết luận từ tập liệu Bảng định hệ thơng tin IS với tập thuộc tính A chia thành hai tập khác rỗng rời C D, gọi tập thuộc tính điều kiện tập thuộc tính định Nói cách khác, DS=(U,C D) với C D Bảng định mơ hình thường gặp thực tế, Khi mà giá trị liệu thuộc tính điều kiện cung cấp cho ta thơng tin giá trị thuộc tính định Bảng định quán phụ thuộc hàm C→D đúng, trái lại không quán Rút gọn thuộc tính ứng dụng quan trọng lý thuyết tập thô Mục tiêu rút gọn thuộc tính loại bỏ thuộc tính dư thừa để tìm thuộc tính cốt yếu cần thiết sở liệu Với bảng định, rút gọn thuộc tính tập nhỏ tập thuộc tính điều kiện bảo tồn thơng tin phân lớp bảng định Đối với bảng định có nhiều tập rút gọn khác nhiên thực hành thường khơng địi hỏi tìm tất tập rút gọn mà cần tìm tập rút gọn tốt theo tiêu chuẩn đánh giá đủ Vì vậy, phương pháp rút gọn thuộc tính trình bày thuật tốn Heuristic tìm tập rút gọn Các thuộc tính giảm thiểu đáng kể khối lượng tính tốn, nhờ áp dụng tốn có khối lượng liệu lớn Cho bảng định quán DS=(U,C {d}), tập thuộc tính R C gọi tập rút gọn thuộc tính điều kiện C R tập tối thiểu thỏa mãn phụ thuộc hàm R→{d} Xét quan hệ r tập thuộc tính R C{d} gọi tập tối thiểu thuộc tính {d} R tập thuộc tính tối thiểu thỏa mãn phụ thuộc hàm R→{d} Do đó, khái niệm tập rút gọn bảng định tương đương với tập tối thiểu thuộc tính {d} quan hệ, vài toán bảng định liên quan đến tập rút gọn giải số kết liên quan đến tập tối thiểu thuộc tính sở liệu quan hệ; bao gồm tốn tìm tập tất thuộc tính rút gọn, tốn tìm họ tất tập rút gọn, tốn trích lọc tri thức dạng phụ thuộc hàm từ bảng định, toán xây dựng bảng định từ tập phụ thuộc hàm cho trước Cho đến nay, hướng tiếp cận chưa nhiều tác giả quan tâm nghiên cứu Trên bảng định quán, vấn đề nhiên cứu đặt xây dựng thuật tốn có ý nghĩa liên quan đến tập rút gọn sử dụng số kết liên quan đến tập tối thiểu thuộc tính sở liệu quan hệ 3 Tổng quan vấn đề nghiên cứu Nhiều phủ quốc gia Hoa Kỳ quan tâm đến liệu lớn Trong tháng năm 2012, quyền Obama công bố khoản đầu tư 200 triệu USD để khởi động "Kế hoạch Nghiên cứu Phát triển Big Data", mà sáng kiến phát triển khoa học công nghệ chủ yếu thứ hai sau "xa lộ thông tin" bắt đầu vào năm 1993 Trong tháng năm 2012 , dự án "Đẩy mạnh công nghệ thông tin Nhật Bản" ban hành Bộ Nội vụ Truyền thông Nhật Bản phát triển Big Data, nên có chiến lược quốc gia công nghệ ứng dụng nên trọng tâm Trong tháng năm 2012, Liên Hiệp Quốc đưa báo cáo Big Data cho phát triển, tóm tắt cách phủ sử dụng Big Data để phục vụ tốt bảo vệ người dân họ Hiện nay, tầm quan trọng Big Data thừa nhận rộng rãi Xong vấn đề then chốt việc xử lí hệ thống Big Data nghiên cứu phát triển phương pháp phân tích liệu mà thực chất khai phá hệ thống liệu lớn để phát tri thức Luận văn nghiên cứu tìm hiểu số phương pháp phân tích liệu liên quan đến tập rút gọn cấu trúc bảng định sử dụng lí thuyết tập thơ Mục đích nghiên cứu Nghiên cứu tìm hiểu số tảng hệ thống liệu lớn Tìm hiểu số lĩnh vực phân tích tìm giá trị hệ thống liệu lớn (thực chất khai phá liệu tìm tri thức) Nghiên cứu tìm hiểu số thuật tốn liên quan đến tập rút gọn (tập thuộc tính rút gọn bảo tồn thơng tin phân lớp bảng định) Trên sở tiến hành xây dựng phần mềm thử nghiệm Đối tƣợng phạm vi nghiên cứu Nghiên cứu tìm hiểu tài liệu liên quan đến hệ thống liệu lớn Phạm vi nghiên cứu tập trung vào tảng hệ thống liệu lớn bao gồm định nghĩa, đặc trưng, phát triển Big Data thách thức mà Big Data mang lại Các phương pháp phân tích liệu nói chung phân tích liệu bảng định liên quan đến tập rút gọn dùng để phân lớp liệu 4 Các thuật toán liên quan đến tập rút gọn bảng định quán Phƣơng pháp nghiên cứu Ban đầu thu thập tài liệu Thu thập, tổng hợp tư liệu, báo khoa học công bố, tham khảo, so sánh phân tích để tìm vấn đề phù hợp phục vụ cho đề tài nghiên cứu; nghiên cứu tìm hiểu tảng hệ thống liệu lớn, đặc biệt phương pháp phân tích liệu bảng định Cuối xây dựng phần mềm thực nghiệm 5 CHƢƠNG 1: NGHIÊN CỨU CÁC NỀN TẢNG CỦA HỆ THỐNG DỮ LIỆU LỚN Nghiên cứu số tảng hệ thống liệu lớn (BigData) 1.1 Định nghĩa mô tả đặc trưng Dữ liệu lớn(BigData) 1.2 Sự phát triển BigData Công nghệ liên quan 1.3 Các thách thức BigData 1.4 Các phương pháp tiền xử lý liệu cho BigData 1.5 Các hướng ứng dụng BigData Nghiên cứu số lĩnh vực phân tích Big Data Kết luận chƣơng CHƢƠNG 2: NGHIÊN CỨU MỘT SỐ CÁC PHƢƠNG PHÁP PHÂN TÍCH DỮ LIỆU TRÊN BẢNG QUYẾT ĐỊNH 2.1 Nghiên cứu khái quát hƣớng khai phá liệu sử dụng lý thuyết tập thô 2.1.1 Những khái niệm lý thuyết tập thơ 2.1.2 Mơ hình tập thơ truyền thống 2.2 Nghiên cứu phân tích số thuật toán liên quan đến tập rút gọn bảng định rút gọn quán: 2.2.1 Đặt vấn đề 2.2.2 Thuật tốn tìm tất thuộc tính rút gọn 2.2.3 Thuật tốn tìm tập rút gọn 2.2.4 Thuật tốn tìm họ tất tập rút gọn 2.2.5 Thuật tốn tìm bảng định khơng dư thừa 2.3 Kết luận chƣơng CHƢƠNG 3: THIẾT KẾ VÀ XÂY DỰNG CHƢƠNG TRÌNH THỬ NGHIỆM 3.1 Đặt vấn đề 3.2 Yêu cầu phần mềm tảng cấu hình phần cứng máy PC 3.2.1 Yêu cầu phần mềm tảng 3.2.2 Cấu hình phần cứng máy PC 3.3 Giới thiệu chƣơng trình cách sử dụng 3.3.1 Cấu trúc chương trình 3.3.2 Giới thiệu chương trình Sao chép thư mục chương trình vào thư mục ổ cứng máy PC Chạy file FindAllReductAttribute.exe để mở chương trình Giao diện chương trình sau: Giao diện chương trình Hình 3.1 Giao diện chƣơng trình tìm tất tập rút gọn bảng định qn Chương trình có phần chính: + Phần 1: Các tab chức chương trình (Hệ thống / Dữ liệu / Thuật toán /Trợ giúp) + Phần 2: Đầu vào chương trình (Tab Dữ liệu) + Phần 3: Thực thuật toán (Tab Thuật toán) Để thực thuật toán, từ giao diện chương trình ta thực theo bước sau: Chọn tab “Dữ liệu” từ giao diện chương trình để nhập liệu đầu vào cho chương trình Chương trình yêu cầu chọn file liệu đầu vào để thực cho bước tính tốn tìm tập thuộc tính rút gọn bước sau Hình 3.2 Chọn file liệu đầu vào cho chƣơng trình Hình 3.3 Giao diện chƣơng trình hiển thị liệu đầu vào Tìm thuộc tính rút gọn từ liệu đầu vào hiển thị giao diện chương trình Chọn Tab “Thuật tốn”, sau chọn chức “Tìm tất thuộc tính rút gọn” để thực tìm thuộc tính rút gọn Hình 3.4 Tìm tất thuộc tính rút gọn 3.4 Thực thuật toán với liệu Flu, EXAMPLE1, EXAMPLE 3.4.1 Bộ liệu Flu Cho bảng định DS=(U,C {c3},V,f) 10 với U={u ,u ,u ,u ,u ,u ,u ,u8}, C={c1,c2} Trong đó: C1 – đau đầu, C2 – Thân nhiệt, C3 – Cảm cúm U C1 C2 C3 U1 Yes Normal No U2 Yes High Yes U3 Yes Very High Yes U4 No Normal No U5 No High No U6 No Very High Yes U7 No High Yes U8 No Very High No Bảng 3.2 Triệu chứng cúm bệnh nhân Dữ liệu đầu vào: - Bảng định DS=(U,C {C3},V,f), - Các đối tượng U ={u ,u ,u ,u ,u ,u ,u ,u8}, - Các thuộc tính C ={ c1,c2,c3,} Kết quả: Tập thuộc tính rút gọn * Thực thuật tốn: a) Kiểm tra xem bảng định có quán không Xấp xỉ BX (Yes) = {u2,u3}, Xấp xỉ BX (No) = {u1,u4}; =>POSc(D)= (BX) Không U: Vậy bảng định không quán X U / D b) Các bƣớc thực thuật tốn Vì bảng định khơng qn nên kết thúc thuật tốn 11 Hình 3.5 Kết liệu Flu 3.4.2 Bộ liệu “EXAMPLE1” Xét bảng định có thuộc tính đối tượng sau: U AC1 BC2 CC3 DC4 U1 6 U2 2 U3 0 0 U4 0 U5 4 U6 5 U7 0 Bảng 3.3 Bảng định liệu Example1 Dữ liệu đầu vào: - Bảng định DS=(U,C {DC4},V,f), - Các đối tượng U ={u ,u ,u ,u ,u ,u ,u }, - Các thuộc tính C ={ AC1,BC2,CC3, DC4} Kết quả: Tập thuộc tính rút gọn * Thực thuật toán: a) Kiểm tra xem bảng định có qn khơng Xấp xỉ BX (0) = {U3, U4, U2}, Xấp xỉ BX(1)= {U7}, 12 Xấp xỉ BX (4) = {U5}, Xấp xỉ BX (5) = {U6}, Xấp xỉ BX (6) = {U1} => POSc(C4)= X U / D (BXi) = U: Vậy bảng định quán b) Các bƣớc thực thuật toán + Bước 1: Hệ r = {{CC3},{AC1, DC4},{ AC1},{AC1, BC2, DC4},{AC1, CC3},{ BC2},{BC2, CC3}} + Bước 2: Tập Md = {{ AC1, CC3},{ BC2, CC3}} + Bước 3: Tập K M d K = { CC3}, Tập V R KM d K R K( K rd )1 K { AC1, BC2, DC4} + Bước 4: REAT(C) = V - {DC4} = { AC1, BC2}, => Hồn thành thuật tốn (thuộc tính rút gọn l { AC1, BC2}) Hình 3.6 Kết thực thuật toán với liệu Example1 13 3.4.3 Bộ liệu “EXAMPLE” Xét bảng định có thuộc tính đối tượng sau: U a b c d u1 6 u2 2 u3 0 0 u4 0 u5 4 0 u6 5 u7 0 Bảng 3.4 Bảng định liệu Example Dữ liệu đầu vào: - Bảng định DS=(U,C {d},V,f), - Các đối tượng U ={u ,u ,u ,u ,u ,u ,u }, - Các thuộc tính C ={ a,b,c,d} Kết quả: Tập thuộc tính rút gọn * Thực thuật tốn: a) Kiểm tra xem bảng định có qn khơng Xấp xỉ BX (0) = {u3,u4,u2,u7,u5}, Xấp xỉ BX (5) = {u6}, Xấp xỉ BX (6) = {u1}, => POSc(D) = (BX) = U: Vậy bảng định quán X U / D b) Các bƣớc thực thuật toán + Bước 1: Hệ r = {{c},{a,d},{d},{a,b,d},{c,d},{b},{b,c,d},{b,d}} + Bước 2: Tập Md = {{c},{b}} + Bước 3:Tập K M d K = {} Tập V R KM d K R K( K rd )1 K {a,b,c,d} 14 + Bước 4: REAT(C) = V - {d} = {a,b,c} => Hồn thành thuật tốn (thuộc tính rút gọn {a,b, c}) Hình 3.7 Kết tìm tập rút gọn với liệu Example 3.5 Kết luận chƣơng Chương hướng dẫn cài đặt chương trình kết thử nghiệm chương trình tìm tập thuộc tính rút gọn Đưa số giao diện cách sử dụng chạy chương trình… 15 KẾT LUẬN VÀ ĐỀ NGHỊ Kết đạt đƣợc luận văn Khai phá liệu kỹ thuật quan trọng, mang tính thời không Việt Nam mà cơng nghệ thơng tin tồn cầu Với bùng nổ thơng tin liệu tồn cầu, mặt đời sống xã hội với phát triển ứng dụng ngày rộng rãi công nghệ thông tin lĩnh vực khiến cho nhu cầu xử lý khối liệu khổng lồ để phát thông tin, tri thức hữu ích cho người sử dụng cách tự động, nhanh chóng xác Một phương pháp quan trọng kỹ thuật khai phá liệu mà đề tài tìm hiểu để làm sở liệu cho số thuật toán rút gọn bảng định quán Trong khoảng thời gian không dài đề tài tổng kết kiến thức để phục vụ cho việc nghiên cứu số thuật toán liên quan đến tập rút gọn bảng định quán Có thể nói đề tài tài liệu tham khảo khá đầy đủ, rõ ràng kiến thức nghiên cứu số thuật toán liên quan đến tập rút gọn bảng định qn Thơng qua cài đặt thuật tốn ”Tìm tập tất thuộc tính rút gọn bảng định quán” chạy thử chương trình máy PC nhiều lượt với liệu khác Hƣớng nghiên cứu Trên sở nghiên cứu trình bày luận văn, tiếp tục nghiên cứu sâu số thuật toán liên quan tới tập rút gọn bảng định quán Nhằm loại bỏ thuộc tính dư thừa khơng cần thiết mà bảo tồn thơng tin tốn Thơng qua việc loại bỏ thuộc tính dư thừa, tốn khai phá liệu trở nên đơn giản hơn, phù hợp với giai đoạn Trong trình học tập, tìm hiểu nghiên cứu với khoảng thời gian làm luận văn, cố gắng tập trung tìm hiểu tham khảo tài liệu liên quan Tuy nhiên thời gian điều kiện nghiên cứu có hạn nên khơng tránh khỏi thiếu sót, mong nhận nhận xét đóng góp ý kiến quý thầy cô giáo quan tâm để luận văn hoàn thiện ... xử lí hệ thống Big Data nghiên cứu phát triển phương pháp phân tích liệu mà thực chất khai phá hệ thống liệu lớn để phát tri thức Luận văn nghiên cứu tìm hiểu số phương pháp phân tích liệu liên... phương pháp phân tích liệu bảng định Cuối xây dựng phần mềm thực nghiệm 5 CHƢƠNG 1: NGHIÊN CỨU CÁC NỀN TẢNG CỦA HỆ THỐNG DỮ LIỆU LỚN Nghiên cứu số tảng hệ thống liệu lớn (BigData) 1.1 Định nghĩa... trúc bảng định sử dụng lí thuyết tập thơ Mục đích nghiên cứu Nghiên cứu tìm hiểu số tảng hệ thống liệu lớn Tìm hiểu số lĩnh vực phân tích tìm giá trị hệ thống liệu lớn (thực chất khai phá liệu