Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 67 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
67
Dung lượng
1,55 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Nguyễn Hữu Tuyên NGHIÊN CỨU XÂY DỰNG GIẢI PHÁP LÀM SẠCH VÀ TÍCH HỢP DỮ LIỆU LỚN LUẬN VĂN THẠC SĨ KỸ THUẬT Hà Nội – 2021 download by : skknchat@gmail.com HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG Nguyễn Hữu Tuyên NGHIÊN CỨU XÂY DỰNG GIẢI PHÁP LÀM SẠCH VÀ TÍCH HỢP DỮ LIỆU LỚN Chuyên ngành: Hệ thống thông tin Mã số: 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS HÀ HẢI NAM Hà Nội – 2021 download by : skknchat@gmail.com i LỜI CAM ĐOAN Tôi xin cam đoan kết nghiên cứu, thực nghiệm được trình bày luận văn thực dưới hướng dẫn thầy PGS.TS Hà Hải Nam Tất tham khảo từ nghiên cứu liên quan được nêu nguồn gốc cách rõ ràng từ danh mục tài liệu tham khảo luận văn Trong luận văn, không có việc chép tài liệu, cơng trình nghiên cứu người khác mà không rõ tài liệu tham khảo Hà Nội, ngày tháng năm 2021 Học viên Nguyễn Hữu Tuyên download by : skknchat@gmail.com ii LỜI CẢM ƠN Tôi xin trân trọng cảm ơn ban lãnh đạo trường Học viện Cơng nghệ Bưu Viễn thơng tồn thể thầy, cô Khoa Đào tạo Sau Đại học tạo điều kiện cho học viên lớp cao học Hệ thống thông tin khóa 2020 đợt được học môi trường rất tốt, đồng thời truyền đạt cho kiến thức quý báu, tư khoa học để phục vụ cho trình học tập, nghiên cứu công tác Đặc biệt, xin được bày tỏ lòng biết ơn sâu sắc đến thầy PGS.TS Hà Hải Nam tận tình hướng dẫn cho tơi suốt trình học tập nghiên cứu, giúp tơi có nhìn nhận đắn đề tài luận văn Cuối cùng, tơi xin được gửi lời cảm ơn tới gia đình, đờng nghiệp, người thân động viên, giúp đỡ tơi q trình theo học nhà trường Do vốn kiến thức lý luận thời gian kinh nghiệm thực tiễn chưa có nhiều nên luận văn không tránh khỏi thiếu sót Tôi xin trân trọng tiếp thu ý kiến thầy, cô, bạn bè để luận văn được hồn thiện Trân trọng cám ơn thầy cơ! download by : skknchat@gmail.com iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC .iii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT v DANH MỤC CÁC HÌNH vi MỞ ĐẦU CHƯƠNG I TỔNG QUAN 1.1 Khái niệm liệu, làm liệu 1.1.1 Dữ liệu 1.1.2 Các dạng liệu 1.1.3 Làm liệu 1.1.4 Dữ liệu lớn 1.2 Tích hợp liệu 10 1.2.1 Lịch sử phát triển 10 1.2.2 Khái niệm tích hợp liệu 11 1.2.3 Vai trị tích hợp liệu 12 1.3 Một số lĩnh vực áp dụng liệu lớn 12 1.3.1 Viễn thông 12 1.3.2 Y tế, chăm sóc sức khỏe 13 1.3.3 Bán lẻ 14 1.4 Kết luận chương 14 CHƯƠNG II: XÂY DỰNG QUY TRÌNH LÀM SẠCH VÀ TÍCH HỢP DỮ LIỆU LỚN 15 2.1 Mô hình làm tích hợp liệu lớn 15 download by : skknchat@gmail.com iv 2.2 Quy trình làm liệu 2.2.1 Các yêu cầu nguyên lý làm sạch, tích hợp liệu 2.2.2 Nghiên cứu công đoạn làm 2.2.3 Đề xuất quy trình làm 2.3 Phương pháp tích hợp liệu 2.3.1 Kỹ thuật hợp liệu 2.3.2 Kỹ thuật liên hiệp liệu 2.3.3 Kỹ thuật lan truyền liệu 2.4 Các cơng nghệ tích hợp liệu 2.4.1 Công nghệ ETL (Extract, Transform and Load) 2.4.2 Công nghệ EII (Enterprise Information Integration) 2.4.3 Công nghệ EAI (Enterprise Application Integration) 2.4.4 Nhận xét đánh giá 2.5 Kết luận chương CHƯƠNG III: THỰC NGHIỆM VÀ KẾT QUẢ 3.1 Thực trạng liệu trường Đại học Đại nam 3.2 Môi trường cài đặt phục vụ thực nghiệm 3.3 Thực nghiệm 3.3.1 Chuẩn bị liệu 3.3.2 Tiến hành thực nghiệm làm liệu 3.3.3 Phân tích liệu nhận diện lỗi 3.3.4 Tích hợp liệu vào kho liệu chung trường Đại học Đ 3.4 Kết luận chương KẾT LUẬN DANH MỤC TÀI LIỆU THAM KHẢO PHỤ LỤC download by : skknchat@gmail.com v DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Viết tắt IPUMS Integrated Public Series BLOB Binary Large Ob ETL Extract, Transfor EAI Enterprise Applic EDR Enterprise Data R EII Enterprise Inform SOA Service Oriented A CDC Changed data cap download by : skknchat@gmail.com vi DANH MỤC CÁC HÌNH Hình 1: Năm đặc trưng liệu lớn Hình 1: Q trình làm tích hợp liệu 15 Hình 2: Các bước trình làm liệu 19 Hình 3: Quy trình làm liệu 21 Hình 4: Mơ hình lấy đẩy Data Consolidation 24 Hình 5: Kỹ thuật liên hiệp liệu 26 Hình 6: Quá trình xử lý ETL 31 Hình 1: Quy trình thực thực nghiệm 38 Hình 2: Sơ đờ l̀ng làm tích hợp liệu hệ thống 39 Hình 3: Sơ đồ liên kết thực thể CSDL Khảo sát sinh viên 40 Hình 4: Danh sách bảng CSDL Khảo sát sinh viên 41 Hình 5: L̀ng ETL đồng thông tin sinh viên 42 Hình 6: Chi tiết l̀ng ETL đồng thông tin sinh viên .42 Hình 7: Tập liệu mẫu khảo sát sinh viên 43 Hình 8: Phân tích liệu khảo sát công cụ SPSS 45 Hình 9: Kết phân tích lỗi thiếu giá trị SPSS 45 Hình 10: Kết phân tích lỗi trùng lặp liệu SPSS 45 Hình 11: Kết phân tích lỗi giá trị ngoại lai liệu SPSS .46 Hình 12: Kết xử lý lỗi thiếu giá trị 47 Hình 13: Kết xử lý lỗi giá trị ngoại lai 47 Hình 14: Q trình tích hợp liệu…………………………………………………….48 Hình 15: L̀ng ETL tích hợp liệu khảo sát được làm 49 Hình 16: Bảng liệu khảo sát được tích hợp vào CSDL Đại học Đại Nam 50 download by : skknchat@gmail.com MỞ ĐẦU Internet công nghệ số ngày phát triển nay, liệu được tạo với dung lượng rất lớn Đối với tổ chức, doanh nghiệp liệu được tạo từ nguồn khác liệu khách hàng, liệu nghiệp vụ, liệu nhân sự, liệu điều tra từ mạng xã hội v.v Tổ chức lớn liệu đa dạng Do liệu được thu thập từ nguồn khác dẫn đến định dạng liệu rất đa dạng không tuân thủ theo tiêu chuẩn nhất quán Dữ liệu có thể dạng có cấu trúc, phi cấu trúc bán cấu trúc Điều dẫn đến khó khăn việc chuẩn hóa lưu trữ liệu phục vụ khai thác sau Dữ liệu thu thập từ nguồn khác dẫn đến trùng lặp nội dung, lỗi tả, lỗi ngữ nghĩa v.v Với phát triển cơng nghệ phân tích liệu tiên tiến việc áp dụng trí tuệ nhân tạo vào giải vấn để liên quan đến tổ chức, đòi hỏi cần có liệu để phát huy hiệu công nghệ mới Để xây dựng kho liệu lớn đòi hỏi nghiên cứu cơng nghệ làm sạch, tích hợp liệu lưu trữ hệ thống liệu lớn phục vụ khai thác sau Đây toán lớn, khó phức tạp được nghiên cứu giới [1] Tại Việt Nam, chiến lược chuyển đổi số quốc gia xác định việc xây dựng sở liệu lớn quốc gia phục vụ chuyển đổi số quốc gia Đây xu hướng tất yếu xây dựng phủ điện tử hướng tới phủ số Chính phủ số phủ định dựa liệu Nghị định 47/2020/NĐ-CP ngày 09/04/2020 quản lý, kết nối chia sẻ liệu số quan nhà nước cho thấy tầm quan trọng việc tích hợp chia sẻ liệu Các thử thách quy trình, cơng nghệ làm sạch, tích hợp lưu trữ liệu lớn vẫn chưa được giải triệt để Với chiến lược liệu mở[2], tương lai Việt Nam có nguồn liệu phong phú khổng lồ từ khu vực công tư được mở cho cộng đồng Để tận dụng nguồn liệu cho phát triển kinh tế xã hội, lực làm tích hợp liệu lớn rất cần thiết Các doanh nghiệp lớn Việt Nam VNPT, Viettel có nguồn liệu download by : skknchat@gmail.com đa dạng, phong phú khổng lồ liệu khách hàng, lịch sử sử dụng khách hàng, ý kiến phản hồi khách hàng…Đây nguồn nhiên liệu quan trọng đối với doanh nghiệp khai thác hiệu Tích hợp liệu đưa khung nhìn ảo thống nhất tất liệu phạm vi, cho phép người dùng có thể truy vấn liệu thơng qua lược đờ tích hợp hồn chỉnh Việc xây dựng hệ thống tích hợp liệu rất quan trọng ứng dụng thực tế Các cơng ty ứng dụng tích hợp liệu để lấy báo cáo số liệu chi nhánh Trong an ninh sử dụng tích hợp để điều tra tội phạm, tìm kiếm Các tổ chức quy mơ lớn cần lấy thông tin từ đơn vị trực thuộc Hay việc so sánh, kiểm định thông tin từ nhiều hệ thống khác Nội dung luận văn tập trung vào giới thiệu vấn đề xung quanh việc làm tích hợp liệu lớn Các nội dung luận văn bao gờm: tổng quan liệu, làm tích hợp liệu lớn Giới thiệu số kỹ thuật, cơng nghệ tích hợp liệu điển hình thường được sử dụng phần cuối tơi xin trình bày thực nghiệm làm tích hợp liệu lớn trường Đại học Đại Nam download by : skknchat@gmail.com 44 3.3.2 Tiến hành thực nghiệm làm liệu Tiến hành làm liệu được trải qua bước sau Bước 1: Phát kiếm tra, nhằm khảo sát phát nhiễu liệu theo liệu khảo sát Kiểm tra tổng thể qua công cụ thống kê qua phần mềm chuyên dụng SPSS Bước 2: Sửa lỗi, từ phát vấn đề gặp phải qua bước 1, bước tiến hành thao tác làm liệu trước vào q trình tích họp liệu 3.3.3 Phân tích liệu nhận diện lỗi Bộ liệu xuất số lỗi thường gặp như: Thiếu giá trị, liệu ngoại lại, trùng lặp liệu Sau tơi trình bày cách xử lý từng lỗi công cụ SPSS trước đưa vào tích hợp liệu Lỗi thiếu giá trị Như thấy hình 3.7 có giá trị bị thiếu bôi màu vàng, sau đẩy liệu vào SPSS phân tích cho bảng kết báo thiếu giá trị câu 2, câu liệu download by : skknchat@gmail.com 45 Hình 3.9: Phân tích liệu khảo sát công cụ SPSS Kết quả: Từ kết xác định được liệu bị thiếu câu câu Hình 3.10: Kết phân tích lỗi thiếu giá trị SPSS Trùng lặp liệu Trong hình 3.7 Tập liệu mẫu khảo sát sinh viên nhìn thấy có cột trường thông tin “ MaSV” trùng nhau, được đánh dấu màu đỏ Hình 3.11: Kết phân tích lỗi trùng lặp liệu SPSS download by : skknchat@gmail.com 46 Giá trị ngoại lai Trong bảng phiếu hỏi khảo sát, phương án trả lời từ đến Tuy nhiên liệu lại xuất giá trị 7, được bôi xanh bảng liệu Hình 3.12: Kết phân tích lỗi giá trị ngoại lai liệu SPSS (a) Thực làm liệu Với lỗi liệu nhận diện được mục, trình bày cách xử lý với từng lỗi sau Lỗi thiếu giá trị Sử dụng phương pháp cập nhật giá trị bị thiếu thông qua giá trị tương quan gần nhất liệu Kết đạt được sau: download by : skknchat@gmail.com 47 Hình 3.13: Kết xử lý lỗi thiếu giá trị Lỗi giá trị ngoại lai Trong bảng phiếu hỏi khảo sát, phương án trả lời từ đến Tuy nhiên liệu lại xuất giá trị Thực chuẩn hóa liệu theo tập kết phương án từ đến Giá trị nhỏ giá trị kết nhỏ nhất (là 1): chuẩn hóa thành giá trị Giá trị lớn giá trị kết lớn nhất (là 5): chuẩn hóa thành giá trị Hình 3.14: Kết xử lý lỗi giá trị ngoại lai download by : skknchat@gmail.com 48 3.3.4 Tích hợp liệu vào kho liệu chung trường Đại học Đại nam Hình 3.154: Q trình tích hợp liệu Hình 3.14 trình bày sơ đờ tích hợp liệu khảo sát sinh viên tới kho liệu Đại học Đại nam Dữ liệu khảo sát sinh viên sau được làm sạch, được tích hợp từ CSDL Khảo sát sinh viên vào kho CSDL trường Đại học Đại Nam thông qua kỹ thuật ETL Dữ liệu được đẩy vào CSDL khảo sát sinh viên kho liệu Đại học Đại Nam kết nối với thông tin kho liệu Đại học Đại Nam thông qua định danh mã sinh viên download by : skknchat@gmail.com 49 Hình 3.15: Luồng ETL tích hợp liệu khảo sát làm Kết đạt được: Dữ liệu khảo sát sinh viên được tích hợp thành cơng vào kho CSDL Đại học Đại Nam download by : skknchat@gmail.com 50 Hình 3.166: Bảng liệu khảo sát tích hợp vào CSDL Đại học Đại Nam 3.4 Kết luận chương Từ kiến thức tìm hiểu chương chương Chương vào giải toán thực tế Trường Đại học Đại nam với số liệu nằm nhiều nguồn khác Chương tiến hành làm liệu Lấy ý kiến phản hồi sinh viên hoạt động giảng dạy sau đó tích hợp vào liệu lớn Đại học Đại Nam tồn download by : skknchat@gmail.com 51 KẾT LUẬN Kết đạt Vấn đề làm tích hợp liệu lớn mới đối với giới Việt Nam, nhiên để xây dựng hệ thống có tính đặc thù với trường đại học, cao đẳng v.v đặc biệt đối với trường có liệu lớn cần được quan tâm phát triển nhiều Một số vấn đề mà luận văn được được như: - Nghiên cứu làm liệu Các phương pháp làm sạch, tích hợp liệu lớn - Xây dựng, cài đặt, thử nghiệm với mơ hình trường Đại học Đại nam Hướng phát triển luận văn Hướng mở rộng đề tài tiếp tục nghiên cứu mở rộng chức cơng cụ làm sạch, tích hợp liệu lớn nhằm đáp ứng được yêu cầu chức sử dụng thay đổi nhanh chóng công nghệ Cụ thể là: - Phát triển phiên Web - Hỗ trợ kết nối đến loại CSDL khác - Nâng cấp tính phân tích liệu - Sử dụng thuật toán học máy học sâu nâng cao để làm sạch, tích hợp liệu - Thực làm liệu với quy mô lớn download by : skknchat@gmail.com 52 DANH MỤC TÀI LIỆU THAM KHẢO [1] Martin, Gandalson, Data Warehouse Automation, Magentic LLC, 2018 [2] Nghị định 47/2020/NĐ-CP ngày 09/04/2020 quản lý, kết nối chia sẻ liệu số quan nhà nước [3] Saha, Barna, and Divesh Srivastava (2014) “Data Quality: The other face of Big Data.” in 2014 IEEE 30th International Conference on Data Engineering pp 12941297 [4] Shneiderman, Ben, and Catherine Plaisant (2015) “Sharpening Analytic Focus to Cope with Big Data Volume and Variety.” IEEE Computer Graphics and Applications 35 (3): 10-14 [5] Müller, Heiko, and Johann-Christoph Freytag (2003) Problems, Methods, and Challenges in Comprehensive Data Cleansing, Humboldt University Berlin [6] Gu, Randy Siran (2010) “Data Cleaning Framework: An Extensible Approach to Data Cleaning.” [master’s thesis], University of Illinois, Urbana, Illinois [7] Khayyat, Zuhair, Ihab F Ilyas, Alekh Jindal, Samuel Madden, Mourad Ouzzani, and Paolo Papotti (2015) “BigDansing: A System for Big Data Cleansing”, in Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data, Melbourne, Victoria, Australia [8] Yakout, Mohamed, Laure Berti-Équille, and Ahmed K Elmagarmid (2013) “Don't be SCAREd: use SCalable Automatic REpairing with maximal likelihood and bounded changes”, in the Proceedings of the 2013 ACM SIGMOD International Conference on Management of Data, New York, New York, USA [9] Cappiello, Cinzia, Walter Samá, and Monica Vitali (2018) “Quality Awareness for a Successful Big Data Exploitation”, in ACM International Conference Proceeding Series pp 37-44 [10] Cohen, Bevin, David K Vawdrey, Jianfang Liu, David Caplan, E Yoko Furuya, and Frederick W Mis (2015) “Challenges Associated With Using Large Data Sets for Quality Assessment and Research in Clinical Settings.” Policy, Politics & Nursing Practice (16): 117-124 download by : skknchat@gmail.com 53 [11] Sidi, Fatimah, Payam Hassany Shariat Panahy, Lilly Affendey, A Jabar, Marzanah, Hamidah Ibrahim, and Aida Mustapha (2012) “Data Quality: A Survey of Data Quality Dimensions.” International Conference on Information Retrieval & Knowledge Management pp 300- 304 [12] Sonka, Steven (2016) “Big Data Characteristics.” International Food and Agribusiness Management Review 19 (A): 7-12 [13] Wang, Hongzhi, Mingda Li, Yingyi Bu, Jianzhong Li, Hong Gao, and Jiacheng Zhang (2015) “Cleanix: a Parallel Big Data Cleaning System.” ACM SIGMOD Record 44 (4): 35- 40 [14] Swapnil, Walunj K., Anil H Yadav, and Sonu Gupta (2016) “Big Data: Characteristics, Challenges and Data Mining.” International Journal of Computer Applications: 25-29 [15] Chu, Xu, John Morcos, Ihab F Ilyas, Mourad Ouzzani, Paolo Papotti, and Nan Tang (2015) “KATARA: A Data Cleaning System Powered by Knowledge Bases and Crowdsourcing”, in Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data, Melbourne, Victoria, Australia [16] Wang, Jiannan, Sanjay Krishnan, Michael J Franklin, Ken Goldberg, Tim Kraska, and Tova Milo (2014) “A Sample-And-Clean Framework for Fast and Accurate Query Processing on Dirty Data”, in Proceedings of the 2014 ACM SIGMOD International Conference on Management of Data, Snowbird, Utah, USA [17] Wang, Hongzhi, Mingda Li, Yingyi Bu, Jianzhong Li, Hong Gao, and Jiacheng Zhang (2014) “Cleanix: A Big Data Cleaning Parfait”, in the Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management, Shanghai, China [18] Chu, Xu, John Morcos, Ihab F Ilyas, Mourad Ouzzani, Paolo Papotti, Nan Tang, et al (2015) “KATARA: Reliable Data Cleaning with Knowledge Bases and Crowdsourcing.” Proceedings of the VLDB Endowment (12): 1952-1955 [19] Raman, Vijayshankar, and Joseph Hellerstein (2001) “Potter's Wheel: An th Interactive Data Cleaning System”, in Proceedings of the 27 International download by : skknchat@gmail.com 54 Conference on Very Large Data Bases, Roma, Italy [20] Lee, Mong Li, Tok Wang Ling, and Wai Lup Low (2000) “IntelliClean: A Knowledge-based Intelligent Data Cleaner”, in Proceedings of the sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Boston, Massachusetts, USA [21] Chu, Xu (2017) “Scalable and Holistic Qualitative Data Cleaning.” [doctoral dissertation], University of Waterloo [22] Enterprise Application Integration (EAI) Techniques - by Florence Lin 2005 [23] Enterprise Information Integration (EII) A Technical Ally of EAI and ETL - by Bipin Chandra Joshi [24] Extraction, Transformation, and Loading (ETL) - by Panos Vassiliadis and Alkis Simitsis [25] Data Integration: Using ETL, EAI, and EII Tools to Create an Integrated Enterprise by Colin White, BI Research 2005 download by : skknchat@gmail.com 55 PHỤ LỤC Phụ lục 1: Mẫu phiếu khảo sát lấy ý kiến phản hồi sinh viên hoạt động giảng dạy Phiếu được sử dụng để lấy ý kiến người học hoạt động giảng dạy giảng viên nhằm từng bước cải thiện nâng cao chất lượng giảng dạy Nhà trường Đề nghị em sinh viên trả lời cách cẩn thận, trung thực quan điểm cá nhân vào câu hỏi dưới Lớp: Môn học: Mỗi câu hỏi đánh giá với thang đo : Rất không đồng ý Stt Chuẩn bị giảng Công bố rõ ràng nội dung, mục tiêu môn học mục từng giảng; công bố chi tiết kế hoạch giảng dạy tồn mơn học Chuẩn bị tài liệu học tập cho người học (slide giản tập, tình huống, tài liệu đọc thêm, …) Sử dụng công cụ hỗ trợ giảng dạy (file âm ảnh, slide) Phương pháp giảng dạy download by : skknchat@gmail.com 56 Truyền đạt ngắn gọn, dễ hiểu, lôi tham gia người học vào giảng Giọng nói, tốc độ giảng phù hợp cho việc học tập onlin Phân bổ thời gian, khối lượng kiến thức phù hợp để ngư học không mệt mỏi, có thể tập trung theo dõi giảng Người học được hỗ trợ, giải đáp thắc mắc trực học ngồi học thơng qua hình thức k (mạng xã hội, email…) Người học được kiểm tra đánh giá mức độ hiểu liên giảng thông qua hình thức khác Nội dung giảng day 10 11 Phù hợp với mục tiêu được giảng viên công bố Nội dung giảng dạy được cập nhật, mang tính thực tế, nh học bổ ích Nội dung giảng dạy đáp ứng nhu cầu người học Quản lý lớp 12 13 14 Kế hoạch dạy - học được thực thời gian th khóa biểu Vào lớp tan lớp Có phương pháp điểm danh kiểm soát được việc học người học qua ứng dụng Microsoft Teams Đánh giá chung mức độ hài lòng Người học v 15 16 17 Anh/Chị hài lòng với kiến thức thu được từ giảng on giảng viên Anh/chị hài lòng với việc hỗ trợ giáo viên chủ nhiệ đội ngũ hỗ trợ Nhà trường trình học onlin Anh/Chị hài lòng với phương pháp kiểm tra đánh giá đ được công bố download by : skknchat@gmail.com ... tài ? ?Nghiên cứu xây dựng giải pháp làm tích hợp liệu lớn” download by : skknchat@gmail.com 15 CHƯƠNG II: XÂY DỰNG QUY TRÌNH LÀM SẠCH VÀ TÍCH HỢP DỮ LIỆU LỚN 2.1 Mơ hình làm tích hợp liệu lớn. .. 14 CHƯƠNG II: XÂY DỰNG QUY TRÌNH LÀM SẠCH VÀ TÍCH HỢP DỮ LIỆU LỚN 15 2.1 Mơ hình làm tích hợp liệu lớn 15 download by : skknchat@gmail.com iv 2.2 Quy trình làm liệu 2.2.1... lý làm sạch, tích hợp liệu 2.2.2 Nghiên cứu công đoạn làm 2.2.3 Đề xuất quy trình làm 2.3 Phương pháp tích hợp liệu 2.3.1 Kỹ thuật hợp liệu 2.3.2 Kỹ thuật liên hiệp liệu