Báo cáo tiểu luận big data covid

lOMoARcPSD|12114775 BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ GIAO THÔNG VẬN TẢI TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI TP.HCM - oOo BÁO CÁO DỮ LIỆU LỚN CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 60840101 GVBM: TS Hàn Trung Định Học viên: Nguyễn Văn Chiến – KM1901 Võ Tấn Sang – KM1901 Nguyễn Hoàng Phương – KM1902 Nguyễn Đức Quỳnh – KM1902 TP HCM, 04 - 2022 lOMoARcPSD|12114775 MỤC LỤC CHƯƠNG 1: MÔ TẢ DỮ LIỆU VÀ HƯỚNG TIẾP CẬN 1.1 Mô tả liệu 1.2 Hướng tiếp cận CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Docker 2.1.1 Cấu trúc docker 2.1.2 Nguyên tắc hoạt động 2.1.3 Quy trình hoạt động 2.1.4 Sự khác Hypervisors Docker 10 2.1.5 Ưu điểm Docker 11 2.1.6 Một số công cụ thuật ngữ Docker 12 2.2 Hadoop 14 2.2.1 Kiến trúc Hadoop 15 2.2.2 Cách thức hoạt động 15 2.2.3 Ưu điểm Hadoop 16 2.2.4 Cài đặt cụm Hadoop với Docker 16 2.3 Sqoop 18 2.3.1 Cấu trúc Sqoop 19 2.3.2 Ưu điểm Sqoop 20 2.3.3 Sqoop công cụ 21 2.3.4 Các tập lệnh Sqoop 22 CHƯƠNG 3: MƠ HÌNH TỐN 26 3.1 Giới thiệu Linear Regression 26 3.2 Phân tích tốn học 27 3.2.1 Dạng Linear Regression 27 3.2.2 Sai số dự đoán 27 3.2.3 Hàm mát 27 3.2.4 Nghiệm cho toán Liner Regression 28 lOMoARcPSD|12114775 CHƯƠNG 4: MƠ HÌNH THỰC NGHIỆM 30 4.1 Giới thiệu hồi quy đa thức 30 4.1.1 Nguyên nhân dùng hồi quy đa thức 30 4.1.2 Công dụng hồi quy đa thức 30 4.2 Kết thực nghiệm 31 CHƯƠNG 5: TRỰC QUAN HÓA DỮ LIỆU 35 5.1 Dữ liệu không gian địa lý 35 5.2 Biểu đồ Treemaps 36 5.3 Biểu đồ bong bóng 36 CHƯƠNG 6: HƯỚNG PHÁT TRIỂN ĐỀ TÀI 38 6.1 Cơng cụ xử lí liệu 38 6.1.1 Hive 38 6.1.2 Spark 40 6.2 ETL Data Warehoue 44 lOMoARcPSD|12114775 DANH MỤC HÌNH ẢNH CHƯƠNG Hình 1.1: Tập liệu ca mắc bệnh COVID-19 ghi nhận hàng ngày Hình 1.2: Dữ liệu tổng hợp theo mức tỉ lệ Hình 1.3: Kỹ thuật Unpivot để lưu trữ vào hệ thống big data CHƯƠNG Hình 2.1: Kiến trúc Docker Hình 2.2: Cơ chế hoạt động Docker Hình 2.3: Thứ tự bước hoạt động Docker 10 Hình 2.4: Sự khác kiến trúc Hypervisor Docker 11 Hình 2.5: Docker Image 12 Hình 2.6: Mơ hình Hadoop 17 Hình 2.7: Kiểm tra sau cài đặt thành cơng 18 Hình 2.8: Kiểm tra trạng thái hệ thống 18 Hình 2.9: Cấu trúc cách thức hoạt động Sqoop 20 Hình 2.10: Sqoop ánh xạ đoạn mã java 24 CHƯƠNG Hình 4.1: Mơ hình dự đốn xu hướng dịch bệnh Covid hàng ngày 32 Hình 4.2: Dự đoán số ca mắc bệnh xác định hàng ngày 33 Hình 4.3: Dự đốn tình trạng hồi phục bệnh nhân sau nhiễm 33 Hình 4.4: Mơ tả tình hình tử vong bệnh nhân nhiễm Covid 34 CHƯƠNG Hình 5.1: Biểu đồ mô tả ca nhiễm khu vực tồn cầu 36 Hình 5.2: Biểu đồ tỉ lệ theo số lượng ca nhiễm quốc gia giới 36 Hình 5.3: Biểu đồ bong bóng thể tình trạng dịch bệnh lây lan theo thời gian 37 lOMoARcPSD|12114775 CHƯƠNG Hình 6.1: Kiến trúc Hive 38 Hình 6.2: Sơ đồ mơ tả quy trình làm việc Hive Hadoop 39 Hình 6.3: Cách thức hoạt động ETL 45 lOMoARcPSD|12114775 CHƯƠNG 1: MÔ TẢ DỮ LIỆU VÀ HƯỚNG TIẾP CẬN 1.1 Mô tả liệu - Bộ liệu cung cấp kho liệu COVID-19 trung Khoa học Kỹ thuật Hệ thống (CSSE) trường đại học Jhon Hopking cập nhật hàng ngày Bộ liệu gồm có phần chính: - Bộ liệu ghi nhận trường hợp nhiễm bệnh giới - Bộ liệu ghi nhận trường hợp tử vong giới - Bộ liệu ghi nhận trường hợp phục hồi sau nhiễm bệnh - Thơng tin liệu gồm có thơng tin sau mơ tả hình: Hình 1.1: Tập liệu ca mắc bệnh COVID-19 ghi nhận hàng ngày Hình 1.2: Dữ liệu tổng hợp theo mức tỉ lệ lOMoARcPSD|12114775 Hình 1.3: Kỹ thuật Unpivot để lưu trữ vào hệ thống big data 1.2 Hướng tiếp cận Đối với tập liệu đề xuất dùng phương pháp hồi quy tuyến tính để đưa mơ hình dự đốn cho xu hướng tình hình dịch COVID-19 thời gian tới Đối với tập liệu lớn cập nhật hàng ngày liệu cập nhật vào hệ thống bigdata phân tán nhiều ‘node’ khác để hỗ trợ cho việc xử lý liệu lớn sau lOMoARcPSD|12114775 CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Docker Docker tảng mã nguồn mở để xây dựng, triển khai quản lý ứng dụng container (trên tảng ảo hóa) Docker cung cấp cách để building, deloying running ứng dụng dễ dàng cách sử dụng containers Docker cho phép nhà phát triển đóng gói ứng dụng vào container Các thành phần thực thi chuẩn hóa kết hợp mã nguồn ứng dụng với tất thư viện Và phụ thuộc hệ điều hành (OS) cần thiết để chạy mã môi trường Trong nhà phát triển tạo container mà khơng cần đến Docker Docker giúp việc xây dựng, triển khai, quản lý container trở nên dễ dàng, đơn giản, an toàn Về bản, công cụ cho phép nhà phát triển xây dựng, triển khai, chạy, cập nhật dừng container cách sử dụng lệnh đơn giản tự động hóa tiết kiệm công việc 2.1.1 Cấu trúc docker Docker thiết kế mơ hình kiến trúc client-server Docker server (Docker daemon) có vai trị triển khai, chạy phân bổ Docker container Docker client Docker server phân bổ server khác server Chúng kết nối thông qua tảng REST API dựa UNIX sockets network interface lOMoARcPSD|12114775 Hình 2.1: Kiến trúc Docker  Docker daemon đóng vai trị thành phần core, theo dõi nghe API request quản lý Docker object Docker daemon host khác có khả giao tiếp kết nối với  Docker client cơng cụ để người dùng thực thao tác tảng Docker Khi người dùng thông qua CLI gõ câu lệnh “Docker run imageABC” để gửi yêu cầu đến dockerd nhờ API, Docker daemon tiếp nhận xử lí yêu cầu Docker client có khả kết nối, giao tiếp truyền tải yêu cầu đến nhiều Docker daemon  Docker registry hiểu theo nghĩa đơn giản kho lưu trữ Image Điển hình Docker Hub, mặt khác người dùng tự thiết lập Docker registry riêng 2.1.2 Nguyên tắc hoạt động lOMoARcPSD|12114775 Hình 2.2: Cơ chế hoạt động Docker Cơ chế hoạt động Docker không đơn giản cách sử dụng mà có phức tạp Docker hoạt động kết hợp Docker engine với yếu tố: + server client + Giao tiếp server client nhờ REST API Docker hoạt động thông qua việc cung cấp phương thức tiêu chuẩn để chạy mã người dùng Theo đó, container thực thao tác ảo hóa hệ điều hành phía máy chủ Docker thiết lập máy chủ hỗ trợ câu lệnh đơn giản có nhiệm vụ triển khai, khởi động tạm dừng Container Một số dịch vụ AWS AWS Fargate, Amazon ECS, Amazon EKS AWS Batch hỗ trợ người dùng chạy container Docker quy mô lớn cách thuận tiện nhanh chóng 2.1.3 Quy trình hoạt động Docker hoạt động dựa thứ tự bước: Build - Push – Pull, Run lOMoARcPSD|12114775 Hình 4.2: Dự đốn số ca mắc bệnh xác định hàng ngày Ưu điểm việc sử dụng hồi quy đa thức:  Phạm vi rộng hàm phù hợp với  Đa thức phù hợp với nhiều độ cong  Đa thức cung cấp giá trị gần mối quan hệ biến phụ vào biến đọc lập Hình 4.3: Dự đốn tình trạng hồi phục bệnh nhân sau nhiễm 33 lOMoARcPSD|12114775 Với hình 4.3 đồ thị đường cong phức tạp với hồi quy đa thức hệ thống đưa đường cong gần so với thực tế Hình 4.4: Mơ tả tình hình tử vong bệnh nhân nhiễm Covid Tương tự hồi quy đa thức đưa dự đoán với đường cong phức tạp so với liệu thực tế Nhược điểm việc sử dụng hồi quy đa thức:  Chúng nhạy cảm với yếu tố ngoại lai  Sự diện hai điểm ngoại lệ liệu ảnh hưởng nghiêm trọng đến kết phân tích hi tuyến  Ngồi đáng tiếc có cơng cụ xác thực mơ hình để phát ngoại lệ hồi quy phi tuyến so với hồi quy tuyến tính 34 lOMoARcPSD|12114775 CHƯƠNG 5: TRỰC QUAN HĨA DỮ LIỆU Trực quan hoá liệu phần nghệ thuật phần khoa học liệu Mục tiêu đề cho nghệ thuật mà khơng sai khoa học ngược lại Trực quan hố liệu trước hết phải truyền tải liệu cách xác Nó khơng gây hiểu nhầm học bóp méo thật Nếu số lớn gấp đơi số khác trực quan lại biểu diễn hiển thị giống trực quan sai Đồng thời trực quan hố liệu phải đẹp có thẩm mỹ cao Các thuyết trình tốt có xu hướng nâng cao thơng điệp nội dung phần trực quan Nếu hình có màu sắc chói, yếu tố hình ảnh khơng cân đối điểm khác gây tập trung người xem khó kiểm tra diễn giải hình cách xác 5.1 Dữ liệu khơng gian địa lý Bản đồ lấy liệu toạ độ địa cầu chiếu lên mặt phẳng cho khoảng cách hình dạng địa cầu hiển thị gần hình dạng khoảng cách mặt phẳng 2D Ngồi hiển thị giá trị liệu vùng khác cách tơ màu vùng đồ theo liệu Trong số trường hợp hữu ích bóp méo khu vực khác theo số lượng khác (ví dụ: số lượng dân số) đơn giản hố khu vực thành phố hình vng Những hình ảnh gọi đồ lOMoARcPSD|12114775 Hình 5.1: Biểu đồ mơ tả ca nhiễm khu vực toàn cầu 5.2 Biểu đồ Treemaps Tập liệu cầu nối hiển thị định dạng có liên quan riêng biệt gọi treemaps Trong biểu đồ dạng treemaps chúng lấy hình chữ nhật bao quanh chia nhỏ thành hình chữ nhật nhỏ có diện tích biểu thị tỷ lệ Trong biểu đồ treemaps lồng hình chữ nhật vào cách đệ quy Hình 5.2: Biểu đồ tỉ lệ theo số lượng ca nhiễm quốc gia giới 5.3 Biểu đồ bong bóng 36 lOMoARcPSD|12114775 Biểu đồ bong bóng kết hợp với toạ đoạ địa lý để thể tình hình dịch bệnh nói giới Biểu đồ bong bóng thể giá trị vị trí số lượng ca nhiễm tỉ lệ theo chu vi bong bóng, giúp người nhìn có nhìn trực quan tình hình dịch bệnh covid-19 tồn cầu Hình 5.3: Biểu đồ bong bóng thể tình trạng dịch bệnh lây lan theo thời gian Với biểu đồ bong bóng (hình 5.3) mơ trả chi tiết khả lây lan dịch bệnh toàn cầu theo thời gian thực, người nhìn thấy điểm bong bóng ngày lớn theo thời gian lây lan dịch bệnh từ dịch covid bắt đầu có mặt giới ghi nhận ngày 22-01-2020 lOMoARcPSD|12114775 CHƯƠNG 6: HƯỚNG PHÁT TRIỂN ĐỀ TÀI Trong chương giới thiệu số công cụ, kĩ thuật khác vấn đề xử lí liệu lớn để từ rút ưu, nhược điểm loại Từ đó, ta dễ dàng đưa định phù hợp việc sử dụng công cụ trường hợp khác vấn đề xử lí liệu lớn 6.1 Cơng cụ xử lí liệu 6.1.1 Hive Hive kho liệu (data warehouse) xử lý liệu dạng cấu trúc tảng hadoop Sử dụng hive để tổng hợp, tạo truy vấn phân tích liệu cách dễ dàng mà không cần phải hiểu nhiều MapReduce Hình 6.1: Kiến trúc Hive 38 lOMoARcPSD|12114775 - Interface: Hive cung cấp giao diện web để tương tác với hdfs Tương tác command line - Meta store: Lưu thông tin cấu trúc liệu Các thông tin gồm ID database (schema), ID table, ID index, định dạng table, - Hive QL: Tương tự SQL, dùng để truy vấn liệu dựa thông tin metastore cung cấp Đây phương pháp thay cho việc phải viết trương trình mapreduce truyền thống - Execution Engine: Chuyển hóa lệnh Hive QL thành MapReduce - HDFS: lưu trữ liệu Hình 6.2: Sơ đồ mơ tả quy trình làm việc Hive Hadoop Cách Hive tương tác với framework Hadoop: Thực thi query: Giao diện Hive Command line Giao diện người dùng web gửi truy vấn đến Trình điều khiển (bất kỳ trình điều khiển sở liệu JDBC, ODBC, v.v.) để thực thi lOMoARcPSD|12114775 Nhận kế hoạch: Trình điều khiển có trợ giúp trình biên dịch truy vấn để phân tích cú pháp truy vấn để kiểm tra cú pháp kế hoạch truy vấn yêu cầu truy vấn Nhận metadata: Trình biên dịch gửi yêu cầu metadata đến Metastore (bất kỳ sở liệu nào) Gửi metadata: Metastore gửi metadata phản hồi cho trình biên dịch Gửi kế hoạch: Trình biên dịch kiểm tra yêu cầu gửi lại kế hoạch cho trình điều khiển Đến đây, việc phân tích cú pháp biên dịch truy vấn hồn tất Kế hoạch thực hiện: Trình điều khiển gửi kế hoạch thực đến công cụ thực thi Thực thi công việc: Trong nội bộ, trình thực thi cơng việc cơng việc MapReduce Công cụ thực thi gửi công việc đến JobTracker, node Name gán cơng việc cho TaskTracker, node Data Ở đây, truy vấn thực thi công việc MapReduce Hoạt động metadata: Trong thực hiện, công cụ thực thi thực thi hoạt động metadata với Metastore Lấy kết quả: Công cụ thực thi nhận kết từ node Data Gửi kết quả: Công cụ thực thi gửi giá trị kết đến trình điều khiển 10.Gửi kết quả: Trình điều khiển gửi kết đến Giao diện Hive 6.1.2 Spark Apache Spark framework xử lý liệu phân tán đa mục đích với engine cốt lõi thích hợp để sử dụng cho nhiều trường hợp điện tốn khác Ngồi Spark core, có thư viện dành cho SQL, machine learning, điện toán đồ thị, xử lý dịng, sử dụng ứng dụng Bộ liệu phân tán đàn hồi (Resilient Distributed Dataset - RDD) cấu trúc liệu Spark Các ngôn ngữ lập trình hỗ trợ Spark bao gồm: Java, Python, Scala, R Các nhà phát triển ứng dụng khoa học liệu tích hợp Spark vào ứng dụng họ để nhanh chóng dễ dàng truy vấn, phân tích, biến đổi liệu Các tác vụ liên quan đến Spark bao gồm xử lý hàng loạt sử dụng ETL SQL liệu lớn, xử lý 40 lOMoARcPSD|12114775 liệu trực tiếp từ cảm biến, IoT hay hệ thống tài chính, tác vụ machine learning Hapdoop Spark sản phẩm Apache Apache Hadoop MapReduce engine tiếng sử dụng rộng rãi Người dùng thường xuyên phàn nàn vấn đề độ trễ Hadoop MapReduce phản hồi batch mode ứng dụng thời gian thực chậm xử lý phân tích liệu Spark hệ thống kế thừa Hadoop MapReduce, mạnh mẽ linh hoạt Spark chạy Hadoop, Apache Mesos, Kubernetes, chạy độc lập, chạy cloud Nó truy cập vào nhiều nguồn liệu Truy cập liệu Spark từ HDFS, Alluxio, Apache Cassandra, Apache HBase, Apache Hive, hàng trăm nguồn liệu khác Điểm giống khác Hadoop Spark - Mã nguồn mở: Cả Hadoop Spark sản phẩm Apache phần mềm đáng tin cậy sử dụng cho điện toán phân tán - Khả chịu lỗi: Lỗi đề cập đến cố kỹ thuật, Hadoop Spark có khả chịu lỗi Các hệ thống Hadoop hoạt động bình thường kể sau node cụm máy bị lỗi Khả chịu lỗi đạt chủ yếu nhờ chép liệu tín hiệu Heartbeat RDDs xây dựng khối Apache Spark cung cấp khả chịu lỗi cho Spark - Tích hợp liệu: Dữ liệu tạo hệ thống khác nhiều ngành kinh doanh thường đủ đồng để dễ dàng báo cáo phân tích Các quy trình Trích xuất, Biến đổi, Tải (ETL) thường sử dụng để lấy liệu từ hệ thống khác nhau, làm tiêu chuẩn hố nó, sau tải lên hệ thống riêng để phân tích Cả Spark Hadoop sử dụng để giảm chi phí thời gian cho quy trình ETL - Tốc độ: Spark làm việc nhanh tới 100 lần so với Hadoop Apache Spark đạt hiệu cao xử lý hàng loạt truyền liệu trực tiếp, sử dụng trình lập lịch lOMoARcPSD|12114775 DAG tân tiến, trình tối ưu hố truy vấn, engine thực thi vật lý Spark thiết kế với tốc độ cao, vận hành nhớ đĩa Có thử nghiệm tốc độ sau - Nhóm Databricks xử lý 100 terabyte liệu ổ đĩa bán dẫn có 23 sử dụng 1/10 số máy tính, thành tích trước 72 phút, sử dụng Hadoop thiết lập cụm khác Tuy nhiên, Spark chạy YARN với dịch vụ chia sẻ khác, hiệu bị giảm khiến RAM tải tràn nhớ Bởi lý này, người dùng có nhu cầu sử dụng xử lý hàng loạt, Hadoop hoạt động hiệu - Tính tiện dụng: Code Hadoop MapReduce rườm rà dài dịng Trong Spark, bạn viết ứng dụng cách nhanh chóng Java, Scala, Python, R, SQL Spark cung cấp 80 toán tử cấp caokhiến việc xây dựng ứng dụng song song trở nên dễ dàng Bạn sử dụng Spark cách tương tác từ Scala, Python, R, SQL shell Các chức Sparkđược truy cập qua API tốt, tất thiết kế riêng để dễ dàng nhanh chóng tương tác với liệu Các API lập tài liệu kỹ cấu trúc cách dễ hiểu để nhà khoa học liệu nhà phát triển ứng dụng nhanh chóng đưa Spark vào hoạt động - Chức thông thường: Với Hadoop MapReduce bạn xử lý lơ liệu lưu trữ với Hadoop Spark, chỉnh sử liệu theo thời gian thực sử dụng Spark Streaming Với Spark Streaming, có để đưa liệu qua nhiều chức phần mềm, ví dụ thực phân tích liệu thu thập Các nhà phát triển sử dụng Apache Spark để xử lý đồ thị để xác định mối qua hệ liệu thực thể người vật thể Các tổ chức sử dụng Apache Spark với thư viện machine learning định nghĩa sẵn để machine learning cso thể làm việc liệu lưu trữ nhiều cụm Hadoop 42 lOMoARcPSD|12114775 Spark hỗ trợ cho thư viện bao gồm SQL DataFrames, MLlib dành cho machine learning, GraphX, Spark Streaming Bạn kết hợp thư viện vào ứng dụng - Độ trễ: Hadoop framework điện toán có độ trễ cao, khơng có chế độ tương tác Spark có độ trễ thấp xử lý liệu cách tương tác - Hỗ trợ: Cả Hadoop Spark mã nguồn mở cung cấp đủ hỗ trợ cho ứng dụng Cộng đồng người dùng Apache Spark lớn, hoạt động tích cực trải rộng toàn giới Các nhà cung cấp thương mại, bao gồm Databricks, IBM, tất nhà cung cấp Hadoop khác, có hỗ trợ toàn diện cho giải pháp dựa Spark Các nhà cung cấp giải pháp Hadoop Big Data là: - Cloudera - Hortonworks - Amazon Web Services Elastic MapReduce Hadoop Distribution - Microsoft - MapR - IBM InfoSphere Insights - Chi phí: Hadoop Spark dự án mã nguồn mở Apache nên khơng có chi phí phần mềm Chi phí với sở hạ tầng Cả sản phẩm thiết kế để chạy phần cứng thông thương với TCO thấp (Tổng chi phí sở hữu - Total cost of ownership) - Sử dụng nhớ: Lưu trữ xử lý Hadoop dựa ổ đĩa Hadoop sử dụng lượng chuẩn nhớ Vậy, với Hadoop, cần nhiều dung lượng trống ổ đĩa ổ đĩa tốc độ nhanh Hadoop cần nhiều hệ thống để phân tán I/O ổ đĩa lOMoARcPSD|12114775 Bởi Apache Spark xử lý nhớ, cần nhiều nhớ Mặc dù ổ đĩa có chi phí không lớn dễ kiếm, Spark không sử dụng I/O ổ đĩa để xử lý, hệ thống Spark có chi phí lớn Một điều quan trọng Spark giảm thiểu đáng kể nhu cầu sử dụng hệ thống phần cứng TCO thấp Với bảng tóm tắt đây, ta dễ dàng thấy khác biệt tương đồng Hadoop Spark: Đặc điểm Mã nguồn mở Khả chịu lỗi Tích hợp liệu Hadoop Có Có Có Tốc độ Hiệu thấp Spark Có Có Có Hiệu cao, nhanh đến 100 lần Dài rườm rà – vòng đời Vòng đời phát triển nhanh phát triển chậm Mục đích sử dụng Xử lý liệu hàng loạt Xử lý liệu hàng loạt thông thường theo thời gian thực Độ trễ Cao Thấp Hỗ trợ Có Có Chi phí Chi phí sở hữu thấp Chi phí sở hữu thấp Sử dụng nhớ Sử dụng ổ đĩa Sử dụng RAM Tính tiện dụng 6.2 ETL Data Warehoue ETL viết tắt Extract - Transform - Load (tạm dịch: Trích xuất - biến đổi tải) Trong điện tốn, trích xuất - biến đổi - tải (ETL) quy trình chung chép liệu từ nhiều nguồn vào hệ thống đích đại diện cho liệu khác với nguồn Quá trình ETL trở thành khái niệm phổ biến năm 1970 thường sử dụng kho liệu Extract/Trích xuất trình đọc liệu từ sở liệu Trong giai đoạn này, liệu thu thập, thường từ nhiều loại nguồn khác 44 lOMoARcPSD|12114775 Transform/Biến đổi q trình chuyển đổi liệu trích xuất từ biểu mẫu trước thành biểu mẫu cần có để đặt vào sở liệu khác Chuyển đổi xảy cách sử dụng quy tắc bảng tra cứu cách kết hợp liệu với liệu khác Load/Tải trình ghi chép liệu vào sở liệu đích Một hệ thống ETL thiết kế phù hợp trích xuất liệu từ hệ thống nguồn, thực thi tiêu chuẩn tính quán chất lượng liệu, tuân thủ liệu để nguồn riêng biệt sử dụng cuối cung cấp liệu định dạng sẵn sàng để nhà phát triển ứng dụng xây dựng ứng dụng người dùng cuối đưa định Vì việc trích xuất liệu cần có thời gian, nên thường thực song song ba giai đoạn Trong liệu trích xuất (extract), q trình chuyển đổi (Transform) khác thực thi xử lý liệu nhận chuẩn bị để tải q trình tải liệu bắt đầu mà khơng cần chờ hồn thành giai đoạn trước Hình 6.3: Cách thức hoạt động ETL 6.2.1 Giai đoạn trích xuất (Extract) Đây phần quy trình ETL, liên quan đến việc trích xuất liệu từ hệ thống nguồn lOMoARcPSD|12114775 Rất doanh nghiệp sử dụng loại liệu hệ thống Hầu hết doanh nghiệp quản lý liệu từ nhiều nguồn khác sử dụng số công cụ phân tích liệu để tối ưu hóa q trình quản trị Để liệu chuyển đến đích mới, trước tiên phải trích xuất từ nguồn Trong bước quy trình ETL, liệu có cấu trúc khơng cấu trúc nhập hợp vào kho lưu trữ Dữ liệu thơ trích xuất từ nhiều nguồn khác nhau, bao gồm: - Cơ sở liệu có - Ứng dụng bán hàng tiếp thị - Ứng dụng thiết bị di động - Hệ thống quản lý khách hàng CRM - Nền tảng lưu trữ liệu - Kho liệu - Công cụ phân tích Mặc dù liệu xử lý thủ cơng, việc trích xuất liệu mã hóa tay tốn nhiều thời gian dễ bị lỗi Các công cụ ETL tự động hóa q trình trích xuất tạo quy trình làm việc hiệu đáng tin cậy 6.2.2 Giai đoạn chuyển đổi (Transform) Trong giai đoạn quy trình ETL, quy tắc quy định áp dụng để đảm bảo chất lượng liệu khả truy cập Quá trình chuyển đổi liệu bao gồm số quy trình phụ: Data cleansing: nhằm mục đích truyền liệu "đúng" cho mục tiêu Tiêu chuẩn hóa - quy tắc định dạng áp dụng cho tập liệu Loại bỏ liệu trùng lặp - liệu giống loại trừ loại bỏ Xác minh - liệu khơng thể sử dụng xóa liệu dị thường gắn cờ cảnh báo Sắp xếp - liệu xếp theo loại 46 lOMoARcPSD|12114775 Các tác vụ khác - quy tắc bổ sung / tùy chọn áp dụng để cải thiện chất lượng liệu Chuyển đổi thường coi phần quan trọng quy trình ETL Chuyển đổi liệu cải thiện tính tồn vẹn liệu đảm bảo liệu đến đích hồn tồn tương thích sẵn sàng để sử dụng 6.2.3 Giai đoạn tải (Load) Bước cuối quy trình ETL tải liệu chuyển đổi vào đích Dữ liệu tải tất lúc (tải đầy đủ) theo khoảng thời gian theo lịch trình (tải tăng dần) Tải tồn - Trong q trình tải tồn ETL, liệu vào ghi mới, kho liệu Mặc dù điều hữu ích cho mục đích nghiên cứu, cách tải tồn tạo tập liệu tăng theo cấp số nhân nhanh chóng trở nên khó bảo trì Tải tăng dần - Một cách tiếp cận tồn diện dễ quản lý tải tăng dần Tải tăng dần so sánh liệu đến với có trước tạo ghi bổ sung tìm thấy thơng tin Kiểu tải gây tốn giúp quản lý kinh doanh thông minh ... tiết (weather report) Trong phần báo cáo nghiên cứu phân tích tình dịch bệnh Covid- 19 theo ngày nhăm quan sát số lượng ca mắc bệnh, tử vong phục hồi đại dịch Covid- 19 xảy tồn cầu từ đưa cảnh... hoạch truy vấn yêu cầu truy vấn Nhận metadata: Trình biên dịch gửi yêu cầu metadata đến Metastore (bất kỳ sở liệu nào) Gửi metadata: Metastore gửi metadata phản hồi cho trình biên dịch Gửi kế... liệu bảng (panel data) Dữ liệu chuỗi thời gian tập hợp quan sát biến thời gian khác nhau, ví dụ theo ngày[daily- giá chứng khốn (stoock prices), tỷ gía hối (exchange rate), báo cáo thời tiết (weather

Định dạng
Số trang	48
Dung lượng	0,97 MB