1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận học phần khai thác dữ liệu & ứng dụng tên Đề tài xây dựng mô hình dự Đoán Đột quỵ

44 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 44
Dung lượng 4,39 MB

Nội dung

1.2 Quá trình khai thác dữ liệu Quá trình khai thác đữ liệu bao gồm một số bước từ thu thập đữ liệu đến trực quan hóa để trích xuất thông tin có giá trị từ các tập dữ liệu lớn.. Mặc dù đ

Trang 1

TRƯỜNG ĐẠI HỌC NGUYÊN TÁT THÀNH

NGUYEN TAT THANH

TIEU LUAN HOC PHAN KHAI THAC DU LIEU & UNG DUNG

Tên đề tài: XÂY DỰNG MÔ HÌNH DỰ ĐOÁN ĐỘT QUY

Giảng viên hướng dẫn: VÕ THỊ HÒNG THẮM

Sinh viên thực hiện: NGUYÊN BÁ HUY

MSSV: 2100008027

Khoa: 21

Chuyén nganh: TRI TUE NHAN TAO

Tp HCM, thang 12 nam 2023

Trang 2

Em cũng muốn gửi lời cảm ơn đến các bạn cùng lớp và bạn bè, những người đã giúp đỡ

em trong quá trình thực hiện đồ án, cung cấp cho em sự hỗ trợ tính thần và khích lệ em không ngừng cô gắng

Cuôi cùng, em xin gửi lời cảm ơn đên gia đình em, những người đã luôn ủng hộ em, cung cấp cho em môi trường tốt nhất đê em có thề tập trung vào việc học và hoàn thành đồ an

Em xin chân thành cảm ơn tất cả mọi người |

Trang 3

LỜI MỞ ĐẦU Hiện nay một trong những nguyên nhân gây tử vong hàng đầu trên thế giới là đột quy Đột quy xảy ra khi não bô bị tôn thương nghiêm trong do quá trình cấp máu não bị giảm đáng kê hoặc gián đoạn khiến não bị thiếu oxy không cung cấp đủ dinh dưỡng để nuôi sống các tế bảo Sự bất ôn của tuần hoàn máu não là lý do gây ra nguyên nhân đột quy

Vì thế sự hiểu biết về các yếu tô nguy cơ và việc phát hiện sớm đề giúp ngăn chặn và điều trị bệnh này một cách hiệu quả là cần thiết

Trong bối cảnh công nghệ thông tin ngày càng phát triển, việc xây dựng mô hình dự đoán bệnh nhân đột quy trở nên càng quan trọng hơn Tiểu luận này sẽ tập trung vào việc khám phá và xây dựng một mô hình dự đoán hiệu quả, nhằm mục đích đưa ra các dự đoán chính xác về khả năng mắc bệnh đột quy dựa trên một loạt các yếu tố nguy cơ

Trang 4

TRƯỜNG ĐẠI HỌC NGUYÊN TẮT THÀNH

TRUNG TÂM KHẢO THÍ HỌC KỲ NĂM HỌC -

PHIEU CHAM THI TIỂU LUẬN I0 in Lớp học phân:

Nhóm sinh viên thực hiện : 2s H uc n1 1111111111111 1H HH ch HC Tham gia đóng góp

 LH HH HH HH nh HH HH HH Tham gia đóng góp

 ch HH HH HH HH nh HH ch HH Tham gia đóng góp

Ác cuc HH HH HH HH HH nh HH Hi HH Tham gia đóng góp

— Tham gia đóng góp

ĐT HH HH HH HH HH nh HH Hi ch Tham gia đóng góp

TL 1 11 1 11H HH HH Hà HH 1111 H1 1 Ha Tham gia đóng góp

 nnn HH HH HH HH TH HH Ho Tham gia đóng góp

Ngay tht ccc cecetcsctceeteteieessetteeenteen Phòng tỈ: -

BM-ChT- KY THI KET THUC HOC PHAN Phân đánh giá của giảng viên (căn cứ trên thang rubrics của môn học): Tiêu chí (theo CDR HP) Danh gia cia GV da Diém toi Diem dat được Câu trúc của báo cáo Nội dung - Các nội dung thành phần - Lập luận - Kết luận Trinh bay TONG DIEM

Giang vién cham thi

(ky, ghi ré ho tén)

Trang 5

Võ Thị Hồng Thắm

MỤC LỤC LỜI CẢM ƠN c2 HH HH1 12212 tro 1 LỜI MỞ ĐẦU 2 1 11T ng T121 t1 221 ng 2

1.1 Khai thác dữ liệu là gi? ooo cc eect cnet tee bnttie ecb dteitieeetietnieeees 8

b) Chuẩn bị dữ liệu: 5 1 SE x1 1E 11 1 11 12111012 Herưg 9

c) Xây dựng mô hình và khai thác mẫu: ¿5c 2 1 E2 12EEE2EE1EEEEEEEEtxe 10

d) Đánh giá kết quả và thực hiện kiến thức: 55 tr Hee 10

a) Làm sạch đữ liệu (Data Cleaning) - 0 22 2121112111 1221 1221 11k ưu 14 b) Tích hợp đữ liệu (Data Intergration) - -.- c c1 2 n2 2x nh re, 16

d) Chuyên đôi dữ liéu (Data Comversion) ccccccccccsccsccsescssesvscsesescsesevecsvetensees 19 e) Đánh giá mẫu (Model Evaluation) -s- + c1 111221211 1g 2H HH tre 21 CHƯNG 2 TQ TH TT TH ng TH TH TH TC HT 1c xếp 24

TÓNG QUAN VỀ HỌC MÁY VÀ HỘI QUY TUYẾN TÍNH -5s set, 24

Trang 6

1 AI (Artificral Intelligenf) - - - c1 221222112211 112115211 111115115 1111811111111 118k 24 1.1 Machine Learning -: c 2211221112111 1 1512511151111 0111 H111 key 24 a) ŠupervIsed Learming - c c1 2211121112111 12 1151111511151 151 11115151111 E Ha ky 25 b) Unsupervised learnIng - c1 2211212111211 1112112 1118111211111 1215k 27 c) Reinforcement Learning 1rtl 29 d) Semi-Supervised Learning 0 00 ccc ccccccccce eens cece cesecetseeseseesessesseeeseeties 30 1.2 Ung dung cia hoc may.o.c.ccccccccccccccsscssesseesscsvessesscssesecsuessessesstsevssissessesstssvsavaners 32

Trang 7

Data Miming - c0 2011221112 1111112 1511111115115 1H15 11H kk HH xnxx ườ 8

UnsupervIsed Learning - c2 211221111 12 1118111211 1111115 115gr ky 27 Remmforcement Learning - - c1 2212221111211 1211111115111 5111101211115 111 11k ch 29 Semi-Supervised Learning - c1 12112212 111212 11181110111 1111111101111 vky 31 M6 hinh Linear Progr€sSIon 0 2201112111211 11 11122212 115115118111 key 35

Trang 8

KÍ HIỆU CÁC CỤM TỪ VIẾT TAT

Trang 9

dữ liệu đã nhanh chóng tăng tốc trong vài thập ký qua, hỗ trợ các công ty bằng cách chuyền đôi dữ liệu thô của họ thành kiến thức hữu ích Tuy nhiên, mặc dù thực tế là công nghệ liên tục phát triển để xử lý dữ liệu ở quy mô lớn, các nhà lãnh đạo vẫn phải đối mặt với những thách thức với khả năng mở rộng và tự động hóa

ag 10110 dà5šZ46:tifa

dự đoán kết quả thông qua việc sử dụng các thuật toán học máy Các phương pháp này

Trang 10

đến hành vi của người dùng, tắc nghẽn và thậm chí vi phạm bảo mật

Khi kết hợp với các công cụ phân tích và trực quan hóa đữ liệu, như Apache Spark, việc

đi sâu vào thế giới khai thác đữ liệu chưa bao giờ để dàng hơn thế và trích xuất thông tin chỉ tiết có liên quan chưa bao giờ nhanh hơn thế Những tiến bộ trong trí tuệ nhân tạo chỉ tiếp tục đây nhanh việc áp dụng giữa các ngành công nghiệp

1.2 Quá trình khai thác dữ liệu

Quá trình khai thác đữ liệu bao gồm một số bước từ thu thập đữ liệu đến trực quan hóa để trích xuất thông tin có giá trị từ các tập dữ liệu lớn Như đã đề cập ở trên, các kỹ thuật khai thác dữ liệu được sử dụng để tạo ra các mô tả và dự đoán về một tập dữ liệu mục tiêu Các nhà khoa học dữ liệu mô tả dữ liệu thông qua các quan sát của họ vỀ các mẫu, liên kết và tương quan Họ cũng phân loại và phân cụm dữ liệu thông qua các phương pháp phân loại và hồi quy, đồng thời xác định các ngoại lệ cho các trường hợp sử dụng, như phát hiện thư rác

Khai thác đữ liệu thường bao gồm bốn bước chính: thiết lập mục tiêu, thu thập và chuân

bị dữ liệu, áp dụng các thuật toán khai thác đữ liệu và đánh giá kết quả

a) Đặt mục tiêu kinh doanh:

Đây có thé la phần khó nhất của quá trình khai thác dữ liệu và nhiều tổ chức dành quá ít

thời gian cho bước quan trọng này Các nhà khoa học dữ liệu và các bên liên quan kinh doanh cần làm việc cùng nhau đề xác định vấn đề kinh doanh, giúp thông báo các câu hỏi

và thông số dữ liệu cho một dự án nhất định Các nhà phân tích cũng có thể cần thực hiện nghiên cứu bồ sung đề hiệu bối cảnh kinh doanh một cách thích hợp

b) Chuẩn bị dữ liệu:

Khi phạm vị của van đề được xác định, các nhà khoa học đữ liệu sẽ dễ đàng xác định bộ

đỡ liệu nào sẽ giúp trả lời các câu hỏi thích hợp cho doanh nghiệp Khi họ thu thập dữ liệu liên quan, dữ liệu sẽ được làm sạch, loại bỏ mọi nhiều, chăng hạn như trùng lặp, giá trị bị thiếu và ngoại lệ Tùy thuộc vào tập đữ liệu, một bước bé sung co thể được thực hiện đề

Trang 11

giảm số lượng kích thước vì quá nhiều tính năng có thể làm chậm mọi tính toán tiếp theo Các nhà khoa học đữ liệu sẽ tìm cách giữ lại các yếu tô dự đoán quan trọng nhất để dam bảo độ chính xác tối ưu trong bất kỳ mô hình nào

c) Xây dựng mô hình và khai thác mẫu:

Tùy thuộc vào loại phân tích, các nhà khoa học đữ liệu có thể điều tra bắt kỳ mỗi quan hệ

đữ liệu thủ vi nao, chăng hạn như các mẫu tuần tự, quy tác liên kết hoặc tương quan Mặc

dù các mẫu tần số cao có ứng dụng rộng hơn, đôi khi độ lệch trong dữ liệu có thé thu vi hơn, làm nồi bật các khu vực gian lận tiềm An

Các thuật toán học sâu cũng có thể được áp dụng dé phân loại hoặc phân cụm một tập dữ liệu tùy thuộc vào đữ liệu có sẵn Nếu đữ liệu đầu vào được gắn nhãn (tức là học có giám sá£), một mô hình phân loại có thể được sử dụng dé phân loại đữ liệu hoặc cách khác, hồi quy có thể được áp dụng đề dự đoán khả năng của một nhiệm vụ cụ thể Nếu tập dữ liệu không được gắn nhãn (tức là học không giám sát), các điểm đữ liệu riêng lẻ trong bộ đảo tạo được so sánh với nhau đề khám phá những điểm tương đồng cơ bản, phân cụm chúng dựa trên những đặc điểm đó

d) Đánh giá kết quả và thực hiện kiến thức:

Một khi đữ liệu được tông hợp, kết quả cần được đánh giá và giải thích Khi chốt kết quả,

chúng phái hợp lệ, mới lạ, hữu ích và dễ hiều Khi tiêu chí này được đáp ứng, các tô chức

có thê sử dụng kiến thức này để thực hiện các chiến lược mới, đạt được các mục tiêu dự định của họ

1.3 Các kỹ thuật khai thác dữ liệu

Khai thác dữ liệu hoạt động bằng cách sử dụng các thuật toán và kỹ thuật khác nhau dé

biến khối lượng lớn đữ liệu thành thông tin hữu ích Sau đây là một vài kỹ thuật phố biến

nhất:

Association rules: Quy tắc liên kết là một phương pháp dựa trên quy tắc đề tìm mối quan

hệ giữa các biến trong một tập đữ liệu nhất định Những phương pháp này thường được

sử dụng đề phân tích giỏ thị trường, cho phép các công ty hiểu rõ hơn về mối quan hệ

Trang 12

giữa các sản phẩm khác nhau Hiểu được thói quen tiêu dùng của khách hàng cho phép các doanh nghiệp phát triển các chiến lược bản chéo và công cụ đề xuất tốt hơn

Neural networks: Chu yếu được tận dụng cho các thuật toán học sâu, mạng lưới thần kinh

xử lý đữ liệu đào tạo bằng cách bắt chước sự kết nỗi của bộ não con người thông qua các lớp nút Mỗi nút được tạo thành từ đầu vào, trọng số, độ lệch (hoặc ngưỡng) và đầu ra Nếu giá tr đầu ra đó vượt quá một ngưỡng nhất định, nó sẽ "kích hoạt" hoặc kích hoạt nút, truyền đữ liệu đến lớp tiếp theo trong mạng Mạng nơ-ron học chức năng ánh xạ này thông qua học tập có giám sát, điều chỉnh dựa trên chức năng mắt thông qua quá trình giảm độ dốc Khi hàm chi phí bằng hoặc gần bằng không, chúng ta có thê tự tin vào độ chính xác của mô hình đề đưa ra câu trả lời đúng

Decision tree: Kỹ thuật khai thác dữ liệu này sử đụng các phương pháp phân loại hoặc hồi quy đề phân loại hoặc dự đoán kết quả tiềm năng dựa trên một tập hợp các quyết định Như tên cho thấy, nó sử dụng hình ảnh giống như cây để đại điện cho kết quả tiềm năng của những quyết định này

K- nearest neighbor (KNN): Hàng xóm gần nhất K, còn được gọi là thuật toán KNN, là một thuật toán phi tham số phân loại các điểm dữ liệu dựa trên sự gần gũi và liên kết của chúng với các đữ liệu có săn khác Thuật toán này giả định rằng các điểm đữ liệu tương tự

có thể được tìm thấy gần nhau Kết quả là, nó tìm cách tính toán khoảng cách giữa các điểm đữ liệu, thường là thông qua khoảng cách Euclid, và sau đó nó gán một danh mục dựa trên danh mục hoặc trung bình thường xuyên nhất

1.4 Ứng dụng khai thác dữ liệu

Kỹ thuật khai thác dữ liệu được áp dụng rộng rãi trong các nhóm phân tích đữ liệu và kinh doanh thông minh, giúp họ trích xuất kiên thức cho tô chức và ngành của họ Một số trường hợp sử dụng khai thác dữ liệu bao gồm:

© Bán hàng và tiếp thị

II

Trang 13

Các công ty thu thập một lượng đữ liệu lớn về khách hàng và khách hàng tiềm năng của

họ Bằng cách quan sát nhân khâu học của người tiêu dùng và hành vi người dùng trực tuyến, các công ty có thê sử đụng dữ liệu đề tối ưu hóa các chiến dịch tiếp thị của họ, cải thiện phân khúc, ưu đãi bán chéo và các chương trình khách hàng thân thiết, mang lại ROI cao hơn cho các nỗ lực tiếp thị Phân tích dự đoán cũng có thể giúp các nhóm đặt kỳ vọng với các bên liên quan của họ, cung cấp ước tính năng suất từ bất kỳ sự tăng hoặc giảm nảo trong đầu tư tiếp thị

®© Giáo dục

Các tổ chức giáo dục đã bắt đầu thu thập dữ liệu để hiểu số lượng sinh viên của họ cũng như môi trường nào có lợi cho sự thành công Khi các khóa học tiếp tục chuyên sang các nên táng trực tuyên, họ có thê sử đụng nhiều thứ nguyên và số liệu khác nhau đề quan sát

và đánh giá hiệu suất, chăng hạn như tổ hợp phím, hỗ sơ sinh viên, lớp học, trường đại học, thời gian sử dụng, v.v

©_ Tối ưu hóa hoạt động

Khai thác quy trình tận dụng các kỹ thuật khai thác đữ liệu dé giảm chi phí trên các chức năng hoạt động, cho phép các tổ chức hoạt động hiệu quả hơn Thực tiễn này đã giúp xác định các nút thắt cỗ chai tốn kém và cải thiện việc ra quyết định giữa các nhà lãnh đạo doanh nghiệp

® Phat hién gian lận

Mặc dù các mẫu thường xuyên xảy ra trong dữ liệu có thê cung cấp cho các nhóm cái nhìn sâu sắc có giá trị, nhưng việc quan sát sự bất thường của đữ liệu cũng có lợi, hỗ trợ các công ty phát hiện gian lận Mặc dù đây là một trường hợp sử dụng nỗi tiếng trong ngân hàng và các tổ chức tài chính khác, các công ty dựa trên SaaS cũng đã bắt đầu áp dụng các phương pháp này đề loại bỏ tài khoản người dùng giả mạo khỏi bộ đữ liệu của

họ

1.5 Các bước khai thác dữ liệu

Khai thác đữ liệu gồm các bước quan trong sau:

Bước 1 Làm sạch đữ liệu đề không còn bất thường hay tạp âm trong đữ liệu

Trang 14

Bước 2 Tích hợp dữ liệu từ nhiều nguồn khác nhau rồi kết hợp lại thành một tập đữ liệu Bước 3 Lựa chọn dữ liệu được trích xuất từ database

Bước 4 Chuyền đôi đữ liệu đề thực hiện các hoạt động tổng hợp và phân tích tóm tắt Bước 5 Khai phá đữ liệu bằng cách trích xuất các đữ liệu hữu ích từ nhóm đữ liệu hiện có Bước 6 Đánh giá mẫu bằng phương pháp phân tích một số mẫu có trong đữ liệu Bước 7 Trong bước cuối cùng, thông tin đữ liệu sẽ được biêu diễn đưới dạng bảng, biêu

đô, ma trận hoặc cây

Trang 15

1.6 Làm sạch và tích hợp dữ liệu

a) Làm sạch dữ liệu (Data Cleaning)

Làm sạch dữ liệu là quá trình loại bỏ hoặc chỉnh sửa lại những đữ liệu bị hư hỏng, nhiễu, không đúng, định dạng sai, không đầy đủ hoặc trùng lắp Khi thu thập từ các nguồn đữ

liệu khác nhau, có nhiều dữ liệu gắn nhãn không đúng hoặc bị trùng lặp Nếu như đữ liệu

không đúng sẽ dẫn đến kết quả và thuật toán không đáng tin cậy, dù trông chính xác Không có một quy định nào nói lên các bước chính xác tuyệt đối trong quy trình Data Cleaning vi các bước sẽ thay đối từ tập đữ liệu này sang tập dữ liệu khác Điều quan trọng

là phải thiết lập một mẫu cho quy trình làm sạch đữ liệu đề biết rằng ta làm đúng cách mọi lúc

Tùy theo loại đữ liệu mà công ty bạn lưu trữ mà các kỹ thuật được sử dụng đề làm sạch

dữ liệu có thê thay đổi, bạn có thê làm theo quy trình cơ bản sau để tạo ra khuôn khô cho minh

Buéc 1: Loai bo nhiing dit liéu khong lién quan hodc bị trùng lặp

Xóa các quan sát không chính xác khỏi tập đữ liệu của bạn, bao gồm các quan sát không liên quan hoặc các quan sát trùng nhau Các quan sát trùng lặp sẽ thường xuyên xảy ra hơn trong quá trình thu thập đữ liệu Khi tông hợp các tập dữ liệu từ nhiều nguồn khác nhau, thu thập dữ liệu hoặc lay dữ liệu từ các doanh nghiệp hoặc khách hàng, có nhiều nguy cơ đề tạo đữ liệu bị trùng Loại bỏ trùng lặp là một trong những vấn đề quan trọng được quan tâm thực hiện trong quá trình này Các quan sát không liên quan là khi bạn đánh giá và tin rằng các đữ liệu này không liên quan tới vẫn đề mà bạn đang nghiên cứu

Bước 2: Sửa lỗi cấu trúc

Lỗi cầu trúc xảy ra khi bạn đang truyền dữ liệu hoặc đo lường và nhận thấy các quy ước đặt ở vị trí không đúng, lỗi chính tả hoặc viết hoa không đúng Những lỗi này có thể gây

ra các mục hoặc các lớp bị gan nhãn không chính xác

Bước 3: Lọc các giá trị ngoại lệ không mong muôn

Trang 16

Thông thường, có các quan sát một lần, trong nháy mắt, chúng tưởng chừng không phù hợp với đữ liệu mà bạn đang phân tích Nêu như nhập đữ liệu sai cách ta có thê bỏ một ngoại lệ, khi loại bỏ một ngoại lệ đó sẽ làm tăng hiệu suất của đữ liệu bạn Thính thoảng việc chứng minh một lý thuyết bạn đang làm việc sẽ cần sự xuất hiện của một ngoại lệ Hãy nhớ rằng: việc tồn tại một ngoại lệ, không có nghĩa là nó sai Thao tác này cần có để xác định tính hợp lệ của số đó Nếu chứng minh được một ngoại lệ là một sai lầm hoặc

không liên quan đến phân tích, hãy đánh giá và xóa bỏ nó

Bước 4: Xử lý đữ liệu bị thiếu

Nếu đữ liệu của bạn bị tiểu dẫn đến nhiều thuật toán sẽ hoạt động vì nó không chấp nhận các giá trị bị thiếu Vì thế bạn buộc phải xử lý qua các dữ liệu bị thiếu Có một số hướng giải quyết khi đữ liệu bị thiêu Tuy nhiên các hướng giải quyết này không thật sự tôi ưu nhưng nó vân được xem xét

Đầu tiên, những quan sát có giá trị bị thiếu sẽ được loại bỏ, nhưng điều này sẽ làm mất hoặc giảm thông tin, vì vậy trước khi loại bỏ những quan sát này bạn hãy chú ý đến điều nảy

Kế tiếp, dựa trên các quan sát khác bạn sẽ bổ sung các giá trị còn thiếu Tương tự như trên, vì bạn có thê đang hoạt động từ các giả định chứ không phải quan sát thực tế nên nguy cơ sẽ mắt tính toàn vẹn đữ liệu

Thứ ba, để điều hướng hiệu quả những giá trị rỗng bạn có thể thay đôi cách dữ liệu được

sử dụng

Bước Š: Xác thực và QA

Khi hoàn thành quá trình Cleaning Data, bạn phải trả lời những câu hỏi này xem như là phan xác thực cơ bản:

Dữ liệu có ý nghĩa không?

Dữ liệu có tuân theo các quy tắc thích hợp cho trường của nó không?

Nó có chứng minh hoặc bác bỏ lý thuyết làm việc của bạn, hoặc đưa bất kỳ cái nhìn sâu sac nao ra anh sang?

15

Trang 17

Nếu không, đó có phái là do vấn đề chất lượng đữ liệu?

b) Tích hợp dữ liệu (Data Intergration)

Tích hợp đữ liệu đề cập đến quá trình kết hợp và hài hòa đữ liệu từ nhiều nguồn thành

một định dạng thong nhất, mạch lạc có thể được đưa vào sử dụng cho các mục đích phân tích, vận hành và ra quyết định khác nhau

Trong bối cảnh kỹ thuật số ngày nay, các tô chức thường không thê hoạt động mà không thu thập đữ liệu từ nhiều nguồn, bao gồm cơ sở dữ liệu, ứng dụng, bảng tính, dịch vụ đám mây, API và các nguồn khác Trong hầu hết các trường hợp, dữ liệu này được lưu trữ ở các định dạng và vị trí khác nhau với các mức chất lượng khác nhau, dẫn đến các silo dữ liệu và sự không nhất quán

Quá trình tích hợp đữ liệu nhằm mục đích vượt qua những thách thức này bằng cách tập hợp đữ liệu từ các nguồn khác nhau, chuyền đổi nó thành một cấu trúc nhất quán và làm cho nó có thể truy cập đề phân tích và ra quyết định

Không giống như việc nhập dữ liệu, chỉ là một phần của tích hợp dữ liệu, tích hợp mang đến giai đoạn phân tích của kỹ thuật dữ liệu Điều này có nghĩa là nó bao gồm trực quan hóa đữ liệu và quy trình làm việc nghiệp vụ thông minh (BI) Do đó, nó mang nhiều trách

nhiệm hơn đối với kết quả đữ liệu

Tích hợp đữ liệu bao gồm một loạt các bước và quy trình tập hợp dữ liệu từ các nguồn khác nhau và chuyên đổi nó thành một định đạng thống nhất và có thể sử dụng được Dưới đây là tông quan về cách hoạt động của quy trình tích hợp đữ liệu điền hình:

Nhận dạng nguồn dữ liệu: Bước đầu tiên là xác định các nguồn dữ liệu khác nhau cần được tích hợp, chăng hạn như cơ sở dữ liệu, bảng tính, dịch vụ đám mây, API, hệ thống

kê thừa và các nguôn khác

Trang 18

Trích xuất đữ liệu: Tiếp theo, dữ liệu được trích xuất từ các nguồn được xác định bằng cách sử dụng các công cụ hoặc quy trình trích xuất, có thê liên quan đến việc truy vấn cơ

sở đữ liệu, kéo tệp từ các vị trí từ xa hoặc truy xuất dữ liệu thong qua APT

Ánh xạ đữ liệu: Các nguồn dữ liệu khác nhau có thê sử dụng các thuật ngữ, mã hoặc cấu trúc khác nhau đề thể hiện thông tin tương tự Tạo một lược đồ ánh xạ xác định cách các yếu tô dữ liệu từ các hệ thống khác nhau tương ứng với nhau đảm bảo căn chỉnh đữ liệu thích hợp trong quá trình tích hợp

Xác thực đữ liệu và đảm bảo chất lượng: Xác thực liên quan đến việc kiểm tra lỗi, sự không nhất quán và các vấn đề toàn vẹn đữ liệu để đảm bảo độ chính xác và chất lượng Các quy trình đảm bảo chất lượng được thực hiện dé duy trì độ chính xác và độ tin cậy của đữ liệu

Chuyên đôi đữ liệu: Ở giai đoạn này, dữ liệu được trích xuất được chuyền đôi và cầu trúc thành một định dạng chung dé đảm bảo tính nhất quán, chính xác và tương thích Điều này có thé bao gom làm sạch dữ liệu, làm giàu đữ liệu va chuẩn hóa dữ liệu

Tải dữ liệu: Tải dữ liệu là nơi đữ liệu được chuyên đổi được tải vào kho đữ liệu hoặc bất

kỳ đích mong muốn nào khác đề phân tích hoặc báo cáo thêm Quá trình tải có thể được thực hiện bằng cách tải hàng loạt hoặc tải thời gian thực, tùy thuộc vào yêu cầu

Đồng bộ hóa đữ liệu: Đồng bộ hóa đữ liệu giúp đảm bảo rằng dữ liệu tích hợp được cập nhật theo thời gian, cho dù thông qua cập nhật định kỳ hoặc đồng bộ hóa thời gian thực nêu cần tích hợp ngay đữ liệu mới có san

Quản trị và bảo mật dữ liệu: Khi tích hợp dữ liệu nhạy cảm hoặc được quy định, thực tiễn quản trị dữ liệu đảm bảo rằng đữ liệu được xử lý tuân thủ các quy định và yêu cầu về quyền riêng tư Các biện pháp bảo mật bổ sung được thực hiện đề bảo vệ dữ liệu trong quá trình tích hợp và lưu trữ

17

Trang 19

Quản lý siêu dữ liệu: Siêu đữ liệu, cung cấp thông tin về đữ liệu tích hợp, tăng cường khả năng khám phá và khả năng sử dụng của nó để người dùng có thể đễ dàng hiểu ngữ cánh, nguồn và ý nghĩa của dữ liệu

Truy cập và phân tích đữ liệu: Sau khi tích hợp, các bộ đữ liệu có thê được truy cập và phân tích bằng các công cụ khác nhau, chăng hạn như phần mềm BI, công cụ báo cáo và nên tảng phân tích Phân tích này dẫn đến những hiểu biết sâu sắc thúc đây việc ra quyết

định và chiến lược kinh doanh

Nhìn chung, tích hợp đữ liệu liên quan đến sự kết hợp của các quy trình kỹ thuật, công cụ

và chiến lược để đảm bảo rằng đữ liệu từ các nguồn khác nhau được hài hòa, chính xác và

có săn đề phân tích và ra quyết định có ý nghĩa

c) Lựa chọn dữ liệu (Data Selection)

Lựa chọn dữ liệu được định nghĩa là quá trình xác định loại dữ liệu và nguồn thích hợp và các công cụ phù hợp để thu thập dữ liệu Lựa chọn dữ liệu đi trước thực tiễn thu thập dữ liệu thực tế Định nghĩa này phân biệt lựa chọn đữ liệu với báo cáo dữ liệu chọn lọc (không bao gồm dữ liệu không hỗ trợ giả thuyết nghiên cứu) và lựa chọn đữ liệu tương tác / chủ động (sử dụng dữ liệu thu thập được đề giám sát các hoạt động / sự kiện hoặc

tiễn hành phân tích đữ liệu thứ cấp) Quá trình lựa chọn đữ liệu phù hợp cho một dự án

nghiên cứu có thê ảnh hưởng đến tính toàn vẹn đữ liệu

Mục tiêu chính của việc lựa chọn đữ liệu là xác định loại đữ liệu, nguồn và công cụ thích hợp cho phép các nhà điều tra trả lời đầy đủ các câu hỏi nghiên cứu Quyết định này thường cụ thể về kỷ luật và chủ yếu được thúc đây bởi bản chất của cuộc điều tra, tài liệu hiện có và khả năng tiếp cận các nguồn đữ liệu cần thiết

Các vấn đề về tính toàn vẹn có thê phát sinh khi các quyết định chọn đữ liệu 'thích hợp' để thu thập chủ yếu dựa trên các cân nhắc về chi phí và sự thuận tiện hơn là khả năng đữ liệu trả lời đầy đủ các câu hỏi nghiên cứu Chắc chắn, chi phí và sự thuận tiện là những yêu tô

Trang 20

hợp lệ trong quá trình ra quyết định Tuy nhiên, các nhà nghiên cứu nên đánh giá mức độ các yêu tô này có thê làm tôn hại đến tính toàn vẹn của nỗ lực nghiên cứu

Cac van dé trong lựa chon dir ligu

Có một số vấn đề mà các nhà nghiên cứu cần lưu ý khi lựa chọn dữ liệu, chăng hạn như: Loại và nguồn đữ liệu thích hợp cho phép các nhà điều tra trả lời đầy đủ các câu hỏi nghiên cứu đã nêu

Thủ tục thích hợp để có được một mẫu đại diện

Các công cụ thích hợp dé thu thập dữ liệu Không dé đề tách rời việc lựa chọn loại / nguồn dữ liệu từ các công cụ được sử dụng để thu thập dữ liệu Cần có sự tương thích giữa loại / nguồn dữ liệu và các cơ chế đề thu thập nó

d) Chuyén d6i dir ligu (Data Conversion)

Chuyên đổi dữ liệu là quá trình chuyền đổi dữ liệu từ định dạng này sang định dạng khác

đề nó tương thích với hệ thông, ứng dụng hoặc phương thức lưu trữ đích Nó thường được thực hiện như một phân cua mot dy an lớn hơn, chang hạn như đi chuyên hoặc tích hợp

đỡ liệu Quá trình này đòi hỏi phải trích xuất dữ liệu từ một nguồn, chăng hạn như cơ sở

dữ liệu, tệp hoặc dịch vụ web, chuyển đổi nó và tải nó vào hệ thống đích cần thiết

Mỗi nhiệm vụ chuyền đổi dữ liệu là duy nhất và phụ thuộc vào nhu cầu cụ thể của một dự

án Dựa trên số lượng và độ phức tạp của các định dạng đữ liệu liên quan, một 36 chuyén

đôi dữ liệu có thể đơn giản và tương đối đơn giản, trong khi những chuyên đối khác có

thê phức tạp hơn Các hoạt động và chuyển đôi cụ thê cũng khác nhau đáng kê giữa các

dự án

Một quy trình chuyển đổi dữ liệu toàn diện và hiệu quả nên:

Chuyền đôi đữ liệu thành định dạng tương thích cho đích

Giảm thiểu mắt đữ liệu trong quá trình truyền

Duy trì chất lượng, khả năng đọc và tính toàn vẹn của đữ liệu

Đảm bảo tính nhất quán trên tất cả các hệ thống

Dữ liệu chính xác, cho dù đó là về hành vi của khách hàng, bán hàng hay tiếp thị, có khả

năng làm tăng lợi nhuận của doanh nghiệp Thông tin chỉ tiết từ dữ liệu có thể giúp các tô

19

Trang 21

những cách mới để tạo đoanh thu Tuy nhiên, thách thức là đảm bảo khá năng sử dụng của tất cả các đữ liệu có sẵn Chuyên đôi đữ liệu giúp thực hiện điều đó Dưới đây là một

sô lợi ích của việc chuyên đôi dữ liệu:

Sử dụng dữ liệu nâng cao: Chuyên đổi đữ liệu cho phép người dùng truy cập, xem xét và trực quan hóa đữ liệu một cách dễ đàng, cho phép họ xử lý dữ liệu phức tạp một cách hiệu qua va thong minh

Quản lý dữ liệu đơn giản: Các doanh nghiệp thu thập dữ liệu từ nhiều nguồn khác nhau, điều này làm phức tạp việc quản lý đữ liệu Chuyên đổi dữ liệu đơn giản hóa việc xử lý

dữ liệu bằng cách giảm dư thừa, nâng cao chất lượng dữ liệu và nâng cao hiệu quả quản lý

dữ liệu tổng thê

Giảm thời gian thực hiện truy vấn: Các định đạng dữ liệu được tối ưu hóa cho phép thực thi truy vẫn nhanh hơn và đây nhanh các quy trình dữ liệu, chăng hạn như di chuyên, truy xuất và thay đôi dữ liệu

Cộng tác và chia sẻ đữ liệu: Chuyển đổi dữ liệu sang định dạng chung thúc đây sự cộng tac và chia sé dit liệu giữa các nhóm, phòng ban và do đó thúc đây các sáng kiến đa chức nang

Cải thiện phân tích va báo cáo dữ liệu: Chuyên đổi dữ liệu cung cấp dữ liệu có cấu trúc thúc đây phân tích dữ liệu chính xác và nhanh chóng hơn, dẫn đến báo cáo nâng cao và

thông tin chỉ tiết có thể hành động

Tuân thủ tuân thủ: Nhiều ngành công nghiệp có yêu cầu định dạng đữ liệu cụ thê để tuân thủ quy định Chuyên đổi dữ liệu đảm báo rằng đữ liệu tuân thủ các tiêu chuan nay va do

đó giảm nguy cơ không tuân thủ và các hình phạt liên quan

e) Danh gia mau (Model Evaluation)

Đánh giá mô hình là một bước quan trọng trong quy trình làm việc của Machine Learning, trong đó hiệu suất của mô hình được đảo tạo được đánh giá bằng các số liệu và

kỹ thuật khác nhau Cần phải đảm bảo rằng mô hình có thê khái quát chính xác cho dữ

liệu không nhìn thấy và cung cấp các dự đoán đáng tin cậy Trong bài viết này, chúng ta

sẽ khám phá các khái niệm và kỹ thuật chính liên quan đến đánh giá mô hình

Trang 22

Tại sao Đánh giá mô hình lại quan trọng trong Machine Learning?

Đánh giá mô hình là một bước quan trọng trong Machime Learning vì nó cho phép chúng tôi ước tính hiệu suất của các mô hình trên đữ liệu không nhìn thấy Đánh giá một mô hình trên dữ liệu đào tạo có thê dẫn đến overfñtting, trong đó mô hình thực hiện tốt trên dữ liệu đào tạo nhưng kém trên đữ liệu thử nghiệm Do đó, đánh giá mô hình giúp chúng tôi chọn mô hình tốt nhất và tránh quá tải bằng cách cung cấp ước tính thực tế về hiệu suất của mô hình trên dữ liệu mới Nó cũng giúp xác định những hạn chế của mô hình và các lĩnh vực cần cải thiện Cuối cùng, đánh giá mô hình tốt là cần thiết dé phát triển các mô hinh Machine Learning dang tin cậy và chính xác

Số liệu nào được dùngđề đánh giá hiệu suất mô hình?

Khi đánh giá hiệu suất của các mô hình dự đoán, các số liệu đánh giá khác nhau được dùng để đo sự hiệu quả của nó trong những lĩnh vực và nhiệm vụ khác nhau Hiểu các số liệu đánh giá này là rất quan trọng đề đánh giá và so sánh hiệu quả các mô hình Dưới đây

là một số chỉ số đánh giá phố biến:

1 Độ chính xác: Độ chính xác là một số liệu được sử dụng rộng rãi được sử dụng đề đo lường tỷ lệ các trường hợp được phân loại chính xác trong tổng số các trường hợp Nó cung cấp một đánh giá tổng thê về hiệu suất mô hình nhưng có thê gây hiệu lầm khi có sự mắt cân bằng lớp học

2 Độ chính xác: Độ chính xác tính toán tỷ lệ dương tính thực (những trường hợp dương tính được dự đoán chính xác) trong tất cá những dự đoán tích cực Nó định lượng khả năng của mô hình để tránh dương tính giả, điều này đặc biệt quan trọng trong các ứng dụng mà dương tính giả rất tốn kém

3 Nhớ lại (Độ nhạy hoặc Tỷ lệ dương tính thực sự): Nhớ lại đo lường tỷ lệ dương tính thực sự được dự đoán bởi mô hình trong số tất cả các trường hợp đương tính thực tế Nó

21

Ngày đăng: 16/12/2024, 09:21

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN