1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận khai thac dưu liêu va ưng dun g tên Đề tài phân loại

43 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân loại Tỷ lệ đột quy
Tác giả Nguyễn Đức Nghĩa
Người hướng dẫn TS. Võ Thị Hồng Thắm
Trường học Trường Đại Học Nguyễn Tất Thành
Chuyên ngành Trí Tuệ Nhân Tạo
Thể loại tiểu luận
Năm xuất bản 2023
Thành phố TP HCM
Định dạng
Số trang 43
Dung lượng 4,15 MB

Nội dung

Việc khai phá dữ liệu đang trở thành một lĩnh vực quan trọng, nơi mà chúng ta có khả năng tìm kiếm, phân tích, và rút ra những kết luận quan trọng từ lượng thông tin không lồ đang ngày c

Trang 1

NGUYEN TAT THANH

TIEU LUAN KHAI THAC DUU LIEU VA UNG DUNG

Tên đề tai: Phan loai Ty léd6t quy

Giảng viên hướng dẫn:VÕ THỊ HÔNG THĂM Sinh viên thực hiện: NGUYÊN ĐỨC NGHĨA MSSV:2100008137

Khoá: 21 Ngành/ chuyên ngành: TRÍ TUỆ NHÂN TẠO

Tp HCM, tháng 12 năm 2023

Trang 2

NGUYEN TAT THANH

TIỂU LUẬN KHAI THAC DUU LIEU VA UNG DUNG

Tên đề tài: Phân loại Ty lệ đột quy

Giảng viên hướng din: VO THI HONG THAM

Sinh viên thực hiện:ĐĂNG QUÔC LỰC

MSSV:2100008137 Khoá:21

Ngành/ chuyên ngành:TRÍ TUỆ NHÂN TẠO

TPHCM, tháng 12 năm 2023

Trang 3

TRUONG DAI HOC NGUYEN TAT THANH

TRUNG TAM KHAO THI

Môn thi: Khai

dụng

quy

PHIẾU CHÁM THỊ TIỂU LUẬN

Thác Lớphocphằn:21DTH1D

Nhóm sinh viên thực hiện :1

1.Nguyễn Đức Nghĩa Ngày thi:25/12/2023

Đề tài tiêu luận/báo cáo của sinh viên : Phân loại Tỷ lệ đột

Phân đánh giá của giảng viên (căn cứ trên thang rubrics của môn học):

Tiêu chí (theo Đánh giá của GV Điểm tối | Điểm đạt

CDR HP) anh gia cua da được

báO CÁO | .Ặ TQ HH TH HT khen khu

Trang 4

1 Tổng quan để tải - - cv 13k 11111 SE 5 SE HH1 HT 2

1ê n 3 s00 on 4 mào nh 5 1.4.1 Ý nghĩa thực tiễn 5 Sex SE E313 3 1115111111111 1111151111111 6

CHƯƠNG 2:CƠ SỞ LÝ THUYẾT 2222252: 2222111111111222122211111 E110 ee 7

2 Tổng quan vẻ kỹ thử<hai thác dữ liậI(Data mining) - 7

2.1 Khái niệm 2 22222-22252+2E23222E11212211322771112771E27111E12711E2.21112.1 E1 7

2.1.2 Quy trình khai phá dữ liệu ¿- 25c 5+S£+E+SE£EEvEE£xerkEEErxrrerxerrrerrereerered 8

“8ö: i00 a4 15

mê nnnn ố e 17

2.6 Dấu hiệt và triệ1 Chftrng, 2 2-2 2+2E22EE221152135213221371E1711171171.211e 1xx 18

CHƯƠNG 3:KỸ THUẬT HỒ | QUY 22225ccc22221111 222221111 20

3 Giới thiệu kỹ thu hỏi quy trong Khai Thác dữ li@ -. -: -c -c +5: 20

Trang 5

3.1 Mô hinh RandomForestClassifier - CS nh cv re 21

3.2 Mô hinh LogisticRegression - nh HH nhiếp 22

CHƯƠNG 4: THỰC NGHIỆM VÀ KẾT QUÁ 25-555c2ccccerccerree 23

41.2 MO 23

(uc ng hố 24

J0 24 4.3.1Phân tích dữ liệ - HH ch nh nh hi 29

4.3.2 Chuẩn hóa dữ ll4 7+2 St TH HH ke 30

4.4 MÔ hình .-cc TH K H Ko k K H ọ T rh 31

4.4.2 Mô hình hồi quy Logji†iC 5-5: 22 ++2+2++ xe zeeerxsreerersreererrs 33

DANH MỤC TÀI LIỆU THAM KHẢO - 5-5 55+S<£cc+ezersrereeeeers 36

Trang 6

DANH MUC HINH

Hinh 2 1:Knowlegde Discovery i in DataDASes «0 eeeeeeseeeeeeseneeeeeeneeeeeeeeneees 12

Hình 2 2: sơ đô hệ hỗ trợ quyér an "— 15 Hình 2 3: Phân loại được học băng mạng noron cho ráp dữ liệu cho vay .16 Hình 2 4 C bước trong quatrinh phân czm . 7-5 -+<cccs<+s<cs+z 17 Hình 4 1 Xây dựng frư VIỆN - Q1 HH TT ng kg gà 23

0 S7 25

Hình 4 7 Biểu diễn biểu điề G- + <3 E13 3 2E 5151111111111 51111 Exrkrg 26 Hình 4 8 Biéw do gender Vinypertension .c.scsssssecsessesssesesseesecseceessesseeeeeeees 26 Hinh 4 9 Biéu dé heart_disease Wyer_maried .cc.cscsssesssesessescseecsseseseee 27

Hinh 4 10 Biéw dé work_type Vresidence_tyPe .sssessessessersecseesessersesseees 27

Hình 4 13 Biế¿ điÖ Pi@ - TS SH 21H11 HH ng Hykt 29

Hình 4 15 Thực hiện kiểu dZ liệu . -2- 252 5+25++s2xe£+Eezxezserszzezrees 30

Hình 4 18 Mô h nh RandomForestClassifier . -.ẶẶẶ‡ {Si 31-32 Hình 4 19 Œ@ biến giaff/ 5c ctcsrtretrrrrrerrerrrrrrrrrrrrrrrrries 32

Trang 7

LOI MO DAU

Trong thời đại số hóa với ngày nay, dữ liệu không chỉ là nguồn thông tin, mà còn là một kho tàng của cơ hội Việc khai phá dữ liệu đang trở thành một lĩnh vực quan trọng, nơi mà chúng ta có khả năng tìm kiếm, phân tích, và rút ra những kết luận quan trọng từ lượng thông tin không lồ đang ngày càng tăng

Khai phá dữ liệu không chỉ là việc đơn thuần trích xuất đữ liệu, mà còn là quá trình khám phá sâu rộng, giúp chúng ta hiểu biết sâu sắc về mô hình, xu hướng, và quy luật ân sau những dòng số và ký tự Đối mặt với một thế giới nơi mà mọi hoạt động được ghi lại và lưu trữ, khai phá dữ liệu mở ra cánh cửa cho những phát hiện mới, những thông tin quan trọng, và đặc biệt là những cơ hội lớn đề đưa ra quyết định thông minh

Ứng dụng của khai phá dữ liệu ngày càng mở rộng vả đa dạng, từ việc dự đoán xu hướng, thị trường đến phân loại bệnh lý y tế, từ tối ưu hóa chiến lược kinh doanh đến việc tìm kiểm các mối quan hệ, mới trong xã hội mạng Trong lĩnh vực này, khả năng sử dụng các

kỹ thuật máy học và thuật toán thông minh chính là chia khóa mở cánh cửa cho sự hiểu biết và sáng tạo

Hãy bắt đầu một hành trình qua những khái niệm, phương pháp nghiên cứu, và những ứng dụng thực tế của khai phá đữ liệu Điều này không chỉ giúp ta mở rộng kiến thức mà còn mang lại cái nhìn toản diện về cách dữ liệu có thê hỗ trợ quyết định và đưa ra dự đoán trong nhiều lĩnh vực khác nhau

Trang 8

LOI CAM ON

Em xin gửi lời cảm ơn chân thành đến cô Võ ThiHéng Tham là giảng viên B ộ

môn Khai thác dữ liệ và ưng dụng, trường Đại học Nguyễn Tắt Thành.Người đã

tận tình hướng dẫn, chỉ bảo em trong suốt quá trình làm tiếưuậ

Qua bài tậ lớn này, em xin đử lời cảm ơn tới cô Võ Thị Hồng Thắm Được tim

hiểu những tiềm tH@ mới, rất có ích với sự hỗ trợ nhÌđỉnh, đã giúp em có được ngày hôm nay đề đưng ở đây lam dé tài của cô đã giao cho em Trong sự hình thành

và phát triển hoại thiện kỹ năng học to vả đề hoàn thành, bài tiểu lưậ của em sẽ

có thế có những sai lầm của kỹ năng họcRạ/4 những thiếu sot tong khi lam bai

tiểu luận của cô Với điều kiện thời gian, cũng như kinh nghiệm còn hạn chế của mét sinh vién vi vg, em rất mong được sự chỉ bảo, vả đóng góp ý kiến của cô để

em hoàn thiệ hơn đề tài tiểu luận, và có điều kiện bố sung, nâng cao ý th ức của

mình, làm vi& tốt hơn công việc học tập, và phát triển sau này Và hơn hết, em xin chân thành cảm ơn gia đình, và bạn bè, giang viên b ộ môn nhà trường đã luôn luôn tạo điều kiện, và hỗ trợ, quan tâm, giúp đỡ, động viên em trong suốt quá trình

hoc tap, lam vig, va hoàn thành bài tiêu lay Một lân nữa em xin cảm ơn

Trang 9

CHƯƠNG 1 GIỚI THIỆU

1 Tổng quan đề tài

Công nghệ thông tin đã trở thành một phản không thể thiếu trong việc lưu trữ, Xử

lý và quản lý dữ liệu hiện nay Sự phô biến của công nghệ này đã tạo ra một lượng

lớn dữ liệu được lưu trữ, và Sự gia tăng này không ngừng Điều này tạo ra điều kiện thuận lợi cho việc khai thác dữ liệu và ứng dụng chúng trong nhiều lĩnh vực khác nhau Khai thác dữ liệu và ứng dụng là những kỹ thuật và mô hình dựa trên nèn

tảng của nhiều lý thuyết, bao gồm xác suất, thống kê, và máy học Mục tiêu của chúng là tìm kiếm và khám phá các tri thức tiềm ân trong các kho dữ liệu lớn mà

người dùng khó nhận biết băng các phương pháp truyền thông Trong lĩnh vực y té,

với lượng dữ liệu lớn, việc áp dụng khai thác dữ liệu mang lại nhiều hiệu quả và kết quả cao Nó có thê cung cấp thông tin hỗ trợ trong chuân đoán và điều trị sớm, giúp

bệnh nhân thoát khỏi nhiều bệnh nguy hiểm Các phương pháp này đóng vai trò quan trọng trong việc nâng cao chất lượng chăm sóc sức khỏe và đưa ra quyết định thông minh dựa trên dữ liệu

Tỉ lệ đột quy trong khai phá dữ liệu (data mmming), thường phản ánh sự thành công của mô hình hoặc kỹ thuật khai phá dữ liệu, trong việc dự đoán hay phân loại dữ

liệu mới một cách chính xác Tỉ lệ đột quy được đo bằng cách so sánh số lượng dự đoán đúng (true positives) với tổng só mẫu dữ liệu

F1-Score: 2 * (Precision * Recall) / (Precision + Recall) - Kết hợp giữa precision

và recall, thường được sử dụng khi cần cân bảng giữa cả hai

Trang 10

ROC Curve va AUC:

ROC Curve (Receiver Operating Characteristic): Đồ thị biêu diễn sự biến động của

tỷ lệ true positive và false positive dựa trên ngưỡng quyết định

AUC (Area Under the Curve): Diện tích dưới ROC Curve, một phép đo tông quát

của hiệu suất mô hình

Confusion Matrix:

Ma Tran Nham Lan (Confusion Matrix): Bảng hiên thị số lượng True Positives,

False Positives, True Negatives, và False Negatives

Ứng Dụng Trong Lĩnh Vực Y Tế:

Dự Đoán Bệnh Lý: Đánh giá mô hình dự đoán bệnh lý dựa trên các chỉ số y té Phân

Loại Chân Đoán: Xác định hiệu suất của mô hình trong việc phân loại kết quả chan

đoán

Tỷ lệ đột quy là sự chiếm lĩnh bất ngờ của một cục máu đông trong não, gây ngắt quãng trong lưu thông máu đến một phản của não Đây là một sự kiện y tế khân cấp

có thê gây ra những tôn thương nghiêm trọng và thậm chí gây tử vong

Khai phá dữ liệu đã đóng góp quan trọng trong việc nghiên cứu, và dự đoán nguy

cơ bị đột quy Bằng cách phân tích dữ liệu từ các bệnh nhân đã từng bị đột quy (như

tuôi tác, giới tính, tiền sử bệnh lý, thói quen sinh hoạt, v.v.), các nhà nghiên cứu có thê xác định các yêu tố nguy cơ và đưa ra những khuyên nghị phòng ngừa Ứng dụng trong lĩnh vực này bao gồm việc phát triên, các hệ thống dự đoán nguy

cơ đột quy cá nhân, giúp người dùng tiên đoán, và áp dụng biện pháp phòng ngừa

phù hợp Ngoài ra, dữ liệu đột quy được khai thác để nghiên cứu cách thức tăng cường chân đoán, điều trị và phục hồi sau đột quy

1.2 Mục tiêu đề tài

Dé co thẻ làm nghiên eư kỹ thuậ hỏi quy trong khai thác dữ liệ và ứng dụng, dé

từ đó chúng ta có thể năm bắt được những giải tHưậm tiền đề và làm tải liệu, tư

liệu quý giá cho nghiên œw và xây dựng các mô hinhng dụng cụ thẻ Ngay lúc

đó có thẻ ta sẽ phân tích được các đặiiêm của dữ liệt thu thâp và tìm kiếm được,

Trang 11

và lựa chon những giải thưậohù hợp với các việ xây dựng mô hình và đánh gia

các mô hình có chất lượng, và độ hiệquả kết quả cho ra của Hhiông mà ta đã

phân tích đánh gia được

1.3 Phương pháp nghiên cu,

Phương pháp nghiên cứu trong lĩnh vực phân loại (classification) trong khai phá dữ

liệu thường đòi hỏi một quy trình khoa học, và chặt chẽ đề đảm bảo sự hiệu rõ về

dữ liệu, và đánh giá hiệu suất của mô hình phân loại

Các bước chính của phương pháp nghiên Cứu trong phân loại:

Xác Định Vấn Đề Nghiên Cứu:

Đặt ra câu hỏi cụ thê vẻ vấn đề cần giải quyết Xác định rõ mục tiêu của phân loại

và các yéu tố liên quan

Thu Thập Dữ Liệu:

Xác định và thu thập dữ liệu phù hợp với vấn đề nghiên cứu Lam sachchaaly các dữ liệu dé cho chung loại bỏ các nhiễu và các dữdiểược chuẩn hóa

Phân Chia Dữ Liệu:

Chia dữ liệu thành tập huấn luyện (training set) và tập kiếm thử (test set) để đánh giá hiệu suát của mô hình Cân nhắc dùng các kỹ thuật như cross-validation dé tang

độ chính xác của đánh giá

Xác Định Đặc Trưng:

Chọn ra các đặc trưng quan trọng đề xây dựng mô hình

Cân nhắc sử dụng kỹ thuật giảm chiều dữ liệu néu có nhiều đặc trưng

Chọn Mô Hình Phân Loại:

Xác định loại mô hình phân loại phù hợp với bài toán

Lựa chọn mô hình dựa trên yếu tô như hiệu suát, tính khả diễn giải, và khả năng mở rộng

Huần Luyện Mô Hình:

Trang 12

Sw dung tap huan luyén dé huan luyén mô hình

Điều chinh các dãy tham số đê viđôi ưu hóa hiệu suất la tôt nhát trong mô hình

Đánh Giá Mô Hình:

Sử dụng các tập kiếm thử đề đánh giá hiệu suất trong mô hình, có năng suất hiêu suất có đả chuân

Sử dụng các chỉ số như độ chính xác, recall, precision, F1-score

Tinh Chinh và Tối Ưu Hoa:

Nếu cần, tinh chinh dựa trên kết quả đánh giá

Cân nhắc sử dụng kỹ thuật tối ưu hóa hyperparameter

Diễn Đạt và Báo Cáo Két Quả:

Diễn đạt và báo cáo két quả của mô hình một cách rõ ràng và mô tả

So sánh với các mô hình khác và giải thích sự chọn lựa

Tích Hợp Mô Hình vào Hệ Thống:

Nếu mô hình đạt được hiệu suát tốt, tích hợp vào hệ thống sản xuát

Kiém tra va theo dõi hiệu suát sau triển khai

Liên Tục Đánh Giá và Cải Tiền:

Đánh giá và cải tiên mô hình theo thời gian khi mới

Kiếm thử và giữ mô hình linh hoạt và hiệu quả

1.4 Ynghia

Sự giúp đỡ của máy tính, đẻ tài đóng góp giúp các cán bộ y tế, các y bác sĩ, các y

tá đánh giá, và chuẩn đoán và dự đoán lmh cho bậh nhân khi có biêu hiệhay các triệu chíng liên quan đến bnh có căn dư Để các kết quả, và kinh nghiệ trong

với những giải pháp tốt nhất để khi khám lnh cho bậih nhân hoặ người bệnh có

tỷ lệ chính xác cao, trong vân đề điều tựa kiếm tra phân tich các lỏjbệnh

Trang 13

1.4.1 Ynghia trong cu& sống

Với các lod chuan đoán, đánh giá và dự đoán tý lấtột quyở người với các độ tuổi

có thé bi Dé có thê phát hiệ bậnh và các triệt chứng liên quan là cả một quá trinh,

nó đòi hỏi phải có đầy đủ những nhân viên ý tá, và các y bác sĩ phải có đầy đủ các

thiết bị hiện đại tiên tiền nhát Đề có thẻ phát hi@ hay dự đoán được bệh có chuẩn

xác cho bạh nhân

Trang 14

CHUONG 2:CO SO LY THUYET

2 Tổng quan về kỹ thuậ Khai thác dữ liệ u(Data mining)

2.1 Khái niệm

Khai thác dữ liệu (Data Mining) là quá trình phân tích tự động của một lượng lớn

dữ liệu đẻ khám phá các mối quan hệ an, xu hướng, cacildaing tin duoc su cong nhận hữu ích và tri thức có thế hỗ trợ quyết định trong doanh nghiệp Cac kỹ thuật khai thác dữ liệu bao gồm nhiều phương pháp như học máy, học máy không giám sát, phân loại, hồi quy, gom cụm, phân tích chuỗi thời gian, và nhiều hơn nữa

Còn là quá trình tìm hiểu, xử lý và phân tích các tập dữ liệu lớn dé tim ra thông tin,

hữu ích, và trí thức từ chúng Đây là quá trình rất rất quan trọng để tìm hiểu các mô

hinh, xu hướng, và quy luật trong dữ liệu

Ứng dụng khai thác dữ liệu được sử dụng trong nhiều vực, bao gồm kinh doanh, khoa học, y tế, tài chính và nhiều lĩnh vực khác Các ứng dụng cung cấp thông tin,

và hiểu biết sâu hơn về dữ liệu, giúp cải thiện quyết định, dự báo, phân tích vả tối

ưu hóa

Khai thac ditu ligi va ung dung có các thông tin và đề sử dụng nhiều lần sau khi cản.Ngoài ra còn liên Hới cơ sở đữ liệu cơ sở tài liệu và nhiều khía cạnh khác như : quản lý tài liệu, xử lý trước tài liệu, kiểm soát và suy luận , các thước, cân nhắc không, trả về kết quả phát hiện, hiện Xự quá trình “khám phá kiến thức trong

cơ sở dữ liệu"

Đánh giá (Evaluation): dựa trên một số chỉ tiêu dé kiém tra va lọc nguồn tri thức

vừa thu được

Ứng Dụng Của Khai Thác Dữ Liệu:

Dự đoán va Héi Quy (Prediction and Regression): Dy doan gia trị tương lai hoặc hồi quy đề hiểu mối quan hệ giữa các biến

Phân loai (Classification): Phan loại dữ liệu vào các nhóm hoặc lớp khác nhau dựa trên các đặc trưng

Trang 15

Gom cum (Clustering): Phân nhóm dữ liệu thành các cụm dựa trên sự tương đồng Phân tích chuỗi thời gian (Time Series Analysis): Dự đoán xu hướng và mô hình các biến đôi theo thời gian

Phân tích liên kết (Association Analysis): Xác định mối quan hệ và quy luật liên kết giữa các biến

Ứng Dụng Các Lĩnh Vực:

Kinh doanh và Tài chính: Dự đoán doanh số bán hàng, quản lý rủi ro tín dụng, phân loại khách hàng

Y tế: Dự đoán và phân loại bệnh lý, quản lý thông tin bệnh nhân

Chính trị: Dự đoán kết quả bầu cử, phân tích quan điểm cử tri

Internet of Things (IoT): Giám sát và dự đoán sự cố trong hệ thống IoT

Quảng cáo và Tiếp thị: Tối ưu hóa chiến lược quảng cáo, phân loại khách hàng tiềm

nang

Công Cụ và Ngôn Ngữ Lập Trinh:

Các công cụ nhu Python (với thư viện nhu scikit-learn, TensorFlow), R, va Weka thường được sử dụng

Ngôn ngữ truy vấn cơ sở đữ liệu như SQL cũng được sử dụng trong quá trình tiền

xử lý

Khai thác đữ liệu đóng vai trò quan trọng trong việc hỗ trợ quyết định, tối ưu hóa quy trinh kinh doanh, và tạo ra giá trị từ dữ liệu lớn và phức tạp

2.1.2 Quy trình khai thác

Nghiên cứu dư liệu

Cần sử dụng Khai thác dũu liệđề cho được những tri thức có chọn lọc và sau đó tìm hướng đi để đỡ tốn thời gian nghiên cư của các lĩnh vực không cần thiết

Tạo dữ liễu

Trang 16

Thành lậo và thiết ké tin tậo lưu trữ tài liệu thông minh va dé máy tính có thẻ lưu

trữ và khai thác tốt công viêvà tránh biỗi trong khi xử lý

Xử lý

Ở bước này, chúng ta thực hiện quá trình làm sạch dữ liệu (data cleaning) băng cách

loại bỏ những thông tin không càn thiết và không có giá trị, điều chinh cáu trúc của

dữ liệu đề phản ánh chính xác các mối quan hệ, và mã hóa chúng đề thuận tiện cho quá trình xử lý Các công việc cụ thê bao gồm loại bỏ dữ liệu lạc lõng, xử lý dữ liệu thiếu bằng cách điền giá trị hoặc loại bỏ, tinh chinh cầu trúc dữ liệu bang cách chuyên đổi biến, mã hóa các biến độc lập thành dạng só, thực hiện chuẩn hóa để đảm bảo phạm vi đồng đều, và tách tập dữ liệu thành các phản huán luyện và kiếm

thử Quá trình này giúp chúng ta có một tập dữ liệu được tỉnh chinh, sẵn sàng cho

việc phân tích và đào tạo mô hình học máy

Rút gọn chiều

Thường thì tập dữ liệu thông tin có số chiều khá lớn, tạo ra một lượng lớn các tô hợp thông tin Ví dụ, với m chiều, số lượng tô hợp sẽ là 2^m Điều này dẫn đến sự gia tăng đáng kế về tài nguyên và khả năng xử lý trong quá trình phân tích tri thức

Do đó, việc giảm só chiều là một bước quan trọng đề giảm tải tài nguyên Phương

pháp thường được sử dụng đề giảm só chiều là Rough set Rough set giúp xác định

những thuộc tính quan trọng và loại bỏ những thuộc tính không cân thiết hoặc ít quan trọng Việc này giúp giảm số chiều của dữ liệu, giảm thiêu không gian lưu trữ

và tăng hiệu suất xử lý Thông qua việc sử dung Rough set, chung ta co thé tim ra

những chièu dữ liệu quan trọng, từ đó giảm thiểu sự phức tạp và tăng hiệu suất trong

quá trình xử lý tri thức

Thông tin và ứng dụng

Đề đạt được mục tiêu, việc lựa chọn đúng nguồn thông tin là một yếu tố quan trọng

Thông thường, chúng ta thực hiện các tác vụ sau đây trong quá trình này: Đặc Trưng

(Feature): Tập trung vào việc xác định và chọn lọc những đặc trưng quan trọng

trong dữ liệu Điều này giúp nhận biết và tập trung vào các thông tin quan trọng

nhất liên quan đến mục tiêu của quá trình khai thác thông tin Phân Biệt

Trang 17

(Discrimination): Tim hiéu vé sy phân biệt giữa các phản khác nhau của dữ liệu Việc này giúp nhận diện sự khác biệt và đặc điểm nôi bật giữa các quan sát Kết Hợp (Association): Phân tích mói quan hệ và két hợp giữa các yéu tố trong dữ liệu

dé hiéu rõ hơn về Sự tương tác và ảnh hưởng giữa chúng Phân Lớp (Classification):

Xây dựng mô hình đề phân loại các quan sát vào các nhóm hoặc lớp khác nhau dựa

trên các đặc trưng quan trọng Gom Cụm (Clustering): Nhóm các quan sát có đặc

điểm tương đồng vào các cụm đề nhận biết cầu trúc tự nhiên trong dữ liệu Xu Thé

(Trend Analysis): Phân tích xu hướng và thay đổi trong dữ liệu theo thời gian hoặc

theo các biến khác Điều này giúp dự đoán và hiệu rõ sự phát triển của các yếu té Phân Tích Độ Lệch và Độ Hiếm: Nghiên cứu sự lệch và sự hiếm có trong dữ liệu,

giúp phát hiện và hiểu rõ các biến độc lập quan trọng và hiếm có trong quá trình

phân tích

Khai thác thông tin:

Tìm kiếm thông tin là bước quan trọng sau khi hoàn thành các bước trước đó trong quá trình khai thác dữ liệu Các bước chính của quá trình này bao gồm đặc trưng,

phân biệt, kết hợp, phân loại, gom cụm, xu thé, và phân tích độ lệch và độ hiếm

Sau khi chúng ta đã tinh chỉnh và chuân bị dữ liệu, chúng ta tiền hành khai thác và tìm kiếm thông tin Điều này có thẻ bao gồm các công việc như: Khai Thád1' Dụng: Áp dụng các mô hình và kỹ thuật đã phát triển từ các bước trước đề khai thác thông tin từ dữ liệu Điều này có thê bao gồm việc sử dụng mô hình học máy, thuật

toán phân loại, và các kỹ thuật phân tích đề tìm ra thông tin có giá trị Tìm Kiếm

Thông Tin: Tiền hành quá trình tìm kiếm đề định vị, trích xuất, và hiểu rõ những thông tin quan trọng từ dữ liệu Điều này có thê liên quan đến việc sử dụng các công

cụ truy vấn, lập biểu đỗ, và các phương pháp khác đề trích xuất thông tin cần thiết

Ứng Dụng Két Quả: Áp dụng kết quả khai thác để đưa ra quyết định, dự đoán, hoặc

hỗ trợ quá trình ra quyết định trong lĩnh vực cụ thẻ Các ứng dụng có thẻ bao gồm

dự đoán xu hướng tương lai, phân loại dữ liệu mới, hoặc tối ưu hóa quy trình kinh

doanh Tối Ưu Hóa Kết Quả: Tiếp tục tối ưu hóa kết quả bằng cách điều chinh mô hình và phương pháp khai thác dữ liệu dựa trên phản hài và sự hiêu biết thêm vẻ dữ

liệu Đánh Giá và Cải Thiện: Đánh giá hiệu suất của quá trình khai thác thông tin,

10

Trang 18

xác định các điểm mạnh và yếu, và thực hiện các biện pháp cải thiện dựa trên các

phản hồi thu được

Đánh giá

Việc đánh giá trị thức thu được từ quá trình khai thác dữ liệu là một bước quan trọng đê đảm bảo tính chất lượng và khả năng ứng dụng Đánh giá này thường được

thực hiện một cách khách quan và có thẻ bao gồm các khía cạnh như: Tính Chính

Xác: Đánh giá xem tri thức đã thu được có độ chính xác cao đối với dữ liệu đầu vào

hay không Các mô hình và kết quả được so sánh với các tiêu chí thực té để xác định mức độ đúng đắn Ứng Dụng Thực Tế: Xác định khả năng ứng dung cua tri thức trong các tình huống thực tế Điều này đòi hỏi sự linh hoạt và khả năng chuyên

đôi tri thức thành giải pháp thực tế Tính Tích Cực và Tiêu Cực: Xác định những

điểm mạnh và điểm yếu của tri thức Điều này giúp hiêu rõ hơn về khả năng và hạn ché của mô hình Tính Hợp Lý và Đồng Nhất: Kiêm tra sự hợp lý và đồng nhát của tri thức trong ngữ cảnh tông thẻ Điều này bao gồm xem xét xem tri thức có phản ánh mối quan hệ và độ tương quan giữa các yéu tố một cách hợp lý hay không Dự Đoán và Đối Soát: Nếu tri thức có khía cạnh dự đoán, đánh giá khả năng của nó

trong việc dự đoán và so sánh với các dự đoán thực tế Hiệu Suất và Tôi Ưu Hóa:

Đánh giá hiệu suất của tri thức, bao gồm thời gian xử lý, tài nguyên sử dụng, và cơ

sở hạ tầng Tối ưu hóa có thê được thực hiện đề cải thiện hiệu suất Phân Tích Thiếu Sót và Thừa Thải: Phân loại tri thức để xác định những phản cần thiết và những phan không càn thiết hoặc thừa thải Điều này giúp tối ưu hóa trí thức và giảm tải tài nguyên không càn thiết Phản Hỏi Từ Người Dùng: Lây phản hồi từ người dùng

hoặc chuyên gia trong lĩnh vực cụ thê đề cải thiện và điều chỉnh tri thức theo ý kiến

và nhu câu thực té

Tri thức

Quá trình Knowledge Discover y in Databases (KDD) là một chuỗi các bước được

thực hiện đề chuyền dữ liệu thành tri thức có ý nghĩa Các bước chính của quá

trình KDD: Lựa Chọn Dữ Liệu: Xác định và lựa chọn dữ liệu cần thiết đề thực

hiện khai phá thông tin Tiền Xử Lý Dữ Liệu: Chuân bị dữ liệu cho quá trình khai

phá băng cách loại bỏ nhiễu, điền giá trị thiếu, và biến đối dữ liệu néu cần Chọn

11

Trang 19

Lọc Đặc Trưng: Xác định và chọn lọc các đặc trưng quan trọng trong dữ liệu để

giảm chiều dữ liệu và tập trung vào những thông tin quan trọng nhát Khai Phá Tri Thức: Áp dụng các mô hình và thuật toán khai phá dữ liệu để tìm ra các quy luật,

mô hình, và thông tin tiêm án trong dữ liệu Đánh Giá Trí Thức: Đánh giá hiệu suất và chất lượng của tri thức được khai phá, kiêm tra độ chính xác và ứng dụng

thực tế Tích Hợp Tri Thức: Tích hợp tri thức khai phá được vào hệ thông hoặc quá trình quyét định Tính Cập Nhật và Duy Trì: Liên tục cập nhật và duy tri tri

thức đề giữ cho nó phản ánh sự thay đổi trong dữ liệu và môi trường Tạo Ra Báo Cáo và Trực Quan Hóa: Tạo ra báo cáo và biểu đồ trực quan để giải thích và trình

bày tri thức khai phá được một cách dễ hiệu Tối Ưu Hóa: Tối ưu hóa các mô hình

và thuật toán đề cải thiện hiệu suất và đáp ứng nhu câu ngày càng biến đôi của môi trường Phản Hài và Điều Chỉnh: Lấy phản hồi từ người dùng và kết quả ứng

dụng đề điều chỉnh và cải thiện quá trình KDD Quá trình KDD không chỉ giúp

khám phá tri thức từ dữ liệu mà còn tạo ra cơ hội đề hiểu biết sâu sắc về mối quan

“© , Patterns

| Preprocessing |

„v : ) | Transformed Selection '

Hình 2 1:Knowlegde Discovery in Databases

Mô tả của bạn đang nói về quá trình Knowledge Discovery in Databases (KDD),

một quy trình tổng hợp những bước chính để chuyên dữ liệu thành tri thức có ý nghĩa Mô tả chỉ tiết hơn về mỗi bước: Chuân Bị Thông Tin (Data Preparation):

12

Trang 20

Làm Sạch Thông Tin (Data Cleaning): Loai bo nhiéu, giai quyét giá trị thiếu, và xử

lý các lỗi dữ liệu để đảm bảo độ chính xác của dữ liệu Tích Hợp Thông Tin (Data

Integration): Két hợp dữ liệu từ các nguồn khác nhau dé tạo ra một tập dữ liệu đồng nhát và đồng bộ Chọn Thông Tin (Data Selection): Lựa chọn các đặc trưng và biến

đề tập trung vào những thông tin quan trọng trong quá trình khai phá Khai Thác

Théng Tin (Data Mining): Xac Dinh Khai Pha Thong Tin: Lwa chọn mục tiêu và

mục đích cụ thế đẻ khai phá thông tin từ dữ liệu Lựa Chọn Kỹ Thuật Khai Thác

Thông Tin: Áp dụng các thuật toán và phương pháp khai thác thông tin phù hợp với

mục tiêu đặt ra Tri Thức Thô (Raw Knowledge): Từ các két quả khai thác thông

tin, thu được một nguồn tri thức thô chưa qua xử lý hoặc tinh chỉnh Đánh Giá

(Evaluation): Kiêm Tra và Lọc Nguồn Tri Thức: Đánh giá hiệu suất của tri thức thu

được, xem xét độ chính xác, độ tin cậy và khả năng ứng dụng Lặp Lại và Điều

Chinh: Nếu kết quả không đạt yêu càu, quá trình có thẻ được lặp lại và điều chỉnh

dé cai thiện Triên Khai (Deployment): Tích Hợp Tri Thức Vào Hệ Thống: Tri thức

đã được đánh giá và chấp nhận sẽ được tích hợp vào hệ thống hoặc quy trình quyét

định Quá Trình Lặp Lại: Tuần Tự và Lặp Lại: Quá trình KDD là một chuỗi các bước tuân tự, nhưng cũng là một quá trình lặp lại Sau mỗi làn lặp, tri thức có thẻ

được cập nhật và điều chỉnh để đáp ứng các yêu cầu mới Quá trình KDD là một quá trình phức tạp và linh hoạt, đòi hỏi sự chú ý và sự hiểu biết sâu sắc vẻ dữ liệu cũng như mục tiêu cụ thế của quá trình khai phá thông tin

2.1.3 Ứng dụng thông tin

Trong các lĩnh vực kinh doanh, tiếp thị hàng hóa, bảo hiểm, ngân hàng, và nhiều

ngành khác, việc sử dụng dữ liệu và phân tích thông tin là quan trọng để đưa ra

quyết định chiến lược Một số ứng dụng và lợi ích của việc sử dụng dữ liệu và phân

tích thông tin trong các lĩnh vực này: Tiếp Thị và Quảng Cáo: Phân Loại Khách

Hàng: Phân loại khách hàng dựa trên dữ liệu hành vĩ mua hàng và tương tác trực

tuyến để tạo ra chiến lược tiếp thị được tùy chinh cho từng đối tượng Phân Tích Hiệu Suát Chiến Dịch: Đánh giá hiệu suất của các chiến dịch quảng cáo và tiếp thị

để tối ưu hóa ngân sách và tăng cường tương tác Dự Đoán Xu Hướng Tiêu Dùng:

Sử dụng mô hình dự đoán đề hiểu xu hướng tiêu dùng và thích ứng chiến lược tiếp

13

Trang 21

thị Bảo Hiểm: Đánh Giá Rủi Ro: Phân tích dữ liệu đẻ đánh giá rủi ro và xây dựng

các mô hình dự đoán cho việc định giá bảo hiểm Quản Lý Khách Hàng: Sử dụng

dữ liệu đề hiểu khách hàng, cá nhân hóa chăm sóc khách hàng và cải thiện tý lệ giữ

chân Ngân Hàng: Đánh Giá Tín Dụng: Sử dụng dữ liệu tài chính và hành vi giao

dịch để đánh giá tín dụng và xác định khả năng thanh toán của khách hàng Phân

Loại Rủi Ro Đầu Tư: Phân tích thị trường và dữ liệu tài chính để phân loại rủi ro

và đưa ra chiến lược đầu tư Báo Cáo và Phân Tích Kinh Doanh: Phân Tích Hiệu

Suát Doanh Nghiệp: Sử dụng báo cáo và phân tích để đánh giá hiệu suất toàn diện của doanh nghiệp và các bộ phận cụ thẻ Dự Đoán Xu Hướng Thị Trường: Sử dụng

dữ liệu thị trường để dự đoán xu hướng và định hình chiến lược kinh doanh Việc

sử dụng dữ liệu và phân tích thông tin giúp tối ưu hóa chiến lược kinh doanh, tăng

cường hiệu suát, và tạo ra quyết định có tính chiến lược dựa trên cơ sở thông tin chính xác và chỉ tiết Quyết định đưa ra thị trường, thị phản nhiều mục hay ít mục hơn phụ thuộc vào mục tiêu chiến lược cu thé cua doanh nghiệp và đội ngũ quản

lý Với ứng dụng lĩnh vực khoa học: trong ngành thiên văn học nó dự đoán đường

đi của các thiên thê bay, hành tinh và nhiều vật thê khác nữa Với lĩnh vực công nghệ sinh lí học thì ta có thể tìm ra các loại gen mới và những thuộc tính mới , cây

giống mới vượt trội hơn các loai giống ban dau

tin DSS thường bao gòm các thành phản sau: Hệ Thóng Thông Tin (Information

System): DSS tích hợp các hệ thống thông tin đề thu thập, lưu trữ, và quản lý dữ

liệu từ các nguồn khác nhau Cơ Sở Dữ Liệu (Database): Lưu trữ dữ liệu cần thiết

để hỗ trợ quyết định, thường là dữ liệu lớn và đa dạng Môi Trường Mô Hình Hóa

(Modeling Environmernt): Cung cấp các công cụ và kỹ thuật mô hình hóa đề phân

tích và dự đoán các tình huống Hệ Thống Hỗ Trợ Quyết Định (Decision Support

System): Bao gồm các ứng dụng và công cụ giúp người quyết định xem xét các tùy

14

Ngày đăng: 02/01/2025, 10:03

HÌNH ẢNH LIÊN QUAN

Hỡnh  4.  3  Mụ  †  ở  da†aSGT.....................  QQ-  LHằ  HH  H*  HH  HH  TH  ng  nếp  24  Hình  4 - Tiểu luận khai thac dưu liêu va ưng dun g tên Đề tài  phân loại
nh 4. 3 Mụ † ở da†aSGT..................... QQ- LHằ HH H* HH HH TH ng nếp 24 Hình 4 (Trang 6)
Hình  2.  1:Knowlegde  Discovery  in  Databases - Tiểu luận khai thac dưu liêu va ưng dun g tên Đề tài  phân loại
nh 2. 1:Knowlegde Discovery in Databases (Trang 19)
Hình  vừa  xây  dựng  với  miền.  Dùng  các  mièn  loại  cho  chúng  tự  động  quyết  định  ở - Tiểu luận khai thac dưu liêu va ưng dun g tên Đề tài  phân loại
nh vừa xây dựng với miền. Dùng các mièn loại cho chúng tự động quyết định ở (Trang 22)
Hình  2.3:  Phan  logi  doc  hoc  bang  mang  noron  cho  tap  dé  ligu  cho  vay - Tiểu luận khai thac dưu liêu va ưng dun g tên Đề tài  phân loại
nh 2.3: Phan logi doc hoc bang mang noron cho tap dé ligu cho vay (Trang 23)
Hình  4.  1  Xây  dựng  ri  viện - Tiểu luận khai thac dưu liêu va ưng dun g tên Đề tài  phân loại
nh 4. 1 Xây dựng ri viện (Trang 30)
Hình  4.  6  Code  xây  dựng biểu đô - Tiểu luận khai thac dưu liêu va ưng dun g tên Đề tài  phân loại
nh 4. 6 Code xây dựng biểu đô (Trang 32)
Hình  4.  8  Biểu  diễn  biểu  đô - Tiểu luận khai thac dưu liêu va ưng dun g tên Đề tài  phân loại
nh 4. 8 Biểu diễn biểu đô (Trang 33)
Hình  4.  12  Biếz„  đỏ  smoking_  status  stroke - Tiểu luận khai thac dưu liêu va ưng dun g tên Đề tài  phân loại
nh 4. 12 Biếz„ đỏ smoking_ status stroke (Trang 35)
Hình  4.  13  Xây  dựng  biểu  đô  Pie - Tiểu luận khai thac dưu liêu va ưng dun g tên Đề tài  phân loại
nh 4. 13 Xây dựng biểu đô Pie (Trang 35)
Hình  4.  14  Biéw  dé  Pie  4.3.1  Phân  tích  dữ  liệ - Tiểu luận khai thac dưu liêu va ưng dun g tên Đề tài  phân loại
nh 4. 14 Biéw dé Pie 4.3.1 Phân tích dữ liệ (Trang 36)
Hình  4.  5  Thực  hiện  kiểu  dz  liệu - Tiểu luận khai thac dưu liêu va ưng dun g tên Đề tài  phân loại
nh 4. 5 Thực hiện kiểu dz liệu (Trang 37)
Hỡnh  4.  17  Œứ  chuđn  dzu  liệu - Tiểu luận khai thac dưu liêu va ưng dun g tên Đề tài  phân loại
nh 4. 17 Œứ chuđn dzu liệu (Trang 37)
Hỡnh  4.  19  Œứ  biến  giỏtr; - Tiểu luận khai thac dưu liêu va ưng dun g tên Đề tài  phân loại
nh 4. 19 Œứ biến giỏtr; (Trang 39)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN