Việc khai phá dữ liệu đang trở thành một lĩnh vực quan trọng, nơi mà chúng ta có khả năng tìm kiếm, phân tích, và rút ra những kết luận quan trọng từ lượng thông tin không lồ đang ngày c
Trang 1NGUYEN TAT THANH
TIEU LUAN KHAI THAC DUU LIEU VA UNG DUNG
Tên đề tai: Phan loai Ty léd6t quy
Giảng viên hướng dẫn:VÕ THỊ HÔNG THĂM Sinh viên thực hiện: NGUYÊN ĐỨC NGHĨA MSSV:2100008137
Khoá: 21 Ngành/ chuyên ngành: TRÍ TUỆ NHÂN TẠO
Tp HCM, tháng 12 năm 2023
Trang 2
NGUYEN TAT THANH
TIỂU LUẬN KHAI THAC DUU LIEU VA UNG DUNG
Tên đề tài: Phân loại Ty lệ đột quy
Giảng viên hướng din: VO THI HONG THAM
Sinh viên thực hiện:ĐĂNG QUÔC LỰC
MSSV:2100008137 Khoá:21
Ngành/ chuyên ngành:TRÍ TUỆ NHÂN TẠO
TPHCM, tháng 12 năm 2023
Trang 3
TRUONG DAI HOC NGUYEN TAT THANH
TRUNG TAM KHAO THI
Môn thi: Khai
dụng
quy
PHIẾU CHÁM THỊ TIỂU LUẬN
Thác Lớphocphằn:21DTH1D
Nhóm sinh viên thực hiện :1
1.Nguyễn Đức Nghĩa Ngày thi:25/12/2023
Đề tài tiêu luận/báo cáo của sinh viên : Phân loại Tỷ lệ đột
Phân đánh giá của giảng viên (căn cứ trên thang rubrics của môn học):
Tiêu chí (theo Đánh giá của GV Điểm tối | Điểm đạt
CDR HP) anh gia cua da được
báO CÁO | .Ặ TQ HH TH HT khen khu
Trang 41 Tổng quan để tải - - cv 13k 11111 SE 5 SE HH1 HT 2
1ê n 3 s00 on 4 mào nh 5 1.4.1 Ý nghĩa thực tiễn 5 Sex SE E313 3 1115111111111 1111151111111 6
CHƯƠNG 2:CƠ SỞ LÝ THUYẾT 2222252: 2222111111111222122211111 E110 ee 7
2 Tổng quan vẻ kỹ thử<hai thác dữ liậI(Data mining) - 7
2.1 Khái niệm 2 22222-22252+2E23222E11212211322771112771E27111E12711E2.21112.1 E1 7
2.1.2 Quy trình khai phá dữ liệu ¿- 25c 5+S£+E+SE£EEvEE£xerkEEErxrrerxerrrerrereerered 8
“8ö: i00 a4 15
mê nnnn ố e 17
2.6 Dấu hiệt và triệ1 Chftrng, 2 2-2 2+2E22EE221152135213221371E1711171171.211e 1xx 18
CHƯƠNG 3:KỸ THUẬT HỒ | QUY 22225ccc22221111 222221111 20
3 Giới thiệu kỹ thu hỏi quy trong Khai Thác dữ li@ -. -: -c -c +5: 20
Trang 53.1 Mô hinh RandomForestClassifier - CS nh cv re 21
3.2 Mô hinh LogisticRegression - nh HH nhiếp 22
CHƯƠNG 4: THỰC NGHIỆM VÀ KẾT QUÁ 25-555c2ccccerccerree 23
41.2 MO 23
(uc ng hố 24
J0 24 4.3.1Phân tích dữ liệ - HH ch nh nh hi 29
4.3.2 Chuẩn hóa dữ ll4 7+2 St TH HH ke 30
4.4 MÔ hình .-cc TH K H Ko k K H ọ T rh 31
4.4.2 Mô hình hồi quy Logji†iC 5-5: 22 ++2+2++ xe zeeerxsreerersreererrs 33
DANH MỤC TÀI LIỆU THAM KHẢO - 5-5 55+S<£cc+ezersrereeeeers 36
Trang 6DANH MUC HINH
Hinh 2 1:Knowlegde Discovery i in DataDASes «0 eeeeeeseeeeeeseneeeeeeneeeeeeeeneees 12
Hình 2 2: sơ đô hệ hỗ trợ quyér an "— 15 Hình 2 3: Phân loại được học băng mạng noron cho ráp dữ liệu cho vay .16 Hình 2 4 C bước trong quatrinh phân czm . 7-5 -+<cccs<+s<cs+z 17 Hình 4 1 Xây dựng frư VIỆN - Q1 HH TT ng kg gà 23
0 S7 25
Hình 4 7 Biểu diễn biểu điề G- + <3 E13 3 2E 5151111111111 51111 Exrkrg 26 Hình 4 8 Biéw do gender Vinypertension .c.scsssssecsessesssesesseesecseceessesseeeeeeees 26 Hinh 4 9 Biéu dé heart_disease Wyer_maried .cc.cscsssesssesessescseecsseseseee 27
Hinh 4 10 Biéw dé work_type Vresidence_tyPe .sssessessessersecseesessersesseees 27
Hình 4 13 Biế¿ điÖ Pi@ - TS SH 21H11 HH ng Hykt 29
Hình 4 15 Thực hiện kiểu dZ liệu . -2- 252 5+25++s2xe£+Eezxezserszzezrees 30
Hình 4 18 Mô h nh RandomForestClassifier . -.ẶẶẶ‡ {Si 31-32 Hình 4 19 Œ@ biến giaff/ 5c ctcsrtretrrrrrerrerrrrrrrrrrrrrrrrries 32
Trang 7LOI MO DAU
Trong thời đại số hóa với ngày nay, dữ liệu không chỉ là nguồn thông tin, mà còn là một kho tàng của cơ hội Việc khai phá dữ liệu đang trở thành một lĩnh vực quan trọng, nơi mà chúng ta có khả năng tìm kiếm, phân tích, và rút ra những kết luận quan trọng từ lượng thông tin không lồ đang ngày càng tăng
Khai phá dữ liệu không chỉ là việc đơn thuần trích xuất đữ liệu, mà còn là quá trình khám phá sâu rộng, giúp chúng ta hiểu biết sâu sắc về mô hình, xu hướng, và quy luật ân sau những dòng số và ký tự Đối mặt với một thế giới nơi mà mọi hoạt động được ghi lại và lưu trữ, khai phá dữ liệu mở ra cánh cửa cho những phát hiện mới, những thông tin quan trọng, và đặc biệt là những cơ hội lớn đề đưa ra quyết định thông minh
Ứng dụng của khai phá dữ liệu ngày càng mở rộng vả đa dạng, từ việc dự đoán xu hướng, thị trường đến phân loại bệnh lý y tế, từ tối ưu hóa chiến lược kinh doanh đến việc tìm kiểm các mối quan hệ, mới trong xã hội mạng Trong lĩnh vực này, khả năng sử dụng các
kỹ thuật máy học và thuật toán thông minh chính là chia khóa mở cánh cửa cho sự hiểu biết và sáng tạo
Hãy bắt đầu một hành trình qua những khái niệm, phương pháp nghiên cứu, và những ứng dụng thực tế của khai phá đữ liệu Điều này không chỉ giúp ta mở rộng kiến thức mà còn mang lại cái nhìn toản diện về cách dữ liệu có thê hỗ trợ quyết định và đưa ra dự đoán trong nhiều lĩnh vực khác nhau
Trang 8LOI CAM ON
Em xin gửi lời cảm ơn chân thành đến cô Võ ThiHéng Tham là giảng viên B ộ
môn Khai thác dữ liệ và ưng dụng, trường Đại học Nguyễn Tắt Thành.Người đã
tận tình hướng dẫn, chỉ bảo em trong suốt quá trình làm tiếưuậ
Qua bài tậ lớn này, em xin đử lời cảm ơn tới cô Võ Thị Hồng Thắm Được tim
hiểu những tiềm tH@ mới, rất có ích với sự hỗ trợ nhÌđỉnh, đã giúp em có được ngày hôm nay đề đưng ở đây lam dé tài của cô đã giao cho em Trong sự hình thành
và phát triển hoại thiện kỹ năng học to vả đề hoàn thành, bài tiểu lưậ của em sẽ
có thế có những sai lầm của kỹ năng họcRạ/4 những thiếu sot tong khi lam bai
tiểu luận của cô Với điều kiện thời gian, cũng như kinh nghiệm còn hạn chế của mét sinh vién vi vg, em rất mong được sự chỉ bảo, vả đóng góp ý kiến của cô để
em hoàn thiệ hơn đề tài tiểu luận, và có điều kiện bố sung, nâng cao ý th ức của
mình, làm vi& tốt hơn công việc học tập, và phát triển sau này Và hơn hết, em xin chân thành cảm ơn gia đình, và bạn bè, giang viên b ộ môn nhà trường đã luôn luôn tạo điều kiện, và hỗ trợ, quan tâm, giúp đỡ, động viên em trong suốt quá trình
hoc tap, lam vig, va hoàn thành bài tiêu lay Một lân nữa em xin cảm ơn
Trang 9CHƯƠNG 1 GIỚI THIỆU
1 Tổng quan đề tài
Công nghệ thông tin đã trở thành một phản không thể thiếu trong việc lưu trữ, Xử
lý và quản lý dữ liệu hiện nay Sự phô biến của công nghệ này đã tạo ra một lượng
lớn dữ liệu được lưu trữ, và Sự gia tăng này không ngừng Điều này tạo ra điều kiện thuận lợi cho việc khai thác dữ liệu và ứng dụng chúng trong nhiều lĩnh vực khác nhau Khai thác dữ liệu và ứng dụng là những kỹ thuật và mô hình dựa trên nèn
tảng của nhiều lý thuyết, bao gồm xác suất, thống kê, và máy học Mục tiêu của chúng là tìm kiếm và khám phá các tri thức tiềm ân trong các kho dữ liệu lớn mà
người dùng khó nhận biết băng các phương pháp truyền thông Trong lĩnh vực y té,
với lượng dữ liệu lớn, việc áp dụng khai thác dữ liệu mang lại nhiều hiệu quả và kết quả cao Nó có thê cung cấp thông tin hỗ trợ trong chuân đoán và điều trị sớm, giúp
bệnh nhân thoát khỏi nhiều bệnh nguy hiểm Các phương pháp này đóng vai trò quan trọng trong việc nâng cao chất lượng chăm sóc sức khỏe và đưa ra quyết định thông minh dựa trên dữ liệu
Tỉ lệ đột quy trong khai phá dữ liệu (data mmming), thường phản ánh sự thành công của mô hình hoặc kỹ thuật khai phá dữ liệu, trong việc dự đoán hay phân loại dữ
liệu mới một cách chính xác Tỉ lệ đột quy được đo bằng cách so sánh số lượng dự đoán đúng (true positives) với tổng só mẫu dữ liệu
F1-Score: 2 * (Precision * Recall) / (Precision + Recall) - Kết hợp giữa precision
và recall, thường được sử dụng khi cần cân bảng giữa cả hai
Trang 10ROC Curve va AUC:
ROC Curve (Receiver Operating Characteristic): Đồ thị biêu diễn sự biến động của
tỷ lệ true positive và false positive dựa trên ngưỡng quyết định
AUC (Area Under the Curve): Diện tích dưới ROC Curve, một phép đo tông quát
của hiệu suất mô hình
Confusion Matrix:
Ma Tran Nham Lan (Confusion Matrix): Bảng hiên thị số lượng True Positives,
False Positives, True Negatives, và False Negatives
Ứng Dụng Trong Lĩnh Vực Y Tế:
Dự Đoán Bệnh Lý: Đánh giá mô hình dự đoán bệnh lý dựa trên các chỉ số y té Phân
Loại Chân Đoán: Xác định hiệu suất của mô hình trong việc phân loại kết quả chan
đoán
Tỷ lệ đột quy là sự chiếm lĩnh bất ngờ của một cục máu đông trong não, gây ngắt quãng trong lưu thông máu đến một phản của não Đây là một sự kiện y tế khân cấp
có thê gây ra những tôn thương nghiêm trọng và thậm chí gây tử vong
Khai phá dữ liệu đã đóng góp quan trọng trong việc nghiên cứu, và dự đoán nguy
cơ bị đột quy Bằng cách phân tích dữ liệu từ các bệnh nhân đã từng bị đột quy (như
tuôi tác, giới tính, tiền sử bệnh lý, thói quen sinh hoạt, v.v.), các nhà nghiên cứu có thê xác định các yêu tố nguy cơ và đưa ra những khuyên nghị phòng ngừa Ứng dụng trong lĩnh vực này bao gồm việc phát triên, các hệ thống dự đoán nguy
cơ đột quy cá nhân, giúp người dùng tiên đoán, và áp dụng biện pháp phòng ngừa
phù hợp Ngoài ra, dữ liệu đột quy được khai thác để nghiên cứu cách thức tăng cường chân đoán, điều trị và phục hồi sau đột quy
1.2 Mục tiêu đề tài
Dé co thẻ làm nghiên eư kỹ thuậ hỏi quy trong khai thác dữ liệ và ứng dụng, dé
từ đó chúng ta có thể năm bắt được những giải tHưậm tiền đề và làm tải liệu, tư
liệu quý giá cho nghiên œw và xây dựng các mô hinhng dụng cụ thẻ Ngay lúc
đó có thẻ ta sẽ phân tích được các đặiiêm của dữ liệt thu thâp và tìm kiếm được,
Trang 11và lựa chon những giải thưậohù hợp với các việ xây dựng mô hình và đánh gia
các mô hình có chất lượng, và độ hiệquả kết quả cho ra của Hhiông mà ta đã
phân tích đánh gia được
1.3 Phương pháp nghiên cu,
Phương pháp nghiên cứu trong lĩnh vực phân loại (classification) trong khai phá dữ
liệu thường đòi hỏi một quy trình khoa học, và chặt chẽ đề đảm bảo sự hiệu rõ về
dữ liệu, và đánh giá hiệu suất của mô hình phân loại
Các bước chính của phương pháp nghiên Cứu trong phân loại:
Xác Định Vấn Đề Nghiên Cứu:
Đặt ra câu hỏi cụ thê vẻ vấn đề cần giải quyết Xác định rõ mục tiêu của phân loại
và các yéu tố liên quan
Thu Thập Dữ Liệu:
Xác định và thu thập dữ liệu phù hợp với vấn đề nghiên cứu Lam sachchaaly các dữ liệu dé cho chung loại bỏ các nhiễu và các dữdiểược chuẩn hóa
Phân Chia Dữ Liệu:
Chia dữ liệu thành tập huấn luyện (training set) và tập kiếm thử (test set) để đánh giá hiệu suát của mô hình Cân nhắc dùng các kỹ thuật như cross-validation dé tang
độ chính xác của đánh giá
Xác Định Đặc Trưng:
Chọn ra các đặc trưng quan trọng đề xây dựng mô hình
Cân nhắc sử dụng kỹ thuật giảm chiều dữ liệu néu có nhiều đặc trưng
Chọn Mô Hình Phân Loại:
Xác định loại mô hình phân loại phù hợp với bài toán
Lựa chọn mô hình dựa trên yếu tô như hiệu suát, tính khả diễn giải, và khả năng mở rộng
Huần Luyện Mô Hình:
Trang 12Sw dung tap huan luyén dé huan luyén mô hình
Điều chinh các dãy tham số đê viđôi ưu hóa hiệu suất la tôt nhát trong mô hình
Đánh Giá Mô Hình:
Sử dụng các tập kiếm thử đề đánh giá hiệu suất trong mô hình, có năng suất hiêu suất có đả chuân
Sử dụng các chỉ số như độ chính xác, recall, precision, F1-score
Tinh Chinh và Tối Ưu Hoa:
Nếu cần, tinh chinh dựa trên kết quả đánh giá
Cân nhắc sử dụng kỹ thuật tối ưu hóa hyperparameter
Diễn Đạt và Báo Cáo Két Quả:
Diễn đạt và báo cáo két quả của mô hình một cách rõ ràng và mô tả
So sánh với các mô hình khác và giải thích sự chọn lựa
Tích Hợp Mô Hình vào Hệ Thống:
Nếu mô hình đạt được hiệu suát tốt, tích hợp vào hệ thống sản xuát
Kiém tra va theo dõi hiệu suát sau triển khai
Liên Tục Đánh Giá và Cải Tiền:
Đánh giá và cải tiên mô hình theo thời gian khi mới
Kiếm thử và giữ mô hình linh hoạt và hiệu quả
1.4 Ynghia
Sự giúp đỡ của máy tính, đẻ tài đóng góp giúp các cán bộ y tế, các y bác sĩ, các y
tá đánh giá, và chuẩn đoán và dự đoán lmh cho bậh nhân khi có biêu hiệhay các triệu chíng liên quan đến bnh có căn dư Để các kết quả, và kinh nghiệ trong
với những giải pháp tốt nhất để khi khám lnh cho bậih nhân hoặ người bệnh có
tỷ lệ chính xác cao, trong vân đề điều tựa kiếm tra phân tich các lỏjbệnh
Trang 131.4.1 Ynghia trong cu& sống
Với các lod chuan đoán, đánh giá và dự đoán tý lấtột quyở người với các độ tuổi
có thé bi Dé có thê phát hiệ bậnh và các triệt chứng liên quan là cả một quá trinh,
nó đòi hỏi phải có đầy đủ những nhân viên ý tá, và các y bác sĩ phải có đầy đủ các
thiết bị hiện đại tiên tiền nhát Đề có thẻ phát hi@ hay dự đoán được bệh có chuẩn
xác cho bạh nhân
Trang 14CHUONG 2:CO SO LY THUYET
2 Tổng quan về kỹ thuậ Khai thác dữ liệ u(Data mining)
2.1 Khái niệm
Khai thác dữ liệu (Data Mining) là quá trình phân tích tự động của một lượng lớn
dữ liệu đẻ khám phá các mối quan hệ an, xu hướng, cacildaing tin duoc su cong nhận hữu ích và tri thức có thế hỗ trợ quyết định trong doanh nghiệp Cac kỹ thuật khai thác dữ liệu bao gồm nhiều phương pháp như học máy, học máy không giám sát, phân loại, hồi quy, gom cụm, phân tích chuỗi thời gian, và nhiều hơn nữa
Còn là quá trình tìm hiểu, xử lý và phân tích các tập dữ liệu lớn dé tim ra thông tin,
hữu ích, và trí thức từ chúng Đây là quá trình rất rất quan trọng để tìm hiểu các mô
hinh, xu hướng, và quy luật trong dữ liệu
Ứng dụng khai thác dữ liệu được sử dụng trong nhiều vực, bao gồm kinh doanh, khoa học, y tế, tài chính và nhiều lĩnh vực khác Các ứng dụng cung cấp thông tin,
và hiểu biết sâu hơn về dữ liệu, giúp cải thiện quyết định, dự báo, phân tích vả tối
ưu hóa
Khai thac ditu ligi va ung dung có các thông tin và đề sử dụng nhiều lần sau khi cản.Ngoài ra còn liên Hới cơ sở đữ liệu cơ sở tài liệu và nhiều khía cạnh khác như : quản lý tài liệu, xử lý trước tài liệu, kiểm soát và suy luận , các thước, cân nhắc không, trả về kết quả phát hiện, hiện Xự quá trình “khám phá kiến thức trong
cơ sở dữ liệu"
Đánh giá (Evaluation): dựa trên một số chỉ tiêu dé kiém tra va lọc nguồn tri thức
vừa thu được
Ứng Dụng Của Khai Thác Dữ Liệu:
Dự đoán va Héi Quy (Prediction and Regression): Dy doan gia trị tương lai hoặc hồi quy đề hiểu mối quan hệ giữa các biến
Phân loai (Classification): Phan loại dữ liệu vào các nhóm hoặc lớp khác nhau dựa trên các đặc trưng
Trang 15Gom cum (Clustering): Phân nhóm dữ liệu thành các cụm dựa trên sự tương đồng Phân tích chuỗi thời gian (Time Series Analysis): Dự đoán xu hướng và mô hình các biến đôi theo thời gian
Phân tích liên kết (Association Analysis): Xác định mối quan hệ và quy luật liên kết giữa các biến
Ứng Dụng Các Lĩnh Vực:
Kinh doanh và Tài chính: Dự đoán doanh số bán hàng, quản lý rủi ro tín dụng, phân loại khách hàng
Y tế: Dự đoán và phân loại bệnh lý, quản lý thông tin bệnh nhân
Chính trị: Dự đoán kết quả bầu cử, phân tích quan điểm cử tri
Internet of Things (IoT): Giám sát và dự đoán sự cố trong hệ thống IoT
Quảng cáo và Tiếp thị: Tối ưu hóa chiến lược quảng cáo, phân loại khách hàng tiềm
nang
Công Cụ và Ngôn Ngữ Lập Trinh:
Các công cụ nhu Python (với thư viện nhu scikit-learn, TensorFlow), R, va Weka thường được sử dụng
Ngôn ngữ truy vấn cơ sở đữ liệu như SQL cũng được sử dụng trong quá trình tiền
xử lý
Khai thác đữ liệu đóng vai trò quan trọng trong việc hỗ trợ quyết định, tối ưu hóa quy trinh kinh doanh, và tạo ra giá trị từ dữ liệu lớn và phức tạp
2.1.2 Quy trình khai thác
Nghiên cứu dư liệu
Cần sử dụng Khai thác dũu liệđề cho được những tri thức có chọn lọc và sau đó tìm hướng đi để đỡ tốn thời gian nghiên cư của các lĩnh vực không cần thiết
Tạo dữ liễu
Trang 16Thành lậo và thiết ké tin tậo lưu trữ tài liệu thông minh va dé máy tính có thẻ lưu
trữ và khai thác tốt công viêvà tránh biỗi trong khi xử lý
Xử lý
Ở bước này, chúng ta thực hiện quá trình làm sạch dữ liệu (data cleaning) băng cách
loại bỏ những thông tin không càn thiết và không có giá trị, điều chinh cáu trúc của
dữ liệu đề phản ánh chính xác các mối quan hệ, và mã hóa chúng đề thuận tiện cho quá trình xử lý Các công việc cụ thê bao gồm loại bỏ dữ liệu lạc lõng, xử lý dữ liệu thiếu bằng cách điền giá trị hoặc loại bỏ, tinh chinh cầu trúc dữ liệu bang cách chuyên đổi biến, mã hóa các biến độc lập thành dạng só, thực hiện chuẩn hóa để đảm bảo phạm vi đồng đều, và tách tập dữ liệu thành các phản huán luyện và kiếm
thử Quá trình này giúp chúng ta có một tập dữ liệu được tỉnh chinh, sẵn sàng cho
việc phân tích và đào tạo mô hình học máy
Rút gọn chiều
Thường thì tập dữ liệu thông tin có số chiều khá lớn, tạo ra một lượng lớn các tô hợp thông tin Ví dụ, với m chiều, số lượng tô hợp sẽ là 2^m Điều này dẫn đến sự gia tăng đáng kế về tài nguyên và khả năng xử lý trong quá trình phân tích tri thức
Do đó, việc giảm só chiều là một bước quan trọng đề giảm tải tài nguyên Phương
pháp thường được sử dụng đề giảm só chiều là Rough set Rough set giúp xác định
những thuộc tính quan trọng và loại bỏ những thuộc tính không cân thiết hoặc ít quan trọng Việc này giúp giảm số chiều của dữ liệu, giảm thiêu không gian lưu trữ
và tăng hiệu suất xử lý Thông qua việc sử dung Rough set, chung ta co thé tim ra
những chièu dữ liệu quan trọng, từ đó giảm thiểu sự phức tạp và tăng hiệu suất trong
quá trình xử lý tri thức
Thông tin và ứng dụng
Đề đạt được mục tiêu, việc lựa chọn đúng nguồn thông tin là một yếu tố quan trọng
Thông thường, chúng ta thực hiện các tác vụ sau đây trong quá trình này: Đặc Trưng
(Feature): Tập trung vào việc xác định và chọn lọc những đặc trưng quan trọng
trong dữ liệu Điều này giúp nhận biết và tập trung vào các thông tin quan trọng
nhất liên quan đến mục tiêu của quá trình khai thác thông tin Phân Biệt
Trang 17(Discrimination): Tim hiéu vé sy phân biệt giữa các phản khác nhau của dữ liệu Việc này giúp nhận diện sự khác biệt và đặc điểm nôi bật giữa các quan sát Kết Hợp (Association): Phân tích mói quan hệ và két hợp giữa các yéu tố trong dữ liệu
dé hiéu rõ hơn về Sự tương tác và ảnh hưởng giữa chúng Phân Lớp (Classification):
Xây dựng mô hình đề phân loại các quan sát vào các nhóm hoặc lớp khác nhau dựa
trên các đặc trưng quan trọng Gom Cụm (Clustering): Nhóm các quan sát có đặc
điểm tương đồng vào các cụm đề nhận biết cầu trúc tự nhiên trong dữ liệu Xu Thé
(Trend Analysis): Phân tích xu hướng và thay đổi trong dữ liệu theo thời gian hoặc
theo các biến khác Điều này giúp dự đoán và hiệu rõ sự phát triển của các yếu té Phân Tích Độ Lệch và Độ Hiếm: Nghiên cứu sự lệch và sự hiếm có trong dữ liệu,
giúp phát hiện và hiểu rõ các biến độc lập quan trọng và hiếm có trong quá trình
phân tích
Khai thác thông tin:
Tìm kiếm thông tin là bước quan trọng sau khi hoàn thành các bước trước đó trong quá trình khai thác dữ liệu Các bước chính của quá trình này bao gồm đặc trưng,
phân biệt, kết hợp, phân loại, gom cụm, xu thé, và phân tích độ lệch và độ hiếm
Sau khi chúng ta đã tinh chỉnh và chuân bị dữ liệu, chúng ta tiền hành khai thác và tìm kiếm thông tin Điều này có thẻ bao gồm các công việc như: Khai Thád1' Dụng: Áp dụng các mô hình và kỹ thuật đã phát triển từ các bước trước đề khai thác thông tin từ dữ liệu Điều này có thê bao gồm việc sử dụng mô hình học máy, thuật
toán phân loại, và các kỹ thuật phân tích đề tìm ra thông tin có giá trị Tìm Kiếm
Thông Tin: Tiền hành quá trình tìm kiếm đề định vị, trích xuất, và hiểu rõ những thông tin quan trọng từ dữ liệu Điều này có thê liên quan đến việc sử dụng các công
cụ truy vấn, lập biểu đỗ, và các phương pháp khác đề trích xuất thông tin cần thiết
Ứng Dụng Két Quả: Áp dụng kết quả khai thác để đưa ra quyết định, dự đoán, hoặc
hỗ trợ quá trình ra quyết định trong lĩnh vực cụ thẻ Các ứng dụng có thẻ bao gồm
dự đoán xu hướng tương lai, phân loại dữ liệu mới, hoặc tối ưu hóa quy trình kinh
doanh Tối Ưu Hóa Kết Quả: Tiếp tục tối ưu hóa kết quả bằng cách điều chinh mô hình và phương pháp khai thác dữ liệu dựa trên phản hài và sự hiêu biết thêm vẻ dữ
liệu Đánh Giá và Cải Thiện: Đánh giá hiệu suất của quá trình khai thác thông tin,
10
Trang 18xác định các điểm mạnh và yếu, và thực hiện các biện pháp cải thiện dựa trên các
phản hồi thu được
Đánh giá
Việc đánh giá trị thức thu được từ quá trình khai thác dữ liệu là một bước quan trọng đê đảm bảo tính chất lượng và khả năng ứng dụng Đánh giá này thường được
thực hiện một cách khách quan và có thẻ bao gồm các khía cạnh như: Tính Chính
Xác: Đánh giá xem tri thức đã thu được có độ chính xác cao đối với dữ liệu đầu vào
hay không Các mô hình và kết quả được so sánh với các tiêu chí thực té để xác định mức độ đúng đắn Ứng Dụng Thực Tế: Xác định khả năng ứng dung cua tri thức trong các tình huống thực tế Điều này đòi hỏi sự linh hoạt và khả năng chuyên
đôi tri thức thành giải pháp thực tế Tính Tích Cực và Tiêu Cực: Xác định những
điểm mạnh và điểm yếu của tri thức Điều này giúp hiêu rõ hơn về khả năng và hạn ché của mô hình Tính Hợp Lý và Đồng Nhất: Kiêm tra sự hợp lý và đồng nhát của tri thức trong ngữ cảnh tông thẻ Điều này bao gồm xem xét xem tri thức có phản ánh mối quan hệ và độ tương quan giữa các yéu tố một cách hợp lý hay không Dự Đoán và Đối Soát: Nếu tri thức có khía cạnh dự đoán, đánh giá khả năng của nó
trong việc dự đoán và so sánh với các dự đoán thực tế Hiệu Suất và Tôi Ưu Hóa:
Đánh giá hiệu suất của tri thức, bao gồm thời gian xử lý, tài nguyên sử dụng, và cơ
sở hạ tầng Tối ưu hóa có thê được thực hiện đề cải thiện hiệu suất Phân Tích Thiếu Sót và Thừa Thải: Phân loại tri thức để xác định những phản cần thiết và những phan không càn thiết hoặc thừa thải Điều này giúp tối ưu hóa trí thức và giảm tải tài nguyên không càn thiết Phản Hỏi Từ Người Dùng: Lây phản hồi từ người dùng
hoặc chuyên gia trong lĩnh vực cụ thê đề cải thiện và điều chỉnh tri thức theo ý kiến
và nhu câu thực té
Tri thức
Quá trình Knowledge Discover y in Databases (KDD) là một chuỗi các bước được
thực hiện đề chuyền dữ liệu thành tri thức có ý nghĩa Các bước chính của quá
trình KDD: Lựa Chọn Dữ Liệu: Xác định và lựa chọn dữ liệu cần thiết đề thực
hiện khai phá thông tin Tiền Xử Lý Dữ Liệu: Chuân bị dữ liệu cho quá trình khai
phá băng cách loại bỏ nhiễu, điền giá trị thiếu, và biến đối dữ liệu néu cần Chọn
11
Trang 19Lọc Đặc Trưng: Xác định và chọn lọc các đặc trưng quan trọng trong dữ liệu để
giảm chiều dữ liệu và tập trung vào những thông tin quan trọng nhát Khai Phá Tri Thức: Áp dụng các mô hình và thuật toán khai phá dữ liệu để tìm ra các quy luật,
mô hình, và thông tin tiêm án trong dữ liệu Đánh Giá Trí Thức: Đánh giá hiệu suất và chất lượng của tri thức được khai phá, kiêm tra độ chính xác và ứng dụng
thực tế Tích Hợp Tri Thức: Tích hợp tri thức khai phá được vào hệ thông hoặc quá trình quyét định Tính Cập Nhật và Duy Trì: Liên tục cập nhật và duy tri tri
thức đề giữ cho nó phản ánh sự thay đổi trong dữ liệu và môi trường Tạo Ra Báo Cáo và Trực Quan Hóa: Tạo ra báo cáo và biểu đồ trực quan để giải thích và trình
bày tri thức khai phá được một cách dễ hiệu Tối Ưu Hóa: Tối ưu hóa các mô hình
và thuật toán đề cải thiện hiệu suất và đáp ứng nhu câu ngày càng biến đôi của môi trường Phản Hài và Điều Chỉnh: Lấy phản hồi từ người dùng và kết quả ứng
dụng đề điều chỉnh và cải thiện quá trình KDD Quá trình KDD không chỉ giúp
khám phá tri thức từ dữ liệu mà còn tạo ra cơ hội đề hiểu biết sâu sắc về mối quan
“© , Patterns
| Preprocessing |
„v : ) | Transformed Selection '
Hình 2 1:Knowlegde Discovery in Databases
Mô tả của bạn đang nói về quá trình Knowledge Discovery in Databases (KDD),
một quy trình tổng hợp những bước chính để chuyên dữ liệu thành tri thức có ý nghĩa Mô tả chỉ tiết hơn về mỗi bước: Chuân Bị Thông Tin (Data Preparation):
12
Trang 20Làm Sạch Thông Tin (Data Cleaning): Loai bo nhiéu, giai quyét giá trị thiếu, và xử
lý các lỗi dữ liệu để đảm bảo độ chính xác của dữ liệu Tích Hợp Thông Tin (Data
Integration): Két hợp dữ liệu từ các nguồn khác nhau dé tạo ra một tập dữ liệu đồng nhát và đồng bộ Chọn Thông Tin (Data Selection): Lựa chọn các đặc trưng và biến
đề tập trung vào những thông tin quan trọng trong quá trình khai phá Khai Thác
Théng Tin (Data Mining): Xac Dinh Khai Pha Thong Tin: Lwa chọn mục tiêu và
mục đích cụ thế đẻ khai phá thông tin từ dữ liệu Lựa Chọn Kỹ Thuật Khai Thác
Thông Tin: Áp dụng các thuật toán và phương pháp khai thác thông tin phù hợp với
mục tiêu đặt ra Tri Thức Thô (Raw Knowledge): Từ các két quả khai thác thông
tin, thu được một nguồn tri thức thô chưa qua xử lý hoặc tinh chỉnh Đánh Giá
(Evaluation): Kiêm Tra và Lọc Nguồn Tri Thức: Đánh giá hiệu suất của tri thức thu
được, xem xét độ chính xác, độ tin cậy và khả năng ứng dụng Lặp Lại và Điều
Chinh: Nếu kết quả không đạt yêu càu, quá trình có thẻ được lặp lại và điều chỉnh
dé cai thiện Triên Khai (Deployment): Tích Hợp Tri Thức Vào Hệ Thống: Tri thức
đã được đánh giá và chấp nhận sẽ được tích hợp vào hệ thống hoặc quy trình quyét
định Quá Trình Lặp Lại: Tuần Tự và Lặp Lại: Quá trình KDD là một chuỗi các bước tuân tự, nhưng cũng là một quá trình lặp lại Sau mỗi làn lặp, tri thức có thẻ
được cập nhật và điều chỉnh để đáp ứng các yêu cầu mới Quá trình KDD là một quá trình phức tạp và linh hoạt, đòi hỏi sự chú ý và sự hiểu biết sâu sắc vẻ dữ liệu cũng như mục tiêu cụ thế của quá trình khai phá thông tin
2.1.3 Ứng dụng thông tin
Trong các lĩnh vực kinh doanh, tiếp thị hàng hóa, bảo hiểm, ngân hàng, và nhiều
ngành khác, việc sử dụng dữ liệu và phân tích thông tin là quan trọng để đưa ra
quyết định chiến lược Một số ứng dụng và lợi ích của việc sử dụng dữ liệu và phân
tích thông tin trong các lĩnh vực này: Tiếp Thị và Quảng Cáo: Phân Loại Khách
Hàng: Phân loại khách hàng dựa trên dữ liệu hành vĩ mua hàng và tương tác trực
tuyến để tạo ra chiến lược tiếp thị được tùy chinh cho từng đối tượng Phân Tích Hiệu Suát Chiến Dịch: Đánh giá hiệu suất của các chiến dịch quảng cáo và tiếp thị
để tối ưu hóa ngân sách và tăng cường tương tác Dự Đoán Xu Hướng Tiêu Dùng:
Sử dụng mô hình dự đoán đề hiểu xu hướng tiêu dùng và thích ứng chiến lược tiếp
13
Trang 21thị Bảo Hiểm: Đánh Giá Rủi Ro: Phân tích dữ liệu đẻ đánh giá rủi ro và xây dựng
các mô hình dự đoán cho việc định giá bảo hiểm Quản Lý Khách Hàng: Sử dụng
dữ liệu đề hiểu khách hàng, cá nhân hóa chăm sóc khách hàng và cải thiện tý lệ giữ
chân Ngân Hàng: Đánh Giá Tín Dụng: Sử dụng dữ liệu tài chính và hành vi giao
dịch để đánh giá tín dụng và xác định khả năng thanh toán của khách hàng Phân
Loại Rủi Ro Đầu Tư: Phân tích thị trường và dữ liệu tài chính để phân loại rủi ro
và đưa ra chiến lược đầu tư Báo Cáo và Phân Tích Kinh Doanh: Phân Tích Hiệu
Suát Doanh Nghiệp: Sử dụng báo cáo và phân tích để đánh giá hiệu suất toàn diện của doanh nghiệp và các bộ phận cụ thẻ Dự Đoán Xu Hướng Thị Trường: Sử dụng
dữ liệu thị trường để dự đoán xu hướng và định hình chiến lược kinh doanh Việc
sử dụng dữ liệu và phân tích thông tin giúp tối ưu hóa chiến lược kinh doanh, tăng
cường hiệu suát, và tạo ra quyết định có tính chiến lược dựa trên cơ sở thông tin chính xác và chỉ tiết Quyết định đưa ra thị trường, thị phản nhiều mục hay ít mục hơn phụ thuộc vào mục tiêu chiến lược cu thé cua doanh nghiệp và đội ngũ quản
lý Với ứng dụng lĩnh vực khoa học: trong ngành thiên văn học nó dự đoán đường
đi của các thiên thê bay, hành tinh và nhiều vật thê khác nữa Với lĩnh vực công nghệ sinh lí học thì ta có thể tìm ra các loại gen mới và những thuộc tính mới , cây
giống mới vượt trội hơn các loai giống ban dau
tin DSS thường bao gòm các thành phản sau: Hệ Thóng Thông Tin (Information
System): DSS tích hợp các hệ thống thông tin đề thu thập, lưu trữ, và quản lý dữ
liệu từ các nguồn khác nhau Cơ Sở Dữ Liệu (Database): Lưu trữ dữ liệu cần thiết
để hỗ trợ quyết định, thường là dữ liệu lớn và đa dạng Môi Trường Mô Hình Hóa
(Modeling Environmernt): Cung cấp các công cụ và kỹ thuật mô hình hóa đề phân
tích và dự đoán các tình huống Hệ Thống Hỗ Trợ Quyết Định (Decision Support
System): Bao gồm các ứng dụng và công cụ giúp người quyết định xem xét các tùy
14