1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng thuật toán giảm chiều dữ liệu pca trong bài toán tỉ lệ tử vong do sốt xuất huyết

34 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng Dụng Thuật Toán Giảm Chiều Dữ Liệu PCA Trong Bài Toán Tỉ Lệ Tử Vong Do Sốt Xuất Huyết
Tác giả Nguyễn Đăng Minh
Người hướng dẫn Lê Mình Hùng
Trường học Trường Đại Học Điện Lực
Chuyên ngành Công Nghệ Thông Tin
Thể loại báo cáo
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 34
Dung lượng 4,22 MB

Nội dung

phân tích một số thuật toán cũng như đặc điểm của dữ liệu thu nhập được về virus,đề tài đề xuất thuật toán giảm chiều dữ liệu PCA để tìm ra qui luật tìm ẩn trong dữliệu.. Sau khi phân tí

Trang 1

TRƯNG ĐI HC ĐIÊN LC KHOA CÔNG NGHỆ THÔNG TIN

BÁO CÁO MÔN HC NGÔN NGỮ LẬP TRÌNH PYTHON

ĐỀ TÀI:

Ứng dụng thuật toán giảm chiều dữ liệu PCA trong bài toán tỉ lệ tử vong do sốt xuất huyết

Sinh viên thực hiện :NGUYỄN ĐĂNG MINH

Giảng viên hướng dẫn : LÊ MNH HÙNG

Trang 3

Mục lục

CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI 7

1.1 Đặt vấn đề 7

1.2 Cơ sở hình thành đề tài 8

1.3 Mục tiêu đề tài 8

1.4 Đối tượng và phương pháp nghiên cứu 9

1.5 Ý nghĩa đề tài 9

1.5.1 Ý nghĩa khoa học 9

1.5.2 Ý nghĩa thực tiễn 10

1.6 Bố cục đề tài 10

CHƯƠNG 2: HC MÁY(MACHINE LEARNING) 11

2.1 Tổng quan về Học Máy(Machine Learning) 11

2.1.1 Khái niệm về học máy 11

2.1.2 Phân loại học máy 12

2.1.2.1 Học có giám sát (Supervised machine learning) 13

2.1.2.2 Học không giám sát(Unsupervised machine learning) 13

2.1.2.3 Học tập bán giám sát (Semi-Supervised Learning) 14

2.1.3 Ứng dụng của học máy 15

2.2 Các thuật toán của phổ biến của học máy 16

2.3 Quy trình làm việc của học máy 17

2.3.1 Đánh giá vấn đề 17

2.3.2 Nguồn dữ liệu và chuẩn bị dữ liệu 17

2.3.3 Mã mô hình 18

2.3.4 Đào tạo , đánh giá và điều chỉnh mô hình 18

2.3.5 Cải thiện 19

2.4 Cơ sở dữ liệu Y khoa 19

2.4.1 Sơ lược về sốt xuất huyết 19

2.4.2 Sự lây truyền 19

2.4.3 Dấu hiệu và triệu chứng 20

CHƯƠNG 3: BÀI TOÁN GIẢM CHIỀU DỮ LIỆU VÀ THUẬT TOÁN GIẢM CHIỀU DỮ LIỆU PCA 23

3.1 Giới thiệu về bài toán giảm chiều dữ liệu trong Machine Learning 23

3.2 Mục đích của giảm chiều dữ liệu 24

3.3 Thuật toán giảm chiều dữ liệu PCA 25

CHƯƠNG 4: THC NGHIỆM VÀ KẾT QUẢ 27

4.1 Tập dữ liệu bệnh sốt xuất huyết 27

2

Trang 4

4.2 Khai báo các thư viện 27

4.3 Tiền xử lí dữ liệu 27

4.4 Giải quyết bài toán 28

4.5 Kết quả 30

KẾT LUẬN 32

DANH MỤC TÀI LIỆU THAM KHẢO 33

Trang 5

Hình 4.1 Dữ liệu sốt xuất huyết

Hình 4.2 Khai báo thư viện

Hình 4.3 Loại bỏ dữ liệu NaN không cần thiết

Hình 4.4 Hiện thông tin 2 cột đã chọn

Hình 4.5 : Biến đổi quy mô dữ liệu

Hình 4.6 Tạo đối tượng PCA

Hình 4.7 Biểu đồ kết quả

Hình 4.8 Hình ảnh kết quả của thuật toán

4

Trang 6

LI CẢM ƠN

Qua bài tập lớn này, chúng em xin gửi lời cảm ơn tới thầy cô khoa côngnghệ thông tin, đặc biệt là thầy Lê Mạnh Hùng đã cho chúng em có cơ hội đượctìm hiểu một góc kiến thức mới, hay và bổ ích cùng với đó là sự tận tâm dạy dỗchúng em, giúp chúng em có thể hoàn thiện đề tài này Trong quá trình tìm hiểu vàhoàn thiện, đề tài sẽ không thể tránh khỏi những sai sót, khuyết điểm Vì vậy,nhóm thực hiện chúng em hy vọng nhận được sự đánh giá và đóng góp nhiệt tình

từ phía thầy và các bạn để bài của nhóm chúng em được hoàn thiện hơn

Qua bài tập lớn này, chúng em xin cảm ơn các bạn bè lớp D15CNPM1 đãgiúp đỡ chúng em trong quá trình học tập và làm bài tập lớn, đã chia sẻ kinhnghiệm kiến thức của các bạn đã tạo nên nền tảng kiến thức cho chúng em.Cuối cùng, chúng em xin gửi lời cảm ơn gia đình đặc biệt là cha mẹ đã tạođiều kiện tốt nhất cho con có đủ khả năng thực hiện bài tập lớn này, trang trải họcphí, đông viên tinh thần cho em để học tập trong môi trường đại học tuyệt vời này.Chúng em xin chân thành cảm ơn!

Sinh viên thực hiệnNGUYỄN ĐĂNG MINH

Trang 7

TÓM TẮT

Ngành y tế và giáo dục luôn là vấn đề sống còn của bất kỳ quốc gia nào trênthế giới Trong những năm gần đây, chính phủ Việt nam đặc biệt đầu tư cho haingành mũi nhọn này thông qua các chính sách , nguồn vốn dành cho trang thiết bị

hạ tầng và nghiên cứu khoa học Trong lĩnh vực khoa học, càng ngày càng có nhiềucông trình khoa học trong y tế Tuy nhiên các nghiên cứu khoa học về ứng dụngcông nghệ thông tin để giải quyết bài toán về y tế là không nhiều Do sự nguyhiểm và tình hình nguy hiểm của sốt xuất huyết xảy ra trên toàn thế giới, vậy nên

em làm đề tài sử dụng môn học học máy nâng cao để xác định đánh gía tỷ lệ tửvong của người dân trên 200 quốc gia và vũng lãnh thổ để cho thấy sự nguy hiểm

và nhóm các nước bị ảnh hưởng nhiều nhất

Nghiên cứu tiến hành theo 4 bước chính:

(1) Tìm hiểu nghiệp vụ y tế liên quan đến virus sốt xuất huyết

(2) Thu nhập và tiền xử lý dữ liệu

(4) Hiện thực chương trình máy tính và đánh giá ý nghĩa thực tiễn

6

Trang 8

CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI

1.1 Đặt vấn đề

Ứng dụng công nghệ thông tin vào việc lưu trữ và xử lý thông tin ngày nayđược áp dụng hầu hết trong lĩnh vực, điều này đã tạo ra một lượng lớn dữ liệuđược lưu trữ với kích thước tăng lên không ngừng Đây chính là điều kiện tốt choviệc khai thác kho dữ liệu để đem lại tri thức có ích với các công cụ truy vấn, lậpviệc khai thác kho dữ liệu để đem lại tri thức có ích với các công cụ truy vấn, lậpbẳng biểu và học máy

Học máy là một kỹ thuật dựa trên nền tảng của nhiều lý thuyết như xác xuất,thống kê, máy học nhằm tìm kiếm các tri thức tiềm ẩn trong các kho dữ liệu cókích thước lớn mà người dùng khó có thể nhận biết bằng những kỹ thuật thôngthường Nguồn dữ liệu y khoa rất lớn, nếu áp dụng học máy trong lĩnh vực này sẽmang lại nhiều ý nghĩa cho ngành y tế Nó sẽ cung cấp những thông tin quý giánhằm hỗ trợ trong việc chuẩn đoán và điều trị sớm giúp bệnh nhân thoát đượcnhiều căn bệnh hiểm nghèo

Trong lĩnh vực y khoa Việt Nam, hiện nay các tuyến y tế phường, xã, vùngsâu, vùng xa còn thiếu nhân lực y tế có trình độ chuyên môn và thiếu các trangthiết bị cần thiết trong chuẩn đoán bệnh Vì vậy xây dựng hệ thống chuẩn đoán rấtcần thiết cho ngành y tế hiện nay ở Việt Nam Hệ hỗ trợ sẽ kết hợp với cán bộ y tếgiúp chuẩn đoán sớm một số bệnh phát hiện sớm được những bệnh nguy hiểm vàgiảm gánh nặng kinh tế cho gia đình bệnh nhân và xã hội Để minh chứng chonhững lợi ích mà việc chuẩn đoán mang lại, đề tài chọn bộ dữ liệu về virus sốt xuấthuyết để thử nghiệm và đánh giá

Ứng dụng kỹ thuật giảm chiều dữ liệu PCA trong học máy nhằm xây dựng

hệ thống đánh giá là một trong những hướng nghiên cứu chính của đề tài Sau khi

Trang 9

phân tích một số thuật toán cũng như đặc điểm của dữ liệu thu nhập được về virus,

đề tài đề xuất thuật toán giảm chiều dữ liệu PCA để tìm ra qui luật tìm ẩn trong dữliệu

1.2 Cơ sở hình thành đề tài

Sốt xuất huyết hay chính xác hơn là sốt xuất huyết do virus là một nhóm cácbệnh do một số họ virus sau: Arenavirus, Filoviridae, Bunyaviridae và Flavivirus.Một số loài virus có thể gây bệnh nhẹ như sốt Nephropathia Scandinavia, trong khi

đó một số loài khác có thể gây bệnh tương đối nặng, thậm chí có thể gây tử vong,chẳng hạn như sốt Lassa, virus Marburg, Bệnh virus Ebola, sốt xuất huyết Bolivia,Hantavirus (sốt xuất huyết Triều Tiên), sốt xuất huyết Crimea-Congo, và sốt xuấthuyết Dengue Đây là bệnh sốt cao có xuất huyết, có thể quy vào các chứng ôndịch, thời độc, thử táo dịch hoặc thấp nhiệt Sốt xuất huyết được truyền qua muỗi,đặc biệt là muỗi vằn

Ở Việt Nam, tỷ lệ người trên 15 tuổi mắc sốt xuất huyết tại các tỉnh phíaNam đã tăng từ 35% năm 1999 lên đến 60% năm 2017 Theo các bác sĩ chuyênngành, đây là điều rất đáng lo ngại vì người lớn bị sốt xuất huyết dễ tử vong hơntrẻ em

Do đó , chúng em sẽ sử dụng bộ dữ liệu có từ trong và ngoài nước để có thểđánh giá cụ thể và chính xác nhất về loại virus nguy hiểm này

1.3 Mục tiêu đề tài

Đề tài tập chung vào nghiên cứu kỹ thuật phân cụm trong học máy, từ đónắm bắt được những giải thuật làm tiền đề cho nghiên cứu và xây dựng ứng dụng

8

Trang 10

cụ thể Sau khi phân tích đặc điểm của dữ liệu thu nhập được và lựa chọn giải thuậtphù hợp với dữ liệu, việc xây dựng và đánh giá chất lượng, độ hiệu quả của hệthống cũng là mục tiêu chính của đề tài.

1.4 Đối tượng và phương pháp nghiên cứu

Đề tài tập chung vào nghiên cứu kỹ thuật phân cụm trong học máy cụ thể lànghiên cứu thuật toán giảm chiều dữ liệu PCA để áp dụng vào việc phân tích cơ sở

dữ liệu tỷ lệ tử vong của sốt xuất huyết , thu nhập dữ liệu tử vong vì sốt xuất huyết

từ các tình nguyện viện trên 200 quốc gia và vùng lãng thổ khác nhau Sử dụngphương pháp và nghiên cứu hồi cứu với sự hỗ trợ chuyên môn của các bác sĩchuyên khoa, đề tài tiến hành nghiên cứu trên cơ sở thuật toán trong học máy

1.5 Ý nghĩa đề tài

1.5.1 Ý nghĩa khoa học

Với sự trợ giúp của máy tính, đề tài đóng góp một biện pháp thực hiện hỗ trợcác cán bộ y tế đánh giá bệnh cho bệnh nhân Kết quả, Kinh nghiệm thu được khithực hiện đề tài này sẽ giúp các cán bộ y tế phát hiện sớm bệnh cho bệnh nhân,đồng thời mong muốn những người đang công tác trong lĩnh vực y khoa và Khoahọc máy tính ngồi lại với nhau để tìm ra những giải pháp tốt hơn trong vấn đề điềutrị bệnh bằng cách kết hợp giữa 2 lĩnh vực y học và khoa học máy tính

Trang 11

1.5.2 Ý nghĩa thực tiễn

Đánh giá tỷ lệ nhiễm , tử vong do virus và phát hiện bệnh là cả một quá trình, đòihỏi các cán bộ y tế không những phải thật vững chuyên môn mà còn có đầy đủ cáctrang thiết bị y tế mới có thể chuẩn đoán chính xác bệnh cho bệnh nhân Nếu chuẩnđoán sai bệnh sẽ đưa đến điều trị sai, không phát hiện sớm bệnh cho bệnh nhân,…

1.6 Bố cục đề tài

Đề tài được chia thành các phần:

Chương 1: Tổng quan đề tài

Chương 2: Học Máy (Machine Learning)

Chương 3: Bài toán giảm chiều dữ liệu và thuật toán giảm chiều dữ liệu PCAChương 4: Thực nghiệm và kết quả

10

Trang 12

CHƯƠNG 2: HC MÁY(MACHINE LEARNING)

2.1 Tổng quan về Học Máy(Machine Learning)

2.1.1 Khái niệm về học máy

nghiệp 4.0, các thuật ngữ như trí tuệ nhân tạo (AI), học máy (machine learning) vàhọc sâu (deep learning) đang dần trở nên phổ biến và trở thành những khái niệm

mà các công dân của kỷ nguyên 4.0 buộc phải nắm được

Có thể giải thích mối liên hệ giữa 3 khái niệm này bằng cách tưởng tượngchúng như những vòng tròn, trong đó AI - ý tưởng xuất hiện sớm nhất - là vòngtròn lớn nhất, tiếp đến là machine learning - khái niệm xuất hiện sau, và cuối cùng

là deep learning - thứ đang thúc đẩy sự bùng phát của AI hiện nay

Việc xây dựng lên một hệ thống AI đương nhiên là cực kì phức tạp, tuynhiên việc hiểu được nó lại không đến nỗi khó khăn như vậy Hầu hết các trí thôngminh nhân tạo hiện tại chỉ là những máy đoán thực sự tốt (guessing machines,tương tự như bộ não của chúng ta) Bạn bạn cung cấp cho hệ thống một nhóm dữliệu (chẳng hạn như các chữ số từ 1 đến 10) và yêu cầu hệ thống tạo mô hình (x +

1, bắt đầu từ 0) và đưa ra các dự đoán (Con số tiếp theo sẽ là mười một) Không

có phép thuật nào cả, đây là công việc mà bộ não của con người làm mỗi ngày: sửdụng những gì chúng ta biết để đoán về những điều chúng ta chưa biết

Điều khiến AI khác với các chương trình máy tính khác là thay vì phải lập ranhững trình chương trình cụ thể cho mỗi trường hợp, chúng ta hoàn toàn có thể dạyhọc cho AI (machine learning), và nó cũng có khả năng tự học (deep learning)

Machine Learning có nghĩa là học máy Đây là một lĩnh vực của trí tuệ nhântạo (AI)liên quan đến việc nghiên cứu và xây dựng các kĩ thuật cho phép các hệthống “học” tự động từ dữ liệu để giải quyết những vấn đề cụ thể Các thuật toáncủa phương pháp học máy là các chương trình máy tính có khả năng học hỏi vềcách hoàn thành các nhiệm vụ và cách cải thiện hiệu suất theo thời gian

Trang 13

Máy có khả năng thích nghi với các điều kiện môi trường xung quanh để rúttrích ra các nguyên lý từ tri thức thu nhận được phục vụ cho việc ra quyết định Cóthể kể đến một số sản phẩm của phương pháp học máy như: Cảnh báo giao thôngtrên ứng dụng Google Maps, Deepface của mạng xã hội Facebook, các máy có thể

“học” cách phân loại thư điện tử xem có phải thư rác (spam) hay không và tự độngxếp chúng vào thư mục tương ứng

Machine Learning là một thuật ngữ rộng để chỉ hành động bạn dạy máy tínhcải thiện một nhiệm vụ mà nó đang thực hiện Cụ thể hơn, machine learning đề cậptới bất kỳ hệ thống mà hiệu suất của máy tính khi thực hiện một nhiệm vụ sẽ trởnên tốt hơn sau khi hoàn thành nhiệm vụ đó nhiều lần Hay nói cách khác, khảnăng cơ bản nhất của machine learning là sử dụng thuật toán để phân tích nhữngthông tin có sẵn, học hỏi từ nó rồi đưa ra quyết định hoặc dự đoán về một thứ gì đó

có liên quan Thay vì tạo ra một phần mềm với những hành động, hướng dẫn chitiết để thực hiện một nhiệm vụ cụ thể, máy tính được “huấn luyện” bằng cách sửdụng lượng dữ liệu và các thuật toán để học cách thực hiện nhiệm vụ

Nếu không có machine learning, AI hiện tại sẽ bị hạn chế khá nhiều bởi nómang lại cho máy tính sức mạnh để tìm ra mọi thứ mà không được lập trình rõràng Ví dụ về một loại machine learning, giả sử bạn muốn một chương trình có thểxác định được mèo trong các bức ảnh:

 Đầu tiên, bạn cung cấp cho AI một tập hợp các đặc điểm của loài mèo đểmáy nhận dạng, ví dụ như màu sắc lông, hình dáng cơ thể, kích thước…

 Tiếp theo, bạn cung cấp một số hình ảnh cho AI, trong đó một số hoặctất cả các hình ảnh có thể được dán nhãn "mèo" để máy có thể chọn hiệuquả hơn các chi tiết, đặc điểm có liên quan đến mèo

 Sau khi máy đã nhận được đủ dữ liệu cần thiết về mèo, nó phải biết cáchtìm một con mèo trong một bức tranh - “Nếu trong hình ảnh có chứa cácchi tiết X, Y, hoặc Z nào đó, thì 95% khả năng đó là một con mèo”

2.1.2 Phân loại học máy

12

Trang 14

Có rất nhiều cách phân loại machine learning, thông thường thì machinelearning sẽ được phân làm hai loại chính sau:

 Supervised learning: học có giám sát

 Unsupervised learning: học không giám sát

Ngoài ra, machine learning còn có thể phân làm các loại sau:

 Semi-supervised learning: học bán giám sát

 Deep learning: học sâu (về một vấn đề nào đó)

 Reinforce learning: học củng cố/tăng cường

2.1.2.1 Học có giám sát (Supervised machine learning)

Supervised learning còn được gọi là máy học có giám sát, được định nghĩabằng cách sử dụng các tập dữ liệu được gắn nhãn để huấn luyện các thuật toánphân loại dữ liệu hoặc dự đoán kết quả một cách chính xác

Khi dữ liệu đầu vào được đưa vào mô hình, mô hình sẽ điều chỉnh trọnglượng của nó cho đến khi nó được lắp một cách thích hợp Điều này xảy ra nhưmột phần của quá trình xác nhận chéo để đảm bảo rằng mô hình tránh trang bị quánhiều hoặc trang bị thiếu thông tin

Supervised machine learning giúp các tổ chức giải quyết nhiều vấn đề trongthế giới thực trên quy mô lớn, chẳng hạn như phân loại thư rác trong một thư mụcriêng biệt từ hộp thư đến của bạn

Đây là kỹ thuật học sử dụng cho các bài toán phân lớp (Classification) Một

số thuật toán thường được lựa chọn khi xây dựng bộ phân lớp này gồm có: Máyvector hỗ trợ (Support Vector Machine – SVM); Cây quyết định (Decision Tree –DT); sử dụng mạng nơron (Neural Network – Net); dựa trên vector trọng tâm(Centroid– based vector); hay tuyến tính bình phương nhỏ nhất (Linear LeastSquare Fit – LLSF)

Một số phương pháp được sử dụng trong Supervised machine learning baogồm: logistic regression, neural networks, linear regression, naive bayes, randomforest, và support vector machine (SVM)

2.1.2.2 Học không giám sát( Unsupervised machine learning )

Unsupervised machine learning là phương pháp sử dụng các thuật toán máyhọc để phân tích và phân cụm các tập dữ liệu không được gắn nhãn

Không cần sự can thiệp của con người, các thuật toán này có thể phát hiện racác mẫu hoặc nhóm dữ liệu ẩn Khả năng phát hiện ra những điểm tương đồng vàkhác biệt trong thông tin của phương pháp này khiến nó trở nên lý tưởng cho việc

Trang 15

phân tích dữ liệu khám phá, chiến lược bán chéo (cross-sell), phân khúc kháchhàng cũng như nhận dạng hình ảnh và mẫu

Unsupervised machine learning cũng được sử dụng để giảm số lượng cáctính năng trong một mô hình thông qua quá trình giảm kích thước Phân tích thànhphần chính (PCA) và phân tích giá trị đơn lẻ (SVD) là hai cách tiếp cận phổ biếncho việc này

Đây là kỹ thuật học sử dụng cho các bài toán phân cụm, gom cụm(Clustering) Có rất nhiều thuật toán học không giám sát được ra đời và phát triểnnhằm giải quyết bài toán phân cụm phục vụ khai thác hiệu quả nguồn dữ liệu chưagán nhãn nhiều và rất đa dạng Việc lựa chọn sử dụng thuật toán nào tuỳ thuộc vào

dữ liệu và mục đích của từng bài toán Trong đó có các thuật toán thường được sửdụng như: k-means, HAC (Hierarchical Agglomerative Clustering), SOM (Self-Organizing Map), DBSCAN, FCM,…

Các thuật toán khác được sử dụng trong học tập không giám sát bao gồm: means clustering, neural networks, và probabilistic clustering methods

k-2.1.2.3 Học tập bán giám sát ( Semi-Supervised Learning )

Semi-supervised learning cung cấp một phương pháp hiệu quả giữa học tập

có giám sát và không giám sát Trong quá trình đào tạo, nó sử dụng một tập dữ liệu

có nhãn nhỏ hơn để hướng dẫn phân loại và trích xuất tính năng từ một tập dữ liệulớn hơn, không được gắn nhãn

Phương pháp Semi-supervised learning có thể giải quyết vấn đề không có đủ

dữ liệu được gắn nhãn cho thuật toán học có giám sát Nó cũng hữu ích nếu quátốn kém để gắn nhãn đủ dữ liệu

Học bán giám sát là một lớp của kỹ thuật học máy, sử dụng cả dữ liệu đã gánnhãn và chưa gán nhãn để huấn luyện – điển hình là một lượng nhỏ dữ liệu có gánnhãn cùng với lượng lớn dữ liệu chưa gán nhãn Một số thuật toán thường được sửdụng gồm có: thuật toán Cực đại kỳ vọng (EM – Expectation Maximization), SVMtruyền dẫn (TSVM – Transductive Support Vector Machine), Self-training, Co-training và các phương pháp dựa trên đồ thị (graph-based)

2.1.3 Ứng dụng của học máy

Machine learning được ứng dụng cực kỳ nhiều trong đời sống hiện nay trongmọi lĩnh vực:

14

Trang 16

Ví dụ đơn giản như dự báo thời tiết, người ta sẽ dùng các phép tính và nhữngquan sát, ghi nhận về thời tiết trong quá khứ để dự báo về thời tiết của những ngày

kế tiếp Tuy nhiên sẽ thế nào nếu như có cực kỳ nhiều quan sát được thực hiện, cóthể lên đến hàng triệu, hàng tỉ quan sát, lúc đó con người không thể nào thực hiệnđược việc tính toán trên dữ liệu lớn như vậy Hơn nữa, việc tính toán với dữ liệulớn như vậy có thể gặp sai sót và dẫn đến kết quả dự đoán bị sai

Khi này, việc áp dụng machine learning vào để cho máy tính học các quansát được ghi nhận trong quá khứ, chúng có thể dự đoán được thời tiết trong tươnglai với độ chính xác cao hơn rất nhiều so với con người dự đoán

2.2 Các thuật toán của phổ biến của học máy

 Neural networks: Mô phỏng cách thức hoạt động của bộ não con người, vớimột số lượng khổng lồ các nút xử lý được liên kết Neural networks là thuậttoán được dùng trong việc nhận dạng các mẫu và đóng một vai trò quan

Trang 17

trọng trong các ứng dụng bao gồm dịch ngôn ngữ tự nhiên, nhận dạng hìnhảnh, nhận dạng giọng nói và tạo hình ảnh.

 Linear regression: Thuật toán này được sử dụng để dự đoán các giá trị số,dựa trên mối quan hệ tuyến tính giữa các giá trị khác nhau

 Logistic regression: Thuật toán giúp đưa ra dự đoán cho các biến phản hồiphân loại, chẳng hạn như câu trả lời “có/không” cho các câu hỏi Nó có thểđược sử dụng cho các ứng dụng như phân loại thư rác và kiểm soát chấtlượng trên dây chuyền sản xuất

 Clustering: Các thuật toán phân cụm có thể xác định các mẫu trong dữ liệu

để nó có thể được nhóm lại Máy tính có thể giúp các nhà khoa học dữ liệubằng cách xác định sự khác biệt giữa các mục dữ liệu mà con người đã bỏqua

 Decision trees: Là thuật toán được sử dụng để dự đoán giá trị số (hồi quy) vàphân loại dữ liệu Decision trees sử dụng một chuỗi phân nhánh của cácquyết định được liên kết có thể được biểu diễn bằng sơ đồ cây Một trongnhững ưu điểm của decision trees là chúng dễ xác thực và kiểm tra, khônggiống thuật toán Neural networks

 Random forests: Trong một khu rừng ngẫu nhiên, thuật toán máy học dựđoán một giá trị hoặc danh mục bằng cách kết hợp các kết quả từ một số câyquyết định

16

Ngày đăng: 22/01/2025, 14:49

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN