1. Trang chủ
  2. » Luận Văn - Báo Cáo

đồ án giữa kì môn học máy machine learning introduction to machine learning

24 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Đồ án giữa kì môn Học máy (Machine Learning) - Introduction to Machine Learning
Tác giả Trần Quang Đãng, Trương Đình Văn, Hoàng Đắc Bình
Người hướng dẫn GV. Lê Anh Cường
Trường học Trường Đại học Tôn Đức Thắng
Chuyên ngành Công nghệ thông tin
Thể loại Đồ án giữa kì
Năm xuất bản 2023
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 24
Dung lượng 1,94 MB

Nội dung

Mục tiêu củamachine learning nói chung là hiểu cấu trúc dữ liệu và điều chỉnh dữ liệu đó thànhcác model mà mọi người có thể hiểu và sử dụng.Mặc dù machine learning là một lĩnh vực trong

Trang 1

ĐỒ ÁN GIỮA KÌ MÔN HỌC MÁY (MACHINE LEARNING)

Introduction to Machine Learning

Người hướng dẫn: GV LÊ ANH CƯỜNG Người thực hiện: TRẦN QUANG ĐÃNG – 52100174

TRƯƠNG ĐÌNH VĂN – 52100369 HOÀNG ĐẮC BÌNH – 52100163

THÀNH PHỐ HỒ CHÍ MINH, NĂM 2023

TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM

Trang 2

ĐỒ ÁN GIỮA KÌ MÔN HỌC MÁY (MACHINE LEARNING)

Introduction to Machine Learning

Người hướng dẫn: GV LÊ ANH CƯỜNG Người thực hiện: TRẦN QUANG ĐÃNG – 52100174

TRƯƠNG ĐÌNH VĂN – 52100369 HOÀNG ĐẮC BÌNH – 52100163

Trang 4

Với vốn kiến thức được tiếp thu trong quá trình học không chỉ là nền tảng cho quá trình nghiên cứu bài báo cáo mà còn là hành trang quí báu để

em có thể có thể kinh nghiệm cho việc học sau này

Cuối cùng em kính chúc quý thầy, cô dồi dào sức khỏe và thành công trong sự nghiệp cao quý,.luôn dồi dào sức khỏe, đạt được nhiều thành công tốt đẹp trong công việc.

Chân thành cảm ơn!

Trang 5

ĐỒ ÁN ĐƯỢC HOÀN THÀNH

TẠI TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG

Tôi xin cam đoan đây là sản phẩm đồ án của riêng tôi / chúng tôi và được sựhướng dẫn của GV Huỳnh Anh Khiêm Các nội dung nghiên cứu, kết quả trong đềtài này là trung thực và chưa công bố dưới bất kỳ hình thức nào trước đây Những

số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá đượcchính tác giả thu thập từ các nguồn khác nhau có ghi rõ trong phần tài liệu thamkhảo

Ngoài ra, trong đồ án còn sử dụng một số nhận xét, đánh giá cũng như sốliệu của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồngốc

Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm về nội dung đồ án của mình Trường đại học Tôn Đức Thắng không liên

quan đến những vi phạm tác quyền, bản quyền do tôi gây ra trong quá trình thựchiện (nếu có)

TP Hồ Chí Minh, ngày 02 tháng 02 năm 2023

Tác giả (ký tên và ghi rõ họ tên) Hoàng Đắc Bình Trần Quang Đãng Trương Đình Văn

Trang 6

PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊNPhần xác nhận của GV hướng dẫn

_

Tp Hồ Chí Minh, ngày tháng năm (kí và ghi họ tên)

Phần đánh giá của GV chấm bài

_

Tp Hồ Chí Minh, ngày tháng năm (kí và ghi họ tên)

Trang 7

TÓM TẮT

Machine learning là một lĩnh vực của trí tuệ nhân tạo (AI) Mục tiêu củamachine learning nói chung là hiểu cấu trúc dữ liệu và điều chỉnh dữ liệu đó thànhcác model mà mọi người có thể hiểu và sử dụng

Mặc dù machine learning là một lĩnh vực trong khoa học máy tính, nó khácvới các phương pháp tính toán truyền thống Trong tính toán truyền thống, các thuậttoán là tập hợp các hướng dẫn được lập trình rõ ràng được sử dụng bởi các máy tính

để tính toán hoặc giải quyết vấn đề Thay vào đó, thuật toán machine learning chophép máy tính đào tạo dữ liệu đầu vào và sử dụng phân tích thống kê để đưa ra cácgiá trị nằm trong một phạm vi cụ thể Do đó, machine learning tạo điều kiện cho cácmáy tính xây dựng model từ dữ liệu mẫu để tự động hóa các quy trình ra quyết địnhdựa trên dữ liệu đầu vào

Bất kỳ người dùng công nghệ ngày nay đã được hưởng lợi từ machinelearning Công nghệ nhận dạng khuôn mặt cho phép các nền tảng truyền thông xãhội giúp người dùng gắn thẻ và chia sẻ ảnh của bạn bè Công nghệ nhận dạng ký tựquang học (OCR) chuyển đổi hình ảnh của văn bản thành loại có thể di chuyển Cáccông cụ đề xuất, được hỗ trợ bởi machine learning, đề xuất những bộ phim hoặcchương trình truyền hình nào để xem tiếp theo dựa trên sở thích của người dùng Xe

tự lái dựa vào machine learning để điều hướng có thể sớm có sẵn cho người tiêudùng

Trong bài báo cáo này, chúng ta sẽ tìm hiểu các phương pháp machinelearning phổ biến về học tập có giám sát và không giám sát, và các phương pháp tiếpcận thuật toán phổ biến trong machine learning

Trang 8

MỤC LỤC

LỜI CẢM ƠN i

PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN iii

TÓM TẮT iv

MỤC LỤC v

DANH MỤC HÌNH VẼ vi

DANH MỤC BẢNG BIỂU vii

Câu 1: 1

1.1 Trình bày các khía cạnh sau đây của các mô hình học máy: 1

1.1.1 Mục tiêu của việc tạo ra mô hình 1

1.1.2 Phương pháp, giải thuật để học mô hình thế nào, tiêu chí học là gì? 1

1.1.3 Mô hình phù hợp cho loại bài toán và dữ liệu nào, ưu nhược điểm Đối với các mô hình: kNN, Linear Regression, Naive Bayes classifiers, Decision Tree Phân tích, so sánh các mô hình này theo 3 yếu tố trên 4

Câu 2: 9

2.4 Liệu sử dụng lọc features có làm tăng độ chính xác của mô hình hay không? 9

Câu 3: 10

3.1 Tìm hiểu vấn đề Overfitting và các phương pháp giải quyết vấn đề này: .10 3.1.1 Overfitting là gì? 10

3.1.2 Phương pháp giải quyết: 11

3.1.3 Cách tránh Overfitting 12

ĐÁNH GIÁ 13 TÀI LIỆU THAM KHẢO I

Trang 9

DANH MỤC HÌNH VẼ

Hình 1: cách thức hoạt động của Supervised

Hình 2: cách thức hoạt động của Unsupervised

Hình 3: hình biểu diễn của 1 overfitting

Trang 10

DANH MỤC BẢNG BIỂU

Bảng 1:So sánh hiệu quả của các phương pháp

Trang 11

Câu 1:

1.1 Trình bày các khía cạnh sau đây của các mô hình học máy:

1.1.1 Mục tiêu của việc tạo ra mô hình

Mục tiêu của việc tạo ra mô hình học máy là để giải quyết một bài toán cụ thể,thông qua việc học hỏi từ dữ liệu Mô hình học máy sẽ tìm ra các mối quan hệ giữacác biến trong dữ liệu, và sử dụng các mối quan hệ này để:

Phân loại dữ liệu

Dự đoán hoặc dự báo

Tối ưu hóa và tìm kiếm

Xử lí ngôn ngữ tự nhiên

Gợi ý cá nhân hóa

1.1.2 Phương pháp, giải thuật để học mô hình thế nào, tiêu chí học là gì?

Có hai phương pháp chính để hướng dẫn mô hình học máy: supervised(có

giám sát) và unsupervised(không giám sát)

Supervised: Kỹ thuật học có giám sát được sử dụng phổ biến hơn trong học

máy vì nó xử lý các tác vụ đơn giản và dễ thực hiện Dữ liệu đầu vào đượcgắn nhãn với câu trả lời mà thuật toán sẽ tìm ra, giúp máy chọn ra các mẫutrong tương lai, phân biệt dữ liệu tốt hơn hoặc đưa ra dự đoán Học có giámsát được phân thành hai loại thuật toán và lý tưởng cho các vấn đề có sẵnđiểm tham chiếu

1 Phân loại Một vấn đề phân loại tồn tại khi biến đầu ra là một danh:

mục cụ thể

2 Hồi quy Vấn đề hồi quy tồn tại khi biến đầu ra là một giá trị thực:

dao động (ví dụ: đô la, trọng lượng, số đo)

Trang 12

Hình 1: cách thức hoạt động của Supervised

Unsupervised : mô hình học máy học một cách tự nhiên thay vì nhận tập dữ

liệu có hướng dẫn rõ ràng Sau đó, nó cố gắng tự động tìm cấu trúc trong dữliệu thô thông qua phân tích và diễn giải Mặc dù học có giám sát là dễ dàngnhất nhưng không phải lúc nào chúng ta cũng có quyền truy cập vào các bộ

dữ liệu được gắn nhãn hoàn chỉnh, hoàn chỉnh để huấn luyện thuật toán Khihọc có giám sát có câu trả lời “đúng”, thì học không giám sát sẽ hữu íchtrong trường hợp các nhà phân tích (hoặc thực sự là bất kỳ ai) đặt câu hỏi vàthuật toán không có câu trả lời hoặc có nhiều hơn một câu trả lời Mô hìnhhọc tập không giám sát được phân thành bốn loại thuật toán khác nhau,nhóm dữ liệu dựa trên sự tương đồng hoặc mối quan hệ giữa các biến:

1 Phân cụm Mô hình học sâu tìm kiếm dữ liệu và tính năng tương tự:

nhau rồi nhóm chúng lại với nhau

2 Liên kết Bằng cách xem xét các thuộc tính chính trong dữ liệu, mô:

hình học không giám sát có thể dự đoán các thuộc tính khác mà chúngthường được liên kết

3 Phát hiện bất thường Trong trường hợp này, mô hình được sử dụng:

để thu hút sự chú ý đến các dữ liệu ngoại lệ Ví dụ: các ngân hàng

Trang 13

phát hiện gian lận bằng cách tìm kiếm các hành vi mua hàng bấtthường với khách hàng—chẳng hạn như nếu thẻ được sử dụng ở haiđịa điểm rất khác nhau trong một ngày, ngân hàng sẽ thông báo vàđiều tra hoạt động đó.

4 Mạng thần kinh nhân tạo (hoặc bộ mã hóa tự động) Bộ mã hóa tự:

động lấy dữ liệu đầu vào, nén thành mã, sau đó cố gắng tạo lại đầuvào từ mã đó đồng thời loại bỏ mọi nhiễu tín hiệu để cải thiện chấtlượng dữ liệu

Hình 2: cách thức hoạt động của Unsupervised

trị của các biến độc lập (Thuộc Supervised)

Trang 14

3 Naive Bayes classifiers: Phương pháp Naive Bayes classifiers là một

mô hình học máy dựa trên xác suất Mô hình này sẽ tính xác suất củamột điểm dữ liệu thuộc về mỗi lớp, và sử dụng lớp có xác suất cao

nhất làm dự đoán.(Thuộc Supervised)

4 Decision Tree: Phương pháp Decision Tree là một mô hình học máydựa trên cây quyết định Mô hình này sẽ xây dựng một cây quyết định

để phân loại dữ liệu.(Trường hợp đặc biệt Decision Tree có thể thuộc

cả vào Supervised learning và Unsupervised learning, tùy thuộcvào cách sử dụng)

1.1.3 Mô hình phù hợp cho loại bài toán và dữ liệu nào, ưu nhược điểm Đối với các mô hình: kNN, Linear Regression, Naive Bayes classifiers, Decision Tree Phân tích, so sánh các mô hình này theo 3 yếu tố trên

1.1.3.1 kNN:

Phù hợp cho: Bài toán phân loại và hồi quy

Dữ liệu: hiệu quả với dữ liệu nhiễu

3 Ít siêu tham số : KNN chỉ yêu cầu giá trị ak và thước đo khoảng cách,thấp khi so sánh với các thuật toán học máy khác

Nhược điểm: Có thể không hiệu quả với dữ liệu lớn, ngoài ra

1 Không có khả năng mở rộng tốt : Vì KNN là một thuật toán “lườibiếng” nên nó chiếm nhiều bộ nhớ và lưu trữ dữ liệu hơn so với các

bộ phân loại khác Điều này có thể tốn kém từ cả góc độ thời gian và

Trang 15

tiền bạc Nhiều bộ nhớ và dung lượng lưu trữ hơn sẽ làm tăng chi phíkinh doanh và nhiều dữ liệu hơn có thể mất nhiều thời gian hơn đểtính toán

2 Lời nguyền về chiều : Thuật toán KNN có xu hướng trở thành nạnnhân của lời nguyền về chiều, nghĩa là nó không hoạt động tốt với dữliệu đầu vào có chiều cao Điều này đôi khi còn được gọi là peakingphenomenon( hiện tượng đạt đỉnh)

3 Dễ bị overfitting : Do bị “lời nguyền về chiều kích”, KNN cũng dễ bịoverfitting hơn Mặc dù các kỹ thuật lựa chọn tính năng và giảm kíchthước được tận dụng để ngăn điều này xảy ra, giá trị của k cũng có thểảnh hưởng đến hành vi của mô hình Giá trị k thấp hơn có thể khớp dữliệu quá mức, trong khi giá trị k cao hơn có xu hướng “làm mịn” cácgiá trị dự đoán vì nó lấy trung bình các giá trị trên một khu vực hoặcvùng lân cận lớn hơn Tuy nhiên, nếu giá trị của k quá cao thì dữ liệu

có thể không phù hợp

1.1.3.2 Linear Regression:

Phù hợp cho: Bài toán hồi quy

Dữ liệu: hiệu quả với dữ liệu tuyến tính

Ưu điểm:

1 Thực hiện đơn giản: Dễ hiểu và triển khai

2 Hiệu suất trên các bộ dữ liệu có thể phân tách tuyến tính: Hồi quytuyến tính phù hợp gần như hoàn hảo với các tập dữ liệu có thể phântách tuyến tính và thường được sử dụng để tìm ra bản chất của mốiquan hệ giữa các biến

3 Overfitting có thể được giảm bớt bằng cách chính quy hóa: là một kỹthuật có thể được thực hiện dễ dàng và có khả năng làm giảm độ phứctạp của một hàm một cách hiệu quả để giảm nguy cơ Overfitting

Nhược điểm:

1 Có thể không hiệu quả với dữ liệu phi tuyến

Trang 16

2 Dễ bị Underfitting: Một tình huống phát sinh khi mô hình học máykhông thu thập được dữ liệu đúng cách Điều này thường xảy ra khihàm giả thuyết không thể khớp tốt với dữ liệu.

3 Nhạy cảm với các ngoại lệ:Các ngoại lệ của một tập dữ liệu là các giátrị bất thường hoặc cực trị lệch khỏi các điểm dữ liệu khác của phânphối Các ngoại lệ dữ liệu có thể làm hỏng nghiêm trọng hiệu suấtcủa mô hình học máy và thường có thể dẫn đến các mô hình có

độ chính xác thấp

1.1.3.3 Naive Bayes classifiers:

Phù hợp cho: Bài toán phân loại

Dữ liệu: hiệu quả với dữ liệu phân tách tốt

Ưu điểm:

1 Dễ hiểu và triển khai

2 Thuật toán này hoạt động nhanh chóng và có thể tiết kiệm rất nhiềuthời gian

3 Naive Bayes phù hợp để giải các bài toán dự đoán đa lớp

4 Nếu giả định về tính độc lập của các tính năng là đúng thì nó có thểhoạt động tốt hơn các mô hình khác và yêu cầu ít dữ liệu huấn luyệnhơn nhiều

5 Naive Bayes phù hợp hơn với các biến đầu vào phân loại hơn là cácbiến số

Nhược điểm:

1 Có thể không hiệu quả với dữ liệu phân tách kém

2 Naive Bayes cho rằng tất cả các yếu tố dự đoán (hoặc đặc điểm) đềuđộc lập, hiếm khi xảy ra trong đời thực Điều này hạn chế khả năng

áp dụng thuật toán này trong các trường hợp sử dụng trong thế giớithực

Trang 17

3 Thuật toán này phải đối mặt với 'vấn đề tần số bằng 0' trong đó nógán xác suất bằng 0 cho một biến phân loại có danh mục trong tập dữliệu thử nghiệm không có sẵn trong tập dữ liệu huấn luyện Sẽ tốtnhất nếu bạn sử dụng kỹ thuật làm mịn để khắc phục vấn đề này.

4 Ước tính của nó có thể sai trong một số trường hợp, vì vậy bạn khôngnên quá coi trọng kết quả xác suất của nó

1.1.3.4 Decision Tree:

Phù hợp cho: Bài toán phân loại

Dữ liệu: dữ liệu phân tách tốt

Ưu điểm:

1 Dễ hiểu và triển khai, hiệu quả với

2 Khả năng giải thích: Một trong những ưu điểm quan trọng nhất củaCây quyết định là nó rất trực quan và dễ hiểu

3 Ít chuẩn bị dữ liệu hơn: Các bước chuẩn bị dữ liệu điển hình nhưchuẩn hóa/tiêu chuẩn hóa dữ liệu, xử lý giá trị còn thiếu, giới hạnngoại lệ, v.v., không bắt buộc đối với cây quyết định, khiến nó trởthành thuật toán 'bắt buộc' đối với các nhà khoa học dữ liệu

4 Phi tham số: Cây quyết định là một thuật toán phi tham số và do đókhông có giả định quan trọng nào cần được thực hiện hoặc phânphối dữ liệu cần được xem xét

5 Tính linh hoạt: một thuật toán rất linh hoạt và có thể thực hiện nhiềuvai trò ngoài các dự đoán tiêu chuẩn

6 Phi tuyến tính: Cây quyết định có thể tạo ra các ranh giới quyết địnhphức tạp, cho phép chúng dễ dàng giải quyết các vấn đề phi tuyếntính Trong khi các thuật toán khác có thể giải quyết vấn đề phituyến tính, ưu điểm của Cây quyết định là nó mang lại khả năngdiễn giải được

Nhược điểm:

1 Có thể không hiệu quả với dữ liệu nhiễu

Trang 18

2 Overfitting: Một trong những nhược điểm phổ biến và nổi bật nhấtcủa cây quyết định là thuật toán có phương sai cao Điều này có nghĩa

là nó có thể dễ dàng bị Overfitting vì nó không có cơ chế cố hữu đểdừng lại, từ đó tạo ra các quy tắc quyết định phức tạp

3 Giảm tính năng và lấy mẫu lại dữ liệu: Cây quyết định có thể tốnnhiều thời gian trong giai đoạn huấn luyện và vấn đề này có thể bịphóng đại nếu có nhiều biến độc lập liên tục Ngoài ra, nếu có tập dữliệu lớp không cân bằng, mô hình có thể trở nên thiên về lớp đa số

4 Tối ưu hóa: Ở mọi cấp độ, thuật toán cây quyết định tìm kiếm nútthuần túy và không xem xét quyết định gần đây sẽ ảnh hưởng như thếnào đến một số giai đoạn phân tách tiếp theo Đây là lý do tại sao nóđược biết đến như một thuật toán tham lam.Phương pháp làm việc nàylàm cho mô hình có thể hiểu được nhưng không đảm bảo rằng thuậttoán sẽ trả về kết quả tối ưu toàn cục Ngoài ra, nếu một vài biến có ýnghĩa lớn hoặc gây rò rỉ dữ liệu, chúng sẽ ‘chiếm quyền điều khiển'quy trình

1.1.3.5 So sánh:

Regression

Naive Bayes classifiers Decision Tree Mục tiêu Phân loại hoặc hồi

quy Hồi quy Phân loại Phân loại

Phương pháp Dựa trên sự gần

loại bài toán

Phân loại và hồi

quy

Hồi quy Phân loại Phân loại

Ngày đăng: 07/05/2024, 18:24

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w