TIỂU LUẬN GIỮA KỲ NHẬP MÔN HỌC MÁY

TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG KHOA CÔNG NGHỆ THÔNG TIN TIỂU LUẬN GIỮA KỲ NHẬP MÔN HỌC MÁY Người hướng dẫn: LÊ ANH CƯỜNG Người thực hiện: VÕ MINH NHẬT – 52000788 NGUYỄN HUỲNH NGUYÊN – 52000785 LÊ PHI LONG – 52000778 Lớp : 20050301 Khố THÀNH PHỐ HỒ CHÍ MINH, NĂM 2022 : 24 i TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG KHOA CÔNG NGHỆ THÔNG TIN TIỂU LUẬN GIỮA KỲ NHẬP MÔN HỌC MÁY Người hướng dẫn: LÊ ANH CƯỜNG Người thực hiện: VÕ MINH NHẬT – 52000788 NGUYỄN HUỲNH NGUYÊN – 52000785 LÊ PHI LONG – 52000778 Lớp : 20050301 Khoá THÀNH PHỐ HỒ CHÍ MINH, NĂM 2022 : 24 ii BÀI TẬP LỚN ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC TƠN ĐỨC THẮNG Tôi xin cam đoan sản phẩm đồ án riêng hướng dẫn thầy Lê Anh Cường; Các nội dung nghiên cứu, kết đề tài trung thực chưa cơng bố hình thức trước Những số liệu bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá tác giả thu thập từ nguồn khác có ghi rõ phần tài liệu tham khảo Ngoài ra, đồ án sử dụng số nhận xét, đánh số liệu tác giả khác, quan tổ chức khác có trích dẫn thích nguồn gốc Nếu phát có gian lận tơi xin hồn tồn chịu trách nhiệm nội dung đồ án Trường đại học Tôn Đức Thắng không liên quan đến vi phạm tác quyền, quyền gây q trình thực (nếu có) TP Hồ Chí Minh, ngày tháng năm Tác giả (ký tên ghi rõ họ tên) Võ Minh Nhật Nguyễn Huỳnh Nguyên Lê Phi Long iii PHẦN XÁC NHẬN VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN Phần xác nhận GV hướng dẫn _ _ _ _ _ _ _ Tp Hồ Chí Minh, ngày tháng năm (kí ghi họ tên) Phần đánh giá GV chấm _ _ _ _ _ _ _ Tp Hồ Chí Minh, ngày tháng năm (kí ghi họ tên) iv TĨM TẮT Bài báo cáo kì nhập mơn Học máy có nội dung gồm phần: • Phần 1: Giải toán phân loại (classification) cho toán tự tìm với liệu có sẵn tự xây dựng Bộ liệu có thuộc tính (attribute) đối tượng (instance) • Phần 2: Bài tốn lựa chọn đặc trưng (Feature Selection) Xây dựng mơ hình học máy hiệu để có độ xác cao cho tốn Các phương pháp dựa Corelation,các đồ thị minh họa thử nghiệm feature lựa chọn khác từ phương pháp chọn Ngoài ra, liệu so sánh thơng qua độ đo Mean Absolute Error (MAE) • Phần 3: Tìm hiểu thuật tốn tối ưu (thuật toán học, cập nhật tham số) Stochastic Gradient Descent Adam Optimization Algorithm Từng phần báo cáo trình bày cụ thể có hình ảnh minh họa nội dung rõ ràng chặt chẽ MỤC LỤC MỤC LỤC CHƯƠNG – TỔNG QUAN YÊU CẦU 1.1 Bài 1: 1.2 Bài 2: 1.3 Bài 3: CHƯƠNG – LÝ THUYẾT 2.1 Bài 1: 2.1.1 Dữ liệu numerical 2.1.2 Dữ liệu categorical 2.1.3 Naive Bayes Classifier 2.1.4 K-Nearest Neighbor 2.1.5 Decision Tree 10 2.1.6 Mơ tả tốn phân loại 11 2.1.6.1 Giới thiệu 11 2.1.6.2 Tầm quan trọng thống kê điều tra dân số 11 2.1.6.3 Mục tiêu dự án 11 2.1.6.4 Ý nghĩa thơng số so sánh mơ hình 12 2.2 Bài 2: 12 2.2.1 Feature Selection: 12 2.2.2 Phương pháp dựa Correlation: 12 2.2.3 Áp dụng vào toán Linear Regression: 13 2.3 Bài 3: 14 2.3.1 Gradient Descent 14 2.3.2 Stochastic Gradient Descent (SGD): 15 2.3.3 Momentum: 16 2.3.4 Adagrad 17 2.3.5 RMSprop 17 2.3.6 Adam Optimization Algorithm: 18 CHƯƠNG – TỔNG QUAN YÊU CẦU 1.1 Bài 1: Giải toán phân loại (classification) học máy với yêu cầu sau: • Tự đặt tự tìm Bài tốn với liệu có sẵn liệu tự xây dựng Dữ liệu phải dạng có cấu trúc, tức dạng bảng biểu với cột thuộc tính (attribute) dịng đối tượng (instance) • Dữ liệu phong phú với nhiều thuộc tính, thuộc tính thuộc nhiều kiểu data khác (numerical, categorical) Số lượng phần tử (các dịng) nhiều tốt • Thực bước đọc liệu, chuẩn hoá liệu trước đưa vào mơ hình để học • Sử dụng mơ hình phân loại khác So sánh mơ hình với độ đo: accuracy, precision, recall, f1-score class weighted average of f1-score toàn liệu So sánh thời gian training thời gian testing models 1.2 Bài 2: Feature Selection toán lựa chọn đặc trưng (feature or attribute) quan trọng loại bỏ đặc trưng không quan trọng dư thừa Từ ta xây dựng mơ hình học máy hiệu (nhanh hơn, tham số độ xác tương tự chí tốt dùng tồn tập feature) Hãy tìm hiểu vấn đề Feature Selection với yêu cầu sau: a) Phương pháp dựa Correlation Hiện thị đồ thị minh hoạ b) Thử nghiệm tập feature lựa chọn khác từ phương pháp câu (a) cho toán Regression sử dụng thuật toán Linear Regression Dữ liệu toán tự chọn So sánh thông qua độ đo Mean Absolute Error (MAE) 4 1.3 Bài 3: Tìm hiểu thuật tốn tối ưu (thuật toán học, cập nhật tham số) học máy Mơ tả, giải thích thuật tốn có code minh hoạ: - Thuật toán Stochastic Gradient Descent - Thuật toán Adam (Adam Optimization Algorithm) CHƯƠNG – LÝ THUYẾT 2.1 Bài 1: 2.1.1 Dữ liệu numerical Dữ liệu số đề cập đến liệu dạng số ngơn ngữ hình thức mơ tả Thường gọi liệu định lượng, liệu số thu thập dạng số khác với dạng liệu số khả thống kê tính tốn số học Nó khơng liên quan đến mơ tả ngơn ngữ tự nhiên có tính chất định lượng, sử dụng để đo đại lượng chiều cao, tuổi, số IQ người, v.v Nó có hai kiểu gọi Dữ liệu rời rạc Dữ liệu liên tục • Dữ liệu rời rạc - Dữ liệu rời rạc sử dụng để biểu thị mục đếm Nó có dạng số dạng phân loại nhóm chúng thành danh sách Danh sách hữu hạn vơ hạn Dữ liệu rời rạc có số đếm 1, 2, 3, 4, 5, v.v Trong trường hợp vô hạn, số tiếp tục tăng lên 6 Ví dụ : đếm viên đường (sugar) từ lọ đếm Nhưng đếm số lượng đường từ khắp nơi giới vô hạn Dữ liệu liên tục - Như tên nói, biểu mẫu có liệu dạng khoảng thời gian Hay nói đơn giản dãy Dữ liệu số liên tục đại diện cho phép đo khoảng thời gian chúng nằm trục số Do đó, khơng liên quan đến việc đếm số lượng mục Ví dụ : kỳ thi trường, học sinh đạt 80% -100% đạt điểm xuất sắc, 60% -80% đạt hạng 60% hạng nhì Dữ liệu liên tục chia thành hai loại: Khoảng thời gian Tỷ lệ • Dữ liệu khoảng thời gian - kiểu liệu khoảng thời gian đề cập đến liệu đo dọc theo thang đo khoảng cách Các giá trị số kiểu liệu trải qua phép tốn cộng trừ Ví dụ : nhiệt độ thể đo độ C độ F hai khơng thể • Dữ liệu tỷ lệ - không giống liệu khoảng thời gian, liệu tỷ lệ khơng có điểm Tương tự liệu khoảng thời gian, điểm điểm khác biệt mà chúng có Ví dụ : nhiệt độ thể, nhiệt độ điểm đo Kelvin 2.1.2 Dữ liệu categorical Dữ liệu phân loại đề cập đến kiểu liệu lưu trữ xác định dựa tên nhãn đặt cho chúng Một trình gọi đối sánh thực hiện, để rút điểm tương đồng mối quan hệ liệu sau chúng nhóm lại cho phù hợp Dữ liệu thu thập dạng phân loại gọi liệu định tính Mỗi tập liệu nhóm gắn nhãn tùy thuộc vào chất lượng phù hợp chúng, danh mục Điều làm cho danh mục loại trừ lẫn 7 Có hai dạng liệu phân loại là: Dữ liệu danh nghĩa Dữ liệu thứ tự • Dữ liệu danh nghĩa - gọi liệu đặt tên Đây kiểu đặt tên gắn nhãn liệu đặc điểm tương tự danh từ Ví dụ: tên người, giới tính, tên trường học • Dữ liệu thứ tự - liệu bao gồm liệu phần tử liệu xếp hạng, xếp sử dụng thang đánh giá Bạn đếm xếp liệu thứ tự khơng cho phép bạn đo lường 2.1.3 Naive Bayes Classifier Nó thuật tốn phân loại dựa định lý Bayes, định lý đưa giả định độc lập yếu tố dự đoán Một cách dễ hiểu, Naive Bayes Classifier giả định diện đối tượng cụ thể lớp không liên quan đến diện đặc tính khác Ngay tính phụ thuộc vào nhau, tất đặc tính đóng góp vào xác suất cách độc lập Mơ hình Naive Bayes dễ thực đặc biệt hữu ích cho tập liệu tương đối lớn Ngay với cách tiếp cận đơn giản, Naive Bayes biết làm tốt hầu hết phương pháp phân loại học máy Sau định lý Bayes để thực Định lý Naive Bayes Ưu điểm nhược điểm Bộ phân loại Naive Bayes yêu cầu lượng nhỏ liệu huấn luyện để ước tính tham số cần thiết để có kết Bản chất chúng nhanh so với phân loại khác Điểm bất lợi chúng biết đến cơng cụ ước tính tệ Trường hợp sử dụng • Dự đốn dịch bệnh • Phân loại tài liệu • Bộ lọc thư rác • Phân tích cảm xúc 2.1.4 K-Nearest Neighbor Là thuật toán lười học (lazy learning) lưu trữ tất cá thể tương ứng với liệu huấn luyện không gian n chiều Đây thuật tốn lười học khơng tập trung vào việc xây dựng mơ hình nội chung, thay vào đó, hoạt động việc lưu trữ phiên liệu đào tạo 9 Phân loại tính tốn từ đa số phiếu đơn giản k hàng xóm gần điểm Nó giám sát lấy loạt điểm gắn nhãn sử dụng chúng để gắn nhãn điểm khác Để gắn nhãn điểm mới, xem xét điểm gắn nhãn gần điểm nhất, cịn gọi hàng xóm gần Nó có người hàng xóm bỏ phiếu, nhãn mà hầu hết người hàng xóm có nhãn cho điểm “K” số lượng hàng xóm mà kiểm tra Ưu điểm nhược điểm Thuật toán đơn giản việc triển khai mạnh mẽ liệu huấn luyện bị nhiễu Ngay liệu đào tạo lớn hiệu Nhược điểm thuật toán KNN không cần xác định giá trị K chi phí tính tốn cao so với thuật tốn khác Trường hợp sử dụng • Các ứng dụng cơng nghiệp để tìm kiếm tác vụ tương tự so với tác vụ khác • Ứng dụng phát chữ viết tay • Nhận dạng hình ảnh • Nhận dạng video • Phân tích cổ phiếu 10 2.1.5 Decision Tree Thuật tốn định xây dựng mơ hình phân loại dạng cấu trúc Nó sử dụng quy tắc if-then hoàn toàn loại trừ lẫn phân loại Quá trình tiếp tục với việc chia nhỏ liệu thành cấu trúc nhỏ cuối liên kết với định tăng dần Cấu trúc cuối trông giống với nút Các quy tắc học cách sử dụng liệu đào tạo thời điểm Mỗi quy tắc học, giá trị bao gồm quy tắc bị xóa Q trình tiếp tục tập huấn luyện đáp ứng điểm kết thúc Cây xây dựng theo phương pháp phân chia chinh phục đệ quy từ xuống Một nút định có hai nhiều nhánh thể phân loại định Nút định tương ứng với dự đoán tốt gọi nút gốc điều tốt định xử lý liệu phân loại số Ưu điểm nhược điểm Cây định có ưu điểm dễ hiểu dễ hình dung, địi hỏi chuẩn bị liệu Điểm bất lợi theo sau với định tạo 11 phức tạp phân loại hiệu Chúng khơng ổn định thay đổi đơn giản liệu cản trở toàn cấu trúc định Trường hợp sử dụng • Khám phá liệu • Nhận dạng mẫu • Định giá quyền chọn tài • Xác định bệnh tật mối đe dọa rủi ro 2.1.6 Mơ tả tốn phân loại 2.1.6.1 Giới thiệu Tập liệu thu nhập trích xuất từ sở liệu Điều tra dân số Hoa Kỳ năm 1994 2.1.6.2 Tầm quan trọng thống kê điều tra dân số Tổng điều tra hoạt động đặc biệt, phạm vi rộng, diễn thập kỷ lần phạm vi nước Mục đích thu thập thơng tin dân số chung, để trình bày cách đầy đủ đáng tin cậy dân số nước - điều kiện nhà đặc điểm nhân khẩu, xã hội kinh tế Thông tin thu thập bao gồm liệu tuổi, giới tính, quốc gia xuất xứ, tình trạng nhân, điều kiện nhà ở, nhân, giáo dục, việc làm, v.v Thông tin giúp bạn lập kế hoạch dịch vụ tốt hơn, cải thiện chất lượng sống giải vấn đề có Thơng tin thống kê, làm sở để xây dựng dự báo quy hoạch, điều cần thiết cho trình dân chủ cho phép người dân kiểm tra định phủ quyền địa phương, định xem họ có phục vụ cơng chúng mà họ muốn giúp đỡ hay không 2.1.6.3 Mục tiêu dự án 12 Mục tiêu dự án máy học dự đốn liệu người có kiếm 50 nghìn năm hay khơng với thay đổi nhân học họ Mô tả chi tiết liệu thực thi có file Midterm_Ex1.ipynb 2.1.6.4 Ý nghĩa thông số so sánh mô hình Precision – Bao nhiêu phần trăm positive mơ hình dự đoán Recall – Bao nhiêu phần trăm positive dataset dự đoán F1 score – Sự dung hòa precision recall Support – Số lần xuất lớp tập liệu 2.2 Bài 2: 2.2.1 Feature Selection: Như nêu đề bài, Feature Selection toán lựa chọn đặc trưng để loại bỏ đặc trưng dư thừa nhằm giúp tối thiểu hóa tham số đầu vào đem lại độ xác so với sử dụng toàn đặc trưng 2.2.2 Phương pháp dựa Correlation: Là phương pháp tính tốn xem tương quan (mối quan hệ tuyến tính) hai đối tượng (mà toán đặc trưng) chặt chẽ hay yếu ớt, qua xác định cặp đối tượng có độ tương quan cao loại bỏ hai để giảm thiểu số lượng tham số mục đích tốn Cụ thể, tốn này, ta tính hệ số tương quan (Correlaton coefficient) đặc trưng Hệ số thể mức độ mạnh yếu cho mối quan hệ hai đặc trưng đầu vào, có giá trị rơi khoảng [-1; 1] Trị tuyệt đối hệ số tương quan gần mối liên hệ mạnh ngược lại, thấp hai đặc trưng hoàn toàn độc lập với Dấu hệ số (âm dương) cho biết tính chất mối tương quan hai đặc trưng (với âm nghịch biến, dương đồng biến) 13 Tùy vào nhu cầu mơ hình, cặp đặc trưng định loại bỏ hay giữ lại theo mức độ hệ số tương quan Thông thường, mơ hình coi trọng cặp đặc trưng có hệ số tương quan mức “Strong” trở lên (tức cao 0,7) Sau tính tốn tương quan, ta sử dụng giá trị xác suất p (viết tắt probalbility value) để xác định độ tin cậy việc loại đặc trưng ảnh hưởng hay nhiều đến kết chẩn đoán Với giá trị p thấp việc loại bỏ đáng tin 2.2.3 Áp dụng vào toán Linear Regression: Linear Regression (Hồi quy tuyến tính) thuật tốn Machine Learning thuộc nhóm Supervised learning, dùng cho việc dự đoán biến phụ thuộc y dựa giá trị biến độc lập x Trong toán chẩn đoán bệnh ung thư vú, thay đổi mức độ tương quan điều kiện, ta có tập đặc trưng khác (trong ví dụ hai mức tương quan 0.9 0.7) Sau chạy thuật toán Linear Regression cho tập liệu gốc hai tập sau lọc câu a (tập “data” lọc với mức tương quan 0.9 tập “data3” lọc với mức tương quan 0.7), ta sử dụng độ đo Mean Absolute Error (MAE) để so sánh tập 14 Độ đo MAE sai số tuyệt đối trung bình giá trị thực tế giá trị dự đoán, với giá trị trung bình lỗi nhỏ, lỗi xuất hiệu suất mơ hình tốt Trong ví dụ, ta thấy MAE trường hợp sử dụng liệu gốc thấp (khoảng 0.2172…), “data” (khoảng 0.2191…) cao “data3” (khoảng 0.2747)  MAE tập sau lựa chọn cao so với sử dụng liệu gốc tính tốn dựa đặc trưng Bộ “data” với mức lựa chọn tương quan cao nên MAE lại thấp so với “data3”  Điều kiện xét tương quang cao đặc trưng lựa chọn hiệu 2.3 Bài 3: 2.3.1 Gradient Descent Là kỹ thuật tối ưu hóa phổ biến học máy Gradient độ dốc hàm Nó đo lường mức độ thay đổi biến để đáp ứng với thay đổi biến khác Về mặt toán học, Gradient Descent hàm lồi có đầu đạo hàm riêng tập tham số đầu vào Gradient lớn độ dốc lớn Bắt đầu từ giá trị ban đầu, Gradient Descent chạy lặp lặp lại để tìm giá trị tối ưu tham số để tìm giá trị nhỏ có chi phí hàm cho Cơng thức : xnew = xold - learningrate.gradient(x) 15 Gradient descent phụ thuộc vào nhiều yếu tố : chọn điểm x ban đầu khác ảnh hưởng đến trình hội tụ; tốc độ học (learning rate) lớn nhỏ ảnh hưởng: tốc độ học nhỏ tốc độ hội tụ chậm ảnh hưởng đến q trình training, cịn tốc độ học q lớn tiến nhanh tới đích sau vài vịng lặp nhiên thuật tốn khơng hội tụ, quanh quẩn quanh đích bước nhảy q lớn 2.3.2 Stochastic Gradient Descent (SGD): Từ ‘stochastic‘ có nghĩa hệ thống trình liên kết với xác suất ngẫu nhiên Do đó, Stochastic Gradient Descent, vài mẫu chọn ngẫu nhiên thay tồn tập liệu cho lần lặp Do đó, tiết kiệm chi phí tính tốn liệu có kích thước lớn SGD sử dụng kích thước mẫu để thực lần lặp Mẫu xáo trộn ngẫu nhiên chọn để thực lặp lại Ưu điểm : ...i TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG KHOA CÔNG NGHỆ THÔNG TIN TIỂU LUẬN GIỮA KỲ NHẬP MÔN HỌC MÁY Người hướng dẫn: LÊ ANH CƯỜNG Người thực hiện: VÕ MINH... _ Tp Hồ Chí Minh, ngày tháng năm (kí ghi họ tên) iv TÓM TẮT Bài báo cáo kì nhập mơn Học máy có nội dung gồm phần: • Phần 1: Giải tốn phân loại (classification) cho tốn tự tìm với... độ đo Mean Absolute Error (MAE) 4 1.3 Bài 3: Tìm hiểu thuật tốn tối ưu (thuật tốn học, cập nhật tham số) học máy Mô tả, giải thích thuật tốn có code minh hoạ: - Thuật toán Stochastic Gradient

Định dạng
Số trang	25
Dung lượng	605,25 KB