Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 22 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
22
Dung lượng
239,21 KB
Nội dung
TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO CHUYÊN ĐỀ HỌC PHẦN NHẬP MÔN HỌC MÁY ĐỀT I: XÂY DỰNG CHATBOT TIẾNG VIỆT Sinh viên thực :H MAI LAN TRẦN QUỐC HÙNG TRẦN VIẾT CHIẾN Giảng viên hướng dẫn : PHẠM ĐỨC HỒNG Ngành : CÔNG NGHỆ THÔNG TIN Chuyên ngành : QUẢN TRỊ AN NINH MẠNG Lớp : D14QTANM2 Khóa : 2019-2023 PHIẾU CHẤM ĐIỂM STT Họ tên sinh viên Hà Mai Lan Nội dung thực Điểm Chữ ký Lọc liệu, khảo sát thị Lan trường, tìm hiểu thuật toán, xử lý toán Trần Quốc Hùng Hùng Lọc liệu, khảo sát thị trường, tìm hiểu thuật tốn, xử lý toán Trần Viết Chiến Chiến Lọc liệu, khảo sát thị trường, tìm hiểu thuật tốn, xử lý toán Họ tên giảng viên Chữ ký Ghi Giảng viên chấm 1: Giảng viên chấm 2: MỤC LỤC CHƯƠNG 1: TỔNG QUAN VỀ HỌC MÁY 1.1 Khái niệm học máy 1.2 Phân loại trí tuệ nhân tạo 1.3 Các bước tạo nên quy trình học máy 1.4 Các thuật toán bật 1.4.1 Thuật toán K lân cận gần (K-Nearest Neighbor - KNN) 1.4.1 Thuật tốn Hồi Quy Tuyến Tính 1.4.3 1.5 Thuật toán k-means 10 Ưu – nhược điểm 13 1.5.1 Ưu điểm 13 1.5.2 Nhược điểm: 14 CHƯƠNG 2: TỔNG QUAN VỀ THUẬT TOÁN NAVIES BAYES 15 2.1 Ý tưởng thuật toán Naive Bayes Classification 15 2.2 Thuật toán Naive Bayes Classification 15 2.3 Độ phức tạp 15 2.4 Ưu nhược điểm phương pháp tìm kiếm rộng 16 2.5 Ví dụ minh họa 16 2.5.1 Biểu đồ toán 16 2.5.2 Bảng minh họa toán 17 CHƯƠNG 3: ỨNG DỤNG THUẬT TOÁN V O B I TOÁN 19 3.1 Mơ tả tốn 19 3.2 Kết thực nghiệm 20 KẾT LUẬN 20 DANH MỤC T I LIỆU THAM KHẢO 21 CHƯƠNG 1: TỔNG QUAN VỀ HỌC MÁY 1.1 Khái niệm học máy Machine learning (ML) hay máy học nhánh trí tuệ nhân tạo (AI), lĩnh vực nghiên cứu cho phép máy tính có khả cải thiện thân chúng dựa liệu mẫu (training data) dựa vào kinh nghiệm (những học) Machine learning tự dự đốn đưa định mà không cần lập trình cụ thể Bài tốn machine learning thường chia làm hai loại dự đoán (prediction) phân loại (classification) Các toán dự đoán dự đoán giá nhà, giá xe… Các toán phân loại nhận diện chữ viết tay, nhận diện đồ vật… 1.2 Phân loại trí tuệ nhân tạo Có nhiều cách phân loại machine learning, thơng thường machine learning phân làm hai loại sau: Supervised learning: học có giám sát Unsupervised learning: học khơng giám sát Ngồi ra, machine learning cịn phân làm loại sau: Semi-supervised learning: học bán giám sát Deep learning: học sâu (về vấn đề đó) Reinforce learning: học củng cố/tăng cường 1.3 Các bước tạo nên quy trình học máy Data collection – thu thập liệu: để máy tính học bạn cần có liệu (dataset), bạn tự thu thập chúng lấy liệu cơng bố trước Lưu ý bạn phải thu thập từ nguồn thống, có liệu xác máy học cách đắng đạt hiệu cao Preprocessing – tiền xử lý: bước dùng để chuẩn hóa liệu, loại bỏ thuộc tính khơng cần thiết, gán nhãn liệu, mã hóa số đặc trưng, trích xuất đặc trưng, rút gọn liệu đảm bảo kết quả… Bước tốn thời gian tỉ lệ thuận với số lượng liệu bạn có Bước thường chiếm 70% tổng thời gian thực Training model – huấn luyện mơ hình: bước bước bạn huấn luyện cho mơ hình cho học liệu bạn thu thập xử lý hai bước đầu Evaluating model – đánh giá mơ hình: sau huấn luyện mơ hình xong, cần dùng độ đo để đánh giá mơ hình, tùy vào độ đo khác mà mơ hình đánh giá tốt hay khơng khác Độ xác mơ hình đạt 80% cho tốt Improve – cải thiện: sau đánh giá mơ hình, mơ hình đạt độ xác khơng tốt cần train lại, lặp lại từ bước 3, đạt độ xác kỳ vọng Tổng thời gian bước cuối rơi vào khoảng 30% tổng thời gian thực 1.4 Các thuật toán bật 1.4.1 Thuật toán K lân cận gần (K-Nearest Neighbor - KNN) 1.Khái niệm: kĩ thuật học có giám sát (supervised learning) dùng để phân loại quan sát cách tìm điểm tương đồng quan sát với liệu sẵn có 2.Ví dụ: Hình thoi Hình cần phân loại thuộc hình chữ thập hình tam giác - Nếu k = 1, hình thoi phân loại vào loại với điểm liệu gần (tức hình tam giác bảng bên trái - bảng A) - Bảng bên phải (bảng B) thể trường hợp k = 5, thuật tốn xem xét điểm liệu gần hình thoi nhất, hình tam giác hình chữ thập Qui tắc định chọn phân loại có số lượng lớn điểm liệu xem xét Vì vậy, trường hợp này, hình thoi xếp vào phân loại tam giác 3.Ứng dụng KNN mơ hình đơn giản trực quan có hiệu cao khơng tham số; mơ hình khơng đưa giả định việc phân phối liệu Hơn nữa, sử dụng trực tiếp để phân loại đa lớp Thuật tốn KNN có nhiều ứng dụng ngành đầu tư, bao gồm dự đoán phá sản, dự đốn giá cổ phiếu, phân bổ xếp hạng tín dụng trái phiếu doanh nghiệp, tạo số vốn trái phiếu tùy chỉnh Recommandé pour toi Suite du document ci-dessous Chapter Book Notes - Summary Campbell Biology Principles Of Biology 100% (24) Chapter Outline - Summary Campbell Biology Introduction to Biology A 97% (69) Chapter 22 - Summary Campbell Biology General Biology II 207 98% (43) Summary Campbell Biology - Lecture 22-26, 35-38, 40-45, 46, 48, 50, 52-56 Mod Concepts Bioscience Cont 96% (73) 1.4.1 Thuật tốn Hồi Quy Tuyến Tính 1.Khái niệm : Hồi quy tuyến tính thuật tốn tìm phương trình tuyến tính dựa tập liệu quan hệ X (dữ liệu đầu vào) Y (dữ liệu đầu ra) X biến giải thích Y biến phụ thuộc 2.Ví dụ : giả sử muốn dự đoán y từ x bảng sau giả sử phương trình hồi quy giống y = B0 + B1 * x x y Predict 'y' Β0+B1*1 Β0+B1*2 3 Β0+B1*3 Β0+B1*4 Β0+B1*5 11 Β0+B1*6 13 Β0+B1*7 15 Β0+B1*8 17 Β0+B1*9 10 20 Β0+B1*10 Ở đây, Độ lệch chuẩn x 3.02765 Độ lệch chuẩn y 6.617317 Trung bình x 5.5 Trung bình y 9.7 Tương quan x y 989938 Nếu phân biệt Tổng cịn lại diện tích sai số (RSS) tương ứng với B0 & B1 tương đương với kết khơng, có phương trình sau kết quả: B1 = Tương quan * ( Độ lệch chuẩn y / Độ lệch chuẩn x) B0 = trung bình (Y) - B1 * Trung bình (X) Đưa giá trị từ bảng vào phương trình trên, B1 = 2,64 B0 = -2,2 Do đó, phương trình hồi quy trở thành Y = -2,2 + 2,64 * x Hãy xem, dự đoán cách sử dụng phương trình x Y -giá trị thực Y - Dự đoán 0.44 3.08 3 5.72 8.36 11 11 13.64 13 16.28 15 18.92 17 21.56 10 20 24.2 Chỉ với 10 điểm liệu để phù hợp với đường thẳng dự đốn xác lắm, thấy tương quan 'Y-Thưc tế' 'Y - Dự đốn' triển vọng cao hai series di chuyển biểu đồ để hiển thị giá trị dự đoán 3.Ứng dụng Áp dụng Linear Regression để chuẩn đoán xơ vữa động mạch Xây dựng liệu với thuật tốn hồi quy tuyến tính Trong y sinh học, thường có nhiều yếu tố khác dẫn đến tượng Ví dụ tượng xơ vữa động mạch không lượng cholesterol máu Mà nhiều yếu tố khác di truyền, chủng tộc, tiền sử mắc bệnh tim mạch, tuổi, giới, BMI, tăng huyết áp, đái tháo đường,… Trong viết khơng đề cập yếu tố di truyền, chủng tộc, giới, mắc bệnh tim mạch… mà lưu ý đến biến số như: tuổi, cholesterol, glucose, huyết áp tâm thu BMI Khi mơ hình hồi quy tuyến tính đa biến với yếu tố (x1=tuổi, x2 = cholesterol, x3 = glucose, x4 = huyết áp, x5 = BMI) sau: Bề dày TM = w0 + w1(tuổi)+ w2(cholesterol) + w3(glucose) + w4(huyết áp) + w5(BMI) Bộ liệu gồm có thuộc tính bao gồm: tuổi, số BMI, số huyết áp tối đa (mmHg), nồng độ glucose máu (mmol/l), nồng dộ cholesterol máu (mmol/l) bề dày thành mạch (mm) Bộ liệu chia thành phần 80% liệu làm liệu huấn luyện mơ hình, 20% cịn lại làm liệu thử nghiệm độ xác mơ hình Dữ liệu độ dày thành mạch làm biến mục tiêu Những liệu lại bao gồm (tuổi, BMI, nồng độ glucose máu, nồng độ cholesterol máu) làm biến giải thích 1.4.3 Thuật toán k-means 1.Khái niệm: phương pháp sử dụng phân tích tính chất cụm liệu Nó đặc biệt sử dụng nhiều khai phá liệu thống kê Nó phân vùng liệu thành k cụm khác Giải thuật giúp xác định liệu thực sử thuộc nhóm 2.Ứng dụng: Trong mơ hình kinh doanh, doanh nghiệp chia nhỏ tệp khách hàng thành nhóm đối tượng khác để áp dụng chiến lược kinh doanh cụ thể cho nhóm đối tượng Điều giúp cho khách hàng tiếp cận với sản phẩm thật phù hợp với thân họ Sự phù hợp kéo doanh 10 số tăng lên Vấn đề đặt chia nhỏ tệp khách hàng mà số lượng hóa đơn lớn khơng thể ngồi để phân tích vị khách Và mục tiêu thuật toán phân cụm từ tập liệu khổng lồ Làm biết có nhóm liệu đặc trưng đó? Từng liệu thuộc vào nhóm nào? Đó mà thuật tốn phân cụm cần tìm câu trả lời 1.4.4 Thuật toán Perceptron 1.Khái niệm: Perceptron thuật toán Classification cho trường hợp đơn giản nhất: có hai class (lớp) hoạt động trường hợp cụ thể Tuy nhiên, tảng cho mảng lớn quan trọng Machine Learning Neural Networks sau Deep Learning Perceptron thuật toán Classification cho trường hợp đơn giản nhất: có hai class (lớp)) hoạt động trường hợp cụ thể 2.Ví dụ: Giả sử cần chia khách hàng làm hai loại/lớp (category/class) dựa vào nguồn lợi họ đem lại cho công ty: khách hàng nhỏ khách hàng lớn Về bản, nguồn lợi tính theo giá mặt hàng số lượng khách mua Như vậy, ta biểu diễn khách hàng theo hai yếu tố trên mặt phẳng: 11 Bài toán từ điểm xanh đỏ cho trước (tức marketer xác định), xây dựng quy tắc phân loại để dự đốn class điểm màu xám Nói cách khác, cần xác định biên giới để chia lãnh thổ hai class này, với điểm cần phân loại màu xám ta cần xem nằm phía bên đường biên giới xong Biên giới đơn giản (theo nghĩa toán học) mặt phẳng đường thằng (đường màu đen hình), khơng gian ba chiều mặt phẳng, không gian nhiều chiều siêu phẳng (hyperplane, đường thẳng nằm nhiều chiều) 1.5 Ưu – nhược điểm 12 1.5.1 Ưu điểm 1.Dễ dàng xác định xu hướng mơ hình cụ thể Học máy xem xét lượng lớn liệu khám phá xu hướng mô hình cụ thể mà người khơng thấy rõ Ví dụ: trang web thương mại điện tử Amazon Machine Learning dùng để hiểu hành vi duyệt web lịch sử mua hàng người dùng để hiển thị quảng cáo phù hợp với người dùng Tự Động Hóa Với ML, không cần phải làm từ đầu đến cuối dự án Vì cung cấp cho máy móc khả học hỏi, cho phép chúng đưa dự đoán tự cải thiện thuật tốn Một ví dụ phổ biến điều phần mềm chống vi-rút; chúng học cách lọc mối đe dọa chúng nhận ML giỏi việc nhận diện thư rác 3.Cải Tiến Liên Tục Khi các thuật tốn tích lũy kinh nghiệm, chúng tiếp tục cải tiến độ xác hiệu Điều cho phép họ đưa định tốt Giả sử bạn cần tạo mơ hình dự báo thời tiết Khi lượng liệu bạn có ngày tăng, thuật tốn bạn học cách đưa dự đoán xác nhanh Có thể xử lý nhiều loại liệu Các thuật toán học máy thích hợp cho việc xử lý nhiều loại liệu khác hình ảnh , âm , chữ viết … Ứng dụng rộng rãi Machine Learning áp dụng rộng rãi nhiều lĩnh vực đời sống Ví dụ kinh tế ML dự báo chứng khốn , hoạt động cơng ty 13 … Cịn y tế dự đốn bệnh … Và cịn nhiều lĩnh vực khác 1.5.2 Nhược điểm: AI khơng hồn hảo, phương pháp phổ biến Supervise Learning gặp nhiều trở ngại việc phát triển bên cạnh thiếu khả thi nhiều dự án Machine Learning phụ thuộc nhiều vào liệu, khơng có tay mơ hình kế thừa (như Oneshot Learning) khó dễ dàng phát triển dự án với lượng liệu ỏi Chi phí tính tốn vấn đề đau đầu cho start-up Cần nhận thức rõ ràng loại liệu training loại liệu thực tế để AI hoạt động tốt 14 CHƯƠNG 2: TỔNG QUAN VỀ THUẬT TỐN NAVIES BAYES 2.1 Ý tưởng thuật tốn Naive Bayes Classification Naive Bayes Classification (NBC) giải thuật thuộc lớp giải thuật thống kê, dự đốn xác suất phần tử liệu thuộc vào lớp Phân lớp Bayes dựa định lý Bayes (định lý đặt theo tên tác giả Thomas Bayes) 2.2 Thuật tốn Naive Bayes Classification Naive Bayes Classification (NBC) thuật toán dựa định lý Bayes lý thuyết xác suất để đưa phán đoán phân loại liệu dựa liệu quan sát thống kê Naive Bayes Classification thuật toán ứng dụng nhiều lĩnh vực Machine learning dùng để đưa dự đoán xác dự tập liệu thu thập, dễ hiểu độ xác cao Nó thuộc vào nhóm Supervised Machine Learning Algorithms (thuật tốn học có hướng dẫn), tức máy học từ ví dụ từ mẫu liệu có 2.3 Độ phức tạp 15 Với điểm truy vấn (xq), Naive Bayes cần xác suất trước khả xảy để dự đoán đầu (yq), cho phép mơ hình sử dụng ứng dụng có độ trễ thấp Vì vậy, giai đoạn huấn luyện Naive Bayes, tính tốn tất xác suất xảy xác suất trước, lấy Độ phức tạp thời gian O (ndc) c = Số lớp Độ phức tạp khơng gian = O (dc) Độ phức tạp thời gian đào tạo = O (n * d * c) Độ phức tạp thời gian chạy = O (d * c) Độ phức tạp không gian = O (d * c) 2.4 Ưu nhược điểm phương pháp tìm kiếm rộng a Ưu điểm - Dễ sử dụng nhanh cần đoán nhãn liệu test Thực tốt multi class prediction (test later) - Khi giả định feature liệu độc lập với Naive Bayes chạy tốt so với thuật toán khác logistic regression cần liệu - Có thể hoạt động với vectơ đặc trưng mà phần liên tục (sử dụng Gaussian Naive Bayes), phần lại dạng rời rạc (sử dụng Multinomial Bernoulli) b Nhược điểm Độ xác Naive Bayes so với thuật tốn khác khơng cao Trong giới thực, bất khả thi feature liệu test độc lập với 2.5 Ví dụ minh họa 16 2.5.1 Biểu đồ tốn Hình 2.3 Biểu đồ tốn 2.5.2 Bảng minh họa toán Cơ sở liệu khách hàng: ID Tuổi Thu nhập Sính viên Đánh giá tín dụng Mua máy tính youth high no fair no youth high no excellent no middle high no fair yes senior medium no fair yes senior low yes fair yes senior low yes excellent no middle low yes excellent yes 17 ID Tuổi Thu nhập Sính viên Đánh giá tín dụng Mua máy tính youth medum no fair yes youth low yes fair yes 10 senior medium yes fair yes 11 youth medium yes excellent yes 12 middle medium no excellent yes 13 middle high yes fair yes 14 senior medium no excellent no Giả sử ta có khách hàng X có thuộc tính X = (age = youth, income = medium, student = yes, credit_rating = fair) Bây giớ cần xác định xem khách hàng X có thuộc lớp C yes (mua máy tính) hay khơng, ta tính tốn sau: P(Cyes) = 9/14 = 0.357 Các xác suất thành phần: P(age = youth|Cyes) = 2/9 = 0.222 P(age = youth|Cno) = 3/5 = 0.6 P(income = medium|Cyes) = 4/9 = 0.444 P(income = medium|Cno) = 2/5 = 0.4 P(student = yes|Cyes) = 6/9 = 0.667 P(student = yes|Cno) = 1/5 = 0.2 P(credit_rating = fair|Cyes) = 6/9 = 0.667 P(credit_rating = fair|Cno) = 2/5 = 0.2 Cuối cùng: P(X|Cyes) = 0.222 * 0.444 * 0.667 * 0.667 = 0.044 18 P(X|Cno) = 0.60.4 * 0.2 * 0.4 = 0.019 P(X|Cyes)*P(Cyes) = 0.044 * 0.643 P(X|Cno)*P(Cno) =0.019 * 0.357 = 0.007 Từ kết ta thấy P (X |Cyes) P(Cyes) có giá trị lớn nhất, thuật tốn Bayes kết luận khách hàng X mua máy tính CHƯƠNG 3: ỨNG DỤNG THUẬT TỐN V O B I TỐN 3.1 Mơ tả tốn Mơ hình chức năng: Khi sinh viên có câu hỏi vấn đề khoa Công nghệ Thông Tin trường đại học Điện Lực như: Chuyên ngành, sở vật chất, hoạt động, thi, thành tích , ,thì cần soạn câu hỏi, chatbot trả lời Trường hợp câu hỏi không thuộc vấn đề trên,chatbot tự động trả lời : “Chúng chưa hiểu câu hỏi bạn,chúng trả lời lại sau” 19