1. Trang chủ
  2. » Giáo Dục - Đào Tạo

PHÂN TÍCH dữ LIỆU PHÂN HẠNG TÍNH DỤNG dựa TRÊN bộ dữ LIỆU AIRLINES PASSENGER SATISFACTION dựa TRÊN PHẦN mềm ORGANE

29 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 29
Dung lượng 2,04 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH TRƯỜNG CƠNG NGHỆ VÀ THIẾT KẾ ĐỒ ÁN MÔN KHOA HỌC DỮ LIỆU ĐỀ TÀI: PHÂN TÍCH DỮ LIỆU PHÂN HẠNG TÍNH DỤNG DỰA TRÊN BỘ DỮ LIỆU AIRLINES PASSENGER SATISFACTION DỰA TRÊN PHẦN MỀM ORGANE Nhóm sinh viên Học phần Chuyên nghành Khóa Giảng viên TP Hồ Chí Minh,ngày 28 tháng 10 năm 2022 LỜI CẢM ƠN Đầu tiên, chúng em xin gửi lời cảm ơn chân thành đến giảng viên hướng dẫn mơn thầy Đặng Ngọc Hồng Thành Trong q trình tham dự, học tập tìm hiểu qua mơn Khoa Học Dữ Liệu với thầy, chúng em nhận nhiều quan tâm, giúp đỡ đến từ thầy Những giảng thầy ảnh hưởng lớn đến hoàn thiện tiểu luận Qua giảng thầy, chúng em có thêm nhiều kiến thức thực tiễn nghiệm góc nhìn sâu sắc mơn Khoa học liệu Đây móng quan trọng giúp chúng em hồnh chỉnh luận Nhóm tụi em cố để đưa đến thầy Thành phẩm tốt cịn nhiều hạn chế chưa có nhiều kinh nghiệm nên đồ án cuối kỳ chắn khơng thể tránh khỏi thiếu sót Mong thầy thông cảm cho chúng em lời nhận xét, phê bình lời khuyên để chúng em rút kinh nghiệm, hồn chỉnh cho lần sau Kính chúc thầy thật nhiều niềm vui, hạnh phúc thành công đường giảng dạy MỤC LỤC LỜI MỞ ĐẦU NỘI DUNG CHƯƠNG TỔNG QUAN 1.1 Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu: 1.2 Giới Thiệu Về Phần Mềm Python Phần Mềm Orange: .1 1.3 Lý Do Chọn Lựa Đề Tài: .3 CHƯƠNG CÁC MƠ HÌNH PHÂN LỚP DỮ LIỆU .3 2.1 Các Mơ Hình Phân Lớp Dữ Liệu: 2.1.1 Mơ Hình Logistic Regressio: 2.1.2 Mô Hình Decision Tree: .5 Ưu khuyết điểm Ưu điểm: Khuyết điểm: 2.1.3 Mô Hình Support Vector Machine 2.1.4 Mơ Hình Neural Network 2.2 Quy Trình Phân Lớp Dữ Liệu .10 2.2.1 Phân Chia Dữ Liệu 10 *Phương pháp Hold-out: 10 *Phương pháp K-Fold 10 2.2.2 Phân Lớp Dữ Liệu 12 2.2.3 Đánh Giá Tính Hiệu Quả 13 CHƯƠNG 3: CÁC KẾT QUẢ THỰC NGHIỆM 16 3.1 Bộ liệu: 16 3.2 Các Kết Quả Thực Nghiệm 19 3.3 Phân tích đánh giá 21 CHƯƠNG KẾT LUẬN 21 4.1 Các kết đạt 21 4.2 Những Hạn Chế Hướng Phát Triển 23 a) Những hạn chế: 23 b) hướng phát triển: 23 LỜI MỞ ĐẦU Trong năm gần đây, công nghệ thông tin khoa học liệu ngày phát triển, phát triển lượng lớn thơng tin cần lưu trữ chuyển đổi tăng theo Sự phát triển Khoa học liệu gây ý không nhỏ đến giới Khoa học liệu khoa học việc quản trị phân tích liệu, trích xuất giá trị từ liệu để tìm hiểu biết, tri thức hành động, định dẫn dắt hành động Cũng hình thức thí nghiệm khác, khoa học liệu yêu cầu bạn thực quan sát, đặt câu hỏi, hình thành giả thuyết, tạo kiểm tra, phân tích kết đưa khuyến nghị thực tế Chính mà mục đích Khoa học Dữ liệu biến đổi lượng lớn liệu chưa qua xử lý, làm để định vị thành mơ hình kinh doanh, từ giúp đỡ tổ chức tiết giảm chi phí, gia tăng hiệu làm việc, nhìn nhận hội, rủi ro thị trường làm gia tăng lợi cạnh tranh doanh nghiệp Trên thực tế, liệu thứ tồn sẵn khắp nơi, nhiều loại hình Khoa học Dữ liệu việc tìm hiểu liệu có, lấy thơng tin giá trị Nhờ đó, người ta hiểu nội yếu tố khách quan xung quanh lĩnh vực làm, đưa định quan trọng, có ích cho thân, doanh nghiệp, tổ chức hay xã hội Các lĩnh vực Khoa học Dữ liệu: Khai thác liệu (Data mining), Thống kê (Statistic), Học máy (Machine learning), Phân tích (Analyze) Lập trình (Programming) Khai thác liệu lĩnh vực khoa học xuất hiện, nhằm tự động hóa việc khai thác thông tin từ CSDL lớn cho đơn vị, tổ chức,… từ làm thúc đẩy khả sản xuất, kinh doanh, cạnh tranh cho đơn vị, tổ chức Khi công cách mạng công nghiệp bùng nổ, quốc gia doanh nghiệp phải nghiên nhiều ngành khoa học công nghệ liệu Và phân lớp liệu hướng nghiên cứu khai thác liệu NỘI DUNG CHƯƠNG TỔNG QUAN 1.1 Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu: Khoa học liệu môn khoa học nghiên cứu liệu Bên cạnh đó, khoa học liệu công cụ quan trọng thiết yếu thời kỳ kỷ nguyên chuyển đổi số, phát triển vượt bậc Từ quan điểm nghành chuyên môn, khoa học liệu thuộc lĩnh vực nghiên cứu liên nghành, tích hợp liệu từ lĩnh vực chuyên môn khác nhau, từ liệu khoa học máy tính,thống kê đến liệu liên quan đến tốn học, Về quy trình trích xuất kiến thức hiểu biết dạng liệu khác có cấu trúc phi cấu trúc, cịn tiếp nối số lĩnh vực liệu phân tích liệu khai thác liệu, thống kê khoa học, tương tự khai thác kiến thức từ sở liệu Trong khai thác liệu tốn phân lớp liệu (classification) quan trọng Nó q trình phân đối tượng liệu vào hay nhiều lớp (loại) cho trước nhờ vào mơ hình phân lớp Mơ hình xây dựng dựa tập liệu gán nhãn trước (thuộc lớp nào) Quá trình gán nhãn (thuộc lớp nào) cho đối tượng liệu q trình phân lớp liệu Trong năm qua, phân lớp liệu thu hút quan tâm nhà nghiên cứu nhiều lĩnh vực khác học máy (machine learning), hệ chuyên gia (expert system), thống kê (statistics) Công nghệ ứng dụng nhiều lĩnh vực khác như: thương mại, maketing, nghiên cứu thị trường, y tế, giáo dục 1.2 Giới Thiệu Về Phần Mềm Python Phần Mềm Orange: Python ngôn ngữ lập trình thơng dịch (interpreted), hướng đối tượng (object-oriented), ngôn ngữ bậc cao (high-level) Python ngơn ngữ lập trình sử dụng phổ biến ngày để phát triển nhiều loại ứng dụng phần mềm khác chương trình chạy desktop, server, lập trình ứng dụng web Ngồi Python ngơn ngữ ưa thích ngành khoa học liệu (data science) Nó tạo Guido van Rossum, cho mắt phiên ngôn ngữ Python (phiên 0.9.0) vào đầu năm 1991, ơng phát triển dự án mở trải qua ba phiên lớn Python 1(1994), Python 2(2000) Python 3(2008), với nhiều cập nhật nhỏ hoàn thiện chức cú pháp Python ngơn ngữ có cấu trúc tương đối rõ ràng, thuận tiện cho người học lập trình Cấu trúc python cịn cho phép người dùng sử dụng để viết mã lệnh với số lần gõ phím tối thiểu Do cấu trúc đơn giản lịch nó, khơng Python lựa chọn hoàn hảo từ chuyên gia hàng đầu mà cịn phù hợp cho người bắt đầu Ngơn ngữ đánh giá cao tính chặt chẽ, sức mạnh tốc độ, tồn tất hệ điều hành trở thành ngôn ngữ phù hợp với dự án học máy tính hay trí tuệ nhân tạo (AI) Khi sử dụng Python ta có nhiều thời gian nghiên cứu, giải tốn, khơng phải nhiều rắc rối với kỹ thuật phức tạp ngôn ngữ, dễ dàng làm việc nhóm dòng lệnh gần với đọc hiểu Phần mềm Orange khai thác liệu đa tảng, biết đến với việc tích hợp cơng cụ khai thác liệu máy học đơn giản, thơng minh, mã nguồn mở lập trình Python với giao diện trực quan tương tác đơn giản Lập trình trực quan cho phép người dùng khơng phải lập trình viên quản lý, tiền xử lý, khám phá mơ hình hóa liệu Orange mơi trường viết kịch để tạo mẫu nhanh thuật toán mẫu thử nghiệm Nó nhóm mơ-đun dựa python tồn thư viện lõi Nó triển khai số chức mà thời gian thực thi không cần thiết điều thực Python Người dùng thực nhiệm vụ từ chuẩn bị liệu đến đánh giá mơ hình mà khơng cần viết dịng mã Phần mềm có nhiều chức năng, từ phân tích liệu đơn giản đến phức tạp, tạo biểu đồ đẹp thú vị, đồng thời giúp người dùng thực khai thác liệu học máy dễ dàng 1.3 Lý Do Chọn Lựa Đề Tài: Với thời kỳ đổi mới- cơng nghiệp hóa đại hóa, với phát triển mạnh mẽ nhanh chóng vượt bậc nghành kinh tế nghành cơng nghiệp hàng không phát triển nhanh không kém, nhu cầu sử dụng người tăng cao với dịch vụ ngành hàng không cung cấp Các công ty dựa vào hành khách làm trung tâm, dựa vào để đưa chiến lược, thay đổi không ngừng nhằm phát triển hãng hàng khơng cơng ty, doanh nghiệp thích hợp với thị hiếu hành khách Cuộc chạy đua hãng hàng không ngày dội để bắt kịp với đà tăng trưởng thị trường Chính lý đó, nhóm chúng em định chọn đề tài với mục đích sử dụng thành tựu, ứng dụng khoa học liệu để phân tích, đánh giá cách khách quan toán nan giải cho doanh nghiệp hài lòng, lựa chọn hành khách hãng hàng khơng, để có chiến lược phát triển phù hợp CHƯƠNG CÁC MƠ HÌNH PHÂN LỚP DỮ LIỆU 2.1 Các Mơ Hình Phân Lớp Dữ Liệu: 2.1.1 Mơ Hình Logistic Regressio: Định nghĩa: Là mơ hình xác suất dự đốn giá trị đầu rời rạc từ tập giá trị đầu vào (biểu diễn dạng vecto) Ta thấy vài ví dụ điển phân loại tài khoản cá nhân tài khoản quan cấp, công ty hay số điện thoại cá nhân số điện thoại sử dụng cho công việc, Giao dịch qua tài khoản cá nhân có đảm bảo an tồn hay khơng, khách hàng có hài lịng dịch vụ hay khơng Ta dùng thuật toán với hàm sigmoid logistic để đưa đánh giá theo xác suất Ví dụ: tài khoản cá nhân 95% đảm bảo an toàn giao dịch, hành khách 85% hài lịng dịch vụ, Mơ tả tập phân lớp: Tập nhãn y = {y1, y2, , yn} với n số lớp Một đối tượng liệu x={x1,x2,…,xd} với d số thuộc tính dịng liệu biểu diễn dạng vector Hàm logistic: dự đoán đối tượng xem đối tượng x sở hữu thuộc tính cụ thể thuộc vào lớp y Trong đó: d số lượng đặc trưng (thuộc tính) liệu w trọng số, ban đầu khởi tạo ngẫu nhiên, sau điều chỉnh lại cho phù hợp Ví dụ: Xét tốn phân lớp (nhị phân) phân lớp nguy ngộ độc thực tập hành khách cá nhân để giải việc ăn uống người sử dụng thực phẩm Biến phân lớp (biến phụ thuộc): y=1: vỡ nợ; y=0: không vỡ nợ Biến độc lập x1, x2, , xd bao gồm: tuổi, học vấn, thu nhập, tài sản, Hàm logistic (sigmoid): Một ngưỡng t để phân lớp (nếu P(y) t phân vào lớp vỡ nợ ngược lại) Vấn đề: cần tìm hệ số (trọng số): w0, w1, w2, , wd phù hợp để ước lượng > Bộ hệ số tính tốn điều chỉnh giai đoạn huấn luyện Sau đó, sử dụng q trình đánh giá mơ hình phân lớp liệu 2.1.2 Mơ Hình Decision Tree: Định nghĩa Trong lý thuyết quản trị, định đồ thị định kết kèm nhằm hỗ trợ trình định Trong lĩnh vực khai thác liệu, định phương pháp nhằm mô tả, phân loại tổng hợp hóa tập liệu cho trước Decision Tree phần cấp cấu trúc dùng để phân lớp đối tượng dựa vào dãy tính đối tượng (ngoại trừ thuộc tính phân lớp – Category attribute) thuộc kiểu trữ kinh nghiệm hiểu biết (tri thức) sử dụng tri thức việc dự đốn liệu chưa biết (unseen data) Các ứng dụng mạng Neuron sử dụng nhiều lĩnh vực điện, điện tử, kinh tế, quân sự… để giải tốn có độ phức tạp địi hỏi độ xác cao điều khiển tự động, khai phá liệu, nhận dạng,… 2.2 Quy Trình Phân Lớp Dữ Liệu 2.2.1 Phân Chia Dữ Liệu *Phương pháp Hold-out: Phương pháp phân chia tập liệu ban đầu thành tập độc lập theo tỷ lệ định Ví dụ, tập huấn luyện (training set) chiếm 70%, tập thử nghiệm (testing set) chiếm 30% Phương pháp thích hợp cho tập liệu nhỏ Tuy nhiên, mẫu khơng đại diện cho tồn liệu (thiếu lớp tập thử nghiệm) Có thể cải tiến cách dùng phương pháp lấy mẫu cho lớp phân bố tập liệu huấn luyện đánh giá Hoặc lấy mẫu ngẫu nhiên : thực holdout k lần độ xác acc(M) = trung bình cộng k giá trị xác *Phương pháp K-Fold Phương pháp phân chia liệu thành k tập có kích thước (gọi fold) 10 Một fold sử dụng làm tập đánh giá phần lại sử dụng làm tập huấn luyện Quá trình lặp lại tất fold dùng làm tập liệu đánh giá Phương pháp n=K-Fold thường dùng nhiều hand-out mô hình huấn luyện đánh giá nhiều phần liệu khác Từ tăng độ tin cậy cho độ đánh giá mơ hình ví dụ: 5-fold cross validation * Hold-out vs K-fold cross validation Phương pháp K-fold thường sử dụng nhiều mô hình huấn luyện đánh giá nhiều phần liệu khác Từ tăng độ tin cậy cho độ đo đánh giá mơ hình 11 Phương pháp Hold-out thường cho hiệu tốt tập liệu lớn Tuy nhiên, tập liệu nhỏ vừa phải, hiệu mô hình sử dụng phương pháp phụ thuộc nhiều vào cách chia tỷ lệ chia liệu 2.2.2 Phân Lớp Dữ Liệu Quá trình phân lớp liệu gồm bước chính: + Bước 1: Xây dựng mơ hình phân lớp (hay cịn gọi giai đoạn “học” “huấn luyện”) Dữ liệu đầu vào: liệu mẫu gán nhãn tiền xử lý Các thuật toán phân lớp: định, hàm số toán học, tập luật… Kết bước mô hình phân lớp huấn luyện (trình phân lớp) + Bước 2: Sử dụng mơ hình chia thành bước nhỏ Bước 2.1: Đánh giá mơ hình (kiểm tra tính đắn mơ hình) Dữ liệu đầu vào: tập liệu mẫu khác gán nhãn tiền xử lý Tuy nhiên lúc đưa vào mơ hình phân lớp, ta “lờ” thuộc tính gán nhãn Tính đắn mơ hình xác định cách so sánh thuộc tính gán nhãn liệu đầu vào kết phân lớp mơ hình Bước 2.2: Phân lớp liệu Dữ liệu đầu vào: liệu “khuyết” thuộc tính cần dự đốn lớp (nhãn) 12 Mơ hình tự động phân lớp (gán nhãn) cho đối tượng liệu dựa vào huấn luyện bước Trong mơ hình phân lớp, thuật tốn phân lớp giữ vai trò trung tâm, định tới thành cơng mơ hình phân lớp Do chìa khóa vấn đề phân lớp liệu tìm thuật tốn phân lớp nhanh, hiệu quả, có độ xác cao có khả mở rộng Trong khả mở rộng thuật toán đặc biệt trú trọng phát triển 2.2.3 Đánh Giá Tính Hiệu Quả Các phương pháp đánh giá mơ hình phân lớp nhằm kiểm tra tính hiệu mơ hình phân lớp liệu có đặc thù cụ thể, từ định có sử dụng mơ hình hay khơng Một mơ hình lý tưởng mơ hình khơng q đơn giản, không phức tạp không nhạy cảm với nhiễu (tránh underfitted overfitting) * Underfitting (chưa khớp): Mô hình coi chưa khớp chưa phù hợp với - tập liệu huấn luyện mẫu dự đốn Ngun nhân mơ hình chưa đủ độ phức tạp cần - thiết để bao quát tập liệu Tồn nhiều điểm liệu mà mơ hình khơng phân loại - dẫn đến độ xác mơ hình thấp * Overfitting (quá khớp): - Overfitting tượng mơ hình tìm q khớp với liệu huấn luyện Điều dẫn đến việc dự đoán nhiễu nên mơ hình khơng cịn tốt phân lớp liệu - Quá khớp xảy lượng liệu huấn luyện nhỏ độ phức tạp mơ hình q cao nên độ xác 13 cao khơng thể mơ tả xu hướng tổng quát liệu (còn gọi High Variance) * Good Fitting: - Là trường hợp mơ hình cho kết hợp lý với tập liệu huấn luyện giá trị mới, tức mang tính tổng qt - Ngồi thực tế mơ hình tốt mơ hình cho kết hợp lý cách chấp nhận liệu mẫu lẫn liệu - Trong tất giả thiết giải thích tượng, ta nên chọn giả thiết đơn giản (Occam’s razor) => Do đó, tất model “Đúng”, chọn model Đơn Giản Ma trận nhầm lẫn a) - Ma trận nhầm lẫn ma trận có điểm liệu thực thuộc vào lớp cụ thể, dự đoán rơi vào lớp - Confusion Matrix có kích thước k × k với k số lượng lớp liệu - Giá trị ô (i;j) cho biết số lượng mẫu i bị phân vào lớp j Ví dụ : Bài tốn chẩn đốn ung thư ta có lớp: lớp bị ung thư chẩn đoán Positive lớp khơng bị ung thư chẩn đốn Negative TP (True Positive) số lượng dự đốn xác Là mơ hình dự đốn người bị ung thư TN (True Negative) số lượng dự đốn xác cách gián tiếp Là mơ hình dự đốn người không bị ung thư, tức việc chọn trường hợp ung thư xác 14 FP (False Positive - Type Error) Số lượng dự đoán sai lệch mơ hình dự đốn người bị ung thư người hồn tồn khỏe mạnh FN (False Negative - Type Error) Số lượng dự đoán sai lệch cách gián tiếp Là mơ hình dự đốn người khơng bị ung thư người bị ung thư, tức việc khơng chọn trường hợp bị ung thư sai b) Accuracy ( Độ xác) Là tỷ lệ số mẫu phân lớp toàn tập liệu acc = ( TP+TN ) / n => Error rate = - acc độ lỗi mơ hình Accuracy cho biết tỷ lệ liệu phân loại mà không cụ thể loại phân loại nào, lớp phân loại nhiều nhất, liệu thuộc lớp thường bị phân loại nhầm vào lớp khác c) Precision, Recall, F1- score Precision (độ xác) cho biết số m mẫu phân vào lớp i có tỷ lệ mẫu có (tránh nhầm lẫn với tính xác accuracy): precision = TP/(TP+FP) Recall (độ phủ) gọi độ phủ hay độ nhạy (sensitivity) hay TPR (True Positive Rate): recall=TP/(TP+FN) F1-score: giá trị trung bình điều hịa (harmonic mean) hai độ đo Precision Recall: F1 = 2*[(precision x recall)/(precision+recall)] F1 có giá trị gần với giá trị nhỏ hai giá trị Precision Recall F1 có giá trị lớn hai giá trị Precision Recall lớn d) ROC AUC 15 ROC (Receiver Operating Characteristic) Là đồ thị sử dụng phổ biến đánh giá mơ hình phân loại nhị phân Đường cong tạo cách biểu diễn tỷ lệ dự báo true positive rate (TPR) dựa tỷ lệ dự báo false positive rate (FPR) ngưỡng khác Một mơ hình hiệu có FPR thấp TPR cao, hay ROC tiệm cận với điểm (0;1) đồ thị mơ hình hiệu AUC (Area Under the Curve) - Là diện tích nằm đường cong ROC - Giá trị số dương nhỏ - Giá trị lớn mơ hình tốt CHƯƠNG 3: CÁC KẾT QUẢ THỰC NGHIỆM 3.1 Bộ liệu: Dựa vào bảng liệu Dataset thể thông tin chi tiết hành khách hãng hàng khơng bao gồm ID, giới tính, độ tuổi hành khách,loại hình du lịch, đồ ăn thức uống Ngồi hãng hàng khơng cịn thu thập thên thơng tin hài lịng hành khách, liệu hành khách có hài lịng chuyến bay hãng hay không Để tiến hành phân lớp liệu đánh giá hành khách có hài lịng hay không ta sử dụng phương pháp: Hồi quy Logistic (Logistic Regression), Cây định (Decision Tree), SVM (Support Vector Machine) Sau dựa vào kết chạy mơ hình Test & Score Confusion Matrix Cuối cùng, dựa vào số liệu để chọn mơ hình tốt 16 Để đánh giá mức độ hài lòng hành khách hãng hàng không này, ta dựa vào thành phần Ta có tổng cộng 24 biến để thực mơ hình phân tích liệu Ta đánh giá kết mơ hình dựa 23 biến Ở thu thập mẫu đưa vào datasample nhằm phân tách liệu thành phần với tỉ lệ (70/30) 70% cho Train 30% cho Test 17 Sau đó, ta áp dụng phương pháp Hồi quy Logistic, SVM, Cây định để tìm mơ hình tốt để dự báo dựa vào Test & Score Confusion Mat 18 Sau có kết từ mơ hình lựa chọn mơ hình tối ưu cho việc dự đốn Tiếp tục nối mơ hình chọn Test (30% data cịn lại) vào phương pháp dự đốn để hoàn thiện Các Kết Quả Thực Nghiệm Sau kết thu từ phương pháp để chọn phương pháp tốt để dự báo độ hài lòng hành khách 19 Test and Score Confusion Matrix 20 3.3 Phân tích đánh giá Dựa vào bảng đánh giá kết Test&Core, số AUC ( Area Under the Curve) mơ hình Tree lớn gần với ( 0,926) Theo lý thuyết, mơ hình có giá trị dương lớn gần với mơ hình có độ xác cao Các mơ hình cịn lại phương pháp Tree có số CA, F1,Precision, Recall đềulà: 0.937 lớn so với số mơ hình khác ( SMV Hồi quy Logistic) Vì nói mơ hình Tree đưa dự báo xác nên nhóm thực chọn phương pháp dùng mơ hình Tree CHƯƠNG KẾT LUẬN 4.1 Các kết đạt 21 22 4.2 Những Hạn Chế Hướng Phát Triển a) Những hạn chế: Kết nghiên cứu bị thu hẹp phạm vi liệu phân tích liệu hãng hàng khơng Kết nghiên cứu bị hạn chế loại khách hàng chưa phong phú Phương pháp chọn mẫu chọn phương pháp chọn mẫu mục đích, phương pháp chọn mẫu phi xác suất nên kết không khách quan khái quát b) hướng phát triển: Như biết, phát triển nhanh chóng vượt bật kinh tế nay, nhu cầu sông nâng cao, việc chọn phương tiện di chuyển vừa nhanh chóng vừa thuận tiện máy bay nhu cầu thiết yếu hành khách Với phương pháp nghiên cứu phân tích hài lịng hành khách, với yếu tố khác định đến hài lịng, nghiên cứu kì vọng đóng góp thơng tin hứu ích chiến lược cho doanh nghiệp nay, đồng thời làm rõ tác động yếu tố tác động với 23 Bên cạnh ta mở rộng mơ hình nghiên cứu với nhiều doanh nghiệp khác để có nhìn tổng quan 24 ... Toán Phân Lớp Dữ Liệu: 1.2 Giới Thiệu Về Phần Mềm Python Phần Mềm Orange: .1 1.3 Lý Do Chọn Lựa Đề Tài: .3 CHƯƠNG CÁC MƠ HÌNH PHÂN LỚP DỮ LIỆU .3 2.1 Các Mơ Hình Phân. .. liệu Và phân lớp liệu hướng nghiên cứu khai thác liệu NỘI DUNG CHƯƠNG TỔNG QUAN 1.1 Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu: Khoa học liệu môn khoa học nghiên cứu liệu Bên cạnh đó, khoa học liệu. .. liệu khác có cấu trúc phi cấu trúc, cịn tiếp nối số lĩnh vực liệu phân tích liệu khai thác liệu, thống kê khoa học, tương tự khai thác kiến thức từ sở liệu Trong khai thác liệu tốn phân lớp liệu

Ngày đăng: 05/12/2022, 06:27

HÌNH ẢNH LIÊN QUAN

Ta có thể thấy một vài ví dụ điển hình như phân loại tài khoản cá nhân và tài khoản của cơ quan cấp, công ty hay số điện thoại cá nhân và số điện thoại sử dụng cho cơng việc,...Giao dịch qua tài khoản cá nhân có đảm bảo an tồn hay khơng, khách hàng có hài - PHÂN TÍCH dữ LIỆU PHÂN HẠNG TÍNH DỤNG dựa TRÊN bộ dữ LIỆU AIRLINES PASSENGER SATISFACTION dựa TRÊN PHẦN mềm ORGANE
a có thể thấy một vài ví dụ điển hình như phân loại tài khoản cá nhân và tài khoản của cơ quan cấp, công ty hay số điện thoại cá nhân và số điện thoại sử dụng cho cơng việc,...Giao dịch qua tài khoản cá nhân có đảm bảo an tồn hay khơng, khách hàng có hài (Trang 9)
2.1.2. Mơ Hình Decision Tree: - PHÂN TÍCH dữ LIỆU PHÂN HẠNG TÍNH DỤNG dựa TRÊN bộ dữ LIỆU AIRLINES PASSENGER SATISFACTION dựa TRÊN PHẦN mềm ORGANE
2.1.2. Mơ Hình Decision Tree: (Trang 10)
2.1.4. Mơ Hình Neural Network - PHÂN TÍCH dữ LIỆU PHÂN HẠNG TÍNH DỤNG dựa TRÊN bộ dữ LIỆU AIRLINES PASSENGER SATISFACTION dựa TRÊN PHẦN mềm ORGANE
2.1.4. Mơ Hình Neural Network (Trang 14)
Phương pháp n=K-Fold thường được dùng nhiều hơn hand-out do mơ hình sẽ được huấn luyện và đánh giá trên nhiều phần dữ liệu khác nhau. - PHÂN TÍCH dữ LIỆU PHÂN HẠNG TÍNH DỤNG dựa TRÊN bộ dữ LIỆU AIRLINES PASSENGER SATISFACTION dựa TRÊN PHẦN mềm ORGANE
h ương pháp n=K-Fold thường được dùng nhiều hơn hand-out do mơ hình sẽ được huấn luyện và đánh giá trên nhiều phần dữ liệu khác nhau (Trang 16)
Từ đó tăng độ tin cậy cho độ đánh giá của mơ hình. - PHÂN TÍCH dữ LIỆU PHÂN HẠNG TÍNH DỤNG dựa TRÊN bộ dữ LIỆU AIRLINES PASSENGER SATISFACTION dựa TRÊN PHẦN mềm ORGANE
t ăng độ tin cậy cho độ đánh giá của mơ hình (Trang 16)
+ Bước 1: Xây dựng mơ hình phân lớp (hay còn gọi là giai đoạn “học” hoặc “huấn luyện”) - PHÂN TÍCH dữ LIỆU PHÂN HẠNG TÍNH DỤNG dựa TRÊN bộ dữ LIỆU AIRLINES PASSENGER SATISFACTION dựa TRÊN PHẦN mềm ORGANE
c 1: Xây dựng mơ hình phân lớp (hay còn gọi là giai đoạn “học” hoặc “huấn luyện”) (Trang 17)
Kết quả của bước này là mơ hình phân lớp đã được huấn luyện (trình phân lớp) - PHÂN TÍCH dữ LIỆU PHÂN HẠNG TÍNH DỤNG dựa TRÊN bộ dữ LIỆU AIRLINES PASSENGER SATISFACTION dựa TRÊN PHẦN mềm ORGANE
t quả của bước này là mơ hình phân lớp đã được huấn luyện (trình phân lớp) (Trang 17)
- Là trường hợp mơ hình cho ra kết quả hợp lý với cả tập dữ liệu huấn luyện và các giá trị mới, tức mang tính tổng quát. - PHÂN TÍCH dữ LIỆU PHÂN HẠNG TÍNH DỤNG dựa TRÊN bộ dữ LIỆU AIRLINES PASSENGER SATISFACTION dựa TRÊN PHẦN mềm ORGANE
tr ường hợp mơ hình cho ra kết quả hợp lý với cả tập dữ liệu huấn luyện và các giá trị mới, tức mang tính tổng quát (Trang 19)
Một mơ hình hiệu quả khi có FPR thấp và TPR cao, hay ROC càng tiệm cận với điểm (0;1) trong đồ thị thì mơ hình càng hiệu quả. - PHÂN TÍCH dữ LIỆU PHÂN HẠNG TÍNH DỤNG dựa TRÊN bộ dữ LIỆU AIRLINES PASSENGER SATISFACTION dựa TRÊN PHẦN mềm ORGANE
t mơ hình hiệu quả khi có FPR thấp và TPR cao, hay ROC càng tiệm cận với điểm (0;1) trong đồ thị thì mơ hình càng hiệu quả (Trang 21)
Ta có tổng cộng 24 biến để thực hiện mơ hình phân tích dữ liệu. Ta đánh giá kết quả mơ   hình   dựa   trên   23   biến - PHÂN TÍCH dữ LIỆU PHÂN HẠNG TÍNH DỤNG dựa TRÊN bộ dữ LIỆU AIRLINES PASSENGER SATISFACTION dựa TRÊN PHẦN mềm ORGANE
a có tổng cộng 24 biến để thực hiện mơ hình phân tích dữ liệu. Ta đánh giá kết quả mơ hình dựa trên 23 biến (Trang 22)
Sau khi có được kết quả từ các mơ hình và lựa chọn mơ hình tối ưu nhất cho việc dự đốn - PHÂN TÍCH dữ LIỆU PHÂN HẠNG TÍNH DỤNG dựa TRÊN bộ dữ LIỆU AIRLINES PASSENGER SATISFACTION dựa TRÊN PHẦN mềm ORGANE
au khi có được kết quả từ các mơ hình và lựa chọn mơ hình tối ưu nhất cho việc dự đốn (Trang 24)
Các Kết Quả Thực Nghiệm - PHÂN TÍCH dữ LIỆU PHÂN HẠNG TÍNH DỤNG dựa TRÊN bộ dữ LIỆU AIRLINES PASSENGER SATISFACTION dựa TRÊN PHẦN mềm ORGANE
c Kết Quả Thực Nghiệm (Trang 24)
3.3 Phân tích và đánh giá - PHÂN TÍCH dữ LIỆU PHÂN HẠNG TÍNH DỤNG dựa TRÊN bộ dữ LIỆU AIRLINES PASSENGER SATISFACTION dựa TRÊN PHẦN mềm ORGANE
3.3 Phân tích và đánh giá (Trang 26)
Dựa vào bảng đánh giá kết quả của Test&Core, chỉ số AUC (Area Under the Curve) của mơ hình Tree lớn nhất và gần với 1 nhất ( 0,926) - PHÂN TÍCH dữ LIỆU PHÂN HẠNG TÍNH DỤNG dựa TRÊN bộ dữ LIỆU AIRLINES PASSENGER SATISFACTION dựa TRÊN PHẦN mềm ORGANE
a vào bảng đánh giá kết quả của Test&Core, chỉ số AUC (Area Under the Curve) của mơ hình Tree lớn nhất và gần với 1 nhất ( 0,926) (Trang 26)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w