Cửa từ ở sân bay được ứng dụng khoa học dữ liệu trong việc phân tích các dữ liệu có sẵn về các đồ dùng cắm đem lên máy bay đã giúp các hãng hàng không phát hiện những đối tượng tình nghỉ
Trang 1ỨNG DỤNG CỦA DATA SCIENCE TRONG HÃNG
HÀNG KHONG QUOC GIA VIETNAM AIRLINES
Giảng viên hướng dẫn: Tiến sĩ Nguyễn An Tế
Môn: Khoa học dữ liệu
Mã lớp học phần: 23C1POL51002506 Nhóm sinh viên: Đỗ Thu Phương
Đỗ Thị Thảo Nhi Trần Dương Thiên Phụng Võ Kim Oanh
Nguyễn Thị Minh Nguyệt
Trang 2
DANH MUC BANG BIEU
Hinh 3.1: Xây dựng mô hình phân lớp dữ liệu Hình 3.2: Kiểm tra tính chính xác của mô hình
Hình 3.3: Áp dụng mô hình phân lớp vào dữ liệu mới
Hình 3.4: Ví dụ mô hình Hồi quy Logistic Hinh 3.5: Vi du m6 hinh SVM
Hình 3.6: Minh hoạ các phương pháp đánh giá mô hình phân lớp
Hình 3.7: Minh hoạ ma trận nhầm lẫn Hình 3.8: Minh hoạ đường con ROC
Hình 3.9: Minh hoa dién AUC Hinh 3.10: Minh hoa vé K - fold cross validation
Hình 4.1 Các bước tiền hành xử lý dữ liệu
Hình 4.2 Nạp dữ liệu vào trong file
Hình 4.3: Kết quả kiểm tra dữ liệu bị thiếu Hình 4.4 Tập dữ liệu gốc
Hình 4.5: Tách Data Sample 80% từ dữ liệu gốc Hình 4.6: Lưu dữ liệu thanh file training dataset.xlsx Hình 4.7: Mẫu dữ liệu training datasets không có missing value
Hình 4.8: Đôi role của biến loyal thanh skip
Hình 4.9: Lưu dữ liệu 20% thanh file forecast Hình 4.10: Mẫu dữ liệu forecast không có missing value
Hinh 4.11: Tap dữ liệu huấn luyện Hình 4.12: Mô hình các thuật toán
Trang 3Hình 4.13: Kết quả chia mẫu dữ liệu thành 5 phan Hình 4.15: Kết quả chia mẫu dữ liệu thành 10 phần Hình 4.16: Kết quả chia mẫu đữ liệu thành 50-90% Hình 4.17: Kết quả chia mẫu đữ liệu thành 20-80%
Hình 4.18:Kết quả ma trận nhằm lẫn theo phương pháp Hồi quy Logistic Hình 4.19: Kết quả ma trận nhằm lẫn theo phương pháp SVM Hình 4.20: Đường cong ROC véi bién target la loyal
Hinh 4.21: Dt liéu forecast Hình 4.22:Mô hình dự bảo dữ liệu forecast
Trang 4MUC LUC
LỜI CÁM ƠN LH TH HH HH HH HH HH HH HH TH HH 6 CHUONG I: TONG QUAN VE DATA SCIENCE 7
1 Data Science la gi? 7 2 Vai tré, tinh ing dung cua Data Science trong thời kì công nghệ - 5525 7
CHUONG 2: UNG DUNG DATA SCIENCE DOI VOI HANG HANG KHONG VIETNAM
ATRLINES HH HH HH Tà HT HT HT TT HH TT Tà v0 8
1.1 Check-in va hai quan 18 1.2 Phân tích hành vi, phòng ngừa các mối nguy hại 8 2 Chăm sóc khách hàng 8
3.1 Phân tích dữ liệu khách hàng id 3.2 Hệ thống Quản trị Khách hàng Doanh nghiép (Customer Relationship Management
4, Quản lý doanh nghiệp 10 4.1 Ứng dụng Data Science vào quản lý rủi ro 10 4.1.1 — Dự đoán bảo dưỡng 10 4.1.2 — Quản lý sức khỏe nhân sw 10
Na cố
4.2 Ứng dụng Data Science vào quản lý tài chính 52 25c Server
4.2.1 Hỗ trợ thực hiện báo cáo tài chính
4.2.2 Quản lý lợi nhuận và khả năng duy trì các chuyến bay - 55c 5c cv 4.2.3 Thanh toán và chỉ trả
11 11 11 11 11
Trang 5Ứng dụng Data Science vào quản lí nhân sự:
5.1 Tuyến dụng và thu hút nhân tài
5.1.1 Phân tích tập trung vào ứng viên
5.1.2 Đo lường hiệu quả quá trình tuyến dụng
Mục tiêu nghiên cứu
1.I Mục tiêu tông quát
3.2.3.2 SVM (Support Vector Machine):
Trang 64.3 Pham lop dif HOU eect eteneerenesensensecnsenssnsecssnssensesseessesesessesssssnsenseaeessane nanos 30
4.3.1 Một số phương pháp phân lớp dữ liệu 30
4.3.2 Quy trình và kết quả mô hình 2+ 2© 5+ S++CEE+EE+SE+EExEEEEEEEEEEErrr re sec rec 30
CHƯƠNG 4: THẢO LUẬN 43 CHƯƠNG 5: KÉT LUẬN 43 TAI LIEU THAM KHAO 44
BANG TY LE DONG GOP
Ho va tén Phan tram dong gép
Đỗ Thu Phương Đễ Thị Thảo Nhi
Trần Dương Thiên Phụng Võ Kim Oanh Nguyễn Thị Minh Nguyệt
LỜI CẢM ƠN
Chúng em xin gửi lời cảm ơn chân thành đến giảng viên Nguyễn An TẾ Trong quá trình học tập, em nhận được sự giảng dạy vô cùng tâm huyết của thầy trong từng buổi học và những nhận xét giup chúng em có thể phát triển dự án của mình Với những kiến thức đã được học ở bộ môn “Khoa học dữ liệu” này sẽ là hành trang giúp chúng em vững bước và có thể vận dụng vào những công việc thực tế
Tuy nhiên, trong thời gian ngắn ngủi và do chưa có nhiều kinh nghiệm cũng như hạn chế về mặt kiến thức, trong bài tiêu luận chắc chắn sẽ không tránh khỏi những thiếu sot Chúng em rất mong nhận được những ý kiến nhận xét và đóng góp từ phía Thầy để bài
tiểu luận có thê hoàn thiện hơn
Em xin chân thành cảm ơn Thây!
Trang 7CHUONG I: TONG QUAN VE DATA SCIENCE
1 Data Science la gi? Trong những năm gần đây, nhu cầu chuyên đối kỹ thuật số ngày càng tăng từ đó ngành Khoa học dữ liệu cũng trở thành một trong những lĩnh vực phát triển nhanh nhất trong mọi ngành
Data Science la qua trình thu thập, xử lý, phân tích, chuyền hóa dữ liệu thành thông tin có giá trị Thông tin này sau đó được sử dụng để đưa ra các quyết định và hành động phù hợp
Theo công ty công nghệ máy tính đa _quốc gia Oracle, Khoa học dữ liệu (Data Science) kết hợp nhiều lĩnh vực bao gồm thống kê, phương pháp khoa học, trí tuệ nhân tạo và trích xuất giá tri tir dit ligu (Oracle (n.d) Retrieved October 3.2021)
Có thể hiểu, Khoa hoc đữ liệu là ngành phát triển dựa trên sự kết hợp của
toán học (thống kê toán học), Công nghệ thông tin (máy học) và tri thức của lĩnh
vực ứng dụng cụ thê Khoa học dữ
liệu đang ngày càng phát triên
rong rãi ở nhiêu lĩnh vực khác
nhau như t° _— Al chăm sóc sức khoẻ,
BUSINESS/DOMAIN
EXPERTISE
ScALER
'feptes
Trang 82 Vai trò, tính ứng dụng của Data Science trong thời kì công nghệ Trong thời đại công nghệ số, việc áp dụng khoa học dữ liệu là điều vô củng cần thiết cho các doanh nghiệp giúp cho họ có thê cầu trúc, phát triển và cải tiễn hoạt động Data Science là các chuyên gia phân tích dữ liệu sử dụng các phương pháp thông kê, máy học để tìm kiếm những thông tin hữu ích từ khối lượng dữ liệu lớn Những thông tin còn gọi la insight, giúp doanh nghiệp hiểu rõ hơn về thị trường, khách hàng, và hoạt động của chính mình Từ đó, họ có thể đưa ra các quyết định đúng đắn, nâng cao hiệu quả lao động
Cũng như các ngành công nghiệp thương mại khác, ngành hàng không cũng ứng dung Data Science Noi ma céng nghé dang co nhu cau rat lớn để dự đoán, phân tích khách hàng và ngăn chặn những rủi ro
Cụ thê là hãng hàng không Vietnam Airlines là một hãng bay quốc gia của Việt Nam Với 25 năm hoạt t dong, hang da tro thanh hang bay hang dau Viét Nam, phuc vu hang triệu khách mỗi năm Tuy nhiên, vấn có một số khó khăn mà họ cần phải giải quyết như:
® - Quản ly tài chính và nhân sự
® Anninh ® Phan tích khách hàng © Quang cao, truyén thông dịch vụ
CHUONG 2: UNG DUNG DATA SCIENCE DOI VOI HANG HANG KHONG VIETNAM AIRLINES
1 An ninh Trude khi khoa hoc dữ liệu phát triển, an ninh ngành hàng không chỉ được kiêm tra thủ công bằng mắt, nên không thê bảo đảm được về sự an toàn cho hành khách trên chuyến bay, cũng như phi hành đoàn Thấy được những khó khăn â ay,
hang hang khéng Vietnamairlines da ap dung khoa học dữ liệu đề có thê đảm báo
an toàn hơn về chất lượng chuyên bay nhằm đem lại cho khách hàng những trai nghiệm đáng nhớ
1.1 Check-in va hai quan
Trang 9Vietnam Airlines da st’ dung may quét mã vạch để kiểm tra thông tin hành khách, chuyền bay Điều này không chỉ giúp kiêm soát số lượng và thông tin hành khách mà còn ngăn chặn việc giả mạo giây tờ, vẻ máy bay
Cửa từ ở sân bay được ứng dụng khoa học dữ liệu trong việc phân tích các dữ liệu có sẵn về các đồ dùng cắm đem lên máy bay đã giúp các hãng hàng không phát hiện những đối tượng tình nghỉ có mang theo vũ khí, những đồ dùng cắm mang theo trên người
Máy soi hành lý phân tích các dữ liệu về các đồ vật ngoài việc kiêm tra xem khách hàng có đem đồ vật cấm, đồ dùng nguy hiểm, thì máy soi hành lý còn kiêm tra xem đồ vật đó liệu có phù hợp là đồ xách tay hay không, đề có thê hỗ trợ hành khách ký gửi hành lí
1.2 Phân tích hành vi, phòng ngừa các mỗi nguy hại
Vietnamairlines da va đang sử dụng dữ liệu từ dữ liệu giám sát được sử dụng đề phân tích hành vi của hành khách và nhân viên Điều này có thể giúp phát hiện
các mối đe dọa tiềm ân, chăng hạn như hành vi của những người có ý định gây hại
Một số thiết bị giám sát hiện nay đã có mặt tại Vietnam Airlines đó là camera an ninh Ngoài ra còn có hệ thông giám sát theo dõi thân nhiệt tự động có thể phát hiện được nhanh, chính xác nhiệt độ cơ thể người trong khu vực quan sát của camera Việc này giúp đội ngũ quản lý sân bay có thể ngăn chặn được các mối nguy hiểm như các bệnh truyền nhiễm và hỗ trợ y tế cho hành khách của mình Chăm sóc khách hàng
Áp dụng phân lớp dữ liệu chuyên bay của hành khách, giúp Vietnam Airlines có thể hỗ trợ hành khách một cách nhanh chóng hơn Có thể thấy, đối với hành khách nối chuyến, Vietnam Airlines sẽ tự động nhắn tin nhắc nhở những giấy tờ cần chuân bị cho chặng bay sau và khi chuyền bay kết thúc
Sau những chuyên bay, Vietnam Airlines sẽ gửi khảo sát và lấy ý ý kiến hành khách về chất lượng dịch vụ Từ đó có thể phân tích và cải thiện chất lượng trong hệ thống Điều này làm cho khách hàng cảng cảm thấy hài lòng hơn với những dịch vụ của hãng Một ví dụ tiêu biêu cho điều này chính là sau khi lắng nghe ý kiến của khách hàng về việc phải chờ đợi check m thì dịch vụ làm thủ tục trực tuyến (Self Check-in) ra doi, giup hanh khach co thé tự làm thủ tục lên máy bay bằng bất cứ thiết bị nào có nồi mang internet va kết nối được với Website của Vietnam Airlines từ đó giảm thiêu thời gian chờ đợi check in của hành khách Hơn nữa đữ liệu từ hệ thống giải trí trên chuyến bay có thê giúp hang nam bắt được sở thích của hành khách và điều chính các dịch vụ ăn nhẹ, đồ uống cũng như lựa chọn giải trí cho phù hợp Mới đây, hãng tiếp tục triển khai chương trình
số hoá thực đơn bằng cách thay thế cuốn thực đơn giấy truyền thống thành thực đơn trên website
Marketing Vietnam Airlines la hãng hang không quốc gia Việt Nam và là một trong những hãng hàng không hàng đầu khu vực Châu Á và thế giới với nhiều giải thưởng và danh hiệu uy tín Đề duy trì và nâng cao vị thế cạnh tranh của mình,
Trang 10hãng có thê sử dụng khoa học dữ liệu trong marketing để tối ưu hóa chiến lược
kinh doanh, cải thiện trải nghiệm khách hàng và tăng hiệu quả lao đông 3.1 Phân tích dữ liệu khách hàng
Áp dụng phương pháp gom cụm đề có thê đưa ra những quảng cáo, ưu đãi phù hợp với từng loại nhóm khách hàng Data Science giúp hãng hàng không thu thập dữ liệu về hành vi của khách hàng từ các nguồn khác nhau như trang web, ứng dụng di động, mạng xã hội, để làm rõ vệ xu hướng, sở thích, hành khách dé tạo ra chiến lược tiệp thị tập trung hơn, hiểu được cách khách hàng tương tác trên các nền tang truyền thông xã hội, email, hay các kênh trực tuyến khác, từ đó tối ưu hóa nội dung và tạo ra chiến lược tương tác hiệu quả hơn, thu hút được nhiều khách hàng mới hơn
Đặc biệt hơn, thông qua việc phân tích dữ liệu khách hàng, Vietnam Airlines có thê đưa ra nhiều giải pháp tối ưu hơn về quy trình đặt vé, thanh toán và check- in cũng như hỗ trợ chăm sóc khách hàng Vietnam Airlines còn có thể áp dụng mô
hình hôi quy để dự đoán, phân tích khá năng khách hàng tái đặt vé hay tái sử dụng
dịch vụ Ngoài ra, ước tính doanh số bán hàng trên chuyến bay và cung cấp thực phẩm bằng việc sử dụng phần mềm dữ liệu lớn đề phân tích là điều vô cùng cần thiết đôi với hãng bay Qua quá trình phân tích đữ liệu, Vietnam Airlines có thể kiểm tra dữ liệu bán hàng, lịch sử mua hàng để xác định mặt hàng thực phâm và đỗ uống nào có nhiều khả năng bán trên các đường bay cụ thê vào các thời điểm khác nhau trong ngày Thông tin này có thể giúp tô phục vụ chuẩn bị trước những
trong quá trình sử dung dich vu [1]
4 Quản lý doanh nghiệp 4.1 Ứng dụng Data Science vào quản lý rủi ro
4.1.1 Dự đoán bảo dưỡng
Lúc trước, Vietnam Airlines đã dựa trên các quy định của nhà sản xuất đề
bảo dưỡng định kỳ đảm bảo hiệu quả hoạt động của các máy bay như: thời gian bay, số lần cất hạ cánh, điều kiện môi trường
Ngày nay, hãng bay đã áp dụng bài toán phân tích hồi quy để dự đoán lịch bảo dưỡng gồm biến phụ thuộc là thời điểm cần bảo dưỡng và các biến độc lập như số giờ bay, tình trạng các bộ phận máy bay đề triển khai giải pháp bảo trì
Trang 11dự đoán Skywise - là sự kết hợp giữa hãng hàng không Vietnam Airline và
Airbus Theo thống kê của Skywise về việc áp dụng công nghệ trên đã giúp
Vietnam Airline có thể phát hiện và khắc phuc hon 1000 sy cô tiềm an, tiết
kiệm hơn 10 triệu USD chi phí bảo dưỡng va tăng thời gian hoạt động của máy bay lên đến 2%
4.1.2 Quản lý sức khỏe nhân sự Data Science da giup hãng bay theo dõi sức khỏe của nhân viên thông qua các hệ thông theo dõi sức khỏe từ xa đề thu thập các yếu tố về sức khỏe như dữ liệu về nhịp tim, huyết á áp, sự căng thang Điều nay giup hãng hàng không có thê phát hiện sớm các vấn để sức khỏe tiềm an và tùy chỉnh chương trỉnh chăm sóc cho nhân sự phù hợp
Theo thống kê, Vietnam Airline có thể giảm chỉ phí chăm sóc sức khỏe nhân viên xuống 10% và tăng năng suất lao động lên 5%
4.1.3 Quản lý chuyến bay
Áp dụng Data science vào việc quản lý các đường bay của sân bay để đưa ra các khoáng thời gian bay tương ứng cho khách hàng lựa chọn và tránh các tình trạng máy bay không có chỗ hạ hoặc cất cánh ảnh hưởng đến thời gian của hành khách và chị phí tiêu thụ nhiên liệu của doanh nghiệp
4.2 Ứng dung Data Science vao quản lý tài chính 4.2.1 Hỗ trợ thực hiện báo cáo tài chính
Vietnam Airline da str dung phan mềm kế toán Oracle hỗ trợ thực hiện
các báo cáo, dự báo và phân tích xu hướng tài chính của hãng bay đề tự động hóa các quy trình giúp hãng hàng không tiết kiệm được thời gian, chỉ phí thuê nhân công, vừa đám bảo được tính chính xác cao của báo cáo để đưa ra những dự báo và phân tích xu hướng phù hợp nhất theo tiêu chuẩn quốc tế như IFRS, GAAP cho doanh nghiệp
Trang 124.2.2 Quản lý lợi nhuận và khả năng duy trì các chuyến bay
Vietnam Airline su dụng dữ liệu khoa học cải thiện hiệu quả trong việc
quản lý vốn và kiểm soát các chi phí như sử dụng dữ liệu dé tim hiéu hanh vi của khách hàng mong muôn của họ là gì, khi nào họ muốn bay va san sang tra bao nhiêu tiền, do vậy hãng bay có thê điều chỉnh giá vé đề thu hút khách hàng và tăng doanh thu cho doanh nghiệp
4.2.3 Thanh toán và chỉ trả Vietnam Airlines sử dụng phần mềm CMS - ứng dụng quản lý tất cả các hợp đồng kinh tế của Tông Công ty Hàng không Việt Nam (Vietnam Airlines) vào hoạt động đánh dấu một bước tiễn mới trong quá trình số hóa quy trình quản lý và sô hóa dữ liệu của Vietnam Airlines Toàn bộ quy trình quản lý hợp đồng được thiết lập và quản lý tap trung, xuyên suốt
Đặc biệt CMS cũng là hệ thống CNTT đầu tiên của Vietnam Airlines sử dụng chữ ký số Điều này đồng bô hóa và làm cho công tác quản lý hợp đồng
trở nên nhất quán và chặt chẽ hon
5 Ứng dụng Data Science vào quản lí nhân sự:
5.1 Tuyển dụng và thu hút nhân tài
5.1.1 Phan tích tập trung vào ứng viên Sử dụng phân tích dữ liệu về các ứng viên đang tham gia quá trình tuyên dụng và những người hiện đang làm việc, đưa ra các giả định và nhận diện xu hướng về những điềm chung của những người có thê phù hợp với công việc và môi trường làm việc tại hãng không này
5.1.2 Đo lường hiệu quả quá trình tuyển dụng Vietnam Airlines có thể đánh giá hiệu quả quá trình tuyên dụng và tìm cách cải thiện bằng cách phân tích dữ liệu liên quan đến các tiêu chí tuyển dụng, bao gồm thời gian từ lúc đăng tuyên đến khi có ứng viên được chọn, tỷ
lệ chấp nhận, từ chối lời mời phỏng vấn và lời mời nhận công việc.
Trang 135.2 Dao tao va phat trién Sử dụng dữ liệu về nhân viên dé có thể đưa ra quy trình đào tạo và phat triển nhân viên phù hợp như sau:
Phân tích nhu cầu đào tao Theo dõi tiến trình đào tạo
Xác định tác động của đảo tạo đến hiệu suất
Tối ưu hóa chương trình đào tạo 5.3 Phúc lợi nhân viên
Sau khi phân tích dữ liệu về doanh số, bảng khảo sát về nhu cầu của nhân
viên, KPI, hiệu suất làm việc, sản phẩm lao động, Vietnam Airlines đưa ra một số chính sách phúc lợi nhằm tăng cường trải nghiệm làm việc của nhân viên Cụ thê, chế độ vé miễn giảm cước, hỗ trợ người lao động trong thời gian tạm hoãn hợp đồng lao động và chế độ tự nguyện nghỉ chờ hưu là những đãi ngộ đáng chú ý tại Vietnam Airlines
5.4 Sắp xếp lịch trình bay của nhân viên Việc phân tích dữ liệu dựa trên thông tin về thời gian rảnh và lịch trình bay có từ trước giúp tô chức tối ưu hóa sự linh hoạt của nhân viên trong việc đăng ký
lịch trình bay theo mong muốn của mình, đồng thời đảm bảo mọi hoạt động vẫn
tuân thủ theo các nguyên tắc và quy định của hãng Điều này không chỉ tạo ra sự thuận tiện cho nhân viên mà còn giúp tối ưu hóa chất lượng dịch vụ và hiệu suất làm việc của hãng.[2],[3]
CHUONG 3: CHẠY DỮ LIEU PHAN MEM ORANGE
1 Mục tiêu nghiên cứu 1.1 Mục tiêu tông quát
Hiểu rõ về Khoa học đữ liệu, sự ảnh hưởng của nó đối với các doanh nghiệp
nói chung và ngành hàng không nói riêng và nắm được các quy trỉnh trong phân tích dữ liệu tiền xử lý dữ liệu, phân lớp dữ liệu cũng như các điều kiện khi sử dụng phần mềm Orange
Giải quyết vấn đề được đặt ra là phân tích dịch vụ chăm sóc khách hàng của hãng Vietnam Airlines, dự báo về sự hài lòng của hành khách đối với dịch vụ; từ đó tìm ra nguyên nhân khách hàng không hải lòng và đưa ra các khuyến nghị để
cải thiện chất lượng bay
1⁄2 Mục tiêu cụ thể:
Để đưa ra các khuyến nghị cho việc cải thiện dịch vụ chăm sóc khách hàng ở
Vietnam Airlines, nhóm tác gia đã đưa ra 2 mục tiêu nghiên cứu chính:
Mục tiêu l: Phân tích các dịch vụ chăm sóc
Mục tiêu 2: Phân lớp dữ liệu để dự báo về sự hài lòng của hành khách khi sử
dụng dịch vụ
Trang 141.3 Đối tượng và phạm vi nghiên cứu Đối tượng nghiên cứu: Các nhân tố ảnh hưởng đến dịch vụ chăm sóc khách hàng của hãng hàng không Vietnam Airlines
Đôi tượng khảo sát: Khách hàng từng sử dụng dịch vụ bay từ l8 tudi trở lên,
sinh sông tại thành phô Hồ Chí Minh
Phạm vi nghiên cứu: Dữ liệu được thu thập trên nên tảng Kaggle với sự
chính sửa sô liệu dư thừa của nhóm tác giả
M6 ta bai toán và mồ tả dữ liệu 2.1 Mô tả bài toán
Sử dụng công cụ thông kê, lược đỗ của phần mềm Orange đề xứ lý dữ liệu và giải quyêt vân để: Đánh gia sy hai long của khách hàng thông qua hai mô hinh là Support Vector Machine (SVM) và Hồi quy Logistic
20
1 - 20 đến
29 2 - 30 đến 39 3 - trên 40 3 Class Hạng bay Eco
Eco Plus Bussiness 4 Inflight wifi Danh gia dich | Thang diém 1-5
supportRate trực tuyến (1 Rất kém, 5
Xuất sắc)
7 Ease of Online Đánh giá đặt | Thang điểm I-5
Trang 15bookingRate phòng trực tiệp (1 Rất kém, 5
Xuất sắc)
§ On-board Đánh giá phục | Thang diém 1-5
serviceRate vu trén chuyén | (1 Rat kém, 5
bay Xuat sac) 9 Baggage Danh gia dich | Thang diém 1-5
sinh (1 Rat kém, 5
Xuat sac) 12 Care Khách hàng có 0: Không
hải lòng 1: Có không?
3 Cơ sở lý thuyết
3.1 Sử dụng phần mềm Orange Data Mining va Machine Learning là những lĩnh vực khá phức tạp dé tim hiéu Do do, nhiéu loại phần mềm đã được phát triển nhằm giúp người dùng dễ dàng giải quyết các bài toán trong lĩnh vực khó khăn này Orange là một trong
những phần mềm phô biến nhất hiện nay Orange là một hệ điều hành Linux nhân bản thuộc dòng Minimal X của OpenSUSE Hệ điều hành này có thể hoạt động trên bộ vi xử x86 của Intel hoặc AMD, dựa trên kiến trúc x86 (32-bit) của Intel Phần mềm Orange nồi tiếng với việc tích hợp các công cụ khai phá dữ liệu, mã nguồn mở và học máy thông minh, cho phép người dùng thực hiện mọi nhiệm vụ từ việc chuẩn bị đữ liệu cho đến đánh giá mô hình mà không cần viết ma dich Orange là một giải pháp khai thác dữ liệu giúp các doanh nghiệp từ vừa và nhỏ (SMES) tạo ra các quy trinh cong việc phân tích và trình bày dữ liệu để tạo ra các phép chiếu tuyến tính bản đồ nhiệt, MDS, trên nền tảng tập trung
Các tiện ích được tích hợp nhỏ gọn của Orange hỗ trợ phân tích dữ liệu, bao gôm các tiện ích cơ bản sau:
- Data: Quá trình rút trích, biên đôi và nạp dữ liệu (ETL) - Visualize: Trình bày dữ liệu dưới dạng biểu đỗ dé quan sát trực quan hơn.
Trang 16- Model: bao gồm các hàm máy học phân lớp dữ liệu bằng cách sử dụng các phương pháp như Tree, Logistics Regression va SVM
- Evaluate: đánh giá hiệu quả của các mô hình - Unsupervised: bao gồm các hàm máy học phân cụm dữ liệu như khoảng cách, K-means
Người dùng có thể truy cập mục Options > Add ons nếu họ cần sử dụng
các tiện ích bô sung
3.2 Phương pháp phan lớp dữ liệu
Một mô hình phân lớp được sử dụng để xác định lớp (hoặc loại) của một đối tượng dữ liệu được gọi là phân lớp dữ liệu Mô hình này bắt nguồn từ một tập dữ liệu đã được tiền xử lý trước đó Việc phân lớp dữ liệu bao gồm việc gán nhãn cho
đối tượng hoặc dữ liệu chính Phương pháp Hồi quy Logistic (Logistic Regression), phuong phap SVM (Support Vector Machine) va phuong phap Cay Quyết định (Decision Tree) là một số phương pháp phân lớp phô biến Mỗi thuật
toán có những đặc điểm và lợi ích riêng Tùy thuộc vào mục đích phân tích và bộ
dữ liệu, một phương pháp có thê được sử dụng hiệu quả hơn so với phương pháp khác
3.2.1 Quy trình phân lớp dữ liệu Phân lớp dữ liệu diễn ra trong hai giai đoạn chính:
Giai đoạn 1: Xây dựng mô hình (Giai đoạn huấn luyện)
Ở ĐIải đoạn nay, chung ta str dung các thuật toán phân lớp như cây quyết định, hàm số toán học hoặc tập luật đề xử lý dữ liệu đầu vào là các mẫu dữ liệu đã được gán nhãn và đã được tiền xử lý dé loại bỏ nhiễu, thiếu hoặc sai sót Cuối
cùng, ta thu được một mô hình phân lớp đã được huấn luyện
classification algorithm features -
Trang 17Hinh 3.1: Xay dựng mô hình phân lớp dữ liệu
Gai đoạn 2: Sử dụng mô hình:
Giai đoạn 2.1: Đánh giá mô hình phân lớp (kiểm tra tính chính xác của mô hình)
Ở bước này, dữ liệu mới được gán nhãn và tiền xử lý Tuy nhiên, khi đưa dữ
liệu này vào mô hình phân lớp, ta tạm thời không xem xét thuộc tính đã gán nhãn Tính
đúng đắn của mô hình được xác định bằng cách so sánh thuộc tính đã gán nhãn với kết
quả phân lớp của mô hình Khi phân lớp các dữ liệu mới chưa biết thuộc tính, mô hình
này sẽ được sử dụng nếu độ chính xác của nó đạt được mức độ có thể chấp nhận được
Trang 18
if (age <31 or Car Type = Sports) ]
:| then Risk = High
DL thử ` (test set) a
(Age [Car classifier
27 Mu 66
4h
Hinh 3.2: Kiém tra tính chính xác của mô hình
Giai đoạn 2.2: Phân lớp dữ liệu mới Dữ liệu mà ta sử dụng là mới và chưa có thông tin thuộc tính và cần được dự
đoán gán nhãn Dữ liệu được phân lớp (gán nhãn) được thực hiện bởi mô hình dựa trên
dữ liệu huấn luyện từ giai đoạn 1
\ “ ‘| if (age < 31 or Car Type = Sports) _ -©›>) then Risk = High
Low
Trang 19Hình 3.3: Áp dụng mô hình phân lớp vào dữ liệu mới 3.2.2 Phan loại bài toán phân lớp
Bài toán phân lớp đặt ra mục tiêu phân chia các đối tượng dữ liệu thành n
lớp đã được xác định trước Có 2 hình thức phân loại chính:
" Phân loại nhị phân (n =2): Trong trường hợp này, mỗi dữ liệu chí thuộc về một lớp duy nhất
- Phân loại đa lớp (n > 2): Ở dạng này, một đối tượng dữ liệu có thể thuộc đồng thời vào nhiều lớp khác nhau
3.2.3 Một số phương pháp phân lớp 3.2.3.1 Hồi quy Logistic (Logistic Regression):
Phuong phap Hỗi quy Logistic được định nghĩa là: "Một mô hình xác suất được sử dụng để dự đoán gia tri dau ra rời rạc dựa trên một tập giá trị đầu vào (được biểu diễn dưới dạng vector)." Phương pháp này tạo ra một mô hình phân loại nhị phân và cho ra kết quả là các giá trị nhị phân như I hoặc 0, đại diện cho "Có hoặc Không" Đề dự đoán các biến phụ thuộc rời rạc dựa trên các biến độc lập, phương pháp Hồi quy Logistic, một phương pháp phân tích dữ liệu phô biến, được sử dụng Điều này khác với Hồi quy tuyến tính, nơi biến phụ thuộc là liên tục Phương pháp này nhằm mục ổích xác định các hệ số tôi
ưu cho mô hình để có thể dự đoán chính xác xác suất của biến phụ thuộc rời rạc dựa trên các giá trị của các biến độc lập
Phương pháp hồi quy logistic có thê được sử dụng để dự đoán khả năng một khách hàng mua một sản phâm, khả năng một người dùng trả tiền cho một dịch vụ trực tuyến hay khá năng một bệnh nhân mắc một căn bệnh cụ thê
Ưu điểm của phương pháp Hồi quy Logistic: - Phân lớp được thực hiện nhanh chóng - Không cần thông tin liên quan đến phân phối của các lớp trong không gian đặc trưng
- Tính đơn giản: cài đặt và huấn luyện dễ dàng, kết quả phân tích, quy trình huấn luyện dễ hiểu
Nhược điểm của phương pháp H6i quy Logistic: - Gia thuyét tuyén tinh giữa các biến độc lập và biến phụ thuộc
- Chỉ áp dụng được với biến phụ thuộc rời rạc
- Dữ liệu có số chiều (đặc trưng) cao có thể bị overfiting (quá khớp).
Trang 20“SVM (Support Vector Machine) la một thuật toán có giám sat, nó nhận dữ liệu đầu vào và xem chúng như các vector trong không gian Sau đó, SVM phân loại các dữ liệu này vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều Siêu phẳng này hoạt động như mặt phân cách giữa các lớp dữ liệu Đề tối ưu hóa kết quả phân lớp, SVM có găng xác định siêu phăng (hyperplane) có khoảng cách xa nhất tới các điểm đữ liệu của các lớp (được gọi là margin) SVM có nhiều biến thê phù hợp với các loại
bài toán phân loại khác nhau.”
SVM có thể được sử dụng cho cả bài toán phân loại nhị phân (binary classification) va phan loai da lép (multiclass classification) Ngoai ra, mét phiên ban của phương pháp được gọi là Šupport Vector Regression (SVR) giúp SVM có thể được sử dụng cho bài toán dự đoán (regression)
Trang 21Ưu điểm phương pháp SVM:
- Tính hiệu quả cao: xử lý dữ liệu trong không gian đa chiêu
- Xử lý dữ liệu được phân tách thành tuyến tính và phi tuyến tính
- Nhanh chóng phân lớp và tiết kiệm bộ nhớ Nhược điểm phương pháp SVM - Thiếu thông tin về xác suất phân lớp - Hiệu quả kém với các tập dữ liệu lớn - Mô hình sẽ kém hiệu quả hơn nếu số chiều lớn hơn mẫu đữ liệu huấn
luyện
3.2.4 Neural Network
Một phương pháp phô biến trong khoa học đữ liệu để giải quyết các vấn đề phân loại hoặc dự đoán là Mạng nơ-ron (Neural Network) Phương pháp này dựa trên hệ thống nơron sinh học trong não của con người để học hỏi và xử ly thông tin từ dữ liệu
Để tạo thành một mạng, mạng nơ-ron được tạo thành từ nhiều nơron
khác nhau được liên kết với nhau Mỗi nơ-ron nhận đầu vào từ các noron khác và sau đó tính toán đầu ra của thông tin bằng cách sử dụng một hàm kích hoạt Các nơ-ron được tô chức thành nhiều lớp: lớp đầu tiên là lớp đầu vào, lớp cuối cùng là lớp đầu ra và lớp trung gian là lớp ân
Thuật toán sử dụng một tập dữ liệu huấn luyện đề điều chỉnh các trọng số liên kết giữa các nơ-ron đề huấn luyện mạng nơ-ron Quy trỉnh này được thực hiện bằng cách tính toán độ lỗi giữa kết quả đầu ra thực tế từ dữ liệu huấn luyện
và kết quả đầu ra dự đoán của mang Sau đó, các trọng số được điều chỉnh đề
giảm độ lỗi này.
Trang 22Phân loại, dự đoán và phân tích hình anh và âm thanh là một số ví dụ về các chức năng của mạng nơ-ron Khả năng học từ dữ liệu phức tạp, khả năng xử lý các đầu vào phi tuyến tính và khả năng tự động học các đặc trưng quan trọng từ dữ liệu là một trong những ưu điểm của mạng nơ - ron Nhưng nó cũng có những hạn chế Chúng bao gồm khả năng bị overñtting, đòi hỏi nhiêu tai nguyên tính toán và khó giải thích kết quả dự đoán
3.2.5 Các phương pháp đúnh giá mô linh phán lớp
"Công việc đánh giá các mô hình phân lớp trên dữ liệu có đặc thủ cụ
thê nhằm xác định hiệu quả của chúng và quyết định liệu chúng nên được sử
dụng hay không Một mô hình lý tưởng có độ phức tạp vừa đủ, không quá đơn giản, không quá phức tạp và không nhạy cảm với nhiêu
Kết quả của việc đánh giá mô hình bao gồm: - Good Fitting (via khop): Day la trrong hop m6 hinh ly tưởng mang tinh tổng quát, cho ra kết quả hợp lý đồng thời phù hợp với các giá trị mới và
tập dữ liệu huấn luyện
- Underfitting (chưa khớp): đây là trường hợp mô hình cho ra kết quả
dự đoán không phù hợp với dữ liệu huân luyện Độ chính xác thâp có thê là do
mô hình chưa đủ phức tạp - Overfitting (quá khớp): hiện tượng này xảy ra khi mô hình quá khớp với đữ liệu huấn luyện Điều này dẫn đến việc dự đoán nhiễu và khiến mô hình không còn hiệu quả khi phân lớp trên dữ liệu mới Quá khớp xảy ra khi lượng dữ liệu huấn luyện quá nhỏ trong khi độ phức tạp của mô hình quá cao Điều này mang lại độ chính xác cao nhưng không mô tả được xu hướng tông quát của dữ liệu mới