3 1 ĐẠI HỌC UEH TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH ĐỒ ÁN KẾT THÚC HỌC PHẦN Bộ môn: KHOA HỌC DỮ LIỆU Đề tài: ỨNG DỤNG KHOA HỌC DỮ LIỆU VÀO VỤ ĐẮM TÀU TIT
TỔNG QUAN
Lý do chọn đề tài
Du lịch lữ hành thì đây là một lĩnh vực chưa bao giờ ngừng thu hút những hành khách thích sự phiêu du, mong muốn được khám phá những vùng đất mới và có lẽ còn tuyệt vời hơn nữa nếu nơi đó là hành trình trên tàu Titanic một con tàu “không thể chìm” chuyến đi này được kì vọng sẽ mang đến cho hành khách nhiều trải nghiệm mới mẻ chưa bao giờ có ở những con tàu khác trong thời điểm ấy Đề tài này không chắc sẽ hoàn thiện tuyệt đối nhưng chắc chắn sẽ được gửi gắm rất nhiều tâm huyết của nhóm vì đây là chuyên ngành các thành viên nhóm em theo đuổi và được tiếp thu nhiều kiến thức từ Đại Học UEH.
Titanic là chuyến tàu vượt đại dương chở hành khách bằng động cơ hơi nước đi vào lịch sử hàng hải vì đây là một vụ đắm tàu vô cùng nghiêm trọng Tên chính thức của nó là RMS Titanic (Royal Mail Ship Titanic) Nó được xây dựng bởi công ty White Star Line (Anh quốc) và là con tàu biển lớn nhất, sang trọng nhất toàn thế giới vào thời điểm bấy giờ với sức chứa gần 4.000 người Chuyến tàu gặp nạn vào đêm ngày 14/04/1912 đến rạng sáng ngày 15/04/1912 thì chìm Nguyên nhân được xác định là đâm vào một tảng băng trôi ước tính kích thước của tảng băng đó là 60×120 mét, nặng khoảng 1,5 triệu tấn và có tuổi đời khoảng 3000 năm xược qua ở vị trí mũi tàu, tiếp tục dọc theo thân tàu Vụ đắm tàu này đã gây ra thiệt hại lớn Theo cuộc điều tra của Thượng viện Hoa Kỳ thì có 1.517 người thiệt mạng trên tổng số 2.229 hành khách và thủy thủ trên đoàn tàu Ngoài nguyên nhân trên, còn có những yếu tố ảnh hưởng làm nhiều người thiệt mạng trong vụ đắm tàu đó.
RMS Titanic là một đỉnh cao của kiến trúc hàng hải, được đóng một cách kỳ công với công nghệ hiện đại nhất đương thời và được đánh giá là "kình ngư bất khả chiến bại" trên đại dương, không thể bị đánh chìm Điều này đã tạo ra sự tin tưởng cho hành khách, đặc biệt là giới thượng lưu mua vé tàu chủ yếu với mục đích đi du lịch nghỉ dưỡng, tận hưởng kỳ nghỉ xa hoa.
Bởi vậy, sau vụ đắm tàu đi vào lịch sử này đã đặt ra vô vàn dấu hỏi chấm về nguyên nhân và những yếu tố ảnh hưởng dẫn đến thảm họa Đây cũng là lý do chính thôi thúc nhóm chúng em lựa chọn đề tài Từ đó, nhóm cũng có thể dựa vào những yếu tố ảnh hưởng đến thảm hoạ vào bài toán giả định không đáng có có thể xảy ra trong tương lai.
Mục tiêu nghiên cứu
1 Mục tiêu tổng quát: Ứng dụng Khoa Học Dữ Liệu vào vụ đắm tàu Titanic để phân tích những yếu tố ảnh hưởng đến khả năng sống sót của hành khách như giá vé, hạng ghế, giới tính,tuổi tác,
Từ những dữ liệu nhóm thu thập và phân tích được sẽ đưa ra thêm các dự báo cũng như giải pháp để góp phần tìm ra nguyên nhân tác động đến khả năng sống sót của hành khách trên chuyến tàu Titanic nói riêng và nhằm giảm thiểu rủi ro thiệt hại về vật chất, tinh thần, đáng quan ngại hơn là tính mạng của hành khách khi lựa chọn du lịch lữ hành ở lĩnh vực hàng hải nói chung.
Từ những phân tích trực quan ở đề tài này nhóm em kỳ vọng rằng du khách sẽ quan sát được nhiều khía cạnh từ các yếu tố ảnh hưởng đến khả năng sống sót của hành khách trên chuyến tàu Titanic và xây dựng mô hình dự đoán bằng phương pháp phù hợp nhất để hỗ trợ đưa ra những quyết định nhằm thay đổi kết qủa trong tương lai.
Sử dụng phần mềm Orange để xử lý dữ liệu và giải quyết một số bài toán sau: Bài toán 1: Phát hiện các điểm đặc thù của dữ liệu
Bài toán 2: Dự đoán khả năng sống sót của hành khách (phân lớp)
Bài toán 3: Dự đoán khả năng sống sót của hành khách dựa vào hạng vé (phân cụm)
Đối tượng nghiên cứu
1 Giới thiệu, mô tả dữ liệu:
Những dữ liệu nhóm sử dụng được lấy từ Kaggle là một công ty thuộc tập đoàn về công nghệ đa quốc gia chuyên hoạt động về dịch vụ công nghệ thông tin và các công cụ tìm kiếm thông tin, phần mềm, phần cứng, https://www.kaggle.com/competitions/titanic/overview
Bộ dữ liệu gồm 3 file:
- File 1: gender_submission.csv là tệp dữ liệu lưu trữ mẫu kết qủa dự đoán được BTC cung cấp cho người tham gia Chỉ được công khai nhằm mục đích ví dụ nên nhóm sẽ bỏ qua tệp dữ liệu này và chỉ tập trung và sử dụng 2 tệp dữ liệu sau.
- File 2: train.csv là là tập dữ liệu dùng để huấn luyện cho mô hình của thuật toán Machine Learning Số lượng mẫu ghi nhận là 891 mẫu.
- File 3: test.csv là tập dữ liệu dùng để kiểm tra mô hình sau khi hoàn thành quá trình huấn luyện Số lượng mẫu ghi nhận là 418 mẫu.
Bảng 1: Phân tích thông tin dữ liệu
STT Tên biến Mô tả biến Kiểu dữ liệu
1 Pclass Thông tin hạng vé của hành khách Biến thông tin nhận các giá trị 1, 2, 3 tương ứng với hạng vé của hành khách.
2 PassengerId Lưu trữ thông tin mã định danh hành khách Mỗi hành khách sẽ có một mã định danh riêng biệt, không trùng lặp trên tàu.
3 Survived Lưu trữ kết quả sống sót của hành khách sau thảm họa Giá trị của biến là 1 nếu hành khách sống sót, ngược lại thì thuộc tính mang giá trị 0.
4 Name Biến lưu trữ thông tin tên hành khách Text
5 Sex Lưu trữ thông tin giới tính hành khách, nhận 2 giá trị female và male Categorical
6 Age Thông tin tuổi của hành khách Numeric
7 SibSp Lưu thông tin mối quan hệ anh/chị/em hoặc vợ chồng với hành khách khác trên tàu Numeric
8 Parch Lưu thông tin mối quan hệ cha mẹ/ con cái với hành khách khác trên tàu Numeric
9 Ticket Lưu trữ thông tin số vé của hành khách Số vé là giá trị không trùng lặp Text
10 Fare Lưu thông tin giá vé hành khách mua Numeric
11 Cabin Số Cabin hành khách ở Text
12 Embarked Phân loại cảng mà hành khách bắt đầu lên tàu: C =
Cherbourg, Q = Queenstown và S = Southampton Categorical
2 Xác định biến mục tiêu:
Biến mục tiêu là Survived trong bộ dữ liệu lấy được từ Kaggle Biến này phân hai giá trị là 0 và 1 Giá trị của biến là 1 nếu hành khách sống sót, ngược lại thì thuộc tính mang giá trị 0 Bài toán phân các đối tượng dữ liệu vào hai lớp cho trước là lớp 0 và lớp 1.
QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ
BÀI TOÁN 1: Phát hiện các điểm đặc thù của dữ liệu
Sử dụng các công cụ, lược đồ, biểu đồ để phát hiện các điểm đặc thù của dữ liệu.
Từ các biều đồ, đưa ra các nhận xét thông qua số liệu thể hiện trên đó Và cuối cùng đưa ra kết luận sau khi tổng hợp lại tất cả kết quả.
1.2 Chạy mô hình và kết quả:
*Kết quả sống sót của hành khách (Survived):
Biểu đồ 1 Tỷ lệ sống sót và chết
- Biến Survived là biến mục tiêu, biến này nhận hai giá trị là 0 (chết) và 1 (sống) Theo biểu đồ tỷ lệ chết là 61.62%, tỷ lệ sống là 38.38%.
=> Tỷ lệ chết cao hơn tỷ lệ sống.
*Hạng vé của hành khách (Pclass):
Biểu đồ 2 Tỷ lệ khả năng sống sót theo Pclass
Dựa vào biểu đồ ta thấy:
- Số lượng hành khách có hạng vé Pclass = 1 chiếm 24.24% tổng số hành khách trên tàu và hạng vé này có tỷ lệ sống (15,26%) cao hơn tỷ lệ chết (8.98%).
- Pclass = 2 chiếm 20.65% tổng số hành khách trên tàu, đối với hạng vé này thì có tỷ lệ sống (9.76%) thấp hơn tỷ lệ chết (10.98%).
- Pclass = 3 chiếm 55.11% tổng số hành khách, hơn một nửa số hành khách. Hạng vé này thì tỷ lệ chết chênh lệch khá nhiều so với tỷ lệ sống Tỷ lệ sống 13.36% còn tỷ lệ chết lên đến 41.75%, là hạng vé có khả năng sống sót thấp nhất.
Những hành khách có hạng vé thứ 1 sẽ có tỷ lệ sống sót cao nhất, do những người này sở hữu hạng vé thứ 1 là hạng vé chất lượng nhất, nó sẽ bao gồm các tiện ích sử dụng và bảo vệ, được ưu tiên trước nhất nên nó sẽ có tỷ lệ sống cao nhất.
*Giới tính hành khách (Sex):
Biểu đồ 3 Tỷ lệ khả năng sống sót theo Sex
- Ta có thể thấy được số lượng hành khách Male (nam) chiếm 64.76% nhiều hơn hành khách Female (nữ) chiếm 35.24% tổng số khách trên tàu, số lượng nam gần như gấp đôi số lượng nữ
- Đối với những hành khách nữ thì tỷ lệ sống là (26.15%) cao hơn tỷ lệ chết là (9.09%) Còn những hành khách nam thì ngược lại, tỷ lệ sống (12.23%) thấp hơn rất nhiều so với tỷ lệ chết (52.53%).
Từ những số liệu trên có thể thấy nam giới có cơ hội sống thấp hơn nữ giới rất nhiều Nguyên nhân bởi trong vụ thảm họa hành khách nam đã nhường cơ hội sống cho những người yếu thế hơn là phụ nữ và trẻ em và một phần do thuyền trưởng tàu Titanic đã ra lệnh cứu phụ nữ và trẻ em trước tiên nên đã dẫn đến kết quả trên.
*Độ tuổi của hành khách (Age):
Biểu đồ 4 Tỷ lệ khả năng sống sót theo Age
- Nhìn chung độ tuổi của mỗi hành khách ảnh hưởng tới khả năng sống sót khá là nhiều Có thể thấy khả năng sống sót của từng độ tuổi là khác nhau (đã dựa vào số lượng hành khách của từng độ tuổi) và thực tế là số lượng người chết cao hơn số lượng người sống.
- Số lượng hành khách có độ nhỏ hơn 20 tuổi chiếm 22.97% tổng số hành khách trên tàu Độ tuổi này có tỷ lệ sống chết không chênh lệch nhau quá đáng kể, tỷ lệ chết là 11.9% và tỷ lệ sống là 11.06% => Nguyên nhân có tỷ lệ sống cao có thể là do được mọi người ưu tiên cứu phụ nữ và trẻ em.
- Số lượng hành khách có độ tuổi từ 20-40 tuổi chiếm 54.2% tổng số hành khách trên tàu, chiếm số lượng đông nhất Độ tuổi này thì có tỷ lệ sống chết chênh lệch rõ rệt, tỷ lệ chết là 33.19%, còn tỷ lệ sống là 21.01% => Những hành khách nằm trong độ tuổi này thì tỷ lệ sống sẽ thấp bởi một phần là do họ không được ưu tiên cứu nhưng ở độ này sức khỏe có khả năng chống lại thời tiết khắc nghiệt hoặc phản xạ nhanh nên vẫn có cơ hội sống sót.
- Số lượng hành khách có độ tuổi từ 40-60 tuổi chiếm 19.19% tổng số hành khách trên tàu Có tỷ chết là 11.62%, tỷ lệ sống là 7.56% => Độ tuổi này tỷ lệ sống cũng còn khá cao, không chênh lệch quá nhiều so với tỷ lệ chết nhưng nó vẫn thấp hơn tỷ lệ chết.
- Số lượng hành khách có độ tuổi từ 60-80 tuổi chiếm 3.64% tổng số hành khách trên tàu, độ tuổi này chiếm tỷ lệ thấp nhất và có tỷ lệ chết 2.66% và tỷ lệ sống là 0.98% => Ở độ tuổi này khả năng sinh tồn kém nếu bị bỏ rơi, mặc dù được ưu tiên cứu thì vẫn có thể chết nếu không cứu hộ kịp thời.
* Mối quan hệ anh/chị/em hoặc vợ chồng với hành khách khác trên tàu (SibSp):
Biểu đồ 5 Tỷ lệ khả năng sống sót theo SibSp
Dựa vào biểu đồ về mối tương quan giữa tỉ lệ sống sót và số lượng hành khách có mối quan hệ anh/chị/em hoặc vợ chồng với hành khách khác trên tàu có thể đưa ra một số nhận xét như sau:
- Hành khách có 1 hoặc không có người thân nào (SibSp Sai lầm loại 2 của phương pháp SVM là nhỏ nhất trong 3 phương pháp đã sử dụng.
Vậy ta sẽ sử dụng phương pháp SVM để thực hiện dự đoán vì nó là phương pháp đáng tin cậy nhất và không cần xét đến Test and Score.
Kết quả dự báo thu được:
Hình 17 Kết qủa dự báo BT3
3.3 Đánh giá và kết luận:
- Theo kết quả, ma trận nhầm lẫn của phương pháp SVM có sai lầm loại 2 bằng 17,8% là nhỏ nhất trong 3 phương pháp Logistic Regression, Decision Tree và SVM đã sử dụng trong mô hình dự báo Nên trong bài toán 3 này phương pháp SVM là tốt nhất và đáng tin cậy nhất.
- Thông qua kết quả dự báo, chúng ta có thể biết được những yếu tố ảnh hưởng cao đến khả năng sống sót của hành khách khi tham gia chuyến tàu và từ đó có thể đề ra những biện pháp và đề nghị để có thể tăng khả năng sống sót của hành khách khi tham gia chuyến tàu mà bị chìm một cách tối ưu nhất.
Có thể 2 bài toán phân lớp ( bài toán 2 và bài toán 3) qua phân tích sử dụng phương pháp dự đoán khác nhau và dữ liệu giữa 2 bài toán cũng có phần khác nhau nên dẫn đến kết quả dự báo của 2 bài sẽ có sự chênh lệch về độ chính xác khi kiểm chứng kết quả trên Kaggle Nhưng mục đích chung của 2 bài toán là xác định được những yếu tố nào sẽ có sức ảnh hưởng nhất đến khả năng sống sót của hành khách khi tham gia chuyến tàu mà bị chìm và từ đó đưa ra những hướng giải quyết để khắc phục được vấn đề tốt hơn trong tương lai Và cũng liên quan đến chuyên ngành Du lịch, nên điều đó sẽ giúp ích cho việc mọi người sẽ lựa chọn những giải pháp phù hợp để có thể đi du lịch 1 cách an toàn nhất có thể Những biến thông tin đều là những yếu tố có thể khắc phục được trước khi hành khách lên tàu, vậy những người có những yếu tố nào sẽ có khả năng sống sót cao khi tham gia đi tàu nhưng nếu lỡ không may tàu bị chìm thì khả năng sống của người đó cũng sẽ an toàn hơn Điều đó cũng giúp ích cho việc nhiều du khách có thể lựa chọn đi du lịch bằng tàu thuyền nhưng vẫn có thể đảm bảo được sự an toàn.
So sánh kết qủa dự báo được kiểm chứng của 2 bài toán:
Kết quả dự báo của 2 bài toán được đăng tải lên Kaggle để kiểm chứng % độ chính xác của dự báo.
Hình 18 Kiểm chứng kết qủa dự báo
Theo kết quả thì ta thấy được % độ chính xác của bài toán 3 cao hơn so với bài toán 2 nhưng xét về tổng thể thì độ chính xác này vẫn chưa thực sự hiệu quả Sự chênh lệch hiệu quả dự báo giữa 2 bài toán là rất nhỏ, do đó ta cũng thấy được mặc dù bài toán 2 sử dụng ít biến thông tin hơn so với bài toán 3 nhưng về độ chính xác của kết quả dự báo thì gần như là bằng nhau Vì vậy, ta có 1 nhận xét ở đây là có thể những biến thông tin Pclass, Sex, Fare là những biến có độ ảnh hưởng cao nhất đến khả năng sống sót của hành khách Nhưng nếu có thêm những biến thông tin như bài toán 3 là Age, SibSp, Parch thì có thể bài toán dự báo sẽ cho được kết qủa chính xác hơn nữa Bên cạnh đó, cũng cho thấy không phải tập dữ liệu dùng nhiều biến thông tin thì mới có thể dự báo chính xác cao hơn, mà tuỳ vào độ ảnh hưởng của các yếu tố, dữ liệu được xử lý hiệu quả và phương pháp phù hợp mới có thể đưa ra kết quả dự báo tốt nhất.
Mặc dù kết quả dự báo của 2 bài toán sau khi được kiểm chứng thì cũng chưa đạt hiệu quả cao nhất, nhưng vì dữ liệu còn thiếu và nhiều biến dữ liệu còn ít thông tin nên không sử dụng đưa vào mô hình nên đó cũng là 1 phần dẫn đến kết quả dự báo không được cao Nhưng qua đó nhóm cũng đạt được mục tiêu là xác định được những yếu tố ảnh hưởng đến khả năng sống sót của hành khách và cho thấy được yếu tố nào sẽ là ảnh hưởng cao và từ đó cũng có thể đưa ra những giải pháp tối ưu nhất để có thể thay đổi kết quả trong tương lai.
BÀI TOÁN 4: Dự báo khả năng sống sót của hành khách qua hạng vé (Pclass) (Bài toán phân cụm)
4.1 Mô tả phương pháp phân cụm (Clustering)
− Clustering là phương pháp phân tích, qua đó tập dữ liệu sẽ được phân thành nhiều cụm/nhóm khác nhau, trong mỗi cụm/nhóm các điểm dữ liệu hay các quan sát sẽ giống nhau, và giữa các cụm/nhóm có sự khác biệt (các quan sát ở trong nhóm này khác với các quan sát còn lại ở những nhóm khác).
− Clustering được gọi unsupervised classification (phân loại không giám sát) là phương pháp trong unsupervised learning (học không giám sát) - phương pháp xây dựng các model phân tích - dựa trên tập dữ liệu "không có nhãn", các điểm dữ liệu chưa được phân loại - mục đích tìm hiểu và trích xuất được những thông tin giá trị về đặc điểm, tính chất của những quan sát bên trong.
− Clustering không cố gắng phân loại, ước lượng hay dự báo giá trị của biến mục tiêu.
4.2 Mô tả phương pháp K-Means:
− Có tham số đầu vào của thuật toán là số cụm k và tham số đầu ra của thuật toán là các trọng tâm của các cụm dữ liệu.
− Áp dụng cho dữ liệu và xuất ra một tập dữ liệu mới trong đó chỉ mục cụm được sử dụng làm thuộc tính lớp Thuộc tính lớp gốc, nếu nó tồn tại, được chuyển sang thuộc tính meta.
− Tư tưởng chính của K-Means là tìm cách phân nhóm các đối tượng đã cho vào k cụm sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm cụm là nhỏ nhất.
4.3 Quy trình thực hiện bài toán phân cụm:
- Bước 1: Chọn dữ liệu từ File train.csv, với biến target là Survived và skip biến Cabin
- Bước 2: Tiền xử lý dữ liệu: Ta chuẩn hóa dữ liệu Preprocess lấp đầy dữ liệu (Average/Most frequent) các giá trị bị Missingvalues
- Bước 3: So sánh 2 phương pháp K-Means và Hierarchical Clustering
+ Dùng Scatter Plot xem đồ thị phân cụm để thấy được phân bố dữ liệu.
+ Dùng Silhouette, dữ liệu từ Silhouette được minh hoạ trên Data Table
Hướng 2: Phương pháp Hierarchical Clustering: Distances -> Hierarchical
Clustering Dùng Silhouette, dữ liệu từ Silhouette được minh hoạ trên Data Table
- Bước 4: Đưa ra kết quả Chọn phương pháp tối ưu.
Hình 19: Mô hình quy trình xử lý bài toán phân cụm
4.4 Kết quả phân loại bằng phương pháp K-Means
Chạy k-Means chọn số Cluster từ 2 đến 8 cụm như sau:
Bảng 3: Kết quả từ Silhouette Plot
Số nhóm Điểm số Số nhóm bị phân tách
Từ bảng kết quả trên nên chọn phân tách thành 3 cụm là tối ưu nhất vì chỉ sốSilhouette Score cao nhất = 0.277 và số nhóm bị phân tách ít nhất.
Biểu đồ 8 Silhouette Plot của bài toán phân cụm
Biểu đồ Silhouette Plot cho thấy chất lượng của việc phân cụm tương đối ổn Các chỉ số đầu tiên của các cụm đều dương, tiến đến 1.
Tiếp đến từ k-Means đưa ra Scatter Plot để xem đồ thị phân cụm để thấy được phân bố dữ liệu. Để xem biến nào vẽ ra đồ thị hợp lý nhất để so sánh, ta vào click vào mục Find Informative Projections -> Start, sau đó nó hiện ra nhiều trường hợp dữ liệu phân cụm và mức độ tin cậy -> Chọn giá trị có mức độ tin cậy cao nhất (bảng dưới).
Hình 21 Scatter Plot để thấy được phân bố dữ liệu
Ta được biểu đồ dưới:
Biểu đồ 9 Dữ liệu dựa trên 2 chỉ số Pclass và Silhouette
Từ số liệu của Silhouette Plot, ta có được đồ thị chia ra thành nhiều vùng dữ liệu và cụm dữ liệu dựa trên hai chỉ số Pclass và Silhouette.
- Các giá trị trên biểu đồ Silhouette có thể nằm trong khoảng từ -1 đến 1. Trong bài toán này các dữ liệu phụ thuộc vào biến Pclass đều nằm trong khoảng từ 0 đến 1 thỏa mãn điều kiện trên
- Các biến Silhouette của từng hạng vé đều tiến đến 1 nên nó thuộc cụm dữ liệu tốt và dễ dàng có thể phân biệt so với cụm khác
Hình 22 Kết quả phân cụm bằng phương pháp K-Means
4.5 Kết quả phân loại bằng phương pháp Hierarchical Clustering:
Tiến hành phân từ 2 đến 5 nhóm, kết quả từ Silouette Plot:
Bảng 4 Kết quả tiến hành phân từ 2-5 nhóm
Số nhóm Điểm số Số nhóm bị phân tách
Từ bảng kết quả trên nên chọn phân tách thành 3 cụm là tối ưu nhất vì chỉ số Silhouette Score cao nhất = 0.488 và số nhóm bị phân tách ít nhất.
Hình 23 Sơ đồ phân cụm Hierarchical Clustering
Theo hạng vé, tại Hierarchical Clustering ta chọn 3 cụm tối ưu nhất, chọn Cluster tại mục Grouping để xem các cụm mới tạo ra sau khi phân cụm Từ đó dựa vào chỉ số Silhouette Plot để đánh giá xem lựa chọn phân cụm đó có tốt hay không?
Biểu đồ 10 Biểu đồ Hierarchical Clustering
Nhìn vào biểu đồ Silhouette Plot thấy chỉ số phân cụm đều tốt, các chỉ số đầu tiên của các cụm đều dương, tiến đến 1 Để thấy rõ hơn ra chọn các chỉ số cao nhất của các cụm để xem rõ số liệu (bảng dưới)
Hình 24 Kết quả phân cụm bằng phương pháp Hierarchical Clustering
So sánh kết quả của 2 phương pháp vừa thực hiện:
Số cụm nên phân 3 3 Điểm số 0.277 0.488
Số cụm bị phân tách 3 3
Bảng 5 Bảng so sánh kết qủa 2 phương pháp K-Means và Hierarchical
Kết luận: Dùng phương pháp Hierarchical Clustering để thực hiện và phân loại thành 3 nhóm
Các kiến thức chuyên ngành liên quan:
Việc sử dụng Hierarchical Clustering để phân cụm dữ liệu Pclass có liên quan đến chuyên ngành quản trị lữ hành theo một số cách sau:
- Phân tích dữ liệu: Hierarchical Clustering là một thuật toán học máy được sử dụng để phân cụm dữ liệu Trong trường hợp này, dữ liệu được phân cụm dựa trên thuộc tính Pclass, là hạng vé của hành khách trên tàu Titanic. Việc phân cụm dữ liệu giúp các nhà quản trị lữ hành hiểu rõ hơn về hành vi của khách hàng và đưa ra các quyết định kinh doanh phù hợp.
- Xác định phân khúc khách hàng: Phân cụm dữ liệu Pclass giúp các nhà quản trị lữ hành xác định các phân khúc khách hàng khác nhau Mỗi phân khúc khách hàng có các đặc điểm và nhu cầu khác nhau, do đó các nhà quản trị lữ hành cần phát triển các sản phẩm và dịch vụ phù hợp với từng phân khúc khách hàng.
- Tối ưu hóa chiến lược tiếp thị: Việc hiểu rõ các phân khúc khách hàng giúp các nhà quản trị lữ hành tối ưu hóa chiến lược tiếp thị của mình Các nhà quản trị lữ hành có thể nhắm mục tiêu các chiến dịch tiếp thị của mình đến các phân khúc khách hàng cụ thể để tăng hiệu quả.
- Phân tích khả năng sống sót của hành khách là một công cụ quan trọng trong ngành quản trị lữ hành Nó giúp các doanh nghiệp lữ hành đánh giá rủi ro và đưa ra các biện pháp phòng ngừa để bảo vệ hành khách trong trường hợp khẩn cấp.