1. Trang chủ
  2. » Luận Văn - Báo Cáo

dự án khoa học dữ liệu phân tích mô tả để xác định yếu tố khiến khách hàng chưa đặt sản phẩm du lịch

34 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích Mô tả Để Xác Định Yếu Tố Khiến Khách Hàng Chưa Đặt Sản Phẩm Du Lịch
Tác giả Kiều Thị Mỹ Tiền, Dương Thị Hồng Yến, Nguyễn Thị Huyền Trâm, Nguyễn Quang Nhật, Anh Thư
Người hướng dẫn Vũ Thành Đức, Giảng Viên
Trường học Trường Kinh Doanh, University
Chuyên ngành Khoa Học Dữ Liệu
Thể loại Dự Án
Năm xuất bản 2023
Thành phố Thành Phố Hồ Chí Minh
Định dạng
Số trang 34
Dung lượng 5,66 MB

Nội dung

Do đó, việc ứng dụng khoa học dữ liệu cùng với các kỹ thuật công nghệ là rất cần thiết, đặc biệt là đối với ngành đu lịch đòi hỏi những dự đoán, xu hướng để đưa ra các quyết định thúc đâ

Trang 1

» TRƯỜNG KINH DOANH q

UNIVERSITY

MÔN: KHOA HỌC DỮ LIỆU

gIẢNG VIÊN: VÕ THÀNH ĐỨC NHÓM 7: Kiều Thị Mỹ Tiên

Trang 2

LOI MO DAU

Cùng với sự phát triển của khoa học kỹ thuật và quá trình chuyên đôi số, khi mà đữ liệu tồn tại khắp mọi nơi và ngày càng trở nên đa dạng, phức tạp, ngành khoa học về phân tích dữ liệu xuất hiện và đần trở thành lĩnh vực đóng góp quan trọng trong thời đại tiên tiễn ngày nay Song song với đó, nhiều đoanh nghiệp, tổ chức ở nhiều lĩnh vực cũng đang dành sự quan tâm đến việc tìm ra những công cụ, mô hình phân tích, xử lý dữ liệu một cách chính xác nhằm đưa ra các dự đoán, xu hướng tương lai dé dua ra các quyết định thúc đây doanh nghiệp, tăng lợi thế cạnh tranh và hiệu quả làm việc Do đó, việc ứng dụng khoa học dữ liệu cùng với các kỹ thuật công nghệ là rất cần thiết, đặc biệt là đối với ngành đu lịch đòi hỏi những dự đoán, xu hướng để đưa ra các quyết định thúc đây các sản phẩm khách hàng quan tâm

Ngày nay, với sự phát triển của khoa học-công nghệ, mỗi doanh nghiệp du lịch đều có website riêng của mình để quảng bá cũng như để bán các sản phâm du lịch (chương trình du lịch), qua đó nhóm em quyết định chọn bộ dữ liệu Tourism Website Engagement đề phân tích đánh giá bằng công cụ Orange hướng đến mô hình phân lớp có thê dự đoán việc khách hàng có mua hay không mua sản phẩm khi truy cập vào website, từ đó đưa ra các quyết định thúc đây, tăng tương tác, hấp dẫn khách hàng mua sản phâm hơn Chúng em sẽ làm rõ vấn đề trên ở dự án này

Nhóm 7 chúng em xin chân thành cảm ơn!

Trang 3

MUC LUC

LOI MO DAU 1

LOI CAM ON 1 MỤC LỤC «Š 2

DANH MỤC HINH

1.1 Giới Hhi@u dG ti scsssssssesscssssssessesssssscssessesssssssssesssesssssssscsssssssssesseesessesssesesss 5

In con 44 7

3.1.1 Giới thiệu về bộ dữ: liệu - 2 - sex sec reeeerseecrecee 9

3.3.2 Biến mục tiêu 13 3.4 Tiền xử lý dữ liệu -s < se ưeEsErtErvcrereeereerereererseresee 13

Chương 4: Phân tích mơ tả để xác định yếu tố khiến khách hàng chưa đặt sản

(Preƒfcrretd[ ÍOCdEÍOH _ẨJJ€) eeĂĂĂSĂSSSnSSSBSSsinssennsssssssessseisnssssssssnssesssssessse se 20 4.1.4 Khách hàng cĩ theo dõi trang cơng ty hay khơng

(KỌlÍOMIH_COTIHDMQH)) DA©) ààĂĂĂĂSĂSĂSĂSSSSSEBSSEEsssinssinsssnssssssesinssesinsesssesesss se 21 4.1.5 Khách hàng cĩ làm việc hay khong (working Ïdg) e.eeee 22

Trang 4

Chương 5: Xây dựng lựa chọn và đánh giá mô hình 5552 25553 53155 s5 23

5.2.2.Đánh giá mô hình dựa trên kết quả Confusion Matrix 25

7.2 Hiệu quả kinh tế của việc triển khai mô hình -5 5° 55+ 33

TÀI LIỆU THAM KHẢO 5° 2< SE E+SEESeEeeEEEreeEersrkeree re ceere 33

DANH MỤC HÌNH ẢNH

Hình I Hình ảnh về thông tin bộ đữ liệu Tourism Website Enegagemeit 10

Hinh 6 Dữ liệu sau khi xử lý bằng

Hình 10 Lưu dữ liệu đã xử ly vao file Customer Behaviour Tourism DA.xÌsx 17

Trang 5

Hinh I1 Quan sat Taken _ product trong

00010: 0 19

Hinh 16 M6 hinh phân lớp hoàn chỉnh 62c 2222212121 1212112211212121151 12211 x52 23

Hình L7 Hình ảnh nạp bộ dữ liệu “Customer Behaviour Tourism DA” vao File 23 Hình 18 Quan sát bộ dữ liệu “Customer Behaviour Tourism DA” trén Data Table 24

Hinh 19 St dung Test and Score quan sát các chỉ số của các phương pháp dự Hình 20 Kết quả đánh giá mô đựa trên Confusion matrix của phương pháp hồi quy

Hình 2I Kết quả đánh giá mô đựa trên Confusion matrix của phương pháp Hình 22 Kết quả đánh giá mô đựa trên Confusion matrix của phương pháp mạng lưới 0 28 Hình 23 Kết quả đánh giá mô đựa trên Confusion matrix của phương pháp SVM 29 Hình 24 Đánh giá mô hình dựa trên ROC Analysis voi target là Hình 25 Đánh giá mô hình dựa trên ROC Analysis voi target là

Hình 27 Kết quả dur doatve cccccccccccccccsessessessessesessessessesevsensrssesseseesessessessesevsessesseseesees 32

Trang 6

Chương 1 Tổng quan về đề tài nghiên cứu

1.1 Giới thiệu đề tài

Du lịch được coi là ngành “công nghiệp không khói”, là “con gà đẻ trứng vàng” của nền kinh tế Ngành du lịch luôn chiếm vị trí rất quan trọng ở bất cứ quốc gia nào Đặc biệt với một nước giàu tiềm năng du lịch như nước ta thì cơ hội nghề nghiệp càng lớn Cùng với đó là sự phát triển không ngừng của khoa học hiện đại, số lượng người truy cập mạng Internet cũng trở nên phô biến khắp mọi nơi Do đó các đoanh nghiệp du lịch phải xây đựng các website của riêng mình để giới thiệu, tương tác với khách hàng, bán các tour du lịch giúp tăng nhận diện thương hiệu cũng như doanh thu của doanh nghiệp

Qua đó nhóm em phân tích tương tác của khách hàng với website du lịch với bộ dữ ligu Tourism Website Engagement, nham giúp cho doanh nghiệp du lịch đự đoán việc khách hàng có mua sản phẩm hay không dựa trên bộ dữ liệu quá khứ, từ đó đưa ra các chiến lược kinh doanh, cải thiện sản phẩm đề tăng đoanh thu, tăng lượng khách hàng

1.2 Tầm quan trọng của du lịch Du lịch được coi như là một sở thích mà bất kỳ ai đều có, chúng được coi như là hoạt động nghỉ ngơi tích cực của con người Ngày nay du lịch được coi như là một nhu cầu

không thể thiếu trong đời sống văn hoá, xã hội và là một trong những ngành kinh tế

quan trọng của rất nhiều đất nước

Trang 7

Ngành du lịch đóng góp một phần đáng kế trong tổng sản phẩm kinh tế quốc dân ở nhiều quốc gia Du lịch thúc đây và tạo cơ hội cho việc giao lưu; trao đối giữa các nền văn hóa trên thế giới; giúp cho con người hiểu biết lẫn nhau và gắn kết nhau hơn Mặt khác, du lịch cũng đóng góp một phân tích cực trong việc bảo tồn các di sản văn hóa và thúc đây các hoạt động văn hóa có quy mô và chất lượng Giúp tạo ra nhiều việc làm cho người dân, giới thiệu truyền thống, phong tục đất nước, giúp đu khách thoải mái nghỉ ngơi với nhiều tour hấp dẫn, địa điểm mới thu hút

1.3 Tầm quan trọng của việc phân tích dữ liệu khách hàng Hiếu về hành vi người dùng: Nghiên cứu cách mà khách hàng tương tác với các trang web du lịch, bao gồm các hành vi như thời gian ở lại trên trang, các trang được xem nhiều nhất, hành động của họ trên trang web, và các mô hình duyệt web phố biến Phân tích dữ liệu hành vi: Sử dụng dữ liệu thu thập được từ Kaggle để đánh giá cách mà khách hàng tương tác với trang web, từ đó đề xuất các cải tiến, tối ưu hóa giao điện và trải nghiệm người dùng

Hiếu sâu hơn về ưu tiên của khách hàng: Xác định các ưu tiên, mong muốn và nhu cầu của khách hàng khi truy cập vào trang web du lịch để cung cấp nội dung và dịch vụ phù hợp hơn

1.4 Lý do nghiên cứu Hanh vi du lịch của khách hang là một lĩnh vực nghiên cứu quan trọng trong ngành du lịch Nó bao gồm việc nghiên cứu các yếu tổ ảnh hưởng đến quyết định du lịch của khách hàng, cũng như các hành vị của khách hàng trong quá trình du lịch Nghiên cứu hành vi du lịch của khách hàng có nhiều lợi ích quan trọng Nó giúp các đoanh nghiệp du lịch hiểu rõ hơn về nhu cầu và mong muốn của khách hàng, từ đó có thê đưa ra các sản phẩm và dịch vụ phủ hợp hơn Ngoài ra, nghiên cứu hành vi du lịch của khách hàng cũng giúp các doanh nghiệp du lịch phát triển các chiến lược tiếp thị và quảng bá hiệu quả hơn Tóm lại, nghiên cứu hành vị du lịch của khách hàng là một lĩnh vực nghiên cứu quan trọng và cần thiết trong ngành du lịch Việc hiểu rõ hành vi du lịch của khách hàng sẽ giúp các doanh nghiệp du lịch phát triển hiệu quả hơn

Phân tích mức độ tương tác của trang du lịch là rat quan trọng đề các đoanh nghiệp trong ngành du lịch và lữ hành có được những hiểu biết sâu sắc có giá trị về hành vi, sở thích và mối quan tâm của khán giả Dữ liệu này sau đó có thể được tận dụng đề tối ưu hóa chiến lược tiếp thị, nâng cao trải nghiệm người dùng và cuối cùng là tăng hiệu suất tong thé cua ho

Mục tiêu chính của phân tích mức độ tương tác của trang du lịch: -Xác định nội dung hoạt động tốt nhất: Phân tích các số liệu tương tác như lượt thích, lượt chia sẻ, nhận xét và thời gian dừng có thê tiết lộ phần nội dung nào gây được

Trang 8

tiếng vang nhất với khán giả Thông tin này có thể được sử dụng đề ưu tiên các nỗ lực tạo và phân phối nội dung, đảm bảo rằng nội dung hấp dẫn nhất luôn được hiền thị -Hiểu nhân khẩu học của đối tượng: Bằng cách phân tích đữ liệu nhân khẩu học, chăng hạn như độ tuôi, giới tính, vị trí và sở thích, doanh nghiệp có thể điều chỉnh nội dung và chiến dịch tiếp thị của mình phù hợp hơn với các phân khúc đối tượng cụ thê Cách tiếp cận được nhắm mục tiêu này có thé dẫn đến tăng mức độ tương tác và cải thiện tỷ lệ chuyên đổi

-Theo dõi hiệu suất theo thời gian: Theo dõi xu hướng tương tác qua các giai đoạn khác nhau, chăng hạn như mùa hoặc ngày lễ, có thể cung cấp thông tin chỉ tiết có giá trị về hành vi và sở thích của khán giả Dữ liệu này có thế cung cấp thông tin cho các chiến lược tiếp thị theo mùa và đảm bảo rằng nội dung phù hợp với xu hướng du lịch hiện tại

-Ðo lường hiệu quả của chiến dịch: Phân tích số liệu tương tác cho các chiến dịch tiếp thị cu thé, chang han như bài đăng trên mạng xã hội, email quảng cáo hoặc quảng cáo trả phí, có thế đánh giá hiệu quả của những nỗ lực này Dữ liệu này có thê được sử dụng để tính chỉnh các chiến địch và phân bố nguồn lực hiệu quả hơn

-Giám sát bối cảnh cạnh tranh: Phân tích số liệu tương tác cho các trang du lịch của đối thủ cạnh tranh có thể cung cấp điểm chuẩn đề so sánh và xác định các lĩnh vực cần cải thiện Thông tin cạnh tranh này có thê giúp các doanh nghiệp luôn dẫn đầu và tăng cường sự hiện diện trực tuyến của họ

-Thu thập thông tin chỉ tiết về khách hàng: Phân tích nhận xét, phản hồi và đánh giá có thê cung cấp thông tin chỉ tiết có giá trị về sự hài lòng, điểm khó khăn và nguyện vọng của khách hàng Thông tin này có thể hướng dẫn phát triển sản phẩm, sáng kiến dịch vụ khách hàng và định vị thương hiệu tong thé

-Nâng cao trải nghiệm người dùng: Bằng cách hiểu mô hình tương tác của người dùng, đoanh nghiệp có thê xác định các khu vực mà trang web hoặc ứng dụng của họ không đáp ứng mong đợi của người dùng Dữ liệu này có thê được sử dụng đề tôi ưu hóa điều hướng, cải thiện thời gian tải trang và cải thiện tổng thê trải nghiệm người dùng

-Thúc đây tăng trưởng kinh doanh: Băng cách triển khai các chiến lược dựa trên phân tích mức độ tương tác của trang du lịch, doanh nghiệp có thê thu hút nhiều khách truy cập hơn vào trang web của mình, tạo ra nhiều khách hàng tiềm năng hơn và cuối củng là thúc đây tăng trưởng doanh thu

Tóm lại, phân tích mức độ tương tác của trang du lịch là một bước quan trọng nhằm tối ưu hóa các nỗ lực tiếp thị, nâng cao trải nghiệm người dùng và đạt được sự tăng trưởng kinh doanh trong ngành lữ hành và du lịch Bằng cách tận dụng những hiểu biết dựa trên đữ liệu, các doanh nghiệp có thê đưa ra những quyết định sáng suốt phù hợp với khán giả và thúc đây thành công của họ trong bối cảnh du lịch đầy cạnh tranh

Trang 9

1.5 Muc tiéu dé tai

Bài nghiên cứu “Phân tích và dự báo ý định sử dụng dịch vụ du lịch trên trang web hay không của khách hàng thông qua bộ dữ liệu “Customer behaviour tourism” nhằm tập trung vào những mục tiêu được đề cập đưới đây:

-Nghiên cứu về các phương pháp cụ thể, phương pháp phân lớp đữ liệu( phương pháp phân lớp đưa ra các đự báo, phân loại và cũng như phân lớp các đối tượng).Nghiên cứu sẽ thử các phương pháp phân lớp, và từ đó sẽ chọn ra một phương pháp nghiên cứu tối ưu và đảm bảo nhất cho quá trình dữ liệu

-Dựa trên mô hình đã được huấn luyện trong quá trình nghiên cứu, đưa ra được kết luận về việc khách hàng có sử dụng địch vụ du lịch trên trang web hay không cũng như cách đề cải thiện điều này

1.6 Đối tượng và phạm vi nghiên cứu Khách hàng của một trang web du lịch Bộ dữ liệu được thu thập và được sử dụng rộng rãi trên trang web kaggle Tập dữ liệu này bao gồm thông tin dữ liệu thô chứa 11760 dòng dữ liệu(khách hàng) và L7 hàng(đặc tính)

1.7, Phương pháp thực hiện d) Phương pháp nghiên cứu | luận Thong tin, dữ liệu từ sách báo, tài liệu học tập được thu thập, chọn lọc và phân tích nhăm đưa ra những khái niệm và quan điểm đúng nhất để xây dựng cơ sở lý thuyết cho bài nghiên cứu, đự đoán về những thuộc tính của đối tượng nghiên cứu, xây đựng những mô hình lý thuyết ban đầu Bao gồm:

-Phương pháp phân tích - tổng hợp lý thuyết: từ nguồn tài liệu, sách báo có được, sau đó đọc và tông hợp đề rút ra, chat lọc những nội dung cần thiết cho luận điểm của bài nghiên cứu

-Phương pháp mô hình hóa: xây dựng mô hình nghiên cứu dựa trên lý thuyết và ứng

dụng mô hình đề dự báo nhằm kiêm định tính chính xác của mô hình

b) Phương pháp nghiên cứu thực tiễn Tiến hành vận dụng những lý thuyết đã được đưa ra vào các phương pháp nghiên cứu thực tiễn:

-Sử dụng các phương pháp thống kê, phân tích đữ liệu, với sự hỗ trợ của các chương trinh Orange va Excel

-Tu do, xay dung cac m6 hinh du bao diva vào bộ dữ liệu huấn luyện có sẵn và so sánh các kết quả rút ra được với nhau nhằm lựa mô hình phù hợp nhất nhằm giúp trang web du lịch có quyết định chính xác hơn trong việc phân phối các sản phẩm dịch vụ của minh

Trang 10

Chương 2: Xác định bài toán Trong thời đại công nghệ hiện nay, việc lưu trữ vả phân tích thông tin khách hàng là rất quan trọng và ngày cảng được đánh giá cao Các tiễn bộ về công nghệ đã tạo nên cơ hội cũng như là thách thức cho một doanh nghiệp đề phân tích, tìm hiểu và đáp ứng nhu cầu của khách hàng nhăm tạo ra giá trị cho doanh nghiệp, không bị bỏ lại phía sau trong môi trường kinh tế năng động này

Mục tiêu của trang web du lịch trực tuyến là thực hiện chiến lược tiếp thị có mục tiêu, chuyền từ tiếp cận rộng rãi sang tiếp cận kỹ thuật số, phối hợp với nền tảng mạng xã hội Mục đích là đề hiểu và tận dụng hành vi kỹ thuật số và xã hội của khách hàng dé phân phối quảng cáo kỹ thuật số được nhắm mục tiêu đến những người dùng có nhiều khả năng mua sản phẩm du lịch

Vị vậy, nhóm chúng em đã lấy bộ dữ liệu từ lịch sử mua sản phẩm của một trang web du lịch thông qua các số lượt tương tác và sử đụng phần mềm Orange đề phân tích thông tin, từ đó đưa ra những nhận định và đề xuất những giải pháp mới nhằm nâng cao hiệu quả kinh doanh Trong quá trình này, chúng em sử dụng các thông tin cũng như hành vi của khách hàng thông qua lượt like, comment các sản phâm trên web du lịch để đự đoán xem liệu khách hàng có khả năng mua sản phẩm du lịch đó hay không

Dưới đây là bài toán mà nhóm chúng em đã đặt ra đề giải quyết: Bài toán: Dự đoán xác suất khách hàng có mua sản phâm du lịch hay không dựa trên lượt tương tác của khách hàng trên website du lịch cùng với một số thông tin khác của khách hàng

Kết quả của bài toán này sẽ giúp các công ty du lịch thông qua website dự đoán được hành vi của khách hàng dẫn đến việc mua hay không mua sản phẩm từ đó giúp doanh

nghiệp cải thiện trải nghiệm khách hàng bằng cách tối ưu hóa giao diện, tăng cường

tính năng hữu ích và cung cấp dịch vụ tốt hơn Khi khách hàng có trải nghiệm tích cực, khả năng họ quay lại và trở thành khách hàng trung thành cũng tăng cao Sau khi có đủ dữ liệu, chúng em sử dụng các phương pháp đự đoán như mô hình hồi quy logistic, mô hình cây quyết định để xây dựng một mô hình dự đoán Mô hình sẽ được đảo tạo trên tập dữ liệu đã có và sau đó được sử dụng đề dự đoán xác suất khách hàng mua hay không mua sản phâm du lịch đó

Chương 3: Thu thập và làm sạch dữ liệu 3.1 Mô tả dữ liệu

3.1.1 Giới thiệu về bộ dữ liệu

Tên bộ dit ligu: Tourism Website Engagement Nội dung: bộ dữ liệu này cung cấp thông tin đầy đủ về hành ví của Khách hàng đối với một trang web hay ứng dụng Du lịch điển hình Bộ dữ liệu này thiết kế đề biết rõ

10

Trang 11

thông tin về việc người dùng có mua sản phẩm hay không Điều này có thê hữu ích để phân tích hành vi người đùng đã mua và chưa mua Thông qua đó giúp đưa ra quyết định để cải thiện trải nghiệm người dùng, tăng tương tác và tạo ra nhiều cơ hội kinh doanh hơn

Thông tin bộ dữ liệu: 1 1760 dòng dữ liệu, 17 thuộc tính, (0,8% dữ liệu bị khuyết)

dung

mục tiêu) yes/no

hang nam trén bat ky trang nào liên quan đến du lịch của người dùng

dùng đăng nhập

ký ngoài trạm trong nam

Trang 12

năm của người dùng trên bất kỳ trang nào liên quan đến du lịch

Numeric

đăng ký ngoài trạm cuối cùng của người dùng

Numeric

trang công ty hay không (Có hoặc Không)

1 là cao, 4 là thấp nhất

Numeric

là người lớn hay không

Numeric

trung binh được thực hiện bởi người dùng

Numeric

người dùng đề cập trong tai

Trang 13

3.2 Các thuộc tính của bộ dữ liệu 3.3 Xác định biến liên quan và biến mục tiêu 3.3.1 Biến liên quan

° proterrod_dovico 10 _ 0.006 0.004 7 preferred_jocation_type 16 | 0.003 0.002 8 G9 week_since_last_outstation_checkin 0.002 _ 0.001

1O travelling_network_rating ¿ 0.001 _ 0.001 1ì B monuy avg_cormwnent on company page 0.000 0.000 12 Yearly_avg_comment_en_travel_page 0.000 0.000 12 @_ working_tiag 3 0.000 0.000 14W Oserib 0.000 0.000

Hình 2 Chỉ số ảnh hướng của các thuộc tính đến biến mục tiễu Đánh giá sự ảnh hưởng của các thuộc tính đến biến mục tiêu trên thực tế thông qua chỉ số Gain Ratio, được tính toán bằng Rank Widget trên Orange

Quyết định loại bổ đi một số các biến ít ảnh hưởng tương quan đến biến mục tiêu với chỉ số Gain Ratio nhỏ hơn hoặc băng 0,002

Week since last_outstation_checkin: là biến mô tả số tuần kê từ lần cập nhật đăng ký ngoài trạm cuối cùng của người dùng Sự biến đổi của

khách hàng về việc có mua hay không mua Chỉ số Gain Ratio của biến này chỉ có 0,002 => biến nay được bỏ đi

Total_likes_on_ou(station_checkin_øiven: là biển mô tả tổng số lượt thích do người dùng đưa ra khi đăng ký ngoài trạm trong năm qua Sự biến đổi của

của khách hàng về việc có mua hay không mua Chỉ số Gain Ratio của biến này chỉ có 0,001 => biến nay được bỏ đi

Travelling_network_rafing: là biến mô tả xếp hạng cho biết người đùng có bạn thân cũng thích đi du lịch hay không | 1a cao, 4 là thấp nhất Sự biến đổi của

“Travelline network_rating” không ảnh hưởng quá lớn đến quyết định của khách

Trang 14

hàng về việc có mua hay không mua Chỉ số Gain Ratio của biến này chỉ có 0,001 => biến này được bỏ đi

Yearly_avg_comment_on_travel_page: là biến mô tả nhận xét trung bình hàng năm của người dùng trên bất kỳ trang nào liên quan đến du lịch Sự biến đôi của “Yearly avg comment on travel page” không ảnh hưởng quá lớn đến quyết định của khách hàng về việc có mua hay không mua Chỉ số Gain Ratio của biến này chỉ có 0,000 => biến nay được bỏ đi

UserID: là biến mô tả mã duy nhất của người dùng Sự biến đôi của “UserID” không ảnh hưởng quá lớn đến quyết định của khách hàng về việc có mua hay không mua Chỉ số Gain Ratio của biến này chỉ có 0,000 => biến này được bỏ đi

Tuy nhiên có một số biến thấp hơn chỉ số Gain Ratio 0,02 không bỏ đi mà được giữ lại là “Working flag” và “MontÌy avg commetn on company page”

“Working flag” có thể kê đến số lượng những người có việc hay không làm việc ảnh hưởng đến thu nhập và từ đó ảnh hưởng đến quá trình mua hay không mua sản phẩm “MontÌy avg commetn on company_ page” nhận xét trung vình hàng thánh của người dùng đến trang công ty cũng sẽ ảnh hưởng sức mạnh của những người muốn mua hàng

3.3.2 Biến mục tiêu Biến mục tiêu “Taken_ Product" được phân lớp nhị phân sử dụng để kiểm tra khách du lịch có đã mua hay chưa mua sản phẩm Nếu khách du lịch đó có mua sản phẩm thì giá trị đó được đặt là Yes Còn nếu khách du lịch đó chưa mua sản phẩm thi giá trị đó được là No

3.4 Tiền xử lý dữ liệu

Các dữ liệu không được sử dụng trong bộ dữ liệu “Yearly avg Outstation checkIns”,

Trang 15

‘© File: Downloads/Customer behaviour Tourism.csv So « © Reload

2 meta attributes

Columns (Double click to edit)

1 Userid © numeric feature ? Taken_product B categorical feature No, Yes

© total_likes_on_outstation_checkin_given © numeric feature © preferred_location_type G categorical feature Beach, Big Cities,

® week_since_last_outstation_checkin numeric feature TÔ ;ollowing_company_page (8 categorical feature 0, 1, No, Yes, Yeso 'Ì montlv ave comment on comoanv page ff numeric feature

Đưa đữ liệu vào Data Table đề kiêm tra đữ liệu có bị khuyết thiếu hay không

20utslatlo vemoar_n_famM— UserG Tnken_ptoduc+ | wg_view_on_tav proferred.device | in_ovtstaiion_ch: tered §

11760 instances 1 1 2 1000001 Ye: 307 38570 rinan 28 features (Q18 % missing dats) s % 4 1000002 wọ 367 9765 Finan

'Varlables “ 1 1 1000005 wo 202 ¿ © Shaw variable labels (if neneant) e 1 2 1000006 wọ 240 lo: (© Visuanze numenc values 7 1 Thiee 1000007 No ?

© Color by instance classes ˆ 2a 1 1000008 we 225 Si CC 5 23 3 1000009 wo 208 © soveot tut rowe 27 16 3 3 WA | No 100001 wọ 262 ats

a= 7 1000012 w 27 13 28 1 1000013 No 2az s 3 2 1000014 No 25 7 2 1000015 Yes 210

6° 2 4 1000019 No 27 ? oe Ñ 2 2 1090017 wo 1ô9ôôt® wo 166 240 al ih 1® 1 4 1000019 no 297 42005 Finan

=» 2 1050021 wọ 180 23555 other 22 1 ˆ 1000022 Yes zro ` 2 1 4 1000023 No 255 14665 Finan za +6 2 1000024 wọ 157 13685 Finon 2 1 1000025 Yas 255 24465 Medk 20 1 3 1000026 wo 397 44870 Game 2 21 ie 3 a 1000028 no 1000027 Yeo 240 joe tự 24186 soels 39375 Finan

aot 4 1000030 Ne 348 los and And 27 Socla a | 3 000031 No 247 195 and And 2 Meck Restore Original Orser 32 10 4 1000032 No 330 iOS and And 51065 Other

oo 2 1000033 wo 225 108 and And 4375 Modu

Hình 4 Dữ liệu được quan sat trén Data Table

Tir Data Table, ta co thế thấy có 0,8% đữ liệu bị khuyết Vi thé phải tiến hành xử lý dữ liệu bằng Impute, tiến hành xử lý dữ liệu làm nhiễu và trùng lặp đê đảm bao dit liệu được đây đủ, chính xác, nhờ đó có thé cải thiện độ tin cậy và làm tăng độ chính

xác cao Bước 3 Xử lý đữ liệu bằng Impute

Trang 16

Detault Method 11780 metmrces - 2 *ooooot

© Average/Most frequent Random values veriatton oT s 4 % aie 3000095 so AS a distinct value Remove instances with unknown values © Shem variate iubete Of present * 1 2 WOCES No

© Visualize numeric valves 2's Three 1000007 wp © Coser ty inctance claseae 3 1 1000008 te Fixed values; numeric variables: , time: ` sen “a 2 a 3 WOCCCP No * © số

ẳ 190002 Individual Attribute Settings — 1 090015 xo

OD Yearly_ave_comment_on_travel_page an) 3 D016 sọ f totai_likes_on_cutofstation_checkin_recei — ?m * 1 4 bee eee si

Bước 4 Loại bỏ dữ liệu bị trùng lặp

œ6 Unique Group by

UserID Yearly_avg_view_on_travel_page

preferred_device

total_likes_on_outstation_checkin

preferred_location_type

Yearly_avg_comment_on_travel_p total_likes_on_outofstation_checki_ week_since_last_outstation_check following _company_page

montly_ave_comment_on_compan working_flag

Sau khi kiểm tra, thì thấy rằng không có dữ liệu nào bị trùng lặp Nên sẽ thực hiện bước tiếp theo xem xét bộ đữ liệu có bị nhiễu hay không

Bước 5 Sử dụng Select Column đề chọn các cột dùng đề phân tích cũng như loại bỏ các biến bỏ đi

Trang 17

® total_\ikes_on_outstation_checkin_given travelling network_rating

‘Yearly_avg_comment_on_travel_page

iD

GW week_since_tast_outstation_checkin

2.0 | dma Gnsce

Hinh 8 Ding Select Column dé phan tich và loại bó biến bỏ di

® Yearly_avg_view_on_tavel_page peeferred_device

( peferred_ locatlon_type total_fikes_on_outofstation_checkin_received

Daily_Avg_mins_spend_on_traveling_page

® montiy_svg_comment_on_company_page

Taegat (1) (8 Teen roduct Metss (2)

B yearly_ava_Outstation_checkins & member_in_temity

Bước 6 Sử dụng widget Data Table đề xem nội dung sau khi xử lý và phân tích đữ

TA

liệu

19760 instances > + 2 207.00 ios and And Financial — 5993 ve No 0.00 Ngã nàn MO Ñ 1 362.00 ¿ Financial — 5130 No Yes — 10

3 1 2 77.00 Other x 2090 Yes No 0.00

© Show variable labels {if present) 6 1 2 240.00 Financial = 3088 No No 000

| Q.Color by instance classes 8 9 (NO 24 23 1 3 me 226.00 am Financial Financial - — °5%28 No 2693 No Yes Yes 9.00 100 Selection © 27 3 270.00 Beach — 5237 No No —

18 26 7 ee 232.00 Financial me 2911 No No aL 1“ 19 2 265.00 Medical my 2661 No mae

Bước 7 Dùng “Save Data” để lưu đữ liệu đã được xứ ly vao file Customer Behaviour Tourism DA xlsx

Ngày đăng: 25/09/2024, 16:32

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN