Dữ liệu từ cuộc khảo sát được ghi lại trên phần mềm Excel. Những biến số được sử dụng và ý nghĩa của nó được trình bày ở bảng 1. Dựa vào dữ liệu trên Excel, thống kê mô tả của các biến được tính toán nhờ sự trợ giúp của Exel, SPSS, TSP. Để có một sự đánh giá đầy đủ về bộ dữ liệu được xây dựng từ các cuộc điều tra tại chỗ thì chúng ta sẽ xem xét bảng 1 và 2, hai bảng này sẽ cung cấp đầy đủ các định nghĩa của các biến số được sử dụng và các ký hiệu được sử dụng để đại diện cho các biến này cũng như các thống kê mô tả. Cần lưu ý rằng số lượng của các chuyến đi đề cập đến các chuyến đi trước đó, trong năm hoặc trong 12 tháng vừa qua, không bao gồm các chuyến đi hiện tại.
Bảng 1: Định nghĩa của các biến số trong tập hợp dữ liệu Các biến số Định nghĩa
EaAg Ước tính tuổi trung bình của đáp viên
DumGen Giới tính (Nam =1, Nữ =0)
Ledu Trình độ học vấn (xếp từ 1 đến 5)
DumEmp Việc làm (có việc =1, thất nghiệp =0)
DumVis Du khách (Địa phương =0, không phải địa phương =1)
AvMI Thu nhập trung bình hàng tháng
DePers Số lượng người thân đi cùng
DumDes Điểm đến (chỉ đến Kribi =1, khác =0)
NuD Số lượng địa điểm tham quan
ImTrip Tầm quan trọng của chuyến đi (xếp từ 1 đến 5)
Tsb Thời gian ở bãi biển
RTTC Chi phí du lịch vòng quanh
OnsEx Chi phí tại chỗ
OcTtim Chi phí cơ hội của thời gian du lịch
TTC Tổng chi phí du hành
DumWTP Sự sẵn lòng chi trả để cải thiện bãi biển thông qua phí vào cổng (Yes=1,No =0)
SWTP Phát biểu sự sẵn lòng chi trả
DumIVBS Ý định ghé thăm bãi biển sau này (Yes =1, No=0
Bảng 2: Thống kê mô tả của các biến trong cơ sở dữ liệu
Tổng số mẫu (n=242) Local (n=56) Non local (n=186)
Biến Trungbình Trungvị Độ lệchchuẩn Trungbình Trungvị Độ lệchchuẩn Trungbình Trungvị Độ lệchchuẩn
EaAg 29.32 28 7.31 27.21 28 6.38 29.96 28 7.47 LEDu 3.76 4 1.2 3.09 3 1.34 3.97 4 1.08 AvMI 114653.8 100000 82826.06 72321.43 25000 63007.68 126908.6 150000 84299.9 DePers 0.32 0 0.75 0.13 0 0.69 0.38 0 0.76 NuD 0.51 0 1.29 0 0 0 0.66 0 1.44 Imtrip 3.67 4 0.69 3.3 3 0.63 3.77 4 0.68 Tsb 2.94 1.5 3.72 1.14 1 0.52 3.48 2 4.08 PaS 3.95 2 4.11 2.34 2 1.38 4.43 3 4.52 Trips 12.32 5 17.67 31.64 30 21.54 6.51 3 11.03 RTTtim 5.14 4.5 5.22 0.45 0.5 0.16 6.55 5 5.18 RTTC 52638.84 5000 167134 308.93 200 257.98 68394.09 6750 187911.9 OcTtim 795.39 101.16 1331.23 33.24 0 42.03 1024.86 346.86 1441.98 OnsEx 47737 10000 80903.81 3271.43 2000 3329.8 61125.27 30000 88004.17 SWTP 1087.6 1000 1164.13 453.57 500 448.42 1278.49 1000 1243.91
Từ dữ liệu bảng trên, một số điểm cần lưu ý của thống kê mô tả cơ sở dữ liệu là:
1. Những du khách địa phương có thu nhập trung bình thấp hơn so với những du khách không phải địa phương. Hơn nữa, những du khách địa phương có một số lượng lớn các chuyến thăm hằng năm lớn hơn các du khách không phải địa phương. Điều này phù hợp với nguyên lí của chi phí đi lại vì số lượng các chuyến đi sẽ giảm khi khoảng cách càng xa và chi phí càng lớn. Tuy nhiên, những du khách không phải địa phương sẽ chi tiêu nhiều hơn cho trng bình mỗi chuyến đi hơn so với những du khách ở địa phương.
2. Những du khách địa phương sẽ thực hiện một số chuyến đi nhỏ lẻ đến các bãi biển khác ngoài Kribi và có những hoạt động giải trí nhỏ hơn so với những người không phải du khách địa phương. Điều này là hợp lí vì những du khách địa phương có thu nhập trung bình thấp hơn và họ có ít cơ hội để đi du lịch đến nơi khác.
3. Những du khách quốc tế chi tiêu trung bình nhiều hơn so với những loại du khách khác.
4. Vì có những du khách thực hiện một vài chuyến đi hoặc nhiều chuyến đi nên cơ sở dữ liệu có độ lệch chuẩn (phương sai cũng có liên quan) bị lệch xa giá trị trung bình. Để rõ hơn về vấn đêv này hãy xem hình 6.
5. Trung bình số lượng người thân mà đáp viên dẫn theo lớn hơn không trên tất cả các mẫu. Điều này có nghĩa là hầu hết những đáp viên đã chịu cả chi phí đi lại của những người mà họ dẫn theo. Do đó, ước tính CS sẽ có xu hướng cao hơn.
Hình 6: Sự dao động mạnh trong cơ sở dữ liệu.
Từ các con số trên, chúng ta nhận thấy rằng có nhiều du khách thực hiện một vài chuyến đi trong khi những người khác lại có nhiều chuyến đi hơn. Đây là lí do tại sao mà số lượng du khách thực hiện những chuyến đi đã giảm nhanh chóng khi số lượng các chuyến đi tăng lên. Tuy nhiên, cũng có một vài du khách nhiệt tình thực hiện nhiều chuyến đi hơn.
Việc đề cập đến bốn quan sát trên được thực hiện từ các thống kê mô tả là khá quan trọng vì chúng lí giải việc chia toàn bộ mẫu thành các các nhóm mẫu.
3.5 Sự phân tầng của bộ dữ liệu.
Như đã trình bày trong bảng 2, có 5 bộ dữ liệu khác nhau, cụ thể là: toàn bộ mẫu, không phải du khách địa phương, du khách địa phương, đa mục đích và đơn mục đích mặc dù đa mục đích không được trình bày thống kê mô tả. Sự phân tầng này được thực hiện do sự không đồng nhất trong cơ sở dữ liệu. Toàn bộ mẫu bao gồm tất cả các du khách trong thời gian khảo sát. Những du khách địa phương là những du khách đến từ các đô thị ở Kribi (gồm cả nông thôn lẫn thành thị, có thể xem ở bảng 1). Những du khách địa phương có thu nhập trung bình thấp nhất được thể hiện qua các biến như: thu nhập hàng tháng, chi phí tại chỗ và tổng chi phí du hành (xem bảng 2). Những du khách không phải địa phương là những
người không thuộc đô thị Kribi. Những du khách này bao gồm những cá nhân đến từ các tỉnh khác của Cameroon cũng như các du khách khác.Hầu hết những du khách trong cơ sở dữ liệu là những người có việc làm trái ngược với những du khách địa phương. Cuối cùng là những mẫu đa mục đích và đơn mục đích. Trong bảng câu hỏi, có một câu hỏi yêu cầu du khách trả lời rằng có phải họ đi đến đây chỉ vì mục đích du lịch hay không? Dựa trên câu hỏi này, ta có thể phân nó ra thành một bộ dữ liệu riêng biệt cho khách đi chỉ với mục đích du lịch và đi du lịch vì một mục đích khác.Cần lưu ý rằng tập hợp dữ liệu đa mục đích bao gồm du khách địa phương, không phải địa phương và nó không bao gồm đơn mục đích. Những cá nhân thuộc nhóm đơn mục đích là những du khách giàu có nhất. Điều này là hiển nhiên vì họ có thu nhập trung bình hàng tháng, chi phí tại chỗ và tổng chi phí du lịch cao hơn những nhóm khác. Tuy nhiên, cỡ mẫu của đơn mục đích là khá nhỏ (n = 21), điều này có nghĩa là mẫu này không thể sử dụng để phân tích hồi quy nhưng thống kê mô tả có thể sẽ cung cấp những thông tin hữu ít cho các khuyến nghị chính sách. Do sự không đồng nhất trong cơ sở dữ liệu nên có một ý tưởng về thống kê mô tả của những người không phải ở địa phương mà thất nghiệp (UNL), những du khách không phải địa phương mà có việc làm (ENL) cũng như đa mục đích (NT). Thống kê mô tả của những biến này được trình bày ở bảng 3.
Bảng 3: Thống kê mô tả của các nhóm mẫu UNL, ENL and NT.
UNL Visitors
(n=69) (n=117)ENL Visitors (n=221)NT Visitors
Biến Mea
n Dev.Std nMea Dev.Std nMea Dev.Std
Trip@1 6.32 8.17 6.62 12.44 13.4 9 18.06 TTC 110 1.84 41778 601038 18.52297 .186305 037251. EaAg 25.3 8 7.87 732.6 5.72 228.7 7.27 DumGen 0.46 0.5 0.67 0.47 0.57 0.5 LEdu 3.54 1.16 4.22 0.94 3.7 1.21 AvMI 581 15.94 .7868952 78.61674 7.446380 73.41050 2.147924 DePers 0.13 0.38 0.52 0.89 0.31 0.75 NuD 0.36 0.92 0.84 1.65 0.29 0.88 Imtrip 3.87 0.71 3.72 0.65 3.67 0.7 Tsb 2.91 3.3 3.81 4.46 2.62 3.38
PaS 5.38 4.39 3.89 4.52 4.1 4.25 DumDes 0.86 0.35 0.74 0.44 0.89 0.32 RTTtim 4.24 3.02 7.91 5.69 3.94 3.58 RTTC 110 18.84 41778 1022 30.8 2284 26.6 5857 .92 827.3 3 OnSex 201 40.58 29340 .13 8529 5.73 1012 84.1 3104 9.77 4507 1.04 OcTtim 0 0 1629 .27 1524. 1 447. 26 654.2 3 DumWTP 0.8 0.41 0.96 0.02 0.83 0.38 SWTP 797. 1 8832.7 .391562 211357. 62903. 4838.4
Ghi chú: UNL = không phải du khách địa phương mà thất nghiệp, ENL = không phải du khách địa phương mà có việc, TTC, AVMI, RTTC, OnSex, OcTtim và SWTP đã được nêu trước đó (FCFA).
Từ bảng 3, chúng ta có thể nhận thấy có rất nhiều sự khác biệt khi có sự phân biệt giữa những du khách không phải địa phương có việc làm và thất nghiệp. Ví dụ các giá trị của các biến như TTC, EaAg, LEdu, AvMI, DePers, Tsb, RTTtim, OnSex, OcTtim and SWTP của những du khách không phải địa phương có việc làm vượt xa các giá trị tương ứng của những du khách không phải địa phương mà thất nghiệp. Những đặc điểm khác nhau giữa những du khách không phải địa phương mà thất nghiệp hoặc có việc làm giải thích lí do tại sao việc phân biệt những du khách không phải địa phương có việc làm hay thất nghiệp là rất cần thiết trong phân tích hồi quy. Đối với những mẫu đa mục đích thì thống kê mô tả trông giống như với tổng số mẫu. Điều này là không cần quan tâm bởi vì mẫu này là chính xác giống với tổng số mẫu khi loại trừ những du khách đơn mục đích đã bị loại bỏ và vì chỉ có một vài đơn mục đích trong cơ sở dữ liệu (n=21), rõ ràng là thống kê mô tả cho hai dữ liệu này là tương tự với nhau.
CHƯƠNG 4: MÔ HÌNH KINH TẾ LƯỢNG VÀ CÁC THÔNG SỐ KĨ THUẬT CỦA MÔ HÌNH
Để xác định hoặc ước tính giá trị của bãi biển Ngóe, hai mô hình kinh tế đã được áp dụng trong nghiên cứu này. Hai mô hình đó là mô hình phân phối
Poisson và mô hình phân phối nhị thức tiêu cực. Cả hai mô hình được áp dụng để tìm ra mô hình phù hợp nhất. Ngoài ra, một số nhà nghiên cứu cho rằng mô hình phân phối Poisson là quá hạn chế, vì vậy cần phải áp dụng nó trước mô hình phân phối nhị thức tiêu cực. Cả hai mô hình (gồm cắt ngắn và thổi phồng zero) được sử dụng vì du khách có thể quyết định ghé thăm bãi biển hoặc không (Amoako- Tuffour and Espineira, 2008). Cần lưu ý là cả hai mô hình đều sử dụng dữ liệu số, mô hình dữ liệu số đếm (Count data models) là mô hình sử dụng các dữ liệu quan sát được tính toán chứ không phải là xếp hạng và các quan sát đều là những giá trị số nguyên không âm (tức là 0,1,2,3…), các quan sát trong trường hợp đặc biệt này đề cập đến những chuyến đi của du khách thực hiện đến bãi biển Ngóe.
4.1 Mô hình Poisson.
Một cái nhìn tổng quan về những dữ liệu trong các cuộc khảo sát tại chỗ cho thấy rằng số lượng các chuyến đi thực hiện bởi các du khách là một số nguyên không âm và tần số xuất hiện số 0 và các số nhỏ hơn nữa chiếm một tỷ lệ đáng kể trong bộ dữ liệu (see Anderson, 2010). Dựa trên điều này có thể áp dụng mô hình Poisson cho cơ sở dữ liệu. Theo Wackerly et al. (2008) and Anderson (2010), mô hình phân phối xác suất Poisson có công thức:
Prob(Y=k) Với k=0,1,2…
Trong đó: Y là số lượng chuyến đi của mỗi du khách trong năm qua và λ là giá trị trung bình và phương sai của phân phối (tức là số lượng chuyến đi dự kiến). Để áp dụng mô hình Poisson một cách thích hợp thì số lượng trung bình các chuyến đi hoặc viếng thăm phải chính xác bằng với phương sai của các chuyến đi hoặc viếng thăm. Tuy nhiên, dữ liệu quan sát được có sự phân tán mạnh (nhiều du khách thực hiện ít chuyến đi và ít du khách thực hiện nhiều chuyến đi) và do đó phương sai của phân phối vượt xa giá trị trung bình của nó. Chính xác là trung bình của phân phối là 12.3 trong ki đó phương sai của phân phối là 312.1 điều này muốn nói lên là sự phân tán là quá lớn. Nếu mô hình Poisson được áp dụng trực tiếp cho cơ sở dữ liệu này thì kết quả sẽ bị sai lệch. Amoako-Tuffour và Espineira (2008) cho rằng sự phân tán lớn của các biến phụ thuộc như trong trường hợp này làm cho mô hình Poisson bị hạn chế.
Như một biện pháp khắc phục làm giảm kết quả sai lệch từ phân tán rộng thì phương pháp ước tính tối đa Poisson có thể được áp dụng để ước tính các tham số của mô hình, mặc dù Amoako-Tuffour và Martinez-Espineira (2008) lập luận rằng nó đánh giá thấp sai số chuẩn và thổi phồng kết quả thống kê t. Lưu ý rằng
dữ liệu được tạo ra trong nghiên cứu này có một số lượng đáng kể du khách không có thực hiện một chuyến đi nào trong năm qua (cụ thể là 39 trên tổng số 242 mẫu). Vì lí do này, các số 0 không thể bị bỏ qua được, để đưa số 0 vào thì có một lựa chọn đầu tiên là cắt ngắn phân phối (cắt ngắn phân phối Poisson phía trái) trước khi thực hiện các mô hình thay thế, tức là mô hình thổi phồng zero Poisson (ZIP). Tuy nhiên, mô hình Zip sẽ thích hợp hơn để sử dụng vì nó tính đến việc một số du khách sẽ không có tiện ích từ đi thắm bãi biển Ngóe trong khi những người khác lựa chọn tối ưu bằng cách không thực hiện chuyến đi nào (see Anderson, 2010). Nói chung, mô hình thổi phồng Zero Poisson (có thể là Poisson hoặc negative binomial) thường được xem là có 2 loại số 0 là “true zeros” and “excess zeros”. Mô hình như vậy thường cố gắng để giải thích cho “excess zeros” và khi làm như vậy chúng ước tính cho 2 phương trình, một là cho dữ liệu số đếm (tần số) và một là cho “excess zeros”. Theo Cheung (2002) and Williamson et al. (2007) nếu xác suất của một excess zero được ký hiệu là πi (0≤ πi≤1) thì số lượng các chuyến đi đến bãi biển (Yi) sẽ theo phân phối ZIP nếu :
Prob (Yi = yi) =
Trong đó: i =1,2,3…N. Giá trị trung bình của phân phối trên là E(Yi)= (1-
πi)và phương sai là Var (Yi)= (1-πi)(1-πi). Cần lưu ý là cả mô hình ZIP và zero-inflated negative binomial model có thể được mô hình hóa với hồi quy logistic, tức là logit(πi)= Xiβ trong đó Xi là vector của các biến số, β là vector của các tham số (see Williamson et al.,2007).
4.2 The Negative Binomial Model
The negative binomial model là sự tổng quát của mô hình hồi quy Poisson nó cho phép sự phân tán rộng bằng cách giới thiệu sự bất đồng nhất không quan sát được cho các quan sát i(Erdman et al., 2008). Ví dụ, nếu Yi theo phân phối Poisson của và bản thân là một biến ngẫu nhiên theo phân phối gamma thì Yi được cho là tuân theo phân phối nhị thức tiêu cực (negative binomial distribution). Thuận lợi của việc sử dụng negative binomial model hơn mô hình Poisson là nó cho phép đưa các phân tán rộng vào trong cơ sở dữ liệu. Nó có thể được áp dụng để mô hình hóa sự giải trí của bãi biển bởi vì du khách đến bãi biển phải đối mặt với 2 lựa chọn : lựa chọn tham quan và không tham quan. Trong cơ sở dữ liệu, có một số khách du lịch đã không hoặc không có chuyến đi nào đến bãi biển Ngóe trong các năm trước đó, do đó sẽ thích hợp hơn nếu dùng mô hình
nhị thức âm thổi phồng zero (the zero-inflated negative binomial model).Tuy nhiên, sự liên quan của the truncated negative binomial model không thể xem nhẹ được, Sarker và Surry (2004) và Anderson (2010) đã sử dụng mô hình này trong nghiên cứu của họ. Họ lập luận rằng mô hình là hợp lí với sai số phép đo và việc bỏ sót các biến giải thích có thể tăng thêm tính không đồng nhất và phân tán rộng các phép đo. The negative binomial distribution function được trình bày bởi biểu thức sau đây:
λ and α là hai thong số của phân phối đại diện cho giá trị trung bình (giá trị dự kiến) của phân phối và tham số phân tán rộng và y là số lượng chuyến đi, cần