1. Trang chủ
  2. » Nông - Lâm - Ngư

Dự đoán sự hài lòng về chất lượng dịch vụ tưới tiêu tại đồng bằng Sông Hồng dùng các mô hình hồi quy

13 15 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 13
Dung lượng 720,91 KB

Nội dung

Kết quả Dự đoán sự hài lòng về chất lượng dịch vụ tưới tiêu tại đồng bằng Sông Hồng dùng các mô hình hồi quy cho thấy mô hình hồi quy phi tuyến cho kết quả tốt hơn mô hình tuyến tính, tính đa dạng và khả thi của những mô hình dự đoán này có thể được áp dụng để xử lý các bài toán về kinh tế trong các lĩnh vực quản lý tài nguyên nước.

Kỷ yếu Hội nghị Quốc gia lần thứ VIII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015 DỰ ĐOÁN SỰ HÀI LÒNG VỀ CHẤT LƯỢNG DỊCH VỤ TƯỚI TIÊU TẠI ĐỒNG BẰNG SƠNG HỒNG DÙNG CÁC MƠ HÌNH HỒI QUY Nguyễn Thanh Tùng1 Khoa Công nghệ thông tin, Trường Đại học Thủy lợi tungnt@tlu.edu.vn TÓM TẮT - Việc xác định mức độ hài lòng người dân dịch vụ tưới tiêu sách thủy lợi phí có ảnh hưởng lớn đến tổ chức quản lý khai thác cơng trình thuỷ lợi, ngân sách quốc gia an sinh xã hội Trong báo này, mô hình hồi quy áp dụng cho phân tích hồi quy đa biến nhằm mục đích dự đốn độ hài lòng người dân hệ thống tưới tiêu đồng Sông Hồng Kết thực nghiệm cho thấy mơ hình hồi quy phi tuyến cho kết tốt mơ hình tuyến tính, tính đa dạng khả thi mơ hình dự đốn áp dụng để xử lý toán kinh tế lĩnh vực quản lý tài nguyên nước Từ khóa - Hồi quy đa biến, LASSO, k láng giềng, mạng nơron, véctơ hỗ trợ hồi quy, rừng ngẫu nhiên hồi quy, khai phá liệu, máy học I ĐẶT VẤN ĐỀ Với hệ thống tưới tiêu cụ thể Việt Nam, việc đánh giá mức độ hài lòng hộ dùng nước tác động lớn đến sách thủy lợi phí Chính phủ Từ nghiên cứu, phân tích định lượng liên quan đến hài lịng người dân giúp Chính phủ điều chỉnh sách thủy lợi phí phù hợp nhằm nâng cao chất lượng dịch vụ tưới tiêu nông nghiệp Trong nghiên cứu này, mơ hình hồi quy tiên tiến nghiên cứu để phân tích, dự đốn mức độ hài lịng người dân vùng đồng Sơng Hồng, từ lựa chọn mơ hình phù hợp để áp dụng xử lý toán kinh tế, thủy văn thực tiễn Xét mơ hình hồi quy tổng quát để giải toán xác định mức độ hài lòng hộ dân dùng dịch vụ nước tưới tiêu, thông thường viết sau: Y f X ϵ, ϵ lỗi mơ hình, E ϵ 0, Var ϵ σ Tập liệu đầu vào X ,Y dùng để xây dựng mơ hình hồi quy thu thập, khảo sát độc lập từ hộ dùng nước với tiêu chí quan sát X (predictor features) biến đích Y (response feature) lưu giá trị đánh giá mức độ hài lòng hộ dùng nước Trong biểu thức (1), X ∈ biến ngẫu nhiên với xác suất , cụ thể, X x, Y y xác suất mà biến ngẫu nhiên X, Y nhận Y ∈ giá trị x y Ở đây, M số chiều tập liệu đầu vào N số mẫu thu thập Mục tiêu tốn hồi quy tìm mơ hình mà giá trị ước lượng dự đốn hàm f ∙ có trung bình sai số bình phương (mean squared errors) nhỏ tốt Các mơ hình hồi quy trình bày báo dùng hàm f: → ước lượng giá trị y ∈ Y tương ứng với liệu đầu vào x ∈ Các nghiên cứu đánh giá độ hài lịng hộ dùng nước tưới tiêu nói riêng tốn kinh tế lượng nói chung Việt Nam, sau bước khảo sát tiền xử lý số liệu, mơ hình hồi quy tuyến tính thường sử dụng để phân tích biến thiên số liệu, dự báo mẫu tương lai Mơ hình tuyến tính ưa dùng dễ sử dụng, dễ cài đặt việc diễn giải kết dễ hiểu Tuy nhiên, kết hồi quy dùng mơ hình tuyến tính thường có lỗi dự báo cao gặp khó khăn liệu phức tạp có số liệu trống (missing value), số liệu dạng số, số lượng biến gấp nhiều lần so với số lượng mẫu Ngồi ra, lớp mơ hình tuyến tính cần giả định phân bố chuẩn, liệu quan hệ tuyến tính để có kết dự báo hợp lý Trong nghiên cứu này, mơ hình hồi quy tuyến tính nhiều biến phi tuyến nghiên cứu áp dụng cho toán xác định mức độ hài lòng hộ dùng nước tưới tiêu đồng Sông Hồng Kỹ thuật kiểm tra chéo (kfolds cross validation) [10] sử dụng cho mơ hình hồi quy tập huấn luyện để tìm tham số tối ưu dùng cho dự đoán liệu kiểm thử Độ đo quan trọng tiêu chí liên quan đến hài lòng hộ dùng nước tưới tiêu phân tích, đánh giá hiển thị trực quan giúp nhà quản lý có thêm thơng tin cần thiết để đầu tư, nâng cấp dịch vụ tưới tiêu Kết thực nghiệm báo cho thấy mơ hình phi tuyến cho kết dự đốn tốt hơn, đặc biệt mơ hình tổ hợp hồi quy, tính đa dạng mơ hình hồi quy ứng dụng giải lớp toán hồi quy lĩnh vực kinh tế Việt Nam II CÁC MƠ HÌNH HỒI QUY A Mơ hình hồi quy tuyến tính nhiều biến Mơ hình hồi quy tuyến tính gồm hồi quy đơn biến (single) nhiều biến (multivariate) Hồi quy đơn biến mơ hình hồi quy với biến đặc trưng (biến độc lập), hồi quy đa biến mô hình hồi quy với nhiều biến thường sử dụng rộng rãi thực tế Với tập liệu đầu vào cho trước, mơ hình hồi quy tổng qt cơng thức (1) viết lại dạng sau [10]: Nguyễn Thanh Tùng 245 | ϵ ∼ 0, ϵ, (2) | , hệ số chặn (intercept) độ dốc (slope) Để tìm hệ số mơ hình, cách tiếp cận phổ biến , ,…, để cực tiểu dựa phương pháp bình phương nhỏ [11], tìm hệ số hóa tổng bình phương phần dư (residual sum of squares, RSS): | (4) Ta cần xác định véctơ cho hệ số mơ hình hồi quy, giả thiết điều kiện cho mơ hình tuyến tính (5) đáp ứng (xem Huber [11]) Cơng thức (4) viết sau: Nếu không suy biến, véctơ xác định phương trình sau: (6) ta tính đầu mơ hình hồi quy Từ (6) ta có phương trình hồi quy nhiều biến, để dự đốn giá trị tuyến tính nhiều biến sau: (7) Hồi quy LASSO Phương pháp LASSO (Least absolute shrinkage and selection operator) [10], [18] phương pháp hồi quy tuyến tính nhiều biến có hiệu chỉnh mơ hình, phương pháp đưa thêm hàm phạt vào hàm lỗi để lỗi hồi quy đạt nhỏ nhất: | | | (8) Trong hệ số phạt dùng để điều chỉnh mơ hình, chuẩn L1 dùng cho việc dự đốn tham số Trong trường hợp đủ lớn có số tham số hồi quy tiến dần 0, chúng khơng đóng vai trị mơ hình hồi quy Phương pháp LASSO dùng cho tốn lựa chọn thuộc tính, với biến có tham số hồi quy ta loại khỏi mơ hình B Phương pháp hồi quy k láng giềng Phương pháp k láng giềng dùng cho toán hồi quy khơng có q trình huấn luyện để xây dựng mơ hình học [10], dự đốn mẫu mới, giải thuật tìm k (k=1, 2, ) láng giềng gần mẫu tập liệu huấn luyện , sau tính giá trị trung bình (hoặc trung vị) để trả kết cuối Quá trình tìm k láng giềng mẫu thường sử dụng khoảng cách Euclidean định nghĩa sau: d , , xa xb mẫu độc lập (9) C Cây hồi quy Mơ hình hồi quy tách đệ quy theo hàng tập liệu đầu vào thành tập liệu nhỏ hơn, hình thành nút Tại lần tách nút, thuộc tính giá trị tách thuộc tính chọn để chia nút thành nút con, nút trái nút phải Xây dựng hồi quy Gọi nút cha để tách nhánh hồi quy Việc tách nhánh thuộc tính xác định việc giảm , Kỳ vọng nút tối thiểu hóa nhờ hàm lỗi bình phương sai số hỗn tạp [5] nút , ký hiệu ∆ định nghĩa sau: ∈ ∈ ∈ (10) Trong tổng số mẫu nút trung bình mẫu 246 DỰ ĐOÁN S SỰ HÀI LÒNG VỀ V CHẤT LƯỢNG G DỊCH VỤ TƯỚ ỚI TIÊU TẠI ĐỒ ỒNG BẰNG SÔN NG HỒNG… Gọi h , l giá trị chia tách thuộc tínnh ∈ , nút ∈ , thành nút co on trái nnút phải phụ thuộc vào , Độ biến thiêên mẫẫu cho nútt , ∈ Trong đ trungg bình mẫu củủa mẫu m kích thhước mẫu ∈ kích thướcc mẫu Như vậậy, việc giảm đđộ hỗn tạp theeo việc chia tách Δ Trong đ đ chọn trênn thuộc tính Tương tự, (11) trung bình (12) Điểm m chia tách tính nhhư sau: , / vvà / tỷ lệ quaan sát , đạt cựực đại cho nút giá trị làm cho ∆ 2 Dự đoán dùùng hồi quuy Khi xây x dựng hồi quy, ta cầần phải tính to oán giá trị cho o nút câây, trình nnày mơ tả sau Sử S dụng ký k hiệu Brreiman [4], gọọi véctơ chứa c tham số ngẫu nhiên đđể xác định viiệc xây dựng Trong m hồi quuy, ta tính tốnn trọng số dươ ơng , cho mẫu u ∈ Đặt , , núút câ ây hồi quy , Các C mẫu ∈ , , đượ ợc gán trọnng số 1/ , trrong số mẫu trongg , , Ng ghĩa việc dự d đoán dùng hồi quy đđơn giản tínhh giá trị trung bình mẫu nút láá Với liệu thử nghiệệm , giá trị dự đoán hồi h quy tí tính sau: , , , ∈ , , (13) D D Mạng nơroon nhân tạo Mạng nơron n nhân tạạo giả lập quáá trình học tập p tính tốn não ccon người [1], [16] Một mạng m nơron nhân n tạo đượcc xây dựng từ thành phần sở làà nơron n nhân tạo gồm m nhiều đầu vvào đầ ầu (Hình 1) Mỗi nơron nhân tạo giả lập nơronn sinh học, gồ ồm ngưỡn ng kích hoạt (bbias) hhàm kích hoạt (hay hàm trruyền –transfe fer function), đđặc trưng cho tính chất nơron Các nơron n nhân tạoo liên kếết với bằ ằng kết nối n Mỗi kết nối có trọng sốố kết nối (weigght), đặc trưng g cho khả g nhớ mạnng nơron Quáá trình huấn lu uyện mạng nơron n quáá trình điều chỉỉnh ngưỡnng kích hoạt trọng số ố kết nối, dựa ttrên liệu họọc Hình Kiến n trúc nơro on nhân tạo Trong đó: đ v Tổng tất đầu vàào mơ tả toàn v(t): b táác động thânn nơron Xk(t): Các biếến đầu vào (cáác đặc trưng), k=1 M k wk: Trọng số lliên kết đầu vào k với nơrron H Hàm kícch hoạt H(.): Y Tín hiệuu đầu nơronn Y(t): θ: Ngưỡng (làà số), xácc định ngưỡng g kích hoạt Khi kếtt hợp nơroon lại với au ta có mạng m nơron nh hân tạo Tuỳ thheo cách thứcc liên kết a nơron mà m ta có looại mạng khácc như: m mạng truyền th hẳng (Hình 2),, mạng phản hhồi,… Ta có thhể xem mạng m nơron nhân n tạo biểu thị mơ hình hhồi quy theo ccơng thức (1) với X véctơ số liệu đầu vào Y vvéctơ số liệu đầu Ưu điểm đ mạng m nơron nnhân tạo cho phép xây y dựng mơ hình tính tốán có khả năngg học liệu cao Có Nguyễn N Thanh Tùng T 247 th hể coi mạng nơron n nhân tạoo hộp đđen có nhiều đầu đ vào nh hiều đầu có khả họcc mối qu uan hệ đầu đ đầu vào v dựa ddữ liệu hhọc Hình Mạn ng nơron lan tru uyền thẳng Quá trình huấn luyệnn mạng nơronn dựa lỗi hồi quy giữaa giá trị dự đooán giá trị quan sát đượ ợc biến đích, đ giải thuậật huấn luyện điều chỉnhh trọng số kết nối mạng m nơron nhhằm cực tiểu hóa lỗi hồi qu uy mẫu m huấn luyệện Sau mạạng huấnn luyện thành cơng, tri thức t tích luỹ đđược quuá trình huấn lu uyện mạng (các ma trận trrọng số, thham số tự do,, v.v) cập nhật vào sở tri thứcc để sử dụng ttrong q trình dự đốn Có C nhiều loại mạng nơron, nhiều tầng vvà dùng cho toán học có giáám sát họcc khơng giám sát Trong nghiên n cứu nàày, ccài đặt mạng nnơron lớp trruyền thẳng, sử s dụng trọng số suy giảm (weight decay y) hệ số co c mơ hìnhh để λ tránh tìình trạng học vvẹt (over-fittin ng), xem thêm m [16] E E Máy véctơ hỗ trợ hồi qu uy Máy vééctơ hỗ trợ hồi quy (Supporrt Vector Regrression, SVR)) [17] tìm siêuu phẳng quaa tất điểm liệu với v độ lệch chhuẩn ε Trong hồi quy ε – S SV, mục đích tìm hààm f(X) cơng thức (1)) có sai số nhỏ ỏ ε so với v biến đích Yi: f X w Φ X (14) b, Trong đ w ⊂ RM, Φ(X) biểu thị m hàm phi tu uyến chu uyển từ khôngg gian RM vào không gian nh hiều chiều Mục M đích đâây cần tìm w b để giáá trị X=x có th hể xác định cáchh tối thiểu hóaa lỗi hồi quy Từ dẫn đến đ giải tốn quy hoạch tồn phương sau: Φ (w, b, ξ , ξ * ) = N w + C (ξ i + ξ i* ) i =1 ∑ (15) Với điềều kiện: w i + b) ≤ ε + ξ i ⎧Yi − ( wX ⎪ * ⎨( wX i + b) − Yi ≤ ε + ξi ⎪ * ⎩ξi , ξi ≥ Ở đây, ξi, ξi* hai biến bù [17] C > dùn ng để chỉnh độ đ rộng llề lỗi Để ggiải tốn (15), trrước tiên phảii tìm cực tiểu hàm L theeo w, b, ξi, ξi* L(w, b, α , α * , ξ , ξ * , η ,η *) = − ∑ N i =1 w +C α i (ε + ξi + Yi − wT Φ ( X i ) − b) − ∑ ∑ N i =1 N i =1 (ξi + ξi* ) − ∑ N i =1 (ηiξi + ηi * ξ i* ) α i* (ε + ξi* − Yi + wT Φ ( X i ) + b) (16) Với ηi, ηi*, αi, αi* ccác hệ số Laggrange thỏa mãn điều kiện n: ηi, ηi*, αi, αi* ≥ 0, i=1 N N q phi tuyến SVR S sử dụng hàm lỗi ε đượợc tính sau u: Lấy đạoo hàm cấp phương trìình (16), hồi quy ∗ ∗ Φ , ∗ ∗ (17) với ràngg buộc: ∗ ∑ (18) 0; , ∗ ∈ 0, * Giải biểểu thức (17) vvới ràng buộcc (18) xác địn nh nhân n tử Lagrannge αi, αi K Khi đó, mơ hìn nh hồi quy SVR S trìnnh bày (14), với 248 DỰ ĐỐN SỰ HÀI LỊNG VỀ CHẤT LƯỢNG DỊCH VỤ TƯỚI TIÊU TẠI ĐỒNG BẰNG SÔNG HỒNG… ∗ Trong Xj Xk véctơ hỗ trợ, ∈ 0, , ∗ ∈ 0, SVR dùng hàm nhân khác để giải lớp toán hồi quy phi tuyến mà không cần thay đổi mặt thuật toán, hàm nhân dùng thông dụng như: − Hàm nhân đa Gaussian RBF có dạng: K u, v − Hàm nhân đa thức bậc d > 0: K u, v C || e || u v F Rừng ngẫu nhiên hồi quy Rừng ngẫu nhiên hồi quy (RF) [3], [4] gồm tập hợp hồi quy trình bày mục II C Từ tập liệu đầu vào , RF dùng kỹ thuật lấy mẫu bootstrap có hồn lại tạo nhiều tập liệu khác Trên tập liệu này, lấy ngẫu nhiên lượng cố định thuộc tính, thường gọi mtry để xây dựng Mỗi hồi quy xây dựng không cắt nhánh với chiều cao tối đa Việc lấy hai lần ngẫu nhiên mẫu thuộc tính tạo tập liệu khác giúp RF giảm độ dao động (variance) mô hình học Dự đốn rừng ngẫu nhiên hồi quy tập gồm K Việc xây dựng rừng ngẫu nhiên hồi quy dự đốn mẫu mơ tả sau Đặt Θ véctơ tham số ngẫu nhiên để xác định độ véctơ tham số ngẫu nhiên cho rừng sinh từ , tập liệu thứ sinh từ dùng kỹ thuật bootstrap, lớn thứ rừng k K Gọi hồi quy từ , ta tính trọng số dương , cho mẫu ∈ Đặt , , nút , 1/ Mẫu ∈ , , gán trọng số , số mẫu , , gán trọng số dương mẫu không gán Trong trường hợp này, tất mẫu Với hồi quy , có giá trị thử nghiệm giá trị dự đốn tương ứng: ∑ ∑ , ∈ , , , , (18) tính rừng ngẫu nhiên giá trị trung bình trọng số dự đoán tất Trọng số rừng Cơng thức tính sau: ∑ , Cuối cùng, giá trị dự đoán rừng ngẫu nhiên hồi quy cho bởi: ∑ (19) (20) Độ đo quan trọng thuộc tính Khi hồi quy phân chia tập liệu đầu vào thành vùng không giao (theo hàng), giá trị dự đốn giá trị trung bình gán vào vùng tương ứng (lá cây) Tại bước tính tốn để tách nút , theo cơng thức (12) tất giá trị thuộc tính xét để tìm điểm tách đạt độ giảm hỗn tạp (impurity) Δ , lớn Do đó, trình xây dựng hồi quy, việc giảm hỗn tạp thuộc tính cụ thể dùng để tính độ đo quan trọng thuộc tính dùng mơ hình [5] Với mơ hình rừng ngẫu nhiên, độ đo quan trọng thuộc tính tính cách lấy giá trị trung bình tất độ đo hồi quy độc lập Có điểm lợi việc tính độ đo quan trọng thuộc tính dùng mơ hình rừng ngẫu nhiên độ đo biến có tương tác lẫn xem xét cách tự động, điều khác hẳn với phương pháp tính tương quan tuyến tính Kendall, Pearson Độ đo quan trọng thuộc tính cịn tính theo cách khác dùng phương pháp lặp hoán vị [13], [14] cho kết xác hơn, nhiên thời gian tính tốn lâu chạy nhiều lần rừng ngẫu nhiên tập liệu mở rộng cỡ 2M chứa biến giả , độ đo quan trọng thuộc tính Xj hồi quy Tk(k=1 K) Gọi rừng ngẫu nhiên Từ cơng thức (12), ta tính độ đo quan trọng Xj từ hồi quy độc lập sau: ∑ ∈ , Δ , (20) từ rừng ngẫu nhiên là: ∑ (21) G Boosting Mơ hình boosting [6], [7] ban đầu phát triển xử lý tốn phân lớp sau mở rộng cho toán hồi quy Trong mục này, kỹ thuật điển hình boosting AdaBoost (Adaptive Boost) trình bày vắn tắt, sau mơ hình boosting Friedman với hàm sở hồi quy áp dụng xử lý tốn dự đốn hài lịng hộ dân dùng nước tưới tiêu Nguyễn Thanh Tùng 249 Adaboost phân loại mạnh phi tuyến dựa hướng tiếp cận boosting Freund Schapire đưa vào năm 1996 xử lý toán phân lớp nhị phân [8] Adaboost hoạt động nguyên tắc kết hợp tuyến tính phân loại yếu để hình thành phân loại mạnh Để kết hợp phân loại yếu, adaboost sử dụng trọng số (weight) để đánh dấu mẫu khó nhận dạng Trong trình huấn luyện, phân loại yếu xây dựng, thuật toán tiến hành cập nhật lại trọng số để chuẩn bị cho việc xây dựng phân loại yếu tiếp theo: tăng trọng số mẫu bị nhận dạng sai giảm trọng số mẫu nhận dạng phân loại yếu vừa xây dựng Bằng cách này, phân loại yếu sau tập trung vào mẫu mà phân loại yếu trước chưa thực tốt Sau phân loại yếu kết hợp tùy theo mức độ ‘tốt’ chúng để tạo nên phân loại mạnh Các bước thực thuật toán AdaBoost sau: - - Khởi tạo trọng số ban đầu cho tất mẫu: với m số mẫu (ứng với mẫu có nhãn Y = 1) l số mẫu sai (có nhãn tương ứng Y = -1) 1 , , 2 (22) Xây dựng T phân loại yếu Lặp t = 1, …, T • Với mẫu , xây dựng phân loại yếu hj với ngưỡng θj lỗi εj , (23) • • Chọn hj với εj nhỏ nhất, ta Cập nhật lại trọng số: , : → 1, , , , (24) Trong đó: α - ln , hệ số dùng để đưa Phân loại mạnh xây dựng : (25) đoạn [0,1] (normalization factor) ấ (26) Friedman [9] đề xuất mơ hình máy boosting dùng hàm học sở định xử lý tốn phân lớp hồi quy Ý tưởng xây dựng mơ hình hồi quy sau: Mơ hình học ban đầu khởi tạo với hồi quy hàm lỗi cho trước (thường dùng hàm lỗi bình phương), giải thuật tìm mơ hình cực tiểu hóa lỗi hồi quy Bước đầu tiên, giải thuật dự đoán biến đầu i cách lấy giá trị trung bình biến quan sát Yi Tiếp theo lặp lại K lần (số hồi quy K tham số mơ hình) để thực hiện: (i) Tính tốn phần dư xây dựng mơ hình hồi quy dùng phần dư biến đích với mục tiêu cực tiểu hóa lỗi (ii) Dự đốn mẫu dùng mơ hình hồi quy bước trước (iii) Cập nhật cách thêm giá trị dự đoán lần lặp trước vào giá trị dự đoán tạo bước trước Mơ hình Boosting dùng hồi quy khác rừng ngẫu nhiên Boosting có đóng góp khác đưa kết dự đoán cuối hồi quy sau xây dựng phụ thuộc trước, chúng xây dựng với chiều cao biết trước rừng ngẫu nhiên hồi quy xây dựng độc lập không cắt nhánh III KẾT QUẢ THỰC NGHIỆM A Mô tả liệu Dữ liệu dùng thực nghiệm thu thập vùng đồng Sông Hồng (tỉnh Thái Bình, Nam Định, Bắc Ninh Hà Nội) gồm 480 hộ dùng nước (mẫu quan sát) 05 nhóm tiêu chí sau1: - Tính hữu hình (Tangibility) gồm biến quan sát: ƒ Các hệ thống tưới, tiêu có chất lượng tốt, đảm bảo chuyển nước phân phối nước đến diện tích cần tưới, tiêu (HH1) ƒ Các đơn vị cung cấp dành đủ kinh phí cho công tác quản lý, vận hành bảo dưỡng hệ thống tưới, tiêu (HH2) ƒ Nhân viên thủy lợi mặc đồng phục đơn vị (HH3) ƒ Tổ chức cung cấp nước có tài liệu hướng dẫn quản lý vận hành cơng trình thủy lợi (HH4) ƒ Hợp đồng cung cấp dịch vụ trình bày dễ hiểu (HH5) ƒ Các thiết bị tổ chức cung cấp nước có chất lượng tốt (HH6) Phần ngoặc viết tắt tên biến dùng cho huấn luyện mơ hình hồi quy 250 DỰ ĐỐN SỰ HÀI LỊNG VỀ CHẤT LƯỢNG DỊCH VỤ TƯỚI TIÊU TẠI ĐỒNG BẰNG SÔNG HỒNG… ƒ Việc tu, bảo dưỡng hệ thống tưới thực đặn cần (HH7) Độ tin cậy (Reliability) gồm biến quan sát: ƒ Đơn vị cung cấp dịch vụ tưới, tiêu giới thiệu đầy đủ nội dung hợp đồng với tổ chức cung cấp nước kỹ thuật cách sử dụng ông bà muốn đăng ký sử dụng (STC1) ƒ Tổ chức cung cấp nước thực dịch vụ tưới tiêu hợp đồng (STC2) ƒ Tổ chức cung cấp nước xử lý cố cơng trình hư hỏng, xuống cấp (STC3) ƒ Từ năm 2008 đến tổ chức cung cấp nước khơng để xảy sai sót tính chi phí hàng tháng (STC4) - Độ đáp ứng (Responsiveness) gồm biến quan sát ƒ Nhân viên thủy lợi cho ông bà biết thực dịch vụ tưới tiêu (DDU1) ƒ Nhân viên thủy lợi nhanh chóng thực dịch vụ cho ơng bà (DDU2) ƒ Tổ chức cung cấp nước thực lịch cấp nước (DDU3) ƒ Tổ chức cung cấp nước cung cấp tối đa khả cấp nước (DDU4) ƒ Khối lượng nước cấp đáp ứng tốt nhu cầu theo giai đoạn sinh trưởng, phát triển trồng (DDU5) ƒ Nhân viên thủy lợi cung cấp luôn sẵn sàng đáp ứng yêu cầu ông bà (DDU6) ƒ Chất lượng nước tưới đảm bảo (DDU7) ƒ Thời gian khắc phục hư hỏng nhanh chóng (DDU8) ƒ Ông bà lặp lại khiếu nại trước (DDU9) - Sự đảm bảo (Assurance) gồm biến quan sát: ƒ Cách cư xử nhân viên gây niềm tin cho ơng bà (SBD1) ƒ Ơng bà cảm thấy an toàn giao dịch với tổ chức cung cấp nước (SBD2) ƒ Nhân viên thủy lợi có đủ hiểu biết để trả lời tất câu hỏi ông bà liên quan đến hệ thống tưới, tiêu (SBD3) ƒ Nhân viên thủy lợi tổ chức cung cấp nước luôn niềm nở với ông bà (SBD4) ƒ Thời gian phân phối nước tới ruộng luôn đủ nước đợt tưới (SBD5) ƒ Từ năm 2008 đến nhân viên thủy lợi trả lời tất thắc mắc ông bà liên quan đến số tiền ông bà trả tháng (SBD6) ƒ Nhân viên thủy lợi nhanh khắc phục hệ thống tưới, tiêu có cố (SBD7) - Sự đồng cảm (Empathy) gồm biến quan sát: ƒ Nhân viên kỹ thuật thủy lợi làm việc vào thuận tiện cho ông bà (SDC1) ƒ Khơng có Tổ chức cung cấp nước quan tâm đến xúc ông bà dịch vụ tưới, tiêu (SDC2) ƒ Lịch phân phối nước thuận tiện theo sản xuất gia đình ơng bà (SDC3) ƒ Ơng bà quan tâm ý thắc mắc dịch vụ tưới, tiêu (SDC4) ƒ Tổ chức cung cấp nước điều chỉnh lịch tưới phù hợp với thay đổi thời tiết (SDC5) ƒ Nhân viên tổ chức cung cấp nước hiểu rõ nhu cầu ông bà (SDC6) ƒ Đơn vị cung cấp lấy lợi ích ông bà mục tiêu phát triển bền vững họ (SDC7) Biến đích đo hài lịng (SHL) hộ dùng nước có giá trị kiểu thập phân, SHL ∈ [0.0, 10.0], giá trị cao phản ánh hài lòng chất lượng dịch vụ tưới tiêu Các tiêu chí đo lường chất lượng dịch vụ lấy theo mơ hình Servqual Parasuraman đồng nghiệp [15] đề xuất, phương pháp Cronbach Alpha [2] dùng để kiểm định độ tin cậy biến, tiền xử lý chúng trước đưa vào mơ hình hồi quy để huấn luyện - B Tham số mơ hình phương pháp đánh giá Chúng tơi dùng bình phương sai số (Root mean squared error-RMSE), sai số tuyệt đối (mean absolute errorMAE) hệ số xác định bội (coefficient of determination) R2 để đánh giá tính hiệu mơ hình hồi quy: ∑ ; N ∑ |Y N i i Yi | ∑ ⁄∑ Trong đó: Yi, Y giá trị thực, giá trị dự đốn giá trị trung bình mẫu thứ i tương ứng Mơ hình hồi quy cho kết tốt mơ hình đạt sai số RMSE MAE nhỏ Giá trị R2 cao dấu hiệu cho thấy mối liên hệ tiêu chí biến số SHL chặt chẽ Giá trị R2 cao cho thấy mơ hình sử dụng để phân tích có khả giải thích tốt khác biệt độ hài lịng hộ dùng nước Gói phần mềm caret [12] sử dụng để tiến hành thực nghiệm mơi trường R, mơ hình hồi quy liệt kê mục II tích hợp gói phần mềm Từ tập liệu ban đầu gồm 480 mẫu quan sát 34 tiêu chí, chúng tơi chia làm phần để huấn luyện kiểm thử mơ hình, tập liệu huấn luyện gồm 336 mẫu (70%) tập liệu kiểm thử gồm 144 mẫu (30%) Khi xây dựng mơ hình hồi quy, sử dụng kỹ thuật kiểm tra chéo 5-folds với lần lặp dựa hàm lỗi RMSE để tìm tham số tối ưu mơ hình, sau lựa chọn mơ hình có RMSE nhỏ với tham số tìm để dự đốn liệu kiểm thử Kỹ thuật kiểm tra chéo cho phép tính hệ số xác định bội R2 phản ánh khả giải thích mơ hình hồi quy Các thực nghiệm tiến hành máy phục vụ dùng hệ điều hành Windows Server 2012 64-bit, máy có cấu hình IntelR XeonR CPU E5-2640 2.5 GHz, 24 cores, MB cache 128 GB RAM Các mơ hình cài đặt song song sử dụng hết 24 cores máy để huấn luyện, tìm tham số tối ưu thực nghiệm khác Nguyễn N Thanh Tùng T 251 C C Kết dự ự đốn độ hàii lịng chất lượng dịch vụ ụ tưới tiêu Kết quảả mơ hìnhh hồi quy dự đốn độ hài lịng l hộ h dùng nướcc dịch vụ ttưới tiêu c trình bày trrong Bảng Ở cột R2, R RMSE MA AE kết dự ự đoán với R2 cao lỗỗi dự đoán thhấp in đậm gạch g dưới, cácc kết tốt thhứ nhì thứ bba in với số lượng dấu u (**) (*** ) tương ứng Ta t dễ dàng nnhận thấy mơ hình hồi quy y tuyến tính nhiều n biến có kết dự đđốn nhất, mơ hình LASSO L có cảii thiện khả năăng dự đốn hhơn so với mơ hình tuyến tín nh nhiều biếnn kết quuả kiểm thử v xa c mơ hình khhác Các mơ hhình hồi quy pphi tuyến tỏ rõ õ ưu hơn, cụ thể rừn ừng ngẫu nhiênn, mạng nơ-ro on nhân tạo v k láng giềng có kết ddự đốn với lỗỗi hồi quy nhỏ ỏ Mơ hình hồi quy choo kết m theo R2 RMSE, mơ m hình máy véctơ v hỗ trợ hhồi quy mơơ hình boosting g có kết dự d đốn hơơn mơ hình tuuyến tính tập liệu kiểm k thử đangg tiến hành thự ực nghiệm K Kết trình bày b Bảng cho thấấy mơ hình k láng giềng đạ ạt lỗi MAE th hấp nhất, đâyy phương ppháp hồi quy pphi tuyến kháá hiệu quả, mô ô hình có khảả dự đốán đạt độ chín nh xác cao trrong thời gian tính tốnn nhanh Tuy nnhiên, xét khảả dự đốán mơơ hình hồi quyy liệt kê Bả ảng 1, ta có th hể thấy rõ mơơ hình rừng nggẫu nhiên dự đđốn xácc Bảng Kết ccác mơ hình hồii quy dự đốn độ đ hài lịng chất c lượng dịch vụ tưới tiêu trêên liệu kiểm thử TT Mơ hình hồii quy Hồi quuy tuyến tính ((LM) Hồi quuy LASSO K lángg giềng (KNN N) Cây hồồi quy (CART T) Mạng nơ ron nhân ttạo (ANN) Máy véctơ v hỗ trợ (S SVR) Rừng ngẫu nhiên (R RF) Boostiing Th ham số tối ưu u Mặc định λ= 0.01 k=1 Complexity parameter p (cp)=0 Trọng số phâân rã=0.1 số ố nơ-ron=9 RBF, σ = 0.0 032, ε=0.1 C = 32 mtry = K=1000 K K = 500, in nteraction.dep pth = shrinkage = 0.1 R2 0.839 0.844 **0.894 0.835 ***0.892 0.852 0.902 0.873 RMSE 0.267 0.263 **0.216 0.272 ****0.218 0.255 0.208 0.237 MAE 0.167 0.163 0.085 0.156 **0.106 0.143 ***0.107 * 0.119 Hình hiển thị kết qquả m mơ hình hồi qu uy trrên tập huấn luyện (336 m mẫu) dựa trênn giá trị R2 v đ xếp giảm dần theeo khả ggiải thích kháác biệt b độ hàii lịng cáác hộ dùng nnước Chúng ta t th hấy mô hình rừng r ngẫu nhiiên cho kết quuả tốt nhất, giảải th hích khoảng 93% khác biệt độ hàài lòng cáác hộ h dùng nước tưới tiêu, theoo sát mơ hình boosting có R2=92.445% v SVR đạt R2=92.444% Xếp cuối l phương p pháp c hồi quy cóó R2 thấp nhấtt, khả giảải th hích mơ hình hồi quy khoảng 85% hơ ơn mơ m hình hồi quuy tuyến tính nhiều biến cóó R2=87.481% % Kết K chho thấy mơ hìình rừng ngẫu nhiên ln đạạt hiệu h cao n dựa vào lỗỗi dự đoán thấấp tậập d liệu kiểm thhử khả nănng giải thích m mơ hình với R2 tốt Hình So sánh mơơ hình hồi quy ddựa kết ả huấn luyện Kết quảả huấn luyện ccủa mơ hìnnh hồi quy dự ựa theeo hệ số xác địnnh bội R2 trrên RMSE soo sánh theo ttừng cặp đượ ợc trình bày Hình H Đường kẻ dọc (mốốc 0.0) ddùng để làm mốc m so sánh, k hai mơ hìình hồi quy có lỗi huấn luy yện RMSE ngang n thhì tâm đường tthằng nằm nggang trùng với v mốc Nếu mơ hình vịị trí bên trái tốốt tâm m đường kẻ ngang n lệch sanng trái so với mốc, ngược lạại lệch sang g phải Khi haai mơ hình ơn kkhơng đáng kể ể đường kẻ k ngang có độộ dài ngắn (víí dụ LM-LASS SO), ngược lạại mơ hình h hồi quy trội hẳn vvề lỗi dự đốn n đường kẻ k ngang kééo dài (chẳng hhạn LM-KNN N) 252 DỰ ĐOÁN S SỰ HÀI LÒNG VỀ V CHẤT LƯỢNG G DỊCH VỤ TƯỚ ỚI TIÊU TẠI ĐỒ ỒNG BẰNG SÔN NG HỒNG… Hìn nh So sánh llỗi huấn luyện RMSE R mơ m hình hồi quyy theo cặpp Hình thể mốii quan hệ giữaa 34 tiêu chí với v giá trị tươ ơng quan tuyệệt đối từ đếnn Các tiêu chí c có tương quan q mạnh vớ ới thể hiệện kích cỡ c hình trịn v màu xanh đđậm (đường chhéo biểu đồ đ giá trị tư ương quan củủa tiêu chí vớ ới nó) Với V tiêuu chí có tươngg quan yếu hooặc khơng có quan q hệ với n hiển thị biểu đồ với màu xanh x nhạt màu m trắng tươ ơng ứng (tươnng quan 0) Ta nhận thhấy tiêu chhí có ảnh hưở ởng lẫn đến đ dịch vụ tưới tiêu thườ ờng có tương quan mạnh, chẳng c hạn HH H1 DDU8 lý giiải hệ th hống tưới tiêuu có chất lượnng tốt (HH1) ssẽ khắc phục hư h hỏng nhanhh chóng (DDU U8); STC3 SBD7 hiểu h cố cơng c trình đượ ợc xử lý ngayy (STC3) phụ th huộc lớn vàoo nhân viên thhủy lợi khắc phục nhanh (SBD7) v.v Những N số liệuu biểu đồồ tương quan c tiêu chhí dễ lý giảải tốán thực tế Hình hiển thị độ đo quan ttrọng 34 tiêu chí s xếp theo cchiều giảm dầần, độ đo n tínhh theo cơng thức (21) từ rừng ngẫu Hình Biểuu đồ tương quann tiêu chí nhiên n Ta thấyy tiêu chí HH1, HH H7, STC3 có độ đ quan trọng cao, HH1="Các hhệ thống tưới, tiêu có chất lư ượng tốt, đảm m bảo chuyển nnước phân phối nước đến đ diện tích t cần tưới, tiêu" có độ quuan trọng cao Kết quảả tiêu chhí lý giải dịch vụ cung c cấp nướcc tưới tiêu, hộ dùng nước quuan tâm đến đ hệ thố ống tưới tiêu ccó chất lượng tốt, độ đáp ứn ng đơn vị v cung cấp nư ước, bao gồồm yếuu tố tu, t bảo dưỡng thực hiệện đầy đủ đặn, sửa chữa cố n cơngg trình hư hỏnng xuốngg cấp, thực hiệện lịch cấp c nước, cunng cấp tối đa kkhả cấp nước, đáp ứng ứ tốt nhu cầầu theo giiai đoạn sinh ttrưởng phát triển y trồng, chất lưượng nước đư ược đảm bảo Nguyễn N Thanh Tùng T 253 Cũng trrong hình 6, tiiêu chí DDU66="Nhân viên thủy lợi cung c cấp ln ln sẵn sànng đáp ứng yêêu cầu ông g bà" có độ đ quan trọngg thấp Đ Điều cũngg dễ lý giải k nhân viên v thủy lợi có c khơnng đáp ứng nhhững u cầu cá nhân c hộ dùnng nước không ảnh hư ưởng nhiều đếến hài lòng chung vềề chất lượng ddịch vụ tưới tiêêu Như vậy, mơ hình hồi h quy ngồi khả dự đđốn cịn trợ ggiúp người dù ùng phân tích hiển thhị trực quan cáác tiêu chí đánnh giá, giúp nhà n quản lý ý có thêm thơơng tin để đầuu tư, nâng cấấp chất lượng dịch vụ tư ưới tiêu nhằm m đáp ứng cao độ hài lòng củủa người dân KẾT LUẬN IV K Chúng tơi trình bbày mơ hhình hồi quy dự đốn mức m độ hài lịng hộộ dùng nước lliên quan đến dịch vụ tư ưới tiêu đồồng Sôngg Hồng Các m mơ hình hồi qu uy tuyến tính, LASSO, hồi quy, k láng giềng, m mạng nơron, véctơ v hỗ trrợ hồi quy, rừ ừng ngẫu nhiêên boostingg ngh hiên cứu, phân p tích soo sánh với dự đốán độ hài lịng g hộ h dùng nướcc tưới tiêu dự ựa phươnng pháp đánh giá R2, RMSE R MA AE Kết thhực nghiệm ccho thấy mơ hình h hồi Hình 66 Độ đo quaan trọng tiêu chí quy q tuyến tínhh dễ cài đặặt dễ sử dụụng lỗi dự đoán cao, c mơ hìình phi tuyến ttỏ vượt trộii khả n dự đốn c xác hơnn, đặc biệt m mơ hình rừng ngẫu n nhiên cho c kết dự ự đốn xxác khhả giải thích t khác biệt biến đíchh quaan sát tốt Ngoài ra, độ đ đo quann trọng cáác tiêu chí cũnng tính tốn t từ rừng ngẫu n nhiên vàà hiển thị trựcc quan giúp nhà quản lý nắm n bắt thôngg tin cần thiết đđể nâng cấp ddịch vụ tưới tiêêu Trong tươn ng lai, chúng ttôi áp dụngg kết nghiên cứu mở rộng r cho b toán kinh tế bàài toán liên qu uan đến dự đoáán với số chiềuu cao Việt N Nam V LỜI L CẢM ƠN N Xin cảm m ơn thầy Đỗ Văn Quang, Phó trưởng Khoa K kinh tế v quản lý-Trưường Đại học Thủy lợi hỗ h trợ cung cấp c tài liệu số liệu thử ngghiệm VI TÀI LIỆU THAM KHẢO K [1] Christophher M Bishopp et al Neural networks for pattern recogn nition 1995 [2] J Martinn Bland, Dougllas G Altmann, et al Statistiics notes: Cron nbach’s alphaa Bmj, 314(70080):572, 1997 [3] Leo Breim man Baggingg predictors M Machine learniing, 24(2):123 3–140, 1996 [4] Leo Breim man Random m forests Machhine learning,, 45(1):5–32, 2001 [5] Leo Breiiman, Jerome Friedman, C Charles J Ston ne, and Richarrd A Olshen Classificatioon and regression trees CRC presss, 1984 [6] Yoav Freeund, Robert Schapire, and N Abe A short introdu uction to booosting Journaal-Japanese Society For Artificiall Intelligence, 14(771-780):1612, 1999 [7] Yoav Freeund and Robeert E Schapirre Adaptive game playing using u multipli cative weightts Games and d Economic Behaviorr, 29(1):79–1003, 1999 [8] Yoav Freeund, Robert E E Schapire, eet al Experimeents with a neew boosting allgorithm In IICML, volume e 96, pages 148–156,, 1996 [9] Jerome H H Friedman G Greedy functiion approxim mation: a gradiient boosting machine Annnals of Statistics, pages 1189–12332, 2001 [10] Trevor Hastie, H Robertt Tibshirani, JJerome Friedm man, T Hastiee, J Friedmann, and R Tibsshirani The elements e of statistical learning, volume Sprinnger, 2009 [11] Peter J Huber H Robust statistics Sprringer, 2011 [12] Max Kuhhn Building ppredictive moddels in r using the caret pack kage Journal of Statistical Software, 28(5):1–26, 20088 [13] Thanh Tuung Nguyen, JJoshua Z Huaang, Qingyao Wu, Thuy T Nguyen, and Mark J Li G Genome-wide association a data classsification and snps selectionn using two-sttage quality-based random fforests BMC Genomics, 16 6(Suppl 2): S5, 2015 [14] Thanh Tuung Nguyen, Joshua Z Huuang, and Th huy Thi Nguy yen Two-leveel quantile reggression forests for bias correctionn in range preediction Machhine Learning, pages 1–19, 2014 254 DỰ ĐỐN SỰ HÀI LỊNG VỀ CHẤT LƯỢNG DỊCH VỤ TƯỚI TIÊU TẠI ĐỒNG BẰNG SÔNG HỒNG… [15] Arun Parasuraman, Leonard L Berry, and Valarie A Zeithaml Refinement and reassessment of the servqual scale Journal of retailing, 1991 [16] Brian D Ripley Pattern recognition and neural networks Cambridge university press, 1996 [17] Alex J Smola and Bernhard Schölkopf A tutorial on support vector regression Statistics and computing, 14(3):199–222, 2004 [18] Robert Tibshirani Regression shrinkage and selection via the lasso Journal of the Royal Statistical Society Series B (Methodological), pages 267–288, 1996 PREDICTING THE QUALITY OF IRRIGATION SERVICES IN THE RED RIVER DELTA WITH REGRESSION MODELS Nguyen Thanh Tung Faculty of Computer Science and Engineering, Thuyloi University, Hanoi, Vietnam tungnt@tlu.edu.vn ABSTRACT - To predict the satisfaction of users who use the water services is very important for the fee exemption policy to water and agriculture services This policy has positive impacts on the water exploited and management enterprises, the national budget and social security In this paper, we present some regression models to predict the satisfaction of users related to the quality of irrigation service in the red river delta Experimental results showed that the non-linear regression models achieve lower regression errors than linear models The diversity and feasibility of these regression models can be applied for dealing with economic problems in the domain of water resource management Keywords - multivariate regression, LASSO, k nearest neighbors, neuron networks, SVR, random forests, data mining, machine learning Nguyễn Thanh Tùng 255 VII PHỤ LỤC Các dịng lệnh ngơn ngữ lập trình R (dùng gói caret) sử dụng tiến hành thực nghiệm indx

Ngày đăng: 19/05/2021, 17:04

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN