Tổng hợp, xử lý thông tin của câu hỏi mở và khai phá dữ liệu dạng chữ luôn là vấn đề khó đối với mọi nghiên cứu. Bài viết này bàn về việc sử dụng ngôn ngữ lập trình VBA trong Excel để xây dựng công cụ tổng hợp mới thuận tiện nhiều đối tượng sử dụng khác nhau.
THỐNG KÊ VÀ CUỘC SỐNG ỨNG DỤNG NGÔN NGỮ LẬP TRÌNH VBA TRONG EXCEL XÂY DỰNG CƠNG CỤ TỔNG HỢP CÂU HỎI MỞ VÀ KHAI THÁC DỮ LIỆU DẠNG CHỮ Nguyễn Thế Hưng* Tóm tắt: Tổng hợp, xử lý thơng tin câu hỏi mở khai phá liệu dạng chữ ln vấn đề khó nghiên cứu Bài viết bàn việc sử dụng ngơn ngữ lập trình VBA Excel để xây dựng công cụ tổng hợp thuận tiện nhiều đối tượng sử dụng khác Câu hỏi mở phần quan trọng nghiên cứu nói chung bảng hỏi nói riêng Câu hỏi mở hữu ích thu thập thông tin nghiên cứu nhằm thăm dò hành vi, đánh giá người trả lời chủ đề cụ thể biến không so sánh nhận xét, đánh giá sản phẩm thói quen tiêu dùng Ngồi ra, câu hỏi mở đặc biệt hữu hiệu giúp cho việc thu thập thơng tin xác đầy đủ người thiết kế bảng hỏi không tiên lượng hết phương án trả lời xây dựng bảng hỏi Câu hỏi mở khiến người vấn cảm thấy thỏa mái, khơng bị gò bó câu hỏi đóng thu thập thông tin đa chiều nhiều đối tượng trả lời khác Trong nhiều trường hợp, câu hỏi mở dùng để kiểm tra xem người trả lời có hiểu ý câu hỏi đóng hay không thông qua câu hỏi dùng để kiểm tra như: Tại sao? Cách thứ hai đòi hỏi cần có nguồn tài tương đối để mua quyền sử dụng phần mềm từ nước Tuy nhiên, chương trình chưa thân thiện với người dùng chúng chưa xử lý tốt định dạng phông chữ tiếng Việt khác Tuy nhiên, việc xử lý, tổng hợp liệu câu hỏi mở thường bị lãng quên quan tâm không mức khơng phải khơng quan trọng mà khó tổng hợp xử lý thông tin Việc tổng hợp, xử lý thông tin từ Để khắc phục hạn chế trên, tác giả sử dụng ngơn ngữ lập trình VBA (Visual Basic for Application) Excel xây dựng công cụ OQA để khai phá liệu dạng chữ, ứng dụng để xử lý, tổng hợp câu hỏi mở câu hỏi mở thường thực thông qua hai cách: (1) Đọc câu trả lời tóm lược ý để phân tích; (2) Dùng phần mềm chuyên dụng Atlas.ti nViVo để tổng hợp Tuy nhiên, hai cách có hạn chế định Cách thứ không tốn chi phí tài trực tiếp cần nhiều cơng sức để tổng hợp, dễ dẫn đến sai số phi mẫu trình tổng hợp Với khảo sát quy mô lớn, số lượng câu trả lời nhiều, việc tổng hợp cách “thủ công” cần nhiều thời gian kết thu khó kiểm sốt chí khơng hồn tồn xác * Vụ Thống kê Giá SỐ 06 – 2017 29 Thống kê Cuộc sống Công cụ thiết kế sử dụng tảng Microsoft Excel nên thân thiện với người dùng, thuận tiện sử dụng với đối tượng sử dụng khác Ngồi ra, cơng cụ không yêu cầu cài đặt thêm ứng dụng nên người dùng không cần phải cặt đặt bổ sung chương trình vào máy tính, đáp ứng nhiều đối tượng sử dụng khác Ứng dụng ngơn ngữ lập trình… gốc chọn tiếp nút OK Khi Module1 tính tốn tần suất câu trả lời có chứa từ khóa tổng số câu trả lời, đồng thời chuyển câu trả lời có chứa từ khóa sang sheet riêng biệt để tiếp tục phân tích chuyên sâu Khi có câu trả lời, người dùng chuyển câu trả lời câu hỏi mở vào sheet công cụ OQA để tổng hợp thông qua module xử lý sau: Đối với từ khóa từ cụm từ, tần suất câu trả lời có chứa từ/ cụm từ Đối với từ khóa nhóm cụm từ tần suất câu trả lời chứa đồng thời từ/ cụm từ nhóm từ/ cụm từ thành phần không thiết phải đứng cạnh Module1: Tổng hợp câu hỏi mở theo từ khóa định sẵn Hình 1: Tổng hợp câu trả lời theo từ khóa định sẵn Khi xây dựng bảng hỏi, người thiết kế câu hỏi mở hướng đến số từ khóa định mang thơng tin cần thu thập Những từ khóa từ, cụm số cụm từ cụ thể (gọi chung từ khóa) Ví dụ: Khảo sát kiến nghị người lao động có từ cụm từ như: “tăng lương”, “tăng lương” “giảm làm” từ khóa Để tổng hợp câu trả lời có chứa cụm từ riêng rẽ trên, người dùng mở cộng cụ OQA gõ từ/ cụm từ vào dòng cột Từ khóa sheet Module1, ví dụ: Tăng lương, giảm làm Hoặc muốn tổng hợp câu trả lời có chứa đồng thời nhiều cụm từ cần nghiên cứu, người dùng gõ cụm từ vào dòng cột Từ khóa sheet Module1 Các cụm từ liên kết với dấu + Ví dụ: Tăng lương + giảm làm, tăng lương + tăng thưởng Sau nhập từ khóa cần nghiên cứu, người dùng chọn vào nút Tính tần suất, chọn sheet có chứa câu trả lời 30 Module2: Tìm kiếm từ khóa Một kỳ vọng lớn người nghiên cứu câu hỏi mở thu thập quan điểm độc lập, câu trả lời khác với phương án định sẵn Module2 thiết kế để tìm kiếm từ khóa thơng qua tần suất xuất cụm từ câu trả lời thu SỐ 06 – 2017 Ứng dụng ngơn ngữ lập trình… Thống kê Cuộc sống Với giả thiết cụm từ xuất nhiều (có tần suất lớn) câu trả lời ý kiến phổ biến người trả lời, Module2 tính tốn tần suất xuất cụm từ thông qua độ dài khác chúng để từ xác định phương án trả lời phổ biến người trả lời Thông qua hộp hội thoại thân thiện, Module2 yêu cầu nhập sheet chứa tổng thể câu trả lời cần nghiên cứu, u cầu nhập độ dài từ khóa cần tìm kiếm số từ khóa có tần suất lớn cần liệt kê Sau đó, Module2 chia câu trả lời thành cụm từ khác theo độ dài cụm từ định trước tính tần suất xuất cụm từ toàn câu trả lời liệt kê cụm từ có tần suất xuất lớn Độ dài cụm từ loại bỏ kí tự đặc biệt như: `~!@#$%^&*()-_=+\|]}[{'"";:/?.>,< để giảm nhiễu thông tin q trình tổng hợp Thơng qua cụm từ có tần suất lớn này, người dùng xác định phương án trả lời phổ biến cho câu hỏi nghiên cứu Đây gợi ý quan trọng để người dùng xác định từ khóa mới, quan điểm câu trả lời mới, từ sử dụng Module để có phân tích chun sâu Ví dụ, câu hỏi xin ý kiến đóng góp nhiều nhân viên để ngân hàng X phát triển năm tới, người dùng khảo sát cụm từ có độ dài kết sau: Hình 2: Tìm kiếm từ khóa thơng qua độ dài cụm từ SỐ 06 – 2017 Qua kết trên, cụm từ như: “chế độ phúc lợi”, “chế độ đãi ngộ”, “chất lượng dịch vụ”… từ đề cập đến nhiều Để nghiên cứu sâu cụm từ này, người dùng sử dụng Module1 để thực công việc Tóm lại, cơng cụ OQA chạy Microsoft Excel nên thân thiện tất đối tượng sử dụng khác Tuy nhiên, cơng cụ tồn hạn chế chưa phân tích ngữ nghĩa cụm từ văn cảnh khác Điều khắc phục có hệ thống server đủ mạnh để tích hợp cơng nghệ NLP (Natural language processing) vào công cụ Công cụ OQA xử lý tốt ngôn ngữ (tiếng Anh, tiếng Việt, tiếng Nhật, tiếng Thái…) theo nhiều định dạng phông chữ khác nhau, áp dụng cho nhiều nghiên cứu nước quốc tế Khả áp dụng công cụ OQA rộng việc khai phá liệu dạng chữ nhiều lĩnh vực nghiên cứu khác Những nghiên cứu không nghiên cứu xã hội, nghiên cứu thị trường, khảo sát ý kiến đánh giá mà áp dụng nghiên cứu khác phân tích định tính để xác định yếu tố ảnh hưởng đến giá bất động sản thông qua liệu lớn (big data) từ tin rao quảng cáo internet… (Xem tiếp trang 28) 31 Phương pháp dự báo ngắn hạn… Thống kê Quốc tế Hội nhập Do đó, có lợi dự báo theo yêu cầu nghiên cứu Phân tích nhiều yếu tố dựa mạng liên kết thơng tin thông minh đem lại hiệu số ứng dụng Mối quan hệ biến ngoại sinh giá hàng hóa nơng nghiệp dao động theo thời gian Mơ hình mạng liên kết thơng tin thơng minh cập nhật theo liệu lịch sử Đặt số lớp ẩn 1: Chúng ta chọn đặt số lớp ẩn theo MSE chọn phương pháp LM (LM thuật toán Levenberg-Marquardt hay gọi phương pháp tối thiểu damped-squares (DLS) dùng để giải vấn đề khơng bình thường phân tích đa biến) Sau xác định tham số, tính tốn mạng liên kết thơng tin thơng minh Trên thực tế, mục đích cấp bách để phản ánh tác động tích lũy biến ngoại sinh Từ định nghĩa 14 biến ngoại sinh, thấy số đơn điệu thời gian trôi qua số dần tích lũy Các mạng liên kết thơng tin thơng minh tính tốn điều chỉnh theo mức độ khẩn cấp hàng ngày Định nghĩa tính cấp bách cho thấy mức độ khẩn cấp đo lường xu hướng thay đổi giá Mức độ khẩn cấp cao khơng có nghĩa thay đổi giá Thay vào đó, cho thấy phạm vi thay đổi giá (nếu giá thực thay đổi) Xem xét không đồng thay đổi giá tích lũy biến ngoại sinh, nghiên cứu bảo vệ quan điểm với dự báo giá trị cấp bách Chúng ta xem xét giá trị khẩn cấp dự báo tuần trước Với giá trị dự báo Ui(t) thời điểm t, giá trị điều chỉnh Ui '(t) định nghĩa là: ′ U (t) = med U ( ) Trong đó: med U , s = t – 6, … t – 1, t + U ( ) () , s = t – 6, … t – 1, t điểm giá trị khẩn cấp từ ngày t-6 đến ngày t Còn Cơng Hoan (dịch) Nguồn: https://journalofbigdata.springeropen.com/track/pdf/10.1186/s40537-016-00623?site=journalofbigdata.springeropen.com -Tiếp theo trang 31 Tài liệu tham khảo: Bill Jelen and Tracy Syrstad (2010), VBA and Marcos: Microsoft 2010, Que Publishing David Boctor (1999), Fundamentals, Microsoft Office; Microsoft Office 2000/Visual Basic for Application/ Robert L McDonald (2000), An introduction to VBA in Excel, Finance Dept, Kellogg School, Northwestern University; Vũ Thị Thu Thủy, Nguyễn Thế Hưng (2016), Ứng dụng ngơn ngữ lập trình VBA Excel để giải số toán thống kê giá, Hội thảo khoa học Quốc gia “Thống kê tin học ứng dụng” 28 SỐ 06 – 2017 ... phải ứng cạnh Module1: Tổng hợp câu hỏi mở theo từ khóa định sẵn Hình 1: Tổng hợp câu trả lời theo từ khóa định sẵn Khi xây dựng bảng hỏi, người thiết kế câu hỏi mở hướng đến số từ khóa định... sung chương trình vào máy tính, đáp ứng nhiều đối tượng sử dụng khác Ứng dụng ngơn ngữ lập trình gốc chọn tiếp nút OK Khi Module1 tính tốn tần suất câu trả lời có chứa từ khóa tổng số câu trả lời,... thời chuyển câu trả lời có chứa từ khóa sang sheet riêng biệt để tiếp tục phân tích chuyên sâu Khi có câu trả lời, người dùng chuyển câu trả lời câu hỏi mở vào sheet công cụ OQA để tổng hợp thông