Bài viết nghiên cứu hệ thống phức tạp có nhiều yếu tố đầu ra. Những hệ thống phức tạp chịu sự tác động của nhiều yếu tố, vấn đề đặt ra là cần thiết phải đánh giá tầm quan trọng của từng yếu tố và phân tích sự ảnh hưởng của những yếu tố đó đến hệ thống, từ đó, xây dựng mô hình toán để phân tích cũng như dự báo sự phát triển của hệ thống.
Cơng nghệ thơng tin PHƯƠNG PHÁP THỐNG KÊ MƠ PHỎNG GẦN ĐÚNG CHO MƠ HÌNH NHIỀU YẾU TỐ ĐẦU RA Trần Ngọc Sơn, Nguyễn Văn Đức, Trần Quang Hoàng Anh* Tóm tắt: Bài báo nghiên cứu hệ thống phức tạp có nhiều yếu tố đầu Những hệ thống phức tạp chịu tác động nhiều yếu tố, vấn đề đặt cần thiết phải đánh giá tầm quan trọng yếu tố phân tích ảnh hưởng yếu tố đến hệ thống, từ đó, xây dựng mơ hình tốn để phân tích dự báo phát triển hệ thống Tác giả đưa quy trình sử dụng phương pháp toán thống kê để nghiên cứu hệ thống phức tạp Tác giả đề xuất phương pháp xây dựng mơ hình gần cho hệ thống nhiều yếu tố đầu tảng sử dụng dạng mở rộng thuật tốn bình phương tối thiếu Đồng thời, tác giả đệ trình phương pháp kiểm tra tính tương thích mơ hình để xem xét chất lượng độ tin cậy mơ hình vừa xây dựng Từ khóa: Phân tích hồi quy, Mơ hình nhiều yếu tố đầu ra, Thuật tốn bình phương tối thiểu, Tiêu chuẩn Bayes MỞ ĐẦU Vấn đề mô hệ thống đại đòi hỏi cần phải dự báo phát triển hệ thống Một phương pháp quan trọng để thực phân tích dự báo sử dụng phương pháp tốn học Phương pháp tốn học có khả tính tốn tồn diện tác động nhiều yếu tố khác đến kết dự báo, tăng độ xác tăng tốc độ phân tích cho dự báo Dựa vào số lượng yếu tố đầu ra, ta phân chia thành loại mơ hình chính: Mơ hình yếu tố đầu ra, Mơ hình nhiều yếu tố đầu Mơ hình yếu tố đầu nghiên cứu nhiều tài liệu, kể đến tác giả như: N Dreiper, H Smith, A.B Uspenskii, V.U Burmin, E.V Markova, J Johnson tác giả khác [1-5] Mơ hình nhiều yếu tố đầu mơ hình đồng thời quan sát vài yếu tố đầu Có nhiều mơ hình sử dụng để mơ tả trạng thái đối tượng nghiên cứu Tuy nhiên, phương pháp thuật tốn mơ hình hóa nhiều yếu tố đầu chưa nghiên cứu cách tồn diện Những mơ hình hồi quy nhiều yếu tố đầu truyền thống có điểm đặc trưng hàm số phương trình hồi quy giống nhau, ngồi mơ hình khơng nghiên cứu tương quan yếu tố đầu Vì vậy, mục đích báo phát triển phương pháp thống kê cho mô gần trường hợp đồng thời quan sát nhiều yếu tố đầu 148 T N Sơn, N V Đức, T Q H Anh, “Phương pháp thống kê… nhiều yếu tố đầu ra.” Thông tin khoa học công nghệ PHƯƠNG PHÁP THỐNG KÊ CHO MÔ PHỎNG GẦN ĐÚNG Trên sở tài liệu giới thiệu, tác giả xây dựng quy trình phương pháp thống kê cho mơ gần hệ thống nhiều yếu tố đầu Quy trình phù hợp để dự báo, phân tích hệ thống phức tạp cho phép nghiên cứu tác động nhiều yếu tố tới hệ thống mơ hình hóa Các bước quy trình thể hình Những bước quan trọng quy trình xây dựng (bước 5) kiểm định tính tương thích (bước 6) mơ hình mô gần dựa liệu thống kê Dưới bước cụ thể quy trình a Bước 1: Đặt vấn đề Đây bước đầu phân tích hệ thống bao gồm nhiệm vụ như: Phân tích khó khăn gặp phải, liệt kê những nhiệm vụ, phân tích cấu trúc hệ thống đưa mục tiêu chung ban đầu phân tích hệ thống b Bước 2: Tổng hợp biến đầu vào đầu hệ thống Đây bước liệt kê tất yếu tố tác động lên hệ thống c Bước 3: Đặt vấn đề cho mơ hình gần phức tạp Trong bước hệ thống ban đầu phân tích chi tiết hơn, xem xét, đặt vấn đề phù hợp với mơ hình gần tảng kết thống kê thực nghiệm d Bước 4: Phân tích tốn thống kê Sử dụng phương pháp toán thống kê để mở khả phân tích hệ thống phức tạp Cụ thể trình mơ sử dụng phương pháp tốn thống kê để lựa chọn cấu trúc cho mơ hình, hay nói cách khác lựa chọn biến có giá trị để đưa vào phân tích Để thực nhiệm vụ trường hợp mơ hình hồi quy đa biến kể đến vài phương pháp phương pháp hồi quy bước phương pháp Bayes d.1 Phương pháp hồi quy bước Mục tiêu phương pháp hồi quy bước [6-8] lựa chọn từ biến đầu vào để tập hợp biến có ý nghĩa hơn, tương quan nhiều với yếu tố đầu Thơng thường q trình thực sở sử dụng hệ số F-test, t-test hay hệ số khác Những cách sử dụng hồi quy bước bao gồm: Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san An toàn Thông tin, 05 - 2017 149 Công nghệ thông tin Hình Quy trình phương pháp thống kê cho mơ gần - Lựa chọn tiến: Ban đầu phương trình hồi quy khơng chứa biến Những biến tiếp nhận chúng thỏa mãn điều kiện xác định trước Thứ tự tiếp nhận biến mức độ quan trọng biến yếu tố đầu (sơ đồ phương pháp thể hình 2) - Loại bỏ lùi: Ban đầu tất biến đưa vào phương trình hồi quy Sau theo thứ tự biến bị loại bỏ khỏi mô hình theo tiêu chí thích hợp (sơ đồ phương pháp thể hình 3) - Lựa chọn bước: Đây cách thức kết hợp phương pháp Trong giai đoạn lựa chọn tiến đồng thời loại bỏ biến Trong thực tế, phương pháp hồi quy bước có số hạn chế việc khơng đưa phương trình hồi quy tối ưu với mơ hình số lượng biến đầu vào lớn Nguyên tắc tương quan biến đầu vào khiến cho biến quan trọng 150 T N Sơn, N V Đức, T Q H Anh, “Phương pháp thống kê… nhiều yếu tố đầu ra.” Thông tin khoa học cơng nghệ Hình Sơ đồ phương pháp lựa chọn tiến Hình Sơ đồ phương pháp loại bỏ lùi Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san An tồn Thơng tin, 05 - 2017 151 Cơng nghệ thơng tin khơng đưa vào phương trình Để có cấu trúc mơ hình tối ưu, cần phải tính tốn trường hợp, phân tích tất khả kết hợp Tuy nhiên, phương pháp hồi quy bước có hiệu cao với mơ hình có số lượng thống kê lớn nhiều số lượng biến đầu vào d.2 Phương pháp Bayes Phương pháp có tên BMA (Bayesian Model Average) [9-11] thuật tốn lựa chọn mơ hình nhiều biến Trong mơ hình có trọng số, trọng số BIC (Bayesian Information Criterion) BIC tiêu chuẩn lựa chọn mơ hình từ tập hợp mơ hình tham số, mơ hình phụ thuộc vào số lượng tham số Để đánh giá mơ hình ta sử dụng phương pháp ước lượng hợp lý cực đại, giá trị tăng lên thêm tham số Tiêu chuẩn Bayes cho phép giải toán với số lượng tham số lớn, đưa hệ số phạt tăng số lượng tham số mơ hình Tiêu chuẩn gần giống với tiêu chuẩn thông tin Akaike, khác giá trị phạt nghiêm ngặt tăng số lượng tham số mô hình Giả sử ta có: X x i in1 phận mẫu, thành phần đặc trưng cho biến xi (xi1, ,xik ) Khi đó, tiêu chuẩn thơng tin Bayes tính theo cơng thức: BIC 2 ln(L) k ln(n) , đó, L giá trị cực đại hàm số hợp lý mẫu quan sát với số lượng tham số cho trước Trong trường hợp mơ hình hồi quy tuyến tính tiêu chuẩn thể thơng qua SSE tổng bình phương số dư: SSE BIC n ln k ln(n) n Từ mơ hình xem xét, ta chọn mơ hình có giá trị tiêu chuẩn Bayes nhỏ Tiêu chuẩn Bayes phụ thuộc vào số lượng tham số tổng bình phương số dư mơ hình Thay đổi biến phụ thuộc tăng số lượng biến làm thay đổi giá trị tiêu chuẩn Bayes e Bước 5: Xây dựng mơ hình mơ gần Dưới mơ hình nhiều yếu tố đầu quan trọng mơ hình mơ phỏng: yi ( xi , ) i , (i 1, n), (1) đó: xiT x1i , ,xki đại lượng độc lập hay yếu tố đầu vào; 152 T N Sơn, N V Đức, T Q H Anh, “Phương pháp thống kê… nhiều yếu tố đầu ra.” Thông tin khoa học công nghệ y T ( y1 , y ) yếu tố phụ thuộc (đầu ra); n số lần quan sát; l số lượng biến đầu ra; T (1, m ) tham số chưa biết; T ( xi , ) 1 ( x, ), , ( x, ) hàm số cho trước; i sai số ngẫu nhiên, tuân theo tiêu chuẩn sau: E [ i ] , E [ i iT ] d ( xi ) , E [ i j ] , i j , d ( x ) i đó, E giá trị kỳ vọng Nhiệm vụ vấn đề đặt phải xác định giá trị tham số cho mơ hình thể cơng thức (1) Để tìm giá trị tác giả sử dụng biến thể thuật tốn bình phương tối thiểu sau: l l n S ( ) jki ( y ji j ( xi , ))( yki k ( xi , )) , (2) j 1 k 1 i 1 đó: d 1( x ) trọng số mơ hình i i Trong trường hợp tuyến tính theo tham số, ta có: ( x, ) F T ( x ) , đó: f ( x) 11 F ( х) f1 ( x), f ( x) f ( x) т1 f ( x) 1 f ( x) т Giá trị tham số tuyến tính tốt có dạng: ˆ 1Y , (3) đó: n n i 1 i 1 n 1 F ( xi )i F T ( xi ) , Y n 1 F ( xi )i yi , i d 1 ( xi ) dạng chi tiết: M ( M jk ) , j , k 1, , Y Т (Y1 , ,Y ) , đó: Tạp chí Nghiên cứu KH&CN qn sự, Số Đặc san An tồn Thơng tin, 05 - 2017 153 Công nghệ thông tin n M jk f (x ) f T (x ) , jki j i k i i 1 n l Y j y f (x ) j i i 1 k jki ki f Bước 6: Kiểm tra tính tương thích mơ hình Sau tìm giá trị tham số mơ hình gần đúng, phương trình kiểm tra tính tương thích Để đạt điều sử dụng tiêu chuẩn tiêu chuẩn Student, tiêu chuẩn Khi bình phương, tiêu chuẩn Fisher…, giống mơ hình hồi quy đơn Để kiểm định tính tương thích mơ hình nhiều yếu tố đầu tác giả đề xuất sử dụng tiêu chuẩn sau: f.1 Sai số gần Để xem xét độ xác mơ hình, ta sử dụng giá trị tương tự với sai số gần công thức (4) Sai số gần độ lệch trung bình giá trị thực tế giá trị tính tốn theo mơ hình [3]: A n sum | y i yˆ i | 100 % , n i 1 sum ( y i ) (4) đó: yi giá trị thực tế; yˆ i giá trị theo mơ hình Chỉ nên sử dụng mơ hình để phân tích dự báo có sai số nhỏ 15% Nếu sai số nhỏ 5% mơ hình có độ xác cao f.2 Hệ số xác định Để xem xét chất lượng mơ hình ta sử dụng đại lượng tương tự hệ số xác định công thức (5) Hệ số xác định đại lượng thể phần trăm biến động yếu tố đầu giải thích yếu tố đầu vào [3]: R T i i T trE E 1 tr ( E ) E i i i , (5) i đó: tr vết ma trận, Ei yˆ i yi , Ei yi y , y giá trị trung bình Hệ số xác định gần với chất lượng mơ hình tốt f.3 Tính ổn định tham số Khi xem xét độ ổn định giá trị tham số mơ hình nhiều yếu tố đầu chia làm trường hợp: - Trường hợp liệu tổng hợp thời gian dài: Ta chia nhỏ sở 154 T N Sơn, N V Đức, T Q H Anh, “Phương pháp thống kê… nhiều yếu tố đầu ra.” Thông tin khoa học công nghệ liệu kiểm tra độ ổn định tham số thơng qua mơ hình nhỏ Nếu tham số thu có khuynh hướng khơng ổn định việc sử dụng mơ hình xây dựng liệu đầy đủ không đáng tin cậy - Trường hợp liệu tổng hợp thời gian ngắn: Ta chia liệu làm phần, sau sử dụng phần để xây dựng mơ hình dự báo, phần lại để kiểm tra tính đắn mơ hình Như vậy, tính tốn chất lượng mơ hình dự báo liệu đầy đủ Nếu mơ hình tìm khơng có độ xác cao bước sang bước g Bước 7: Hiệu chỉnh mơ hình Hiệu chỉnh lại mơ hình tốn làm xác thêm thơng tin, sau quay lại Bước để đặt lại vấn đề cho mơ hình gần Nếu mơ hình có chất lượng tốt, tương thích với giá trị thống kê ta chuyển sang bước h Bước 8: Kiểm tra mơ hình Kiểm tra xem mơ hình có thỏa mãn vấn đề nhiệm vụ đặt bước hay không Nếu không ta chuyển sang bước i Bước 9: Nêu giả thuyết khác chức dự báo hệ thống Từ giả thuyết ta tổng hợp lựa chọn lại yếu tố đầu vào đầu cho mơ hình (quay lại bước 2) KẾT LUẬN Trong phạm vi báo tác giả đề xuất phương pháp nghiên cứu mơ hình gần hệ thống, quan sát đồng thời nhiều yếu tố đầu Tác giả sử dụng dạng biến thể thuật tốn bình phương tối thiểu để xác định giá trị tham số mơ hình gần dựa vào kết thống kê, đồng thời đệ trình phương pháp để kiểm tra tính tương thích mơ hình dựa vào giá trị sai số gần hệ số xác định TÀI LIỆU THAM KHẢO [1] N Dreiper, G Smit, “Applied regression analysis”, 2nd ed Russian, Moscow, Book (1986), pp 366; Book (1987), pp 351 [2] L.N Ezhova, “Econometrics: The initial course with the probability theory and mathematical statistics basics”, Baikal State University Economics and Law Publ (2008), pp 287 [3] J Johnson, “Methods of econometrics”, Russian, Moscow, Statistika Publ Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san An tồn Thơng tin, 05 - 2017 155 Cơng nghệ thơng tin (1980), pp 444 [4] A.B Uspenskii, B.V Fedorov, “Computational aspects of the method of least squares in the analysis and design of regression experiments”, Moscow State University Publ (1975), pp 168 [5] E.B Маркова, “Планирование эксперимента в условиях неоднородностей”, Е.В Маркова, А.Н Лисенков М.: Наука (1973), pp 220 [6] R.R Hocking, “Criteria for selection of a subset regression: which one should be used?”, Technometrics Vol 14 (1972), pp 967-970 [7] R.R Hocking, “The analysis and selection of variables in linear regression”, Biometrica, Vol 32, No (1976), pp 1-49 [8] C.H.A Li, “Sequential method for screening experimental variables”, Journal of the American Statistical Association, Vol 57, No 298 (1962), pp 455-477 [9] J.A Hoeting, D Madigan, A.E Raftery, C.T Volinsky, “Bayesian Model Averaging: A Tutorial”, Statistical Science, Vol 14, No (1999), pp 382-417 [10] P.J Brown, “Bayes model averaging with selection of regressors”, Journal of the Royal Statistical Society, Part (2002), pp 519-536 [11] A.E Raftery, “Bayesian Model Selection in Social Research”, Sociological Methodology, Vol 25 (1995), pp 111-163 ABSTRACT APPROXIMATED STATISTICAL APPROACH FOR MULTIPLE OUTPUT MODELS In this article, the authors focus on complex systems, which have many outputs Complex systems are affected by many factors, and the issue is that, it is necessary to evaluate the importance of each factor and analyze the effect of those factors on the systems, from which to build mathematical model for analysis as well as predicting the development of the systems The authors propose a procedure using statistical methods to study complex systems The authors then propose an approximated modeling approach for multi-factor systems based on the use of the expansion form of the least squares algorithm At the same time, the authors also propose methods to validate the compatibility as well as the reliability of the constructed model Keywords: Regression analysis, Multi-output model, Least squares algorithm, Bayesian information criterion Nhận ngày 22 tháng 02 năm 2017 Hoàn thiện ngày 10 tháng năm 2017 Chấp nhận đăng ngày 01 tháng năm 2017 Địa chỉ: Trung tâm 586, Cục Công nghệ thông tin * 156 Email: newsv2004@gmail.com T N Sơn, N V Đức, T Q H Anh, “Phương pháp thống kê… nhiều yếu tố đầu ra.” ... khoa học công nghệ PHƯƠNG PHÁP THỐNG KÊ CHO MÔ PHỎNG GẦN ĐÚNG Trên sở tài liệu giới thiệu, tác giả xây dựng quy trình phương pháp thống kê cho mơ gần hệ thống nhiều yếu tố đầu Quy trình phù hợp... lượng độc lập hay yếu tố đầu vào; 152 T N Sơn, N V Đức, T Q H Anh, Phương pháp thống kê nhiều yếu tố đầu ra. ” Thông tin khoa học công nghệ y T ( y1 , y ) yếu tố phụ thuộc (đầu ra) ; n số lần... lựa chọn lại yếu tố đầu vào đầu cho mơ hình (quay lại bước 2) KẾT LUẬN Trong phạm vi báo tác giả đề xuất phương pháp nghiên cứu mơ hình gần hệ thống, quan sát đồng thời nhiều yếu tố đầu Tác giả