Tiểu luận Phân cụm dựa trên nhận dạng mẫu và phân tích dòng chảy

22 367 0
Tiểu luận Phân cụm dựa trên nhận dạng mẫu và phân tích dòng chảy

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Phân cụm dựa nhận dạng mẫu phân tích dòng chảy GIỚI THIỆU Vấn đề quản lý tài nguyên nước nước phát triển quan tâm, việc phân tích, tổng hợp liệu thủy văn để đưa mơ hình dự báo cho phép dự báo xác tình hình khí tượng thủy văn sông theo mùa, đặc biệt cho phép dự báo đánh giá tình hình lũ lụt hạn hán sơng để kịp thời có sách thích hợp để hạn chế thấp thất mức thiệt hại Ngồi phương pháp phân tích tổng hợp dựa rên phương pháp thống kê truyền thống, T Kojiri cộng đề xuất phương pháp phân tích, tổng hợp dòng chảy dựa kỹ thuật gom cụm, cụ thể dựa thuật toán gom cụm Kmeans Do kỹ thuật gom cụm K-means sử dụng hàm đánh giá để “hướng dẫn” gom cụm Hiệu thuật toán bị ảnh hưởng hàm đánh giá chọn Vì vậy, T Kojiri cộng đề xuất hàm mục tiêu dùng để đo khoảng cách vector mẫu liệu thủy văn, hàm mục tiêu tương ứng với đặc trưng quan trắc được, ra, tác giả đề xuất phương pháp xây dựng hàm mục tiêu tương tự để đánh giá đặc trưng liệu thủy văn cách thích hợp Trên sở đề xuất hàm mục tiêu, tác giả sâu nghiên cứu, thử nghiệm với liệu thủy văn quan trắc lưu vực sông Themes Themesville, đồng thời, tập trung phân tích, so sánh phương pháp phân cụm liệu dựa kỹ thuật gom cụm K-means với phương pháp phân tích thống kê truyền thống Bài báo đăng tạp chí “Stochastic and Statistical Methods in Hydrology and Environmental Engineering: Time Series Analysis in Hydrology and Environmental Engineering Vol 10/3, 1994” Tức lâu Ngoài ra, lĩnh vực nghiên cứu báo kỹ thuật môi trường, vậy, khn khổ thời gian có hạn, nhóm nghiên cứu, làm rõ ý tưởng giải pháp đề xuất tác giả, đặc biệt kỹ thuật gom gụm K-means – nội dung quan trọng môn học Data mining thuộc chuyên ngành Khoa học máy tính mà khơng sâu làm rõ phương pháp phân tích thống kê Do báo đăng lâu, nên bố cục báo có khác so với báo khoa học đăng tạp chí nay, mục, phần trình bày khơng sáng sủa, rõ ràng, khơng có phần kiến thức nền, phần giải pháp đề xuất không trình bày phần riêng mà trình bày dàn trải, phần kết thử nghiệm đánh giá trình bày dàn trải Hơn nữa, báo đời phát triển ngành khoa học máy tính cịn hạn chế, tốc độ xử lý khả lưu trữ thấp nên số vector tập vector mẫu cần gom cụm nhỏ (15 mẫu), nay, giải thuật K-means làm việc tập mẫu có lực lượng lớn Để hiểu rõ nội dung báo, kiến thức học kỹ thuật gom cụm lĩnh vực khoa học máy tính, địi hỏi người đọc phải có kiến thức chuyên sâu phương pháp phân tích thống kê Việc nghiên cứu sâu phương pháp phân tích thống kê địi hỏi phải có thời gian Trong khuôn khổ nội dung môn học, thời lượng có hạn, nên nhóm khơng tìm hiểu phương pháp phân tích thống kê, mà tập trung làm rõ nội dung giải pháp mà tác giả báo đề xuất Vì phần cịn lại, nhóm sâu làm rõ nội dung sau: - Kiến thức liệu thủy văn, phương pháp quan trắc, … phần Trần Văn Triết đảm nhiệm Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long Phân cụm dựa nhận dạng mẫu phân tích dòng chảy - - Phần thứ phần giải pháp đề xuất, phần tập trung trình bày hàm mục tiêu tác giả báo đề xuất, thủ tục gom cụm; mối quan hệ cấu trúc liệu đa biến; phát triển mơ thuật tốn dự báo Phần Cù Huy Hoàng Long đảm nhiệm Phần kết thử nghiệm đánh giá giải pháp đề xuất cho liệu thủy văn cụ thể, phân tích, đánh giá giải pháp đề xuất so với phương pháp phân tích tổng hợp liệu thủy văn theo phương pháp phân tích thống kê truyền thống Đặng Quốc Huỳnh đảm nhiệm Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long Phân cụm dựa nhận dạng mẫu phân tích dịng chảy KHÁI QT CHUNG VỀ DỮ LIỆU THỦY VĂN 2.1 Thủy văn (Hydrologic) Là khoa học đất, nước giải vấn đề liên quan, để đáp ứng nhu cầu tìm hiểu hệ thống phức tạp đất, nước giúp giải vấn đề liên quan Cung cấp cho thông tin tham gia sử dụng nguồn nước trái đất Nhiều loại liệu khác liên quan đến thủy văn như: kết tủa, tuyết rơi dòng chảy đo lường số trạm dùng thiết bị khác với việc theo dõi truy xuất điều khiển hệ thống nguồn nước Một số kỹ thuật tồn cho việc phân để xử lý liệu chuỗi thời gian nhiều điểm Tuy nhiên mở rộng chẳng hạn kỹ thuật liệu chuỗi thời gian đa điểm cách xem xét tất loại liệu thời điểm đo để định hình vector liệu chuỗi thời gian Chẳng hạn vetor sau dễ dàng hàng xử phân tích vector mẫu Dựa xem xét tương quan không gian thời gian, người ta phân loại vector mẫu khơng gian chuỗi thời gian tương ứng với kết tủa hay dòng chảy cho trích xuất vector tham chiếu đại diện Tương tự, khác vector mẫu sử dụng để phân loại chúng cách kết hợp thông tin liên quan đến kết tủa, khí tượng học, địa chất học, sinh học… Sự xem xét nhóm liệu làm cho q trình ước lượng dự báo dễ dàng Phần là: khả kỹ thuật nhận dạng mẫu xử lý liệu đa điểm chuỗi thời gian trở nên hữu dụng Hệ thống nhận dạng mẫu sử dụng Panu cộng (1978), Unny cộng (1981) cho tổng hợp phân tích dịng chảy dựa khái niệm tối thiều khoản cách Euclidean Dữ liệu cho báo lấy từ trạm quan trắc sông Thames Thamesville, Toronto, Canada Do báo thực năm 1994, nên có phù hợp kỹ thuật tốt cho thời điểm 2.2 Phân bố lượng nước trái đất Phần lớn diện tích trái đất đại dương, chiếm đến ¾ diện tích trái đất Do nguồn nước chiếm nhiều nước biển (nước mặn) 96.5%, phần nước dùng cho sinh hoạt người thực vật chiếm tỷ lệ nhỏ 2.5%, số có nguồn khơng thể sử dụng như: băng, nguồn nước nhiễm Do vấn đề nguồn nước mối quan tâm hàng đầu nước giới nay, để đảm bảo đủ để cung cấp sống trái đất Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long Phân cụm dựa nhận dạng mẫu phân tích dịng chảy Hình 1:Phân bố lượng nước trái đất (nguồn: http://waterdata.usgs.gov/) 2.3 Vịng đời nguồn nước Hình 2: Chu kỳ nguồn nước (nguồn: http://waterdata.usgs.gov/) Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long Phân cụm dựa nhận dạng mẫu phân tích dịng chảy 2.4 Các thống kê dịng chảy trước Phương pháp phân tích dịng chảy dựa vào thông tin riêng lẻ mà bỏ qua thông tin nhóm liệu có liên quan với 2.5 Các khái niệm liên quan 2.5.1 Phân cụm (Clustering) Là cơng việc nhóm tập đối tượng cho đối tượng nhóm có thuộc tính giống so với đối tượng nhóm khác  Khoảng cách nội cụm (intra-cluster distance) Là khoảng cách xa hai đối tượng thuộc cụm  Khoảng cách liên cụm (inter-cluster distance) Là khoảng cách gần hai đối tượng thuộc hai cụm khác 2.5.2 Dòng chảy (Stremflows) Là khối lượng nước chảy qua điểm xác định khoảng thời gian xác định, thường tính m3/s Dòng chảy liên quan trực tiếp với lượng nước di chuyển khỏi đầu nguồn vào kênh, suối Nó ảnh hưởng thời tiết, tăng mạnh vào mùa mưa giảm vào mùa khơ Dịng chảy thành phần quan trọng chu kỳ nước hình 2.5.3 Nhận dạng mẫu (Pattern recognition) Là ngành thuộc lĩnh vực máy học, việc thực tác động vào liệu thô (dữ liệu thu thập chưa qua xử lý), cụ thể tác động tùy thuộc vào loại liệu Nó tập hợp phương pháp học có giám sát (supervised learning) Nhận dạng mẫu nhẳm mục đích phân loại liệu dựa trên: kiến thức tiên nghiệm (a priori) dựa vào thông tin thống kê rút trích từ mẫu có sẵn Các mẫu cần phân loại thường biểu diễn thành nhóm liệu quan trắc được, nhóm điểm khơng gian đa chiều phù hợp Đó khơng gian đặc tính đối tượng để dựa vào ta phân loại Một hệ thống nhận dạng mẫu gồm có: - Các thiết bị cảm nhận (sensor): để thu thập liệu cho phân loại - Cơ chế rút trích đặc trưng (feature extraction): tính tốn thơng tin dạng số hay dạng đặc trưng (sysbolic) từ liệu quan trắc - Bộ phân loại: thực công việc phân loại dựa vào đặc trưng rút trích từ liệu quan trắc Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long Phân cụm dựa nhận dạng mẫu phân tích dịng chảy  Vector mẫu (pattern vector): Mẫu liệu dùng để gom cụm, vector chứa d phép đo: X=(x 1,x2,…,xd), ta có vector mẫu thứ i: xi = (xi,1;xi,2;…xi,d)  Vector tham chiếu (reference vector): Mẫu liệu tâm cụm 2.6 Thu thập liệu Để thu thập liệu, phân tích đưa mơ hình dự báo, người ta đặt trạm quan trắc sơng, sơng có nhiều trạm quan trắc tùy thuộc vào vị trí, địa hình thời tiết có khác khơng Tại trạm quan trắc, người ta đặt nhiều thiết bị đo khác cho nhiều thông số khác nhau, thông số quan trắc ứng với đặc trưng liệu thủy văn, ví dụ như: dòng chảy, lượng mưa, độ ẩm, nồng độ PH, sức gió…Các liệu thu thập theo thời gian: giờ, ngày, tháng, năm truyền trực tiếp trung tâm xử lý số liệu thủy văn 2.7 Giải thuật K-Means  Các phương pháp gom cụm có: Hình 3: Các phương pháp gom cụm  Thuật tốn K-Means [2], [3], [4], [5] Thuật toán K-Means dùng để phân hoạch tập mẫu thành cụm, cụm có tâm cụm giá trị trung bình đối tượng cụm Input: − − − K: số cụm X: Tập liệu chứa n đối tượng Output: tập gồm k cụm Phương pháp: − − − Bước 1: Chọn tùy ý k đối tượng từ tập X làm tâm cụm ban đầu; Bước 2: Gán vector mẫu cho cụm mà vector tâm cụm tương ứng có độ tương tự (“gần nhất”) Bước 3: Cập nhật lại tâm cụm (từ đối tượng gán cho cụm) Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long Phân cụm dựa nhận dạng mẫu phân tích dịng chảy − Bước 4: Nếu tâm cụm khơng thay đổi xuất kết Ngược lại, quay lại bước Đặc điểm thuật tốn K-Means [5] − Phương pháp K-Means khơng đảm bảo hội tụ tối ưu toàn cục mà thường đạt tới tối ưu cục − Kết phụ thuộc vào việc chọn k tâm cụm ban đầu − Để thu kết tốt thường phải chạy K-Means nhiều lần, lần với k tâm cụm ban đầu khác − Độ phức tạp thời gian thuật tốn K-Means O(nkt) Trong đó: o n: kích thước khơng gian mẫu o k: số cụm o t: số lần lặp Đây giải thuật dùng báo này, giải thuật MacQueen giới thiệu tài liệu “J Some Methods for Classification and Analysis of Multivariate Observations” (1967 Thuật toán K-mean để phân cụm liệu thực dựa hàm độ đo để đánh giá khoảng cách (hay đánh giá độ tương tự) phần tử, hàm độ đo thường hàm khoảng cách Manhatan hay hàm khoảng cách Euclidean nhỏ đối tượng đến phần tử tâm cụm  Khoảng cách Euclidean: = (xí1,xi2, xim): đối tượng thứ i cần phân loại cj=(xj1, xj2, xjm) j=1 k: phần tử trung tâm cụm j Khoảng cách Euclidean từ đối tượng a i đến phần tử trung tâm cụm thứ j: cj xác định theo công thức: Dji= (2) Trong đó: Dji: Khoảng cách Euclidean từ đến cj xis: thuộc tính thứ s đối tượng xjs: thuộc tính thứ s tâm cụm thứ j, cj  Phần tử tâm cụm: k phần tử trung tâm (k tâm cụm) ban đầu chọn ngẫu nhiên, theo tiêu chuẩn đó, sau lần phân hoạch đối tượng vào cụm, phần tử tâm cụm cập nhật lại dựa phần tử thuộc cụm tương ứng Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long Phân cụm dựa nhận dạng mẫu phân tích dịng chảy Clusteri = (a1,a2,…at): nhóm thứ i i=1…k: k số cụm j=1…m: m số thuộc tính t: số phần tử có cụm thứ i xsj: thuộc tính thứ j phần tử s: s=1…t cij: tọa độ thứ j phần tử trung tâm cụm i (3)  Mơ hình tổng qt hàm mục tiêu giải thuật K-means dùng báo (khoảng cách Euclidean): Hình 4: Khoảng cách Euclidean  Mục tiêu báo tìm hàm mục tiêu để tối ưu hóa việc chọn tâm cụm c j cho tối ưu GIẢI PHÁP ĐỀ XUẤT CHO BÀI TỐN PHÂN CỤM DỮ LỆU DỊNG CHẢY 3.1 Các hàm mục tiêu dùng cho toán gom cụm Các vector mẫu dịng chảy có số đặc điểm cố hữu Trong số đó, rõ ràng lưu lượng đỉnh Những đặc tính khác khoảng thời gian dài dòng thấp Các hàm mục tiêu xây dựng dựa đặc điểm Mỗi hàm xem xét đặc điểm cụ thể mơ hình dịng chảy Các hàm sau cho thấy tính hiệu việc đối phó với vấn đề cụ thể tốn phân tích tổng hợp dịng chảy ví dụ điều kiện lũ lụt hạn hán a Hàm mục tiêu thứ - [OFl] Hàm kiểm tra khía cạnh hình dạng mơ hình dòng chảy dạng khoảng cách riêng lẻ sau (1) Trong đó, xi(t) giá trị liệu thu liệu biến đổi thời điểm t vector mẫu thứ i; zj(t) giá trị vector tham chiếu thứ j (hoặc tâm cụm Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long Phân cụm dựa nhận dạng mẫu phân tích dịng chảy thứ j) thời điểm t Sai số tuyệt đối phần tử chuẩn hóa Mức độ tương tự hai vector mẫu quan trắc vector tham chiếu đánh giá thông qua độ lớn hàm OF1, giá trị OF1 nhỏ mức độ tương tự lớn vector lớn Lưu ý OF1 xác định mức độ tương tự dựa thay đổi phần tử tồn hình dạng vector mẫu b Hàm mục tiêu thứ - [OF2] Lưu lượng đỉnh đặc tính quan trọng ảnh hưởng đến phân tích dịng chảy lũ việc kế hoạch công trình kiểm sốt lũ Hàm mục tiêu định nghĩa xem xét thành phần lưu lượng đỉnh vector mẫu làm thuận tiện cho việc phân loại tất mơ hình liên quan đến dòng chảy lũ (2) Chỉ số p biểu thị vị trí đỉnh c Hàm mục tiêu thứ - [OF3] Các dịng chảy có xu hướng tăng mạnh giảm mạnh (ví dụ, độ dốc cao) để đáp ứng với điều kiện mưa tuyết tan Sự tăng giảm ngày rõ nét theo dòng chảy hàng tháng Hơn nữa, tăng giảm nhẹ (tức là, độ dốc nhẹ) suốt thời gian dòng chảy thấp Độ dốc phân biệt vector mẫu có biến động mạnh so với mẫu dịng chảy có biến động thấp, vector mẫu dịng chảy có giá trị hàm OFl Hàm mục tiêu OF3 dựa độ dốc chuẩn hóa đưa (3) Trong đó, β biểu diễn cho thừa số chuẩn hóa để so sánh ba hàm (OFl, OF2 OF3) theo thứ tự độ lớn Trong số tình huống, người ta cần tất hàm mục tiêu để cải tiến trình phân loại Trong trường hợp vậy, người ta xây dựng hàm mục tiêu tổng hợp (OFa) sau OFa[Xi, Zj] = max[OF1(Xi, Zj), OF2(Xi, Zj), OF3(Xi, Zj)] (4) Hàm mục tiêu tổng hợp bao gồm chung ba hàm mục tiêu Vì vậy, hàm sử dụng để đồng thời phân loại mẫu dòng chảy tương ứng với kiện khác nhau, điểm quan trắc khác thay đổi theo mùa 3.2 Thủ tục gom cụm mẫu dòng chảy Các hàm mục tiêu OFl, OF2, OF3, OFA sử dụng thuật toán Kmean để phân loại vector mẫu dòng chảy Cách thức mà thuật toán K-mean áp dụng cho việc phân loại mô tả phần kết thử nghiệm đánh giá Hơn nữa, xu hướng việc lựa chọn tâm cụm ban đầu tránh cách sử dụng phương pháp khởi tạo ngẫu nhiên thuật toán K-mean Ismail Kamel (1986) đề xuất 3.3 Mối quan hệ có cấu trúc liệu đa biến Đối với quy trình tn theo phép biến đổi tuyến tính liệu quan trắc thời điểm khác nhau, người ta thu số cụm (hay vector tham chiếu) có chứa số vectơ mẫu khoảng thời gian xác định Hầu hết q trình thủy văn vốn có tính chất phi tuyến kết trình thực tế, người ta thu số cụm khác nhau, cụm có kết hợp khác vector mẫu Mối quan hệ mặt cấu trúc cụm khác trình hay trình đánh giá thông qua Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long Phân cụm dựa nhận dạng mẫu phân tích dịng chảy khái niệm tín hiệu tốt phù hợp Thứ hai, người ta định nghĩa xác suất có điều kiện xảy ra, p(j/j') vector tham chiếu [Suzuki (1973)] sau: (5) Trong đó, n(j/j’) số vector mẫu kết hợp với cụm thứ j biết cụm thứ j' k(j) số cụm xem xét để phân tích Đó lợi để phát triển mối quan hệ mặt cấu trúc cụm biểu mức độ tương quan cao quy trình hay quy trình Các mối quan hệ mặt cấu trúc vậy, lần lượt, sử dụng dự báo mô mơ hình dịng chảy Cấu trúc Markov cụm thu sau: u ngoại trừ j (6) nghĩa là, [ n (j /j’) / > (7) 3.4 Phát triển mơ thuật tốn dự báo a Mơ thuật tốn Một quy trình khơng có cấu trúc tương quan điểm, kiện, / mùa quan trắc mơ cách độc lập Tuy nhiên, mẫu chảy biểu mối tương quan chúng đó, tổng hợp cách làm theo thủ tục Panu unny (1980a, 1980b) đề xuất, xác suất có điều kiện xuất vectơ mẫu phân phối chuẩn khoảng cách nội cụm sử dụng Theo tác giả báo, vector mẫu dòng chảy cho thuộc hai mùa mô sau: Bước 1: Tạo dãy cụm theo xác suất xuất Markov Bước 2: Tổng hợp cụm với vector mẫu cách sử dụng phân phối chuẩn đa biến Bước 3: Kiểm tra xem phần tử vector mẫu tổng hợp nằm giới hạn quy định chúng Nếu không, tổng hợp vector mẫu khác phần tử tìm thấy giới hạn Bước 4: Quay trở lại bước 3, vector mẫu chấp nhận tương ứng với cụm bước tìm thấy b Thuật tốn dự đốn Giả sử hàm thành viên có phân phối lũy thừavà sử dụng khái niệm suy diễn mờ, vectơ mẫu dự đoán [Kojiri Ikebuchi (1988)] Các mùa không quan trắc, dãy nối tiếp dự đoán cách kết hợp suy diễn mờ với phương pháp kỳ vọng Nói chung, dự báo thời gian thực vector mẫu sử dụng để dự báo lũ lụt hạn hán Một vector mẫu dự báo dựa giá trị OF l vector mẫu quan sát thực tế vector tham chiếu đại diện sau: Xjpredicted = [1+ Djobserved ] [Xj] (8) Trong đó, Djobserved = (Xjp - Xj ) / Xj (9) Hơn nữa, giả sử hàm thành viên mờ cụm có trọng số tần suất xuất cụm, hàm thành viên biểu diễn sau: Vj = exp {( -aj hj Djobserved) / } (10) Trong hj biểu thị tần suất đạt thủ tục gom cụm a j số phụ thuộc tính khoảng cách luận lý đến D jobserved, nghĩa lớn, vừa nhỏ Sau người ta dự đốn vector mẫu dựa kỹ thuật suy diễn mờ [Kojiri et al Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long 10 Phân cụm dựa nhận dạng mẫu phân tích dịng chảy (1988)] sau: Predicted Pattern Vector = (11) KẾT QUẢ THỬ NGHIỆM VÀ ĐÁNH GIÁ GIẢI PHÁP ĐỀ XUẤT a Ứng dụng phương pháp đề xuất: Các tác giả chọn liệu quan trắc lưu vực sông Thames (Canada) để kiểm tra khả áp dụng giải pháp đề xuất Dữ liệu thu thập hàng tháng từ tháng 10 năm 1952 đến tháng năm 1967 gồm liệu lượng mưa lưu lượng dòng chảy Giá trị dùng để phân tích trị số lưu lượng dịng chảy trung bình hàng tháng Dựa biểu đồ thống kê phép phân tích phổ, liệu lưu lượng dòng chảy chia thành mùa: Mùa mưa từ tháng 10 năm trước đến tháng năm sau, mùa khô tháng đến tháng năm Nói chung, biểu phân mùa khác biệt hồn tồn với phân mùa cịn lại, biến thiên độ lệch chuẩn số tháng năm lớn Hình 5: Dãy giá trị hàm mục tiêu OF1 Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long 11 Phân cụm dựa nhận dạng mẫu phân tích dịng chảy Hinh 6: Số cụm tối ưu dạng hàm DK(K), EK(K) AIC Các phân mùa ( vector mẫu) sau phân cụm thành nhóm để lấy mối quan hệ mặt cấu trúc chúng Thuật toán K-mean sử dụng để phân nhóm phân mùa Kỹ thuật khởi tạo ngẫu nhiên [Ismail Kamel (1986) đề xuất] sử dụng để đạt đến tối ưu toàn cục Bởi vì, thuật tốn K-mean chịu ảnh hưởng nhiều yếu tố việc lựa chọn tâm cụm ban đầu, số lượng cụm - k, thứ tự mà phân mùa xem xét q trình phân cụm, tính chất hình học phân mùa Một số thử nghiệm chạy bốn cụm đủ để nắm mối quan hệ phân mùa khác bên phân mùa khác Nói chung, có tổ hợp để nhóm 15 phân mùa thành bốn cụm mùa Để tìm số lần chạy tối thiểu thuật tốn K-mean cho cấu hình cụm tối ưu, 200 lần chạy thuật toán K-mean thực để phân cụm 15 phân mùa thành bốn cụm Giá trị hàm OF1 đánh giá cho lần chạy [Hình 5] Từ hình vẽ này, rõ ràng giá trị nhỏ đáng kể hàm OFl xuất Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long 12 Phân cụm dựa nhận dạng mẫu phân tích dòng chảy hai lần 200 lần chạy ban đầu thuật toán K-mean Những giá trị nhỏ đáng kể quy cho tình bốn cụm đạt cấu hình cụm tối ưu, nghĩa là, khoảng cách nội cụm DK (K) đạt giá trị cực tiểu khoảng cách liên cụm EK (K) đạt giá trị cực đại Do đó, số lượng điều kiện ban đầu đáng kể [Bảng 1] tổ hợp khác Hơn nữa, bảng có chứa giá trị khoảng cách nội cụm DK (K), khoảng cách liên cụm EK (K) Tiêu chuẩn Akaike Information (AIC) [xem; Phụ lục] ứng với hàm OFl Các giá trị DK (K), EK (K) AIC tương ứng với số cụm cho hình Việc xem xét đồ thị bảng liệu trường hợp bốn nhóm số lượng hợp lý ứng với 100 lần khởi chạy, giá trị AIC cực tiểu, khoảng cách nội cụm liên tục giảm tỷ lệ giảm nhỏ từ cụm đến cụm, khoảng cách liên cụm dao động đạt giá trị cực đại ứng với trường hợp bốn cụm Dựa tính tốn vậy, giả định hợp lý bốn cụm đủ để mô tả biến thiên vectơ mẫu mùa Việc xem xét khoảng cách nội cụm, liên cụm giá trị AIC cung cấp phương pháp hữu ích, thiếu linh hoạt để thu số lượng tối ưu cụm ứng với tập hợp vectơ cho Một phương pháp khác để thu số cụm tối ưu thông qua kỹ thuật đa-tối ưu Theo kỹ thuật này, khoảng cách nội cụm (DK (K)) mục tiêu định nghĩa cực tiểu khoảng cách liên cụm (EK (K)) mục tiêu xác định cực đại khoảng cách nội cụm liên cụm tất cụm Các giá trị khoảng cách nội cụm liên cụm khoảng cách mục tiêu liên quan vẽ [Hình 7] xác định đường cong biến đổi (TC- Transformation Curve) Bởi vì, tất điều kiện cho thừa số (γ) không thỏa được, đường bàng quan (IC) trở thành đường thẳng song song với đường qua điểm xác định cụm cụm15 Thật tình cờ, điểm nằm hai đầu mút đường cong biến đổi Giải pháp tối ưu lại nằm trường hợp có bốn cụm Hình 7: Số cụm tối ưu dạng hàm tiêu chuẩn đa tối ưu Dựa vào kết nghiên cứu trên, ràng buộc thuật toán K-mean thu Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long 13 Phân cụm dựa nhận dạng mẫu phân tích dịng chảy [Bảng 2] Các giá trị ràng buộc tìm thấy bảy phần mười giá trị tối đa DK (K) lớn hai phần mười khoảng cách liên cụm EK (K) Số lượng tối ưu cụm thu số cụm tối thiểu thỏa ràng buộc cho số cụm không lớn nửa tổng số vector mẫu Trong trường hợp, khơng có khoảng cách liên cụm khơng có khoảng cách nội cụm thỏa ràng buộc, khoảng cách liên cụm ưu tiên khoảng cách nội cụm Phương pháp gom cụm K-mean algorithm Số cụm tối ưu Các ràng buộc ½ tổng số vector mẫu < Ràng buộc nội cụm < 0.7xmax{khoảng cách nội cụm(1-15)} Khơng có Khơng có Đa tối ưu AIC 4 Bảng 2: Các ràng buộc dùng phương pháp AIC, khoảng cách nội cụm liên cụm để thu số cụm tối ưu Tập liệu lưu lượng dịng chảy Mùa khơ Hàm Số cụm mục tiêu OFa (tối ưu) Mùa mưa OFa (tối ưu) Mùa khô OF1 (tối ưu) Mùa mưa OF3 (tối ưu) Mùa khô OF2 (tối ưu) Cấu hình cụm C1: 13 C2: 3, 6, 8, C3: 1, 2, 4, 5, 7, 11, 14 C4: 10, 12, 15 C1: 13, 14, 15 C2: 11 C3: 1, 2, 3, 5, 6, 8, 9, 10,12 C4: C1: 13 C2: 10, 12, 15 C3: 3, 4, 6, 8, 11 C4: 1, 2, 5, 7, 9, 14 C1: 1, 3, 4, 6, 9, 10, 11, 12, 13, 14, 15 C2: 2, 5, 7, C1: C2: 2, 4, 6, 7, 9, 10, 11, 12, 14, 15 C3: 3, 5, C4: 13 C1: 1, 2, 3,4,5,6,7,10,13,15 C2: 8, 9, 11, 12, 14 C1: 8, 9, 12, 14 C2: 11 C3: 1, 2, 5, 6, 10, 15 C4: 3, 4, 7, 13 Bảng 3: Cấu hình số cụm tối ưu ứng với hàm mục tiêu khác Số cụm tối ưu thu cách sử dụng thuật toán K-mean cho trường hợp khác hàm mục tiêu [Bảng 3] Các hàm mục tiêu quan OFa OFl đưa cấu trúc tương tự số cụm tối ưu giá trị kết OFa bị tác động mạnh hàm mục tiêu OFl Tuy nhiên, hàm mục tiêu OF2 liên quan đến liệu đỉnh dòng hàm mục tiêu OF3 liên quan đến độ dốc cho ta cấu trúc Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long 14 Phân cụm dựa nhận dạng mẫu phân tích dòng chảy khác số cụm tối ưu Các hàm mục tiêu đánh giá tính chất vectơ mẫu xuất đỉnh dòng hay độ dốc kiện liên tiếp kết là, xem xét đánh giá đặc tính có độ tương quan cao Nét đặc trưng hàm mục tiêu cung cấp cấu trúc cụm tối ưu tình cụ thể phân tích lũ lụt hay hạn hán Phép biến đổi Markov từ cụm đến cụm khác tóm tắt Bảng Các tâm cụm mùa thể hình Khi vector tham chiếu nhất, hàm mục tiêu OFa có hiệu việc phân loại liệu dịng chảy, đặc biệt xem xét đỉnh dòng Cần lưu ý ta phải xem xét đặc điểm hạn hán, ta thay hàm mục tiêu OF2 để phản ánh đặc tính dịng chảy thấp Dựa cấu hình cụm nội mối quan hệ cấu trúc nội cụm liên cụm, mơ hình dịng chảy tổng hợp cho sông Thames Thamesvilles Các xác suất biến đổi Markov quan sát tổng hợp cho cụm khác tóm tắt Bảng Trong bảng này, thay đổi cấu trúc Markovian quan sát tổng hợp nhỏ 5% Nói cách khác, cấu trúc Markov bảo toàn mơ hình dịng chảy tổng hợp Một số thực mẫu mơ hình dịng chảy tổng hợp thể Hình Những thay đổi thực biểu thị tính uyển chuyển thủ tục đề xuất tổng hợp đặc tính dịng chảy cực đoan đặc tính dịng chảy bình thường Kết mơ hình dự báo đưa hình 10 Trình tự dự báo ba giai đoạn thời gian từ tháng Tư, tháng Năm tháng sáu năm 1966 thực dựa giả định rằng, điểm liệu đến Các mơ hình dự báo cần phải cải thiện Như vậy, số hàm mục tiêu đề xuất để cải tiến hệ thống nhận dạng mẫu có (PRS) để phân tích tổng hợp mơ hình dịng chảy Cụ thể, ba hàm mục tiêu xem xét tính chất hình dạng, đỉnh dịng, độ dốc vectơ mơ hình dịng chảy đề xuất Các hàm mục tiêu tương tự xây dựng để xem xét tính chất cụ thể khác mơ hình dịng chảy AIC, tiêu chuẩn khoảng cách nội cụm liên cụm hợp lý để đạt đến số cụm tối ưu tập mẫu dòng chảy Kỹ thuật khởi tạo ngẫu nhiên cho thuật toán K-mean xem tốt hơn, đặc biệt người ta làm giảm 20 lần số điều kiện khởi chạy để đạt đến cấu trúc cụm tối ưu Mơ hình tổng hợp dịng chảy thích hợp bảo tồn đặc tính dịng chảy lịch sử Tuy nhiên, thực nghiệm bổ sung cần xem xét thêm tiện ích mơ hình tổng hợp đề xuất Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long 15 Phân cụm dựa nhận dạng mẫu phân tích dịng chảy Hình 10: Các vector tham chiếu đại diện : a Mùa mưa (tháng10 đến tháng 3), b Mùa khô(tháng đến tháng 9) Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long 16 Phân cụm dựa nhận dạng mẫu phân tích dịng chảy b Áp dụng giải pháp đề xuất để gom cụm liệu thủy văn Hình 11: Các vector mẫu ban đầu • Bước 1: Định nghĩa K tâm cụm khởi đầu, cách chọn K vector • • Z(j,u) vector tham chiếu thứ j bước lặp thứ u K cụm X(i) vector mẫu chứa điểm liệu x(i,t), t=1, 2, … Hình 12: Chọn k tâm cụm ban đầu (ví dụ k=4) • Bước 2: Tại bước lặp thứ u, nếu: OFa[X(i), Z(j,u)]

Ngày đăng: 10/02/2016, 00:14

Từ khóa liên quan

Mục lục

  • b. Hàm mục tiêu thứ 2 - [OF2]

  • c. Hàm mục tiêu thứ 3 - [OF3]

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan