Chuẩn bị bộ dữ liệu phân cụm

Một phần của tài liệu Phân cụm dữ liệu địa lý và áp dụng trong phân tích một số chỉ số kinh tế xã hội của các địa phương ở việt nam luận văn (Trang 42 - 45)

Dữ liệu thuộc tính

Dữ liệu thuộc tính, mà thuật ngữ kinh tế xã hội thường gọi là dữ liệu chuyên đề bao gồm các tập tin định dạng csv hoặc txt. Mỗi tập tin bao gồm các dòng và các cột. Vị trí với dòng và cột thể hiện dữ liệu tương ứng: dòng là số đối tượng, cột là số liệu của thuộc tính. Với trường hợp dữ liệu phân cụm là dữ liệu của một chuyên đề trong nhiều năm, các cột là số liệu của chuyên đề đó trong các năm. Ví dụ, với chuyên đề “Giá trị sản xuất kinh doanh”, dòng thể hiện các vùng (các địa phương ở Việt Nam) và cột thể hiện các năm tương ứng. Tại vị trí dòng và cột thể hiện Giá trị sản xuất kinh doanh (tính theo Triệu đồng) cho vùng và năm tương ứng.

Số dòng trong file dữ liệu chuyên đề phải tương ứng với số dòng trong file dữ liệu không gian. Tên các địa phương ở hai file dữ liệu thuộc tính và file dữ liệu không gian phải giống nhau.

Hình 3.1. Dữ liệu chuyên đề ở dạng file .csv

Với trường hợp người dùng chuẩn bị file dữ liệu dạng txt, dữ liệu cũng được chia thành dòng cho các vùng, tại mỗi dòng các phần tử cách nhau bởi dấu phẩy (“,”).

Các số trong tệp dữ liệu định dạng là các số thực lớn hơn 0 và được ngăn cách phần thập phân bằng dấu chấm (.).

Luận văn sẽ sử dụng bộ dữ liệu về một số chỉ tiêu kinh tế - xã hội của các địa phương ở Việt Nam lấy từ nguồn website của Tổng cục thống kê Việt Nam. Các chuyên đề được chia theo từng nhóm, phản ánh một nội dung kinh tế - xã hội cụ thể. Những địa phương không có số liệu sẽ coi như số liệu đó bằng 0. Một số chuyên đề sử dụng trong luận văn:

 Nhóm chuyên đề về nông lâm nghiệp:

Chuyên đề 1: Diện tích rừng trồng từ năm 1995 đến 2013 Chuyên đề 2: Diện tích rừng bị chặt từ năm 1995 đến 2013 Chuyên đề 3: Diện tích rừng bị cháy từ năm 1995 đến 2013

 Nhóm chuyên đề về dân số và lao động:

Chuyên đề 4: Lực lượng lao động từ 15 tuổi trở lên từ năm 2005 đến 2013 Chuyên đề 5: Tỷ lệ lao động từ 15 tuổi trở lên so với dân số từ năm 2005 đến 2013

 Nhóm chuyên đề về đầu tư và xây dựng:

Chuyên đề 6: Đầu tư nước ngoài được cấp phép năm 2013 Chuyên đề 7: Giá trị sản xuất xây dựng từ năm 2005 đến 2013

 Nhóm chuyên đề về thương mại, giá cả

Chuyên đề 8: Tổng mức bán lẻ hàng hóa và dịch vụ

 Nhóm chuyên đề về công nghiệp:

Chuyên đề 9: Giá trị sản xuất công nghiệp từ năm 2005 đến 2013

 Nhóm chuyên đề về y tế, giáo dục

Chuyên đề 10: Số người bị nhiễm HIV/AIDS tích lũy từ năm 2011 đến 2013 Chuyên đề 11: Số người bị chết do HIV/AIDS từ năm 2011 đến 2013

Phâm cụm tổng hợp đồng thời nhiều thuộc tính

Các tệp dữ liệu chuyên đề như trên chỉ phản ánh từng thuộc tính riêng lẻ của các đối tượng địa lý, cụ thể là các tỉnh ở nước ta. Tuy nhiên, nhiều chỉ tiêu kinh tế xã hội có mối liên quan ảnh hưởng đến nhau, ví dụ dữ liệu tổng mức bán lẻ hàng hóa và dịch vụ có liên quan đến lực lượng lao động từ 15 tuổi trở lên và tỷ lệ lao động từ 15

tuổi trở lên so với dân số; giá trị sản xuất công nghiệp liên quan đến đầu tư nước ngoài được cấp phép, v.v.. Phân cụm tổng hợp đồng thời nhiều thuộc tính sẽ cho phép nghiên cứu một cách toàn diện hơn về một nhóm chỉ tiêu kinh tế xã hội nhất định.

Phân cụm tổng hợp đồng thời nhiều thuộc tính cần xem xét đến cách kết hợp nhiều thuộc tính với nhau khi tính độ tương tự hay khoảng cách giữa các điểm dữ liệu. Miền giá trị của mỗi thuộc tính có thể biến đổi trong những khoảng rất khác nhau, ví dụ trong khoảng [0,1] nếu là tỷ lệ phần trăm hoặc từ không đến hàng chục triệu nếu là dân số hay tổng doanh số bán lẻ. Cần thực hiện thêm công đoạn tiền xử lý để chuyển

đổi về cùng một thang độ hay tổng quát hơn là nhân giá trị của thuộc tính thứ i với

trọng số wi thích hợp trong công thức tính khoảng cách, ví dụ

Tóm lại, cần thêm bước tiền xử lý, chuẩn bị tệp dữ liệu tổ hợp nhiều tệp dữ liệu chuyên đề và xác định bộ trọng số wi trước khi thực hiện tính toán phân cụm.

Dữ liệu trọng số

Như đã trình bày ở trên, với trường hợp phân cụm tổng hợp nhiều thuộc tính đồng thời cần phải có trọng số để điều chỉnh dữ liệu phân cụm về cùng một thang độ. Dữ liệu trọng số là tập tin định dạng csv hoặc txt có số phần tử bằng số thuộc tính trong tệp chuyên đề. Các số trong tệp trọng số là các số thực nằm trong khoảng 0 - 1 được ngăn cách nhau bởi dấu phẩy (,); dấu ngăn cách phần thập phân là dấu chấm (.). Tổng các số trong tệp bằng 1.

Một phần của tài liệu Phân cụm dữ liệu địa lý và áp dụng trong phân tích một số chỉ số kinh tế xã hội của các địa phương ở việt nam luận văn (Trang 42 - 45)