Ứng dụng phân cụm dữ liệu vào việc phân tích, đánh giá kết quả hoạt động của doanh nghiệp tại tỉnh quảng trị

80 142 0
Ứng dụng phân cụm dữ liệu vào việc phân tích, đánh giá kết quả hoạt động của doanh nghiệp tại tỉnh quảng trị

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

LỜI CAM ĐOAN Tôi xin cam đoan đề tài khoa học “Ứng dụng phân cụm liệu vào việc phân tích, đánh giá kết hoạt động doanh nghiệp tỉnh Quảng Trị” cơng trình nghiên cứu thân tơi Các số liệu có nguồn gốc rõ ràng tuân thủ nguyên tắc kết nghiên cứu trình bày luận văn trung thực, thu thập từ trình nghiên cứu chưa cơng bố cơng trình khác Đề tài khoa học giáo viên hướng dẫn khoa học thông qua nội dung đồng ý cho bảo vệ trước hội đồng khoa học Tác giả luận văn Nguyễn Đức Quý LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành đến Khoa Công nghệ Thông tin, Trường Đại học Khoa học Huế, Quý Thầy Cô giúp đỡ, trang bị kiến thức, tạo môi trường thuận lợi cho suốt trình học tập thực luận văn Với kính trọng biết ơn, tơi xin bày tỏ lòng biết ơn sâu sắc đến Tiến sĩ Hồng Thị Lan Giao động viện, khuyến khích hướng dẫn tận tình cho tơi suốt thời gian thực luận văn Đặc biệt xin gửi lời cảm ơn đến Cục Thống kê tỉnh Quảng Trị, phòng thống kê Cơng nghiệp – Xây dựng cục Thống kê tỉnh Quảng Trị giúp đỡ nhiều q trình nghiên cứu hồn thiện luận văn Tôi xin gửi lời cảm ơn chân thành tới Ban Giám hiệu, phòng Đào tạo sau đại học, Trường Đại học Khoa học Huế tạo điều kiện cho tơi q trình học tập Trường Cuối tơi xin gửi lời cảm ơn đến gia đình, bạn bè, người bên tôi, động viên khuyến khích tơi q trình thực luận văn Tác giả luận văn Nguyễn Đức Quý MỤC LỤC Trang Trang phụ bìa Lời cam đoan Lời cảm ơn Mục lục Danh mục chữ viết tắt Danh mục bảng Danh mục hình vẽ PHỤ LỤC DANH MỤC CÁC CHỮ VIẾT TẮT AGNES Agglomerative Nesting ASP Active Server Pages BIRCH Balanced Iterative Reducing and Clustering Using Hierarchies CURE Clustering Using Representatives CLARA Clustering Large Applications CLIQUE Clustering In QUEst C# C Sharp CSDL Cơ sở liệu CSS Cascading Style Sheets DIANA Divisive Analysis DN Doanh nghiệp IDE Integrated Development Environment KDD Knowledge Discovery in Databases SMTP Simple Mail Transfer Protocol SQL Structure Query Language SXKD Sản xuất kinh doanh STING Satistical INformation Grid approach UBND Ủy ban nhân dân PAM Partition Around Mediods TCTK Tổng cục Thống kê XML Extensible Markup Language XHTML Extensible HyperText Markup Language DANH MỤC CÁC BẢNG Số hiệu bảng Tên bảng Trang 2.1 Số lượng doanh nghiệp hoạt động có đến 31/12 hàng năm 38 2.2 Tiêu chí phân loại doanh nghiệp theo Nghị định số 56/2009/NĐ-CP 44 2.3 So sánh doanh tổng doanh thu doanh nghiệp nhà nước tỉnh Quảng Trị 45 DANH MỤC CÁC HÌNH VẼ Số hiệu hình vẽ Tên hình vẽ Trang 1.1 Quá trình khám phá tri thức 1.2 Ví dụ phân cụm liệu 1.3 Phân cụm đối tượng dựa khoảng cách 1.4 Phân cụm đối tượng dựa kích cỡ 10 1.5 Các chiến lược phân cụm phân cấp 11 1.6 Cây CF sử dụng thuật toán BRICH 13 1.7 Các thiết lập để xác định danh giới cụm ban đầu 16 1.8 Tính tốn trọng tâm cụm 17 1.9 Sự thay đổi tâm cụm thuật tốn K-Means 19 1.10 Ví dụ phân cụm theo mật độ 22 1.11 Cấu trúc phân cụm dựa lưới 22 1.12 Ví dụ phân cụm dựa mơ hình 24 2.1 Mẫu phiếu 1A thu thập thông tin liệu DN 36 2.2 Biểu đồ số lượng DN hoạt động có đến 31/12 hàng năm, phân theo loại hình doanh nghiệp 38 2.3 CSDL Doanh nghiệp tỉnh Quảng Trị 42 2.4 Màn hình đăng nhập chương trình 43 2.5 Giao diện hình sau đăng nhập 43 2.6 Chọn loại hình doanh nghiệp cần phân cụm 45 2.7 Chọn doanh nghiệp theo đơn vị hành 46 2.8 Giao diện chức phân cụm theo tiêu chí doanh thu 46 2.9 Thông tin cụm thực 47 2.10 Biểu đồ hình khối đánh giá tỷ lệ doanh thu theo cụm 47 2.11 Danh sách doanh nghiệp cụm số có tâm cụm 79.599 triệu đồng 48 2.12 Giao diện chức phân cụm theo tiêu chí nguồn vốn 49 2.13 Thông tin cụm thực theo tiêu chí nguồn vốn 50 2.14 Kết phân cụm theo tiêu chí nguồn vốn 50 2.15 Biểu đồ hình tròn đánh giá tỷ lệ nguồn vốn theo cụm 51 2.16 Biểu đồ hình khối đánh giá tỷ lệ nguồn vốn theo cụm 51 2.17 Giao diện chức phân cụm theo tiêu chí lợi nhuận 52 2.18 Thơng tin cụm thực theo tiêu chí lợi nhuận 52 2.19 Biểu đồ hình khối đánh giá tỷ lệ lợi nhuận theo cụm 53 2.20 Biểu đồ hình tròn đánh giá tỷ lệ lợi nhuận theo cụm 53 2.21 Kết phân cụm theo lợi nhuận 54 2.22 Danh sách doanh nghiệp thua lỗ năm 203 năm cụm 54 2.23 Giao diện chức phân cụm theo tiêu chí khoản nộp ngân sách 55 2.24 Số lượng cụm thực theo tiêu chí khoản nộp ngân sách 55 2.25 Biểu đồ hình khối đánh giá tỷ lệ khoản nộp ngân sách theo cụm 56 2.26 Biểu đồ hình tròn đánh giá tỷ lệ khoản nộp ngân sách theo cụm 56 2.27 Kết đánh giá tỷ lệ khoản nộp ngân sách theo cụm 57 MỞ ĐẦU Trong điều kiện kinh tế nay, kinh tế nước ta chuyển đổi từ chế bao cấp sang chế thị trường Sự thay đổi làm chuyển biến mạnh mẽ kinh tế Nhà nước ta tạo nhiều chế, sách thuận lợi nhằm khuyến khích phát triển doanh nghiệp Việt Nam Mỗi năm, với đời hàng ngàn doanh nghiệp nhỏ vừa đóng góp khơng nhỏ vào phát triển kinh tế, bên cạnh có khơng doanh nghiệp bị phá sản cạnh tranh kinh tế chế thị trường Nhằm phục vụ cơng tác quản lý, hoạch định sách phát triển kinh tế - xã hội, phát triển doanh nghiệp quốc gia địa phương, Chính phủ đạo bộ, ngành liên quan điều tra, thu thập thống kê số liệu thực trạng doanh nghiệp Các quan chức giao triển khai nhiều giải pháp thời gian gần Nhưng nhìn chung thiếu đồng bộ, ngành dẫn đến không triển khai giải pháp thành hệ thống hoàn chỉnh Tổng cục Thống kê Việt Nam đơn vị hoạt động lĩnh vực điều tra, thống kê công bố số liệu Tổng cục Thống kê nhà nước giao nhiệm vụ điều tra toàn diện thực trạng doanh nghiệp toàn quốc Thực hướng dẫn đạo Tổng cục Thống kê Việt Nam, cục Thống kê Quảng Trị triển khai điều tra doanh nghiệp hàng năm theo định kỳ ngày 01 tháng 03 Kết điều tra phản ánh thực trạng doanh nghiệp địa bàn Mặc dù nhiều phương pháp tổng hợp, thống kê đánh giá triển khai song mang tính chủ quan Trong vài thập niên gần đây, với thay đổi phát triển không ngừng ngành công nghệ thông tin việc thu thập thơng tin nhu cầu lưu trữ thông tin ngày lớn Việc ứng dụng công nghệ thông tin hầu hết lĩnh vực kinh tế xã hội tạo khối lượng liệu ngày khổng lồ Các phương pháp quản trị, phân tích khai thác liệu truyền thống chưa đáp ứng yêu cầu thực tế thông tin liệu Cùng với phát triển không ngừng khoa học kỹ thuật, lĩnh vực khai phá liệu đời trở thành lĩnh vực thời công nghệ thông tin giới Ngay từ 10 xuất hiện, khai phá liệu trở thành xu hướng nghiên cứu phổ biến lĩnh vực học máy công nghệ tri thức Nhiều thành tựu nghiên cứu khai phá liệu áp dụng thực tế Phân cụm liệu kỹ thuật để khai thác liệu có hiệu Phân cụm liệu ứng dụng nhiều lĩnh vực khác như: kinh tế, giáo dục, tài chính, ngân hàng, bảo hiểm… Để có nhìn tổng quát thực trạng doanh nghiệp Quảng Trị đánh giá mức độ hoạt động hiệu cách khách quan, cần phải có cơng cụ hỗ trợ tảng khoa học đại đáng tin cậy Với phát triển kỹ thuật khai phá liệu, đặc biệt tiêu chí phân cụm, việc phân tích đánh giá tỏ hiệu Do đó, tơi chọn đề tài “Ứng dụng phân cụm liệu vào việc phân tích, đánh giá kết hoạt động doanh nghiệp tỉnh Quảng Trị” để làm đề tài luận văn tốt nghiệp với mong muốn góp phần hồn thiện công cụ đánh giá, giúp quan Thống kê tỉnh có thêm sở đánh giá tồn diện thực trạng doanh nghiệp Quảng Trị Bố cục luận văn gồm phần mở đầu hai chương nội dung, phần kết luận, hướng phát triển danh mục tài liệu tham khảo Chương 1: Trình bày tổng quan khai phá liệu, số phương pháp khai phá liệu, thuật toán phân cụm phân cấp không phân cấp Chương 2: Giới thiệu liệu doanh nghiệp phương pháp đánh giá PAM, phân tích, đánh giá phân cụm doanh nghiệp dựa vào thuật toán PAM Cài đặt ứng dụng so sánh, đánh giá kết với phương pháp đánh giá thời Cuối cùng, phần kết luận hướng phát triển luận văn 66 KẾT LUẬN Trong trình phát triển kinh tế, Doanh nghiệp đóng vai trò quan trọng góp phần lớn vào tăng trưởng kinh tế, tạo bền vững phát triển, tạo nhiều việc làm, cung cấp cho xã hội loại hàng hoá dịch vụ, tăng kỹ quản lý đổi cơng nghệ góp phần giảm bớt chênh lệch thu nhập xã hội đóng góp ngày nhiều cho ngân sách nhà nước Từ Luật doanh nghiệp ban hành có hiệu lực năm 2000 loại hình doanh nghiệp phát triển mạnh mẽ nhờ có nhiều sách khun khích tạo điều kiện thuận lợi cho DN ngồi nhà nước chủ yếu DN nhỏ vừa phát triển Do kết phát triển doanh nghiệp yếu tố chủ yếu định đến tốc độ tăng trưởng GDP nói riêng phát triển kinh tế - xã hội nói chung Trong q trình tìm hiểu hồn thành luận văn với đề tài “Ứng dụng phân cụm liệu vào việc phân tích, đánh giá kết hoạt động doanh nghiệp tỉnh Quảng Trị”, thân tích lũy nhiều kiến thức khai phá liệu ứng dụng vào thực tế chương trình xây dựng thành cơng cụ tích hợp vào cổng thông tin Cục Thống kê tỉnh Quảng Trị để khai thác thử nghiệm với 855 mẫu liệu doanh nghiệp điều tra năm 2013, lĩnh vực khai phá liệu, lĩnh vực nghiên cứu rộng lớn đầy triển vọng bao hàm nhiều phương pháp, kỹ thuật, nhiều hướng nghiên cứu, tiếp cận khác tương lai Để ứng dụng có hiệu thành tựu lĩnh vực khai phá liệu, thân người viết tiếp tục tìm hiểu nghiên cứu hồn thiện giải pháp mang tính thực tiễn cao áp dụng vào hướng nghiên cứu luận văn Đề tài cố gắng tập trung tìm hiểu, nghiên cứu, trình bày số kỹ thuật thuật toán phân cụm liệu phổ biến, dựa phương pháp có, cài đặt thử nghiệm thuật tốn PAM vào chương trình 67 Hướng phát triển luận văn: + Về mặt thực tiễn: hồn thiện tiêu chí đánh giá, chương trình có kết hợp với phương pháp truyền thống sử dụng Chương trình ứng dụng với liệu để giúp đơn vị có cơng cụ đánh giá tồn diện doanh nghiệp Chương trình thực đánh giá kết hợp nhiều tiêu chí với khơng gian n chiều, nhằm giúp người dùng khai thác tối đa tính phân cụm liệu Sau 02 năm triển khai ứng dụng thành cơng cấp tỉnh, chương trình báo cáo cấp Tổng cục Thống kê để áp dụng toàn ngành + Về mặt lý thuyết: người viết tiếp tục nghiên cứu tiếp phương pháp, cách tiếp cận phân cụm liệu phân cụm thống kê, phân cụm khái niệm, phân cụm mờ, phân cụm mạng … nhằm tìm kiếm, so sánh chọn lựa thuật toán tối ưu để giải toán đưa Với thời gian cho phép trình tìm hiểu nghiên cứu, cố gắng tập trung nghiên cứu tham khảo nhiều tài liệu, báo, tạp chí khoa học nước, hạn thời gian kinh nghiệm khơng thể tránh khỏi thiếu sót, mong nhận bảo, góp ý nhiều quý thầy cô giáo, nhà khoa học để luận văn hoàn thiện 68 TÀI LIỆU THAM KHẢO Tiếng Việt Đoàn Văn Ban (1997), Phương pháp thiết kế khai thác kho liệu, Đề tài nghiên cứu cấp TT KHTN & CNQG, Nxb Khoa học Kỹ thuật, Hà Nội Đỗ Phúc (2005), Giáo trình khai phá liệu data warehousing, Đại học quốc gia TP HCM Tổng cục Thống kê (2014), Tài liệu điều tra Doanh nghiệp năm 2014, Nxb Thống kê, Hà Nội Tổng cục Thống kê (2013), Niên giám thống kê năm 2013, Nxb Thống kê, ,Hà Nội Tiếng Anh Dr Osmar R.Zaiane (2011), Principles of knowledge discovery in databases, Fall 2001 University of Alberta Jiawei Han and Micheline Kamber (2007), Data Mining Concepts and Techniques, Intelligent Database Systems Research Lab School of Computing Science Simon Fraser University, Canada Tian Zhang, Raghu Ramakrishnan, Miron Livny (1997), “A New Data Clustering Algorithm and Its Applications Data Mining and Knowledge Discovery”, 1, pp 141 – 182, Kluwer Academic Publishers PHỤ LỤC Một số mã nguồn cài đặt chương trình ứng dụng Kết nối sở liệu: Public SqlConnection GetConnection() { string sConstr = ConfigurationManager.ConnectionStrings["CTKConnectionString"].ConnectionS tring; return new SqlConnection(sConstr); } Khai báo mảng lưu trữ liệu xử lý: string [,] arrDSDN = new string [,]; // Mảng lưu trữ danh sách doanh nghiệp string [,] arrTamCum = new string [,];// Mảng lưu trữ danh sách tâm cụm string[,] arrTmp = new string[, ]; // Mảng tạm lưu trữ biến trung gian Tải liệu loại hình doanh nghiệp Public void Fill_drlLoaiHinh() {//Đổ liệu loại hình doanh nghiệp string st = "select IDLoaiHinh_DN, TenLoaiHinh_DN from tblDMLoaiHinh_DN"; SqlConnection cn = new SqlConnection(); cn = GetConnection(); SqlCommand cmd = new SqlCommand(st, cn); if (cn.State == ConnectionState.Closed) { cn.Open(); } SqlDataReader dr = cmd.ExecuteReader(); drlLoaiHinhDN.DataSource = dr; drlLoaiHinhDN.DataTextField = "TenLoaiHinh_DN"; drlLoaiHinhDN.DataValueField = "TenLoaiHinh_DN"; drlLoaiHinhDN.DataBind(); dr.Dispose(); cn.Close(); cn.Dispose(); drlLoaiHinhDN.Items.Insert(0, new ListItem(" Chọn loại hình doanh nghiệp ", "0")); } Tải liệu danh sách doanh nghiệp Public void Fill_Grv() {//Danh sách doanh nghiệp SqlConnection cn = GetConnection(); string st = "select IDDoanhNghiep, TenDN, DiaChiDN, MST from vtblDoanhNghiep"; SqlCommand cmd = new SqlCommand(st, cn); SqlDataAdapter da = new SqlDataAdapter(); da.SelectCommand = cmd; DataSet ds = new DataSet(); if (cn.State == ConnectionState.Open) { cn.Close(); } cn.Open(); da.Fill(ds, "vtblDoanhNghiep"); cn.Close(); grvDanhsachDN.DataSource = ds; grvDanhsachDN.DataBind(); } Đọc liệu: từ file DOANHNGHIEP_QUANGTRI.DBF vào mảng arrDSDN chiều Public void LoadData() { int i = 0; try { using (SqlConnection cn = GetConnection()) { if (cn.State == ConnectionState.Open) { cn.Close(); } cn.Open(); string st = "select a.IDDoanhNghiep, b.TongDT, a.IDDoanhNghiep from " +" , vtblDoanhNghiep a , tblKQSXKD_DN b " +" where a.IDKQSXKD = b.IDKQSXKD"; SqlCommand cmd = new SqlCommand(st, cn); SqlDataReader dr = cmd.ExecuteReader(); while (dr.Read()) { if (dr[0].ToString() != "") { arrDSDN [i, 0] = dr[0].ToString(); // Lưu mã DN arrDSDN [i, 1] = dr[1].ToString(); // Lưu giá trị phân cụm arrDSDN [i, 2] = "0"; i = i + 1; } } dr.Close(); dr.Dispose(); } catch { } } Khởi tạo tâm cụm: Tâm cụm ban đầu chọn cách lấy soCum mẫu tin có giá trị khơng trùng lắp Public void Khoitao_TamCum(int soCum) { int i = 0; try { using (SqlConnection cn = GetConnection()) { if (cn.State == ConnectionState.Open) { cn.Close(); } cn.Open(); string st = "select distinct top " + soCum + " b.TongDT, a.IDDoanhNghiep" +" from vtblDoanhNghiep a, tblKQSXKD_DN b where “ +" a.IDKQSXKD=b.IDKQSXKD"; SqlCommand cmd = new SqlCommand(st, cn); SqlDataReader dr = cmd.ExecuteReader(); while (dr.Read()) { if (dr[0].ToString() != "") { arrTamCum[i, 0] = dr[1].ToString();// Lưu mã DN arrTamCum[i, 1] = dr[0].ToString();// Lưu giá trị phân cụm arrTamCum[i, 2] = i.ToString(); //Khởi tạo thuộc cụm i i = i + 1; } } dr.Close(); dr.Dispose(); } } catch { } } Tính khoảng cách giá trị X, Y: khoảng cách Euclide giá trị Public static double KhoangCach_Euclidean(double X, double Y) { double distance = 0.0; double sum = 0.0; sum = Math.Pow(Math.Abs(X-Y),2);//Bình phương khoản cách giá trị distance = Math.Sqrt(sum); return distance; } Phân bổ đối tượng vào cụm Public void PhanBoPhanTu_VaoCum(int soCum { double Min_KC = 0.0; string tmp="0"; for (int i=soCum; i

Ngày đăng: 16/10/2018, 07:49

Từ khóa liên quan

Mục lục

  • 1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

  • 1.2 CÁC KỸ THUẬT TRONG KHAI PHÁ DỮ LIỆU

  • 1.3 CÁC PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU

  • 1.4 YÊU CẦU VÀ NHỮNG VẤN ĐỀ CÒN TỒN TẠI TRONG PHÂN CỤM DỮ LIỆU

  • 1.5 TIỂU KẾT CHƯƠNG 1

  • 2.1 GIỚI THIỆU TỔNG QUAN VỀ DOANH NGHIỆP VÀ DỮ LIỆU CỦA DOANH NGHIỆP

  • 2.2 CƠ SỞ LÝ LUẬN, THỰC TIỄN VÀ KHOA HỌC

  • 2.3 CHƯƠNG TRÌNH ỨNG DỤNG

  • 2.4 TIỂU KẾT CHƯƠNG 2

Tài liệu cùng người dùng

Tài liệu liên quan