1. Trang chủ
  2. » Tất cả

Đồ án môn học công nghệ dữ liệu lớn đề tài phân tích dữ liệu xu hướng toàn cầu về rối loạn sức khỏe tâm thần

48 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG TP.HCM KHOA: HỆ THỐNG THÔNG TIN VÀ VIẾN THÁM BÁO CÁO ĐỒ ÁN MÔN HỌC: CÔNG NGHỆ DỮ LIỆU LỚN ĐỀ TÀI : PHÂN TÍCH DỮ LIỆU XU HƯỚNG TỒN CẦU VỀ RỐI LOẠN SỨC KHỎE TÂM THẦN Giảng viên hướng dẫn : Ths Lê Quang Thiện Nhóm : Thành Viên: Nguyễn Ngọc Tú Huỳnh Tấn Đạt Lớp: ĐHCNTT3 Khóa : 09 Tp Hồ Chí Minh, 12 tháng 01 năm 2023 Nhận xét giang viên …………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……………………………………………………………………………………………… ……… , ngày….tháng… năm 2023 ……………………………………………………………………………………………… Giảng viên … Lê Quang Thiện LỜI CÁM ƠN Nhóm xin gửi lời cảm ơn sâu sắc đến Ths Lê Quang Thiện hướng dẫn cho chúng em hiểu thêm ngôn ngữ Python hiểu nhiều big data (công nghệ liệu lớn) Giúp cho chúng em hiểu thêm nhiều kiến thức sau ứng dụng vào ngành mà chúng em theo học Với đồ án mơn học giúp chúng em tự tìm hiểu thêm kiến thức sâu rộng mà chúng em chưa kịp tiếp cận thử sức với việc phân tích liệu Nhân dịp tết đến xuân em cung chúc thầy gia đình có nhiều điều may mắn sức khỏe năm mới, thàng công ,tiền tài đầy nhà Một lần nhóm xin cám ơn thầy nhiều chúc thầy có nhiều sức khỏe thành cơng cơng việc giảng dạy Nhóm sinh viên thực Nhóm MỤC LỤC LỜI CẢM ƠN ĐỀ TÀI : PHÂN TÍCH DỮ LIỆU XU HƯỚNG TỒN CẦU VỀ RỐI LOẠN SỨC KHỎE TÂM THẦN CHƯƠNG I: TỔNG QUAN 1.1 Tổng quan công nghệ liệu lớn 1.1.1 Sự phát triển công nghệ liệu lớn 1.1.2 Một số ứng dụng tiêu biểu công nghệ liệu lớn .5 1.2 Tổng quan Python phần mềm Google Colab phân tích liệu 1.2.1 Python .9 Python phân tích liệu: Ưu nhược điểm 11 Ưu điểm việc sử dụng Python để phân tích liệu 11 Nhược điểm việc sử dụng Python để phân tích liệu: 12 1.2.2 Phần mềm Google Colab phân tích liệu 12 1.3 Giới thiệu đề tài 14 1.3.1 Lí chọn đề tài 14 1.3.2 Mục tiêu nghiên cứu .14 1.3.3 Mô tả liệu 15 CHƯƠNG II: MƠ TẢ MƠ HÌNH PHÂN LỚP DỮ LIỆU 17 2.1 Phương pháp phân lớp liệu .17 2.2 Các mơ hình phân lớp liệu 18 2.3 Quá trình phân lớp liệu 21 2.4 Tính hiệu mơ hình phân lớp liệu .23 CHƯƠNG III : PHÂN TÍCH VÀ TRỰC QUAN HĨA DỮ LIỆU 24 3.1 Xử lí liệu .24 3.1.1 Khai báo thư viện upload liệu 24 3.1.2 Kiểm tra kiểu liệu trùng lập 25 3.1.2 Loại bỏ hàng trùng lặp kiểm tra giá trị null .26 3.2 Phân tích trực quan hóa liệu 27 CHƯƠNG IV : KẾT LUẬN .41 4.1 Những công việc thực .41 4.1.1 Tóm tắt: 41 4.1.2 Kết đạt 41 4.2 Hướng phát triển kiến nghị .42 4.2.1 Hướng phát triển 42 4.2.2 Kiến Nghị .42 TÀI LIỆU THAM KHẢO ĐỒ ÁN PHÂN TÍCH DỮ LIỆU NHÓM CHƯƠNG I: TỔNG QUAN 1.1 Tổng quan công nghệ liệu lớn Khi giới hịa vào cơng Cánh mạng Cơng nghiệp 4.0, không kể đến lĩnh vực Công Nghệ Thông Tin - lĩnh vực đòi hỏi phát triển vượt bậc nhiều Khi ngày nhiều thông tin giới trao đổi online số hóa, nhà phân tích bắt đầu sử dụng thơng tin làm liệu Những thứ mạng xã hội, sách trực tuyến, âm nhạc, video, làm tăng đáng kể lượng liệu sẵn có để phân tích Khi khối lượng liệu lưu trữ ngày lớn, việc lưu trữ liệu, việc xử lý liệu ngày khó khăn, tốc độ xử lý liệu công nghệ ko đáp ứng được, giải pháp gì? Tất vấn đề đưa đến với lĩnh vực big data 1.1.1 Sự phát triển công nghệ liệu lớn  Định nghĩa: Big Data tập liệu có khối lượng lớn phức tạp Độ lớn đến mức phần mềm xử lý liệu truyền thống khơng có khả thu thập, quản lý xử lý liệu khoảng thời gian hợp lý Dữ liệu lớn - Big Data sử dụng để mô tả khối lượng khổng lồ liệu có cấu trúc phi cấu trúc, lớn đến mức khó xử lý kỹ thuật truyền thống Khái niệm Big Data tương đối quen thuộc với Nó đại diện cho số lượng liệu tăng lên loại liệu đa dạng khác thu thập Khi ngày nhiều thông tin giới trao đổi online số hóa, nhà phân tích bắt đầu sử dụng thơng tin làm liệu Những ĐỒ ÁN PHÂN TÍCH DỮ LIỆU NHĨM thứ mạng xã hội, sách trực tuyến, âm nhạc, video, làm tăng đáng kể lượng liệu sẵn có để phân tích Mọi thứ thao tác online lưu trữ theo dõi liệu Một điều quan trọng cần lưu ý, khái niệm Big Data không số lượng liệu mà tạo ra, cịn bao gồm tất dạng liệu khác nhau: Text, video, lượt khách hàng vào, số giao dịch,… - Tính chất Big Data ***Big Data bao gồm tính chất sau: Khối lượng (Volume): Đúng tên gọi, khối lượng Big Data lớn, chí cực lớn Với phát triển mạnh mẽ internet, thiết bị di động, mạng xã hội công nghệ IoT (Internet of Things), khối lượng liệu tạo tăng đáng kể hàng ngày, hàng Tốc độ (Velocity): Bên cạnh khối lượng liệu lớn, tốc độ xử lý nhanh điều kiện thiết yếu Các ứng dụng phổ biến lĩnh vực Internet, tài chính, ngân hàng, y tế - chăm sóc sức khỏe,… phần lớn liệu lớn xử lý real-time (thời gian thực) Công nghệ quản lý liệu lớn ngày tiên tiến cho phép xử lý trước lưu trữ vào sở liệu Đa dạng (Variety): Trước đây, hầu hết liệu thu thập gọn gàng bảng, liệu có cấu trúc Hiện nay, liệu chủ yếu xuất dạng phi cấu trúc viết mạng xã hội, âm thanh, video,… Công nghệ Big Data cho phép liên kết phân tích đa dạng chủng loại liệu với Độ xác (Veracity): Với đa dạng số lượng lớn, độ xác tính chất phức tạp Big Data Tính chất đề cập đến việc khai phá chất lượng tập liệu làm liệu cách hệ thống Từ ĐỒ ÁN PHÂN TÍCH DỮ LIỆU NHĨM làm tăng độ tin cậy xác, giúp ích cho việc phân tích Đây bước quan trọng Big Data Giá trị thông tin (Value): Giá trị thơng tin tính chất quan trọng cơng nghệ Big Data Ví dụ: Một doanh nghiệp muốn ứng dụng Big Data cho tốn mơ hình hoạt động kinh doanh Trước tiên, doanh nghiệp cần xác định rõ giá trị thông tin hữu ích Big Data mang lại việc giải nhu cầu doanh nghiệp - Sự phát triển Big Data Nghiên cứu việc sử dụng hiệu công nghệ thông tin truyền thông cho mục đích phát triển (hay cịn gọi ICT4D) cho thấy cơng nghệ liệu lớn có nhiều đóng góp quan trọng thách thức phát triển quốc tế Những tiến phân tích liệu lớn giúp giảm chi phí cho việc định lĩnh vực quan trọng chăm sóc sức khoẻ, việc làm, suất kinh tế, tội phạm, an ninh, thiên tai quản lý tài nguyên Tuy nhiên, thách thức nước phát triển sở hạ tầng cơng nghệ ĐỒ ÁN PHÂN TÍCH DỮ LIỆU NHĨM khơng đầy đủ khan kinh tế nguồn nhân lực làm nghiêm trọng thêm mặt trái liệu lớn riêng tư vấn đề khác \ Ở Việt Nam, nhiều lĩnh vực, đơn vị có ý thức từ sớm việc sử dụng liệu lớn (DLL) công tác quản lý nhà nước, trình sản xuất kinh doanh Việt Nam sở hữu lợi cho trình chuyển đổi số, bắt đầu xây dựng DLL Lợi thứ nhất, kể đến tỷ lệ dân số sở hữu điện thoại thơng minh, máy tính Việt Nam tăng nhanh qua năm, thuận lợi cho việc thu thập liệu Lợi thứ hai, cơng ty Việt Nam cịn trẻ, thế, họ bắt đầu xây dựng sở hạ tầng mà không bị ảnh hưởng từ hệ thống cũ tồn trước Đây lợi giúp công ty trẻ Việt Nam có sức bật nhanh chóng đầu tư cách nghiêm túc từ đầu Trong thời gian qua, Việt Nam có nhiều phương án để phát triển hạ tầng DLL - Một là, phát triển hạ tầng hệ thống lưu trữ máy chủ - Hai là, phát triển hạ tầng phần mềm quản lý, tích hợp liệu, phần mềm phân tích liệu - Ba là, xây dựng hạ tầng bảo mật ĐỒ ÁN PHÂN TÍCH DỮ LIỆU NHÓM 1.1.2 Một số ứng dụng tiêu biểu công nghệ liệu lớn Dữ liệu lớn làm cần có liệu lớn chắn câu hỏi nhiều người quan tâm Nhìn chung, lợi ích liệu lớn bao gồm: Giảm thiểu chi phí: Việc áp dụng cơng nghệ phân tích liệu lớn vào quy trình tổ chức khơng giúp doanh nghiệp loại bỏ lỗi cách tự động mà triển khai giải pháp cách nhanh chóng, hiệu tiết kiệm chi phí Tiết kiệm thời gian: phân tích tồn diện liệu lớn địi hỏi nhiều thời gian chi phí, xử lý thủ cơng có độ trễ định Dữ liệu lớn tiết kiệm nhiều thời gian cách cho phép thu thập xử lý liệu với tốc độ nhanh dễ dàng Tối ưu hóa sản phẩm: Thơng qua liệu lớn, cơng ty phân tích mức giá có lợi tình kinh doanh khác Để làm hài lòng khách hàng tạo lợi nhuận, công ty cần đổi sản phẩm theo xu hướng thị trường Dữ liệu lớn cho phép họ thực thay đổi •Hỗ trợ trình định người: Nhờ khả tận dụng xử lý lượng liệu lớn, liệu lớn xác định nhu cầu dự đoán xu hướng, giúp đưa định đắn kịp thời Trong thực tế, ứng dụng Big Data (Dữ liệu lớn) vào nhiều lĩnh vực, giúp doanh nghiệp quy mô tạo nên biến chuyển ấn tượng, gia tăng tính hiệu quả, suất lợi cạnh tranh so với đối thủ kỷ nguyên chuyển đổi số ĐỒ ÁN PHÂN TÍCH DỮ LIỆU NHĨM  Làm thêm 'req_df' : req_df.isna().any(axis=0).sum() req_df.dropna(axis=0, inplace=True)  Kiểm tra xem cịn giá trị null khơng: req_df.isna().sum() 29 ĐỒ ÁN PHÂN TÍCH DỮ LIỆU NHĨM  Thống kê kiểm tra data: data_check_table = pd.DataFrame({ 'Unique':dataframe.nunique(), 'null':dataframe.isna().sum(), 'null percent':(dataframe.isna().sum())/len(dataframe)*100, 'Type':dataframe.dtypes.values }) data_check_table 30 ĐỒ ÁN PHÂN TÍCH DỮ LIỆU NHĨM  Chuyển đổi kiểu liệu đối tượng theo nhu cầu: def convert_str_to_float(x): if type(x)!=float: if x[0] in ['0','1','2','3','4','5','6','7','8','9']: return float(x) return float(0) return x for i in req_df.columns[2:]: req_df[i]=req_df[i].apply(convert_str_to_float) for i in req_df.columns[2:]: print(i) 31 ĐỒ ÁN PHÂN TÍCH DỮ LIỆU NHĨM  Phân tích liệu thăm dị  Dữ liệu nhóm nation_group_issue_avg = req_df.groupby('Entity', as_index = False).agg({'Schizophrenia (%)':'mean', 'Bipolar disorder (%)':'mean','Eating disorders (%)':'mean', 'Anxiety disorders (%)':'mean', 'Drug use disorders (%)':'mean', 'Depression (%)':'mean', 'Alcohol use disorders (%)':'mean'}) for i in nation_group_issue_avg.columns[1:]: print(i) 32 ĐỒ ÁN PHÂN TÍCH DỮ LIỆU NHÓM  Tạo biểu đồ : import matplotlib.pyplot as plt import random colors = ['red', 'orange', 'purple'] for i in nation_group_issue_avg.columns[1:]: top_10_nation_group_issue_avg = nation_group_issue_avg.sort_values(by=i, ascending=False).head(10) # tạo màu ngẫu nhiên cho hình bar_colors = [] for j in range(20): bar_colors.append(random.choice(colors)) fig, ax = plt.subplots(figsize=(8,8)) 33 ĐỒ ÁN PHÂN TÍCH DỮ LIỆU NHĨM ax.bar(top_10_nation_group_issue_avg['Entity'],top_10_nation_group_issue_avg[i] , width=0.35, label=i, color=bar_colors) ax.set_ylabel('avg_mental_issue') ax.set_title(f"Top 10 average mental issue visualization for '{i}' by nations ") plt.xticks(rotation=90) ax.legend() plt.show() 34 ĐỒ ÁN PHÂN TÍCH DỮ LIỆU NHĨM 35 ĐỒ ÁN PHÂN TÍCH DỮ LIỆU NHĨM 36 ĐỒ ÁN PHÂN TÍCH DỮ LIỆU NHĨM 37 ĐỒ ÁN PHÂN TÍCH DỮ LIỆU NHĨM 38 ĐỒ ÁN PHÂN TÍCH DỮ LIỆU NHĨM 39 ĐỒ ÁN PHÂN TÍCH DỮ LIỆU NHĨM 40 ĐỒ ÁN PHÂN TÍCH DỮ LIỆU NHĨM Nhận xét: Qua việc phân liệu cho thấy phát triển xã hội kèm với mối lo lắng, khiến cho lớp người trẻ ngày chịu nhiều bệnh tâm lý tinh thần Thế cần phải trọng vào chăm sóc sức khỏe tinh thần cho người nói chung CHƯƠNG IV : KẾT LUẬN 4.1 Những cơng việc thực : 4.1.1 Tóm tắt: Thời đại công nghệ phát triển đay la su hướng thịi đại cơng nghẹ ăn sâu vào tất ngành nghề việc thu thập liệu lưu trữ liệu lớn thiếu phương hướng phát triển Việc lưu trữ sữ lý liệu lớn công việc quan trọng lợi để phát triển Bài báo cáo đề cập đến tổng quan công nghệ liệu lớn ngôn ngữ lập trình Python phần mềm Jupyter Notebook, số mơ hình, thuật tốn phân tích liệu thực phân tích liệu xu hướng tồn cầu rối loạn sức khỏe tâm thần 41 ĐỒ ÁN PHÂN TÍCH DỮ LIỆU NHĨM 4.1.2 Kết đạt được: Có kiến thức phân tích liệu hiểu rõ ngôn ngữ python mô hình phân lớp liệu Cũng hiểu rõ việc xem xét liệu thực thao tác phân tích cách rành mạch Biết thêm loại rối loạn tâm thần tác hại chúng thong qua số liệu nhìn rõ vấn đề ngày nghiêm trọng chúng dành cho người giúp nhóm em học sức khỏe tâm lý 4.2 Hướng phát triển kiến nghị : 4.2.1 Hướng phát triển: Qua thực hành big data chúng em, em học nhiều big data, python data analysis Kiến thức Big data, python data analysis kiến thức quan trọng kiến thức hành trang cho em đường tìm hiểu nghiên cứu liệu Cịn nhiều thứ để tìm hiểu cải tiếng, phải biết trao dồi kiến thức không ngừng học tập để lấy kiến thức dùng cơng nghệ tiên tiến để chăm sốc sức khỏe tâm lý cho người, phát triển công nghệ tốt phực vụ nhu cầu khám chữa bệnh người dân 4.2.2 Kiến Nghị: Em mong người có nhiều họi hợp tác nhóm để trao đổi big data python phát triển kiến thức kinh nghiệm hợp tác nhóm Và hết em mong muốn mở rộng đề án để giúp người nhìn nhận rối loạn bất ổn tâm lý tâm thần cải thiện sức khỏe thân không mặt thể chất mà tinh thần Trên tinh thần nên chúng em mong muốn việc phát triển đồ án TÀI LIỆU THAM KHẢO Nội dung tham khảo từ trang: 1.https://123docz.net/trich-doan/2193321-tong-quan-ve-phan-lop-du-lieu-trongkhai-pha-du-lie-u.htm 42 ĐỒ ÁN PHÂN TÍCH DỮ LIỆU NHĨM 2.https://luatminhkhue.vn/cay-quyet-dinh-decision-tree-la-gi.aspx Dữ liệu lấy từ kaggle: 3.https://www.kaggle.com/datasets/thedevastator/uncover-global-trends-in-mentalhealth-disorder 43 ... plt.show() 34 ĐỒ ÁN PHÂN TÍCH DỮ LIỆU NHĨM 35 ĐỒ ÁN PHÂN TÍCH DỮ LIỆU NHĨM 36 ĐỒ ÁN PHÂN TÍCH DỮ LIỆU NHĨM 37 ĐỒ ÁN PHÂN TÍCH DỮ LIỆU NHĨM 38 ĐỒ ÁN PHÂN TÍCH DỮ LIỆU NHĨM 39 ĐỒ ÁN PHÂN TÍCH DỮ LIỆU NHĨM... mơ hình, thuật tốn phân tích liệu thực phân tích liệu xu hướng toàn cầu rối loạn sức khỏe tâm thần 41 ĐỒ ÁN PHÂN TÍCH DỮ LIỆU NHĨM 4.1.2 Kết đạt được: Có kiến thức phân tích liệu hiểu rõ ngơn... Mô tả liệu 1.3.3.1 Nguồn gốc liệu Bộ liệu chứa liệu thơng tin từ quốc gia tồn cầu tỷ lệ rối loạn sức khỏe tâm thần bao gồm tâm thần phân liệt, rối loạn lưỡng cực, rối loạn ăn uống, rối loạn lo

Ngày đăng: 26/03/2023, 22:57

w