Chương 3: CÔNG NGHỆ SỬ DỤNG VÀ QUY TRÌNH TÓNG QUAN

Một phần của tài liệu Báo cáo tiểu luận môn học nhập môn học máy Đề tài mô hình phát hiện tin tức giả (Trang 20 - 26)

3.2 Công cụ sử dụng 3.2.1 Môi trưởng thực hiện

® Ngôn ngữ: Python

© Công cụ phát triển: Google Colab , Python 3.2.2 Thư Viện Sử Dụng

Seaborn

Seaborn là một thư viện trực quan hóa dữ liệu mạnh mẽ trong Python, xây dựng trên nên tảng của Matplotlib. Thư viện nảy giúp việc tạo các biếu đồ phức tạp trở nên dễ dàng hơn với cú pháp đơn giản và có tính thâm mỹ cao. Dưới đây là tổng quan về Seaborn, bao g6m cach cải đặt, cách sử dụng cơ bản, và một số loại biêu đồ phô biên.

Đây là một công cụ tuyệt vời để trực quan hóa dữ liệu một cách dễ dàng và đẹp mắt.

Với sự kết hợp giữa khả năng trực quan hóa của Matplotlib và các tính năng mạnh mẽ của Seaborn, bạn có thế nhanh chóng tạo ra các biểu đồ hấp dẫn để phân tích và truyền đạt thông tin dữ liệu.

Pandas

Pandas là một package rất hiệu quả khi làm việc với đữ liệu dạng bảng. Nó cho phép chúng ta thực hiện các phép biến đổi và thống kê trên dữ liệu dạng bảng với tốc độ rất nhanh. Nhờ những hàm tiện ích trong hệ sinh thái của pandas mà chúng ta có thể liên kết các bảng có quan hệ một cách dễ dàng. Việc biểu đồ hoá trên pandas cũng được triển khai hiệu quả nhờ tích hợp được đa dạng những biếu đồ cơ ban trong matplotlib.

Voi pandas, co thé doc dữ liệu từ đa dạng các định dạng từ phố biến đến hiếm gặp nhu: csv, txt, xlsx, hdf5, json, dat, SQL table. Việc truy vẫn dữ liệu của pandas cũng sân gũi như trên numpy nên rất đễ học và dễ nhớ. Không những thế những hàm xử lý missing data và sắp xếp dữ liệu của pandas giúp quá trình tiền xử lý dữ liệu nhanh

chóng hơn. Pandas cũng là một package được tích hợp với các hàm về chuỗi thời gian nên nó được sử dụng rộng rãi trong quantitative finance.

Matplotlib

Matplotlib là một thư viện đồ họa mạnh mẽ trong Python, chủ yếu được sử dụng để tạo ra các biếu đồ và hình ảnh trực quan hóa dữ liệu. Matplotlib cho phép người dùng đễ dàng tạo ra các loại biểu đồ như biểu đồ đường, biểu đồ thanh, biêu đồ phân tán, biểu đồ hình tròn và nhiều loại biểu đồ khác. Điều này rất quan trọng trong việc phân tích và trình bày dữ liệu một cách trực quan và dễ hiểu.

Trong nghiên cứu và phát hiện tin giả, việc trực quan hóa đữ liệu dong vai tro rat quan trọng, p1úp các nhà nghiên cứu và phân tích hiểu rõ hơn về các xu hướng, môi quan hệ và mâu trong dữ liệu.

3.2Quy trình tong quan 3.2.1Thu thập dữ liệu

Thu thập đữ liệu là quá trình lẫy và thu thập thông tin từ các nguồn khác nhau để sử dụng cho các mục đích cụ thể, chẳng hạn như nghiên cứu, phân tích hoặc xây dựng mô hình học máy. Đây là bước đầu tiên vả rất quan trọng trong quy trình xây dựng một mô hình học máy. Dữ liệu chất lượng cao là nền tảng để xây dựng một mô hình hiệu quả

Hình 3.3 Thu thập đữ liệu

3.2.2 Ti â xử lý dữ liệu

Tiền xử lý dữ liệu là một bước quan trọng trong quy trình xây dựng mô hình học máy, bao gồm việc chuẩn bị và biến đổi dữ liệu thô thành một dạng mà các thuật toán học may co thé dé dang str dụng. Mục tiêu của tiền xử lý dữ liệu là cải thiện chất lượng dit liệu, giúp tăng hiệu quả và độ chính xác của mô hình học máy.

Hình 3.4 Tiền xử lý dữ liệu 3.2.3. Lira chọn mô hình

Lựa chọn mô hình là quá trình quyết định sử dụng mô hình học máy nào để giải quyết một vẫn đề cụ thê. Đây là một bước quan trong trong quy trình xây dựng mô hình học máy, vì lựa chọn đúng mô hình có thể cải thiện đáng kê hiệu suất dự đoán và tính khả thi của giải pháp. Quá trình này bao gồm việc xem xét các yếu tô như loại bải toán, bản chất của dữ liệu, yêu câu về độ chính xác, và các hạn chê về tài nguyên tính toán.

Hình 3.35 Lựa chọn mô hình

3.2.4. Huấn luyện mô hình

Huấn luyện là một trong những bước cực kỳ quan trọng trong xây dựng mô hình Machine Learning.

Trong qua trinh huấn luyện, sẽ chuyên dữ liệu đã chuẩn bị trước đó đến mô hình học máy của mình, đề hệ thông tìm các mâu hữu ich va đưa ra dự đoán.

Hình 3.6 Huấn luyện mô hình 3.2.5 Đánh giá mô hình

Đánh giá mô hình là quá trình xác định hiệu suất của một mô hình học máy bằng cách

sử dụng các kỹ thuật và số liệu đánh oiá khác nhau. Mục tiêu cua viéc danh g14 mô hình là xác định xem mô hình có hoạt động tốt hay không trên đữ liệu mới, chưa từng thấy (tập kiểm tra), từ đó đưa ra quyết định về việc sử dung m6 hinh trong thực tế.

Hình 3.7 Đánh giá mô hình 3.2.6. Tỉnh chỉnh mô hình

Tỉnh chỉnh mô hình (Hyperparameter Tunine) là quá trình điều chỉnh các siêu tham số của mô hình học máy để tối ưu hóa hiệu suất dự đoán. Siêu tham số (hyperparameters) là các tham số mà giá trị của chúng không được học từ đữ liệu, mà được đặt trước quá trình huấn luyện. Quá trình nảy thường yêu cầu thử nghiệm nhiều giá trị khác nhau cho các siêu tham so và chọn ra giá trị tốt nhât dựa trên hiệu suât của mô hình.

c{| =>

Hình 3.5 Tĩnh chỉnh mô hình 3.2.7 Triển khai mô hình

Triển khai mô hình là quá trình đưa một mô hình học máy từ môi trường phát triển sang môi trường sản xuất đề mô hình có thể được sử dụng trong các ứng dụng thực tế.

Quá trình này bao gồm nhiều bước từ việc chuẩn bị mô hình, thiết lập cơ sở hạ tang, đến giám sát và duy trì mô hình sau khi triển khai.

Hình 3.9 Triên khai mô hình học máy

Một phần của tài liệu Báo cáo tiểu luận môn học nhập môn học máy Đề tài mô hình phát hiện tin tức giả (Trang 20 - 26)

Tải bản đầy đủ (PDF)

(39 trang)