1. Trang chủ
  2. » Luận Văn - Báo Cáo

bài tập lớn học máy phân loại các thiên thể bên ngoài hệ mặt trời bằng kỹ thuật knn

33 2 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Loại Các Thiên Thể Bên Ngoài Hệ Mặt Trời Bằng Kỹ Thuật KNN
Tác giả Nguyễn Đức Quân, Vũ Đức Bằng, Tòng Trọng Hiệp, Đào Đức Dũng
Trường học Trường Đại Học Đại Nam
Chuyên ngành Công Nghệ Thông Tin
Thể loại Bài Tập Lớn
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 33
Dung lượng 2,82 MB

Nội dung

- Đóng góp cho khoa học thiên văn: Khi chúng ta có khả năng phân loại các thiên thể bên ngoài hệ mặt trời một cách chính xác, điều nảy có thé giúp cho các nhà thiên văn tìm hiểu về sự ph

Trang 1

TRƯỜNG ĐẠI HỌC ĐẠI NAM

KHOA CÔNG NGHỆ THÔNG TIN

PHAN LOAI CAC THIEN THE BEN NGOAI

HE MAT TROI BANG KY THUAT KNN

Sinh viên thực hiện: Nhóm 1 Giảng viên hướng dẫn:

Trang 2

TRƯỜNG ĐẠI HỌC ĐẠI NAM

KHOA CONG NGHE THONG TIN

HE MAT TROI BANG KY THUAT KNN

CHUYEN NGANH: CONG NGHE THONG TIN

Trang 3

Thành viên nhóm

Trang 4

MỞ ĐẦU

Trong công cuộc Cách mạng công nghiệp 4.0, có vô số những thành tựu công nghệ thông tin ra đời, đem lại vô số lợi ích cho con người Trong số đó chúng ta không thê bỏ qua AI (Artiicial Intelligent) - Trí tuệ nhân tạo AI đã, đang và sẽ còn hiện hữu

ở bất kỳ đâu trong cuộc sống của con người, giúp con người giải quyết nhiều van dé

của cuộc sống

Đề có được một hệ thống máy tính thông minh, tiên tiến như vậy, ngành Học May (Machine Learning) nổi lên như một lĩnh vực của Trí tuệ nhân tạo, nhằm giúp con người đưa ra những đự đoán, quyết định chính xác nhất mà không qua lập trình chỉ tiết về dự đoán hoặc quyết định đó Một trong các kỹ thuật của học máy chính là học có giám sát Ứng dụng của học có giám sát là giúp con người phân loại hoặc dự đoán một nhãn cho một đối tượng đầu vào, việc có thê thay ở nhiều lĩnh vực như giao thông, chứng khoản điện tử,

Đề tìm hiểu về kỹ thuật học có giám sát, nhóm em đã chọn “Phân loại các thiên thê bên ngoài hệ mặt trời” làm đề tài môn Học máy mà chúng em sẽ trình bảy sau đây

Trang 5

CHƯƠNG 1: KHÁI QUÁT ĐÈ TÀI 1.1 Lý do chọn đề tài

Nhóm em chọn đề tài "Phân loại các thiên thê bên ngoài hệ mặt trời" trong môn Học máy vì có nhiều lý do quan trọng, logic và thú vị Dưới đây là các lý do quan trọng cho việc chọn đề tài này và giải thích tại sao nó có thể là một dự án hấp dẫn trong lĩnh vực Học máy :

- Khám phá vũ trụ vô tận: Vũ trụ là một kho tàng vô tận của các thiên thé, bao gồm các hành tinh, sao, thiên thạch, và nhiều thứ khác Hiểu về sự đa dạng và phân loại của chúng có thể giúp chúng ta hiểu sâu hơn về nguồn gốc và tiến hóa của vũ trụ Điều này có thê đánh đấu sự khám phá mới mẻ trong ngành khoa học thiên văn và việc ứng dụng Học máy có thể giúp chúng ta hiểu về sự phân loại này một cách nhanh chóng và chính xác

- Dữ liệu không lồ: Các thiên thể nằm ở ngoai hệ mặt trời có số lượng lớn và đa dạng Hiện nay, các thiên thể này đang được quan sát và ghi nhận thông tin rất nhiều thông qua các kính viễn vọng và các thiết bị quan sát từ xa khác Dữ liệu này đòi hỏi một hệ thống mạnh mẽ để phân loại và nắm bắt thông tin quan trọng Học máy có thể giúp xử lý lượng dữ liệu lớn này một cách hiệu quả

- Đóng góp cho khoa học thiên văn: Khi chúng ta có khả năng phân loại các thiên thể bên ngoài hệ mặt trời một cách chính xác, điều nảy có thé giúp cho các nhà thiên văn tìm hiểu về sự phân bồ và tính chất của các thiên thể này Nó có thế dẫn đến những phát hiện mới về tiểu hành tỉnh, sao bang, hanh tinh lùn và các hệ thống thiên

hà khác Các kết quả này có thể có tầm quan trọng đối với cả khoa học thiên văn và những người đam mê về vũ trụ

- Ứng dụng thực tế: Ngoài khoa học thiên văn, việc phân loại các thiên thể còn

có thể ứng dụng trong các lĩnh vực khác như quản lý nguy cơ đối với các hành tỉnh tiềm năng va chạm với Trái Đất, khai thác tài nguyên từ các thiên thê bên ngoài hệ mặt trời, và nhiều ứng dụng công nghiệp và công nghệ khác

- Phát triển kỹ năng trong Học máy: Dự án này có thể cung cấp cơ hội cho nhóm em phát triển các kỹ năng quan trọng trong lĩnh vực Học máy như xử lý dữ liệu

lớn, xây dựng mô hình, kiếm định - đánh giá và toi ưu hóa hiệu suất của các thuật

toán Nó cũng có thể giúp nhóm em rèn luyện khả năng làm việc trong môi trường nghiên cứu và làm việc nhóm

Việc phân loại các thiên thể bên ngoài hệ mặt trời là một đề tài thú vị trong lĩnh vực Học máy và còn có tiểm năng đối với nhiều lĩnh vực khác nhau Nó không chỉ đem lại hiểu biết sâu hơn về vũ trụ mà còn có thế có nhiều ứng dụng vào thực tế

1.2 Mục tiêu nghiên cứu

Mục tiêu nghiên cửu của đề tài "Phân loại các thiên thế bên ngoài hệ mặt trời" trong môn Học máy là phát triển một hệ thông Học máy có khả năng phân loại và đánh giá các thiên thé ngoài hệ mặt trời dựa trên dữ liệu quan sát, nhằm hiểu rõ hơn về sự đa dạng và tính chất của chúng

Trang 6

143 Đối tượng và phạm vi nghiên cứu

- Đối tượng nghiên cứu của đề tài: là các thiên thể nằm ngoài hệ mặt trời, bao gồm sao, hành tỉnh, tiêu hành tỉnh, sao băng, và các đối tượng thiên văn khác Đối tượng này bao gồm cả các đặc điểm và tính chất của các thiên thê này

- Phạm vi nghiên cứu của đề tài: bao gồm việc thu thập, tiền xử lý, phân tích

và phân loại đữ liệu quan sát của các thiên thể ngoài hệ mặt trời

1.4 Phương pháp nghiên cứu

- Nghiên cứu trường hợp: Phương pháp này tập trung vào việc tìm hiểu sâu về một trường hợp cụ thê để đưa ra những kết luận phù hợp

- Phân tích dữ liệu thống kê: Phương pháp này tập trung vào việc thu thập và phân tích đữ liệu bằng các phương pháp thông kê đề đưa ra những kết luận và khẳng định

- Thí nghiệm: Phương pháp này tập trung vào việc tạo ra một thí nghiệm dé kiểm tra các giả định nghiên cứu và thu thập đữ liệu

Trang 7

CHUONG 2: CO SO LY THUYET 2.1 Ly thuyết về Học Máy

2.1.1 Định nghĩa

- Là một lĩnh vực của trí tuệ nhân tạo liên qua đến việc nghiên cứu và xây dựng các kĩ thuật cho phép các hệ thống học tự động từ dữ liệu dé giải quyết các vấn đề cụ thê Ví đụ các máy có thê học cách phân loại thư điện tử có phải thư rác hay không và

tự động sắp xếp vào các thư mục tương ứng

- Machine Learning có liên quan đến thông kê vì cả hai lĩnh vực đều nghiên cứu việc phân tích đữ liệu, nhưng khác với thống kê, học máy tập trung vào sự phức tạp của các giải thuật trong việc thực thi tính toán

- Machine Learning có hiện nay được áp dụng rộng rãi bao gồm máy truy tìm

dữ liệu, máy phân tích thị trường chứng khoán, nhận dạng tiếng nói và chữ viết

2.1.2 Một số phương thức của Machine Learning

- Học có giám sát: Thuật toán dự đoán đầu ra của một đữ liệu mới (new input) dựa trên các cặp (input, outeome) đã biết từ trước Cặp đữ liệu này còn được gọi là (data, label), tức (đữ liệu, nhãn) Supervised learning là nhóm phổ biến nhất trong các thuat toan Machine Learning

Học có giám sát được chia thành hai loại chính:

- Classification (phân lớp): Là quá trình phân lớp một đối tượng dữ liệu vào một hay nhiều lớp đã cho trước nhờ một mô hình phân lớp (model) Mô hình này được xây dựng dựa trên một tập dữ liệu được xây dựng trước đó có gán nhãn (hay còn gọi là tập huấn luyện) Quá trình phân lớp là quá trình gán nhãn cho đối tượng dữ liệu

Có nhiều bài toán phân lớp như phân lớp nhị phân, phân lớp đa lớp, phân lớp đa trị Trong đó phân lớp nhị phân là một loại phân lớp đặc biệt của phân lớp đa lớp Ứng dụng của bài toán phân lớp được sử dụng rất nhiều và rộng rãi như nhận dạng khuôn mặt, nhận dạng chữ viết, nhận dạng giọng nói, phát hiện thư rác

- Regression (hồi quy): Nếu không được chia thành các nhóm mà là một giá trị thực cụ thể Đầu ra của một điểm dữ liệu sẽ bằng chính đầu ra của điểm đữ liệu đã

biết

- Học không giám sát: là một kĩ thuật của máy học nhằm tìm ra một mô hình hay cau tric bi 4n bơi tập dữ liệu không được gán nhãn cho trước học không giám sát khác với học có giám sát là không thê xác định trước oufput từ tập đữ liệu huấn luyện duoc Tuy thuộc vào tập huấn luyện kết quả output sẽ khác nhau Trái ngược với học

có giám sát, tập đữ liệu huấn luyện của học không giám sát không do con người gán nhãn, máy tính sẽ phải tự học hoàn toàn Có thể nói, học không giám sát thì giá trị đầu

ra sẽ phụ thuộc vào thuật toán học không giám sát Ứng dụng lớn phô biến của học không giảm sát là bài toán phân cụm

Trang 8

- Học bán giám sát: Các bài toàn khi có một số lượng lớn dữ liệu nhưng chỉ một phan trong ching được dán nhãn Những bài toán này nằm giữa phương thức học giám sát và học không giảm sat

- Học tăng cường: Các bài toán giúp cho hệ thống tự động xác định được hành

vi dựa trên hoàn cảnh đề đạt được lợi ích cao nhất Hiện tại học tăng cường chủ yếu được áp dụng vào lý thuyết trò chơi, các thuật toán cần xác định được nước đi tiếp theo đề đạt được điểm số cao nhất

Ví dụ điển hình cho phương pháp học tăng cường này là: AlphaGo gần đây nỗi tiếng với việc chơi cờ vây thắng con người

2.1.3 Bài toán phân lớp dữ liệu

Đề xây đựng được mô hình phân lớp và đánh giá hiệu quả của mô hình cần phải thực hiện quá trình sau đây:

- Bước 1: Chuan bi tap dir ligu huấn luyện và rút trích đặc trưng Công đoạn này được xem là công đoạn quan trọng trong các bài toán về ML vì đây là input cho việc học đẻ tìm ra mô hình của bài toán Chúng ta phải biết cần chọn ra những đặc trưng tốt của dữ liệu, lược bỏ những đặc trưng không tốt của dữ liệu, gây nhiễu Ước lượng số chiều của dữ liệu bao nhiêu là tốt hay nói cách khác là chọn bao nhiêu feature Nếu số nhiều quá lớn gây khó khăn cho việc tính toán thì phải giảm số chiều của dữ liệu nhưng vẫn giữ được độ chính xác của dữ liệu

Ở bước này chúng ta cũng chuẩn bị bộ dữ liệu đề test trên mô hình Thông thường sẽ sử dụng cross-validation (kiêm tra chéo) đề chia tập dataset thành hai phan, một phần phục vụ cho training vả phần còn lại phục vụ cho mục đích testing trên mô hinh Có hai cách thường sử dụng trong cross-validation la splitting va k-fold

- Bước 2: Xây dựng mô hình phân lớp Mục đích của mô hình huấn luyện là tìm ra hàm F(x) và thông qua hàm f tìm được đề chúng ta gán nhãn cho đữ liệu Bước này thường được gọi là học hay training

F(x)=y

Trong đó: x là các feature hay input đầu vào của đữ liệu

y là nhãn đán lớp hay output đầu ra

Thông thường để xây dựng mô hình phân lớp cho bài toán này chúng ta sử dụng các thuật toán học giám sát như KNN, NN, SVM, Decision tree, Navie Bayers

- Bước 3: Kiếm tra đữ liệu với mô hình

Sau khi tìm được mô hình phân lớp ở bước hai, thì bước này chúng ta sẽ đưa

vào các dữ liệu mới đẻ kiểm tra trên mô hình phân lớp

- Bước 4: Đánh giá mô hình phân lớp và chọn ra mô hình tốt nhất Bước cuối cùng chúng ta sẽ đánh giá mô hình bằng cách đánh giá mức độ lỗi của dữ liệu testing và dữ liệu training thông qua mô hình tìm được Nếu không đạt được kết quả mong muốn của chúng ta thì phải thay đối các tham số của thuật toán học

đề tìm ra các mô hình tốt hơn và kiểm tra, đánh giá lại mô hình phân lớp và cuối cùng

chọn ra mô hình phân lớp tốt nhất cho bài toán của chúng ta

Trang 9

2.2 Ngôn ngữ lập trình Python

Python (phát âm tiếng Anh là một ngôn ngữ lập trình bậc cao cho các mục đích lập trình đa năng, do Guido van Rossum tạo ra và lần đầu ra mắt vào năm 1991, Python được thiết kế với ưu điểm mạnh là dễ đọc, dễ học và dễ nhớ Python la ng6n ngữ có hình thức rất sáng sủa, cầu trúc rõ ràng, thuận tiện cho người mới học lập trình

và là ngôn ngữ lập trình đễ học; được dùng rộng rãi trong phát triển trí tuệ nhân tạo Cấu trúc của Python còn cho phép người sử dụng viết mã lệnh với số lần gõ phím tối thiểu

Python hoàn toàn tạo kiểu động và dùng cơ chế cấp phát bộ nhớ tự động: do vậy nó tương tự như Perl, Ruby, Scheme, Smalltalk, và Tel Python được phát triển trong một dự án mã mở, do tổ chức phi lợi nhuận Python Software Foundation quản

Python là một ngôn ngữ lập trình đa mẫu hình, lập trình hướng đối tượng và lập trình cấu trúc được hỗ trợ hoàn toàn, và nhiều tính năng của nó cũng hỗ trợ lập trình hàm và lập trình hướng khía cạnh (bao gồm siêu lập trình và siêu đối tượng (phương thức thần kỳ)) Các mẫu hình khác cũng được hỗ trợ thông qua các phần mở rộng, bao gồm thiết kế theo hợp đồng và lập trình logic

Python su dung kiéu động và một dạng kết hợp giữa đếm tham chiếu và bộ dọn rác kiểm tra theo chu kì để quản lí bộ nhớ Nó cũng có tính năng phân giải tên động (liên kết muộn), cho phép liên kết các tên biến và phương thức trong quá trình thực thi chương trình

Python là một ngôn ngữ đễ đọc, dễ hiểu Định đạng của nó rất gọn gàng về mặt trực quan, và nó thường sử dụng các từ khoá tiếng Anh trong khi các ngôn ngữ khác lại sử dụng các dấu câu Khác với nhiều ngôn ngữ khác, nó không sử dụng các đấu ngoặc nhọn đề giới hạn các khối lệnh, và dấu chấm phay cuối câu lệnh rất ít khi được

sử dụng đù không bị cấm Nó có ít ngoại lệ cú pháp và trường hợp đặc biệt hon C va Pascal

Một số câu lệnh trong Python gồm có:

« - Câu lệnh gán, sử dụng một dấu bằng =,

« - Câu lệnh if: thực thi một khối lệnh nếu thoả mãn điều kiện, sử dụng củng

voi else va elif (viết tắt của else-if)

« - Câu lệnh for: lặp qua một đối tượng lặp được, gán mỗi phần tử và một biến cục bộ đề sử dụng trong khối lệnh của vòng lặp

« _ Câu lệnh while: thực thi một khối lệnh chừng nào điều kiện còn đúng

« - Câu lệnh try: cho phép bắt ngoại lệ được nâng lên (raise) trong khối lệnh và dùng về except để xử lý; câu lệnh cũng đảm bảo răng phần mã dọn dẹp trong khối finally sẽ được chạy dù có lỗi hay không

« - Câu lệnh raise: duoc dung dé nâng một ngoại lệ hoặc nâng lại một ngoại lệ

đã được bắt từ trước

Trang 10

« - Câu lệnh class: thực thi một khối lệnh và gan không gian tên cục bộ của nó vào một lớp, đề dùng trong lập trình hướng đối tượng

« - Câu lệnh def: định nghĩa một hàm hoặc phương thức

¢ Câu lệnh with: bao bọc một khối lệnh bằng một bộ quản lí ngữ cảnh (context manager) (ví dụ như khoá luỗng lại trước khi chạy mã rồi mở khoá, hoặc mở một tệp rồi đóng tệp lại), cho phép các hành vi kiểu RAII (sự đạt được tài nguyên là sự khởi tạo) và thay thể cho các câu lệnh try/finally

thong thay.)

« Cau lénh break: thoát ra khỏi vòng lặp

« _ Câu lệnh continue: bỏ qua lần lặp này và tiếp tục với mục kế tiếp

« - Câu lệnh del: loại bỏ một biến, tức là tham chiếu từ tên đến giá trị sẽ bị xoá

và cô gắng sử dụng biến đó sẽ gây lỗi Một biến đã bị xoá có thê được gán lại

« - Câu lệnh pass: đóng vai trò như là một dạng NOP Câu lệnh này được dùng

để tạo các khối lệnh rong

« C4u lénh assert: duoc ding trong khi g& 16i dé kiém tra điều kiện nên đúng

« Cau lệnh yield: trả lại giá trị từ một hàm bộ sinh; bản thân yield cũng la một toán tử Dạng này được đùng để triển khai các đồng thường trình

« _ Câu lệnh return: trả lại một giá trị từ một hàm hay phương thức

« Cau lệnh Import: được dùng dé nhập các mô đun chứa các hàm vả biến được sử dụng trong chương trình hiện tại

Câu lệnh gán (=) hoạt động bằng cách liên kết một tên đưới dạng một tham chiếu với một đối tượng được cấp phát động riêng lẻ Các biến có thể được dùng lại bất cứ lúc nào với bất cứ đối tượng nào Trong Python, một tên biến chỉ giữ tham chiếu một cách chung chung và không có kiểu dữ liệu cô định đi kèm Tuy nhiên, tại một thời điểm nhất định, một biến sẽ tham chiếu đến một vài đối tượng có kiểu Nó được gọi là kiêu động, ngược lại với các ngôn ngữ lập trình kiểu tĩnh với mỗi biến chỉ

có thê chứa gia tri cua mot kiểu nhất định

2.2 Ứng dung cua Python trong hoc may

2.2.2 Xây dựng và huấn luyện mô hình

- Python có nhiều thư viện hỗ trợ xây dựng và huấn luyện mô hình học máy như Scikit-learn, Keras va TensorFlow Scikit-learn cung cap một loạt các thuật toán học máy tiêu chuẩn như hồi quy tuyến tính, cây quyết định, máy vector hỗ trợ và gom

Trang 11

cụm Keras và TensorFlow cho phép bạn xây đựng và huấn luyện các mô hình học sâu như mạng nơ-ron và mạng nơ-ron tích chập (CNN)

2.2.3 Đánh giá va tinh chính mô hình

- Python cung cấp các công cu dé đánh giá hiệu suất của mô hình học máy Scikit- learn cung cấp các phương pháp đánh giá như chia dữ liệu thành tập huấn luyện và tập kiểm tra, cross-validation, tính toán các độ đo như độ chính xác, độ phu va do FI Ngoài ra, Scikit-learn cũng cung cấp các công cụ đề tính chỉnh tham số mô hình đề cải

thiện hiệu suất

2.2.4 Triển khai mô hình

- Python cho phép triển khai mô hình học máy vào các ứng dụng thực tế Bạn có thể tích hợp mô hình vào hệ thống hiện có bằng cách sử dụng các thư viện như Flask hoặc Diango để xây dựng các API web Bạn cũng có thể xây dựng giao diện người dùng cho mô hình bằng các thư viện như PyQt hoặc Tkinter Ngoài ra, Python cũng hỗ trợ triển khai mô hình trên nền tảng web bằng cách sử dụng các khung công việc như Flask hoặc DJango

2.2.5 Khám phá dữ liệu và trực quan hóa

- Python có các thư viện như Matplotlib và Seaborn đề khám phá và trực quan hóa đữ liệu Bạn có thể tạo biêu đồ đường, biểu đồ cột, biêu đồ phân tán vả biểu đồ hình quạt

đề hiền thị đữ liệu một cách trực quan và dễ hiểu Điều này giúp bạn hiểu rõ hơn về đữ liệu và hỗ trợ trong việc đưa ra quyết định về tiền xử lý dữ liệu và lựa chọn mô hình 2.2.6 Xử Ï) ngôn ngữ tự nhiên (NLP)

- Python có các thư viện mạnh mẽ như NLTK (Natural Language Toolkit) và SpaCy

để xử lý và phân tích ngôn ngữ tự nhiên Bạn có thê sử dụng Python đề thực hiện các tác vụ như tách từ, chuẩn hóa văn bản, phânloại từ, trích xuất đặc trưng từ văn bản vả

xây dựng mô hình học máy để phân loại văn bản, phân tích ý kiến, dịch thuật và nhiều

ứng dụng khác trong lĩnh vực NLP

2.3 Khám phá dữ liệu

2.3.1 Giới thiện bộ dữ liệu

Bộ dữ liệu “NASA Exoplanet” được tác giả “Aditya Mishra ML” đăng lên KAGGLE - một nền tảng chia sẻ đữ liệu và cộng đồng trực tuyến gồm các nhà khoa học dữ liệu và người thực hành máy học

Nguồn: https://www.kagsle.com/datasets/adityamishraml/nasaexoplanets

Trang 12

Bộ dữ liệu NASA Exoplanet (tạm dịch: Kho lưu trữ ngoại hành tính của NASA) là cơ sở dữ liệu chứa thông tin vé tat cả các ngoại hành tính đã biết cho đến tháng 2 năm 2023 Những hành tính này được phát hiện bởi nhiều sứ mệnh không gian khác nhau, các đài quan sát trên mặt đất và một số phương pháp khác của NASA Bộ

dữ liệu bao gồm các thông tin như tên, khối lượng, bán kính, khoảng cách từ ngôi sao chủ của nó, chu kỳ quỹ đạo và các đặc điểm vật lý khác Bộ dữ liệu cũng bao gồm thông tin về ngôi sao chủ, chắng hạn như tên, khối lượng và bán kính của nó Kho lưu trữ được cập nhật thường xuyên khi ngoại hành tính mới được phát hiện và đây là nguồn tài nguyên quý giá cho các nhà thiên văn học nghiên cứu tính chất và sự phân

bố của các ngoại hành tinh trong thiên hà của chúng ta

2.3.2 Phân tích bộ dữ liệu

2.3.2.1 Khải quải trường thông tin:

Bộ dữ liệu có 5250 dữ liệu, gồm 13 trường chính, bao gồm:

® - Name (tên): tên của ngoại hành tĩnh

¢ Distance (khoang cách): cho biết khoảng cách từ hành tỉnh đó cho đến Trái Đất một cách gần chính xác, tính bằng đơn vị năm ánh sáng

¢ Stellar_Magnitude (độ sáng biểu kiến): cho biết độ sáng của một thiên thê Giá trị càng nhỏ thì thiên thể càng sáng

Vị dụ: mặt trời có độ sáng biểu kiến là -26,73 Ngôi sao mờ nhất có thể thấy bằng mắt thường có độ sáng 6

e© Planet Type (phân loại): đây là trường dữ liệu mà chúng ta cần quan tâm Nó cho biết phân lớp của một hành tính mà chúng ta đang cần tìm

s® Mass wrt: hành tính được sử đụng làm thước đo về khối lượng, ở đây

gồm hai đại diện chính là Trái Đất và sao Mộc

¢ Radius_multiplier (ti 1é ban kinh): cho biết tỉ lệ bán kính của hành tỉnh này so với hành tính được sử dụng làm thước đo dưới đây

® Radius wrt: hành tính được sử dụng làm thước đo về bán kính, gồm Trái Đất và sao Mộc

® Orbital radius (bán kính quỹ đạo): khoảng cách của hành tinh này tới ngôi sao chủ của nó, tinh bang don vi thién van (AU)

¢ Orbital_period (chu ky quy dao): thoi gian dé hanh tinh nay quay mot vòng quanh sao chủ, tính bằng năm

¢ Eccentricity (d6 léch tam): cho biét hinh dang quy dao cua hanh tinh này Độ lệch tâm cảng về 0, quỹ đạo cảng giống với đường tròn

¢ Detection method (phương pháp phat hién): cach ma NASA tim ra

hành tỉnh này, phổ biến nhất là phương pháp Quá cảnh

Trang 13

- Phân loại hành tỉnh:

+ Hành tính khí không lồ: là các hành tính có khối lượng lớn và hầu như hoàn

toàn bao phủ bởi khí mỏng Chúng không có bề mặt rắn đề đứng lên và không thê ở trong điều kiện sống cho con người

Ví dụ: Sao Hải Vương (Neptune) và Sao Thổ (Jupiter) là ví dụ điển hình về

các hành tỉnh khí không lồ trong hệ Mặt Trời

+ Tương tụ sao Hải Vương: là các hành tỉnh này có tính chất và cấu trúc tương

tự sao Hải Vương (Neptune) Chúng thường là các hành tinh khí không lồ với một lớp

mỏng của khí, và không thích hợp cho sự sống con người

Ví dụ: Các ngoại hành tinh tương tự sao Hải Vương bao gồm các hành tỉnh ngoại hành của hệ Mặt Trời như Uranus, Kepler-22b va GJ 436b

+ Tương tụ trái đất: là các hành tỉnh ngoại hành có nhiều đặc điểm tương tự với Trái Đất, bao gồm một bề mặt rắn và điều kiện tiềm năng cho sự sống con ngwoi, nhưng có thể tồn tại một số khác biệt như tỷ lệ khí quyên và khả năng nước tỒn tại

Vi du: Kepler-186f va Kepler-442b là ví dụ về các hành tính tương tự Trái Đất

ở trong vùng có tiềm năng cho nước lỏng và sự sống

+ Siêu trái đất: là các siêu Trái Đất là các hành tỉnh ngoại hành có khối lượng

và kích thước lớn hơn so với Trái Đất Chúng có thể có điều kiện tiềm năng cho sự sống, nhưng trọng lực trên bề mặt của họ thường mạnh hơn, và khả năng tồn tại nước lỏng có thể bị ảnh hưởng

Ví dụ: Kepler-20e và Kepler-20f là các ví dụ về siêu Trái Đất có khối lượng lớn hơn và kích thước tương đối gần với Trái Đất

2.3.2.2 Xử lý và phân tích chỉ tiết

Đề hiểu rõ hơn về bộ đữ liệu này, chúng ta hãy cùng phân tích cụ thể những trường dữ liệu đáng lưu ý cũng như xử lý những dữ liệu không hợp lệ

a Khoảng cách Khoảng cách của các ngoại hành tỉnh không phải là một đữ liệu cần thiết trong việc phân loại chúng, nhưng là một dữ liệu quan trọng trong việc tim hiệu về bộ dữ liệu NASA Exoplanet nói chung

© Trước tiên, ta xét giá trị nhỏ nhất, lớn nhất và trung bình:

Giá trị lớn nhất 27727 Giá trị nhỏ nhất 4 Giá trị trung bình 2167.1687

Trang 15

o_ Các giá trị “Chưa biết” chỉ chiếm 0,32%, đo đó để xử lý những đữ liệu

này ta sẽ thay thế chúng bằng giá trị trung bình của trường đữ liệu

b Độ sáng biểu kiến:

Độ sáng biểu kiến cho biết cường độ sáng của một thiên thê tinh theo logarit Giống như khoảng cách, đây không phải là một giá trị quan trọng để phân loại các hành tĩnh

e Tinh gia tri nh nhất, lớn nhất, trung bình, chia khoảng và tính độ rộng mỗi

khoảng:

GTLN 44.61 GTNN 0.872 Trung binh 12.683738

Sé khoang 10

Độ rộng từng 4.8597778 khoảng

Trang 16

Biểu đồ tần suất độ sáng biểu kiến

Cac khoang

=> Nhận xét: Dữ liệu trong khoảng [3.3 - 8 1ó], [8 L6-13.02], [13.02-17.88] chiém

tỉ lệ lớn với tông tỉ lệ là 96,29%,

c Năm phát hiện Trước tiên lập bảng tân suât phát hiện của các năm:

Ngày đăng: 18/07/2024, 16:20

HÌNH ẢNH LIÊN QUAN

Bảng  tần  suất  các  khoảng - bài tập lớn học máy phân loại các thiên thể bên ngoài hệ mặt trời bằng kỹ thuật knn
ng tần suất các khoảng (Trang 19)

TỪ KHÓA LIÊN QUAN

w