- Đóng góp cho khoa học thiên văn: Khi chúng ta có khả năng phân loại các thiên thể bên ngoài hệ mặt trời một cách chính xác, điều nảy có thé giúp cho các nhà thiên văn tìm hiểu về sự ph
Trang 1
TRƯỜNG ĐẠI HỌC ĐẠI NAM
KHOA CÔNG NGHỆ THÔNG TIN
PHAN LOAI CAC THIEN THE BEN NGOAI
HE MAT TROI BANG KY THUAT KNN
Sinh viên thực hiện: Nhóm 1 Giảng viên hướng dẫn:
Trang 2
TRƯỜNG ĐẠI HỌC ĐẠI NAM
KHOA CONG NGHE THONG TIN
HE MAT TROI BANG KY THUAT KNN
CHUYEN NGANH: CONG NGHE THONG TIN
Trang 3Thành viên nhóm
Trang 4
MỞ ĐẦU
Trong công cuộc Cách mạng công nghiệp 4.0, có vô số những thành tựu công nghệ thông tin ra đời, đem lại vô số lợi ích cho con người Trong số đó chúng ta không thê bỏ qua AI (Artiicial Intelligent) - Trí tuệ nhân tạo AI đã, đang và sẽ còn hiện hữu
ở bất kỳ đâu trong cuộc sống của con người, giúp con người giải quyết nhiều van dé
của cuộc sống
Đề có được một hệ thống máy tính thông minh, tiên tiến như vậy, ngành Học May (Machine Learning) nổi lên như một lĩnh vực của Trí tuệ nhân tạo, nhằm giúp con người đưa ra những đự đoán, quyết định chính xác nhất mà không qua lập trình chỉ tiết về dự đoán hoặc quyết định đó Một trong các kỹ thuật của học máy chính là học có giám sát Ứng dụng của học có giám sát là giúp con người phân loại hoặc dự đoán một nhãn cho một đối tượng đầu vào, việc có thê thay ở nhiều lĩnh vực như giao thông, chứng khoản điện tử,
Đề tìm hiểu về kỹ thuật học có giám sát, nhóm em đã chọn “Phân loại các thiên thê bên ngoài hệ mặt trời” làm đề tài môn Học máy mà chúng em sẽ trình bảy sau đây
Trang 5CHƯƠNG 1: KHÁI QUÁT ĐÈ TÀI 1.1 Lý do chọn đề tài
Nhóm em chọn đề tài "Phân loại các thiên thê bên ngoài hệ mặt trời" trong môn Học máy vì có nhiều lý do quan trọng, logic và thú vị Dưới đây là các lý do quan trọng cho việc chọn đề tài này và giải thích tại sao nó có thể là một dự án hấp dẫn trong lĩnh vực Học máy :
- Khám phá vũ trụ vô tận: Vũ trụ là một kho tàng vô tận của các thiên thé, bao gồm các hành tinh, sao, thiên thạch, và nhiều thứ khác Hiểu về sự đa dạng và phân loại của chúng có thể giúp chúng ta hiểu sâu hơn về nguồn gốc và tiến hóa của vũ trụ Điều này có thê đánh đấu sự khám phá mới mẻ trong ngành khoa học thiên văn và việc ứng dụng Học máy có thể giúp chúng ta hiểu về sự phân loại này một cách nhanh chóng và chính xác
- Dữ liệu không lồ: Các thiên thể nằm ở ngoai hệ mặt trời có số lượng lớn và đa dạng Hiện nay, các thiên thể này đang được quan sát và ghi nhận thông tin rất nhiều thông qua các kính viễn vọng và các thiết bị quan sát từ xa khác Dữ liệu này đòi hỏi một hệ thống mạnh mẽ để phân loại và nắm bắt thông tin quan trọng Học máy có thể giúp xử lý lượng dữ liệu lớn này một cách hiệu quả
- Đóng góp cho khoa học thiên văn: Khi chúng ta có khả năng phân loại các thiên thể bên ngoài hệ mặt trời một cách chính xác, điều nảy có thé giúp cho các nhà thiên văn tìm hiểu về sự phân bồ và tính chất của các thiên thể này Nó có thế dẫn đến những phát hiện mới về tiểu hành tỉnh, sao bang, hanh tinh lùn và các hệ thống thiên
hà khác Các kết quả này có thể có tầm quan trọng đối với cả khoa học thiên văn và những người đam mê về vũ trụ
- Ứng dụng thực tế: Ngoài khoa học thiên văn, việc phân loại các thiên thể còn
có thể ứng dụng trong các lĩnh vực khác như quản lý nguy cơ đối với các hành tỉnh tiềm năng va chạm với Trái Đất, khai thác tài nguyên từ các thiên thê bên ngoài hệ mặt trời, và nhiều ứng dụng công nghiệp và công nghệ khác
- Phát triển kỹ năng trong Học máy: Dự án này có thể cung cấp cơ hội cho nhóm em phát triển các kỹ năng quan trọng trong lĩnh vực Học máy như xử lý dữ liệu
lớn, xây dựng mô hình, kiếm định - đánh giá và toi ưu hóa hiệu suất của các thuật
toán Nó cũng có thể giúp nhóm em rèn luyện khả năng làm việc trong môi trường nghiên cứu và làm việc nhóm
Việc phân loại các thiên thể bên ngoài hệ mặt trời là một đề tài thú vị trong lĩnh vực Học máy và còn có tiểm năng đối với nhiều lĩnh vực khác nhau Nó không chỉ đem lại hiểu biết sâu hơn về vũ trụ mà còn có thế có nhiều ứng dụng vào thực tế
1.2 Mục tiêu nghiên cứu
Mục tiêu nghiên cửu của đề tài "Phân loại các thiên thế bên ngoài hệ mặt trời" trong môn Học máy là phát triển một hệ thông Học máy có khả năng phân loại và đánh giá các thiên thé ngoài hệ mặt trời dựa trên dữ liệu quan sát, nhằm hiểu rõ hơn về sự đa dạng và tính chất của chúng
Trang 6143 Đối tượng và phạm vi nghiên cứu
- Đối tượng nghiên cứu của đề tài: là các thiên thể nằm ngoài hệ mặt trời, bao gồm sao, hành tỉnh, tiêu hành tỉnh, sao băng, và các đối tượng thiên văn khác Đối tượng này bao gồm cả các đặc điểm và tính chất của các thiên thê này
- Phạm vi nghiên cứu của đề tài: bao gồm việc thu thập, tiền xử lý, phân tích
và phân loại đữ liệu quan sát của các thiên thể ngoài hệ mặt trời
1.4 Phương pháp nghiên cứu
- Nghiên cứu trường hợp: Phương pháp này tập trung vào việc tìm hiểu sâu về một trường hợp cụ thê để đưa ra những kết luận phù hợp
- Phân tích dữ liệu thống kê: Phương pháp này tập trung vào việc thu thập và phân tích đữ liệu bằng các phương pháp thông kê đề đưa ra những kết luận và khẳng định
- Thí nghiệm: Phương pháp này tập trung vào việc tạo ra một thí nghiệm dé kiểm tra các giả định nghiên cứu và thu thập đữ liệu
Trang 7CHUONG 2: CO SO LY THUYET 2.1 Ly thuyết về Học Máy
2.1.1 Định nghĩa
- Là một lĩnh vực của trí tuệ nhân tạo liên qua đến việc nghiên cứu và xây dựng các kĩ thuật cho phép các hệ thống học tự động từ dữ liệu dé giải quyết các vấn đề cụ thê Ví đụ các máy có thê học cách phân loại thư điện tử có phải thư rác hay không và
tự động sắp xếp vào các thư mục tương ứng
- Machine Learning có liên quan đến thông kê vì cả hai lĩnh vực đều nghiên cứu việc phân tích đữ liệu, nhưng khác với thống kê, học máy tập trung vào sự phức tạp của các giải thuật trong việc thực thi tính toán
- Machine Learning có hiện nay được áp dụng rộng rãi bao gồm máy truy tìm
dữ liệu, máy phân tích thị trường chứng khoán, nhận dạng tiếng nói và chữ viết
2.1.2 Một số phương thức của Machine Learning
- Học có giám sát: Thuật toán dự đoán đầu ra của một đữ liệu mới (new input) dựa trên các cặp (input, outeome) đã biết từ trước Cặp đữ liệu này còn được gọi là (data, label), tức (đữ liệu, nhãn) Supervised learning là nhóm phổ biến nhất trong các thuat toan Machine Learning
Học có giám sát được chia thành hai loại chính:
- Classification (phân lớp): Là quá trình phân lớp một đối tượng dữ liệu vào một hay nhiều lớp đã cho trước nhờ một mô hình phân lớp (model) Mô hình này được xây dựng dựa trên một tập dữ liệu được xây dựng trước đó có gán nhãn (hay còn gọi là tập huấn luyện) Quá trình phân lớp là quá trình gán nhãn cho đối tượng dữ liệu
Có nhiều bài toán phân lớp như phân lớp nhị phân, phân lớp đa lớp, phân lớp đa trị Trong đó phân lớp nhị phân là một loại phân lớp đặc biệt của phân lớp đa lớp Ứng dụng của bài toán phân lớp được sử dụng rất nhiều và rộng rãi như nhận dạng khuôn mặt, nhận dạng chữ viết, nhận dạng giọng nói, phát hiện thư rác
- Regression (hồi quy): Nếu không được chia thành các nhóm mà là một giá trị thực cụ thể Đầu ra của một điểm dữ liệu sẽ bằng chính đầu ra của điểm đữ liệu đã
biết
- Học không giám sát: là một kĩ thuật của máy học nhằm tìm ra một mô hình hay cau tric bi 4n bơi tập dữ liệu không được gán nhãn cho trước học không giám sát khác với học có giám sát là không thê xác định trước oufput từ tập đữ liệu huấn luyện duoc Tuy thuộc vào tập huấn luyện kết quả output sẽ khác nhau Trái ngược với học
có giám sát, tập đữ liệu huấn luyện của học không giám sát không do con người gán nhãn, máy tính sẽ phải tự học hoàn toàn Có thể nói, học không giám sát thì giá trị đầu
ra sẽ phụ thuộc vào thuật toán học không giám sát Ứng dụng lớn phô biến của học không giảm sát là bài toán phân cụm
Trang 8- Học bán giám sát: Các bài toàn khi có một số lượng lớn dữ liệu nhưng chỉ một phan trong ching được dán nhãn Những bài toán này nằm giữa phương thức học giám sát và học không giảm sat
- Học tăng cường: Các bài toán giúp cho hệ thống tự động xác định được hành
vi dựa trên hoàn cảnh đề đạt được lợi ích cao nhất Hiện tại học tăng cường chủ yếu được áp dụng vào lý thuyết trò chơi, các thuật toán cần xác định được nước đi tiếp theo đề đạt được điểm số cao nhất
Ví dụ điển hình cho phương pháp học tăng cường này là: AlphaGo gần đây nỗi tiếng với việc chơi cờ vây thắng con người
2.1.3 Bài toán phân lớp dữ liệu
Đề xây đựng được mô hình phân lớp và đánh giá hiệu quả của mô hình cần phải thực hiện quá trình sau đây:
- Bước 1: Chuan bi tap dir ligu huấn luyện và rút trích đặc trưng Công đoạn này được xem là công đoạn quan trọng trong các bài toán về ML vì đây là input cho việc học đẻ tìm ra mô hình của bài toán Chúng ta phải biết cần chọn ra những đặc trưng tốt của dữ liệu, lược bỏ những đặc trưng không tốt của dữ liệu, gây nhiễu Ước lượng số chiều của dữ liệu bao nhiêu là tốt hay nói cách khác là chọn bao nhiêu feature Nếu số nhiều quá lớn gây khó khăn cho việc tính toán thì phải giảm số chiều của dữ liệu nhưng vẫn giữ được độ chính xác của dữ liệu
Ở bước này chúng ta cũng chuẩn bị bộ dữ liệu đề test trên mô hình Thông thường sẽ sử dụng cross-validation (kiêm tra chéo) đề chia tập dataset thành hai phan, một phần phục vụ cho training vả phần còn lại phục vụ cho mục đích testing trên mô hinh Có hai cách thường sử dụng trong cross-validation la splitting va k-fold
- Bước 2: Xây dựng mô hình phân lớp Mục đích của mô hình huấn luyện là tìm ra hàm F(x) và thông qua hàm f tìm được đề chúng ta gán nhãn cho đữ liệu Bước này thường được gọi là học hay training
F(x)=y
Trong đó: x là các feature hay input đầu vào của đữ liệu
y là nhãn đán lớp hay output đầu ra
Thông thường để xây dựng mô hình phân lớp cho bài toán này chúng ta sử dụng các thuật toán học giám sát như KNN, NN, SVM, Decision tree, Navie Bayers
- Bước 3: Kiếm tra đữ liệu với mô hình
Sau khi tìm được mô hình phân lớp ở bước hai, thì bước này chúng ta sẽ đưa
vào các dữ liệu mới đẻ kiểm tra trên mô hình phân lớp
- Bước 4: Đánh giá mô hình phân lớp và chọn ra mô hình tốt nhất Bước cuối cùng chúng ta sẽ đánh giá mô hình bằng cách đánh giá mức độ lỗi của dữ liệu testing và dữ liệu training thông qua mô hình tìm được Nếu không đạt được kết quả mong muốn của chúng ta thì phải thay đối các tham số của thuật toán học
đề tìm ra các mô hình tốt hơn và kiểm tra, đánh giá lại mô hình phân lớp và cuối cùng
chọn ra mô hình phân lớp tốt nhất cho bài toán của chúng ta
Trang 92.2 Ngôn ngữ lập trình Python
Python (phát âm tiếng Anh là một ngôn ngữ lập trình bậc cao cho các mục đích lập trình đa năng, do Guido van Rossum tạo ra và lần đầu ra mắt vào năm 1991, Python được thiết kế với ưu điểm mạnh là dễ đọc, dễ học và dễ nhớ Python la ng6n ngữ có hình thức rất sáng sủa, cầu trúc rõ ràng, thuận tiện cho người mới học lập trình
và là ngôn ngữ lập trình đễ học; được dùng rộng rãi trong phát triển trí tuệ nhân tạo Cấu trúc của Python còn cho phép người sử dụng viết mã lệnh với số lần gõ phím tối thiểu
Python hoàn toàn tạo kiểu động và dùng cơ chế cấp phát bộ nhớ tự động: do vậy nó tương tự như Perl, Ruby, Scheme, Smalltalk, và Tel Python được phát triển trong một dự án mã mở, do tổ chức phi lợi nhuận Python Software Foundation quản
lý
Python là một ngôn ngữ lập trình đa mẫu hình, lập trình hướng đối tượng và lập trình cấu trúc được hỗ trợ hoàn toàn, và nhiều tính năng của nó cũng hỗ trợ lập trình hàm và lập trình hướng khía cạnh (bao gồm siêu lập trình và siêu đối tượng (phương thức thần kỳ)) Các mẫu hình khác cũng được hỗ trợ thông qua các phần mở rộng, bao gồm thiết kế theo hợp đồng và lập trình logic
Python su dung kiéu động và một dạng kết hợp giữa đếm tham chiếu và bộ dọn rác kiểm tra theo chu kì để quản lí bộ nhớ Nó cũng có tính năng phân giải tên động (liên kết muộn), cho phép liên kết các tên biến và phương thức trong quá trình thực thi chương trình
Python là một ngôn ngữ đễ đọc, dễ hiểu Định đạng của nó rất gọn gàng về mặt trực quan, và nó thường sử dụng các từ khoá tiếng Anh trong khi các ngôn ngữ khác lại sử dụng các dấu câu Khác với nhiều ngôn ngữ khác, nó không sử dụng các đấu ngoặc nhọn đề giới hạn các khối lệnh, và dấu chấm phay cuối câu lệnh rất ít khi được
sử dụng đù không bị cấm Nó có ít ngoại lệ cú pháp và trường hợp đặc biệt hon C va Pascal
Một số câu lệnh trong Python gồm có:
« - Câu lệnh gán, sử dụng một dấu bằng =,
« - Câu lệnh if: thực thi một khối lệnh nếu thoả mãn điều kiện, sử dụng củng
voi else va elif (viết tắt của else-if)
« - Câu lệnh for: lặp qua một đối tượng lặp được, gán mỗi phần tử và một biến cục bộ đề sử dụng trong khối lệnh của vòng lặp
« _ Câu lệnh while: thực thi một khối lệnh chừng nào điều kiện còn đúng
« - Câu lệnh try: cho phép bắt ngoại lệ được nâng lên (raise) trong khối lệnh và dùng về except để xử lý; câu lệnh cũng đảm bảo răng phần mã dọn dẹp trong khối finally sẽ được chạy dù có lỗi hay không
« - Câu lệnh raise: duoc dung dé nâng một ngoại lệ hoặc nâng lại một ngoại lệ
đã được bắt từ trước
Trang 10« - Câu lệnh class: thực thi một khối lệnh và gan không gian tên cục bộ của nó vào một lớp, đề dùng trong lập trình hướng đối tượng
« - Câu lệnh def: định nghĩa một hàm hoặc phương thức
¢ Câu lệnh with: bao bọc một khối lệnh bằng một bộ quản lí ngữ cảnh (context manager) (ví dụ như khoá luỗng lại trước khi chạy mã rồi mở khoá, hoặc mở một tệp rồi đóng tệp lại), cho phép các hành vi kiểu RAII (sự đạt được tài nguyên là sự khởi tạo) và thay thể cho các câu lệnh try/finally
thong thay.)
« Cau lénh break: thoát ra khỏi vòng lặp
« _ Câu lệnh continue: bỏ qua lần lặp này và tiếp tục với mục kế tiếp
« - Câu lệnh del: loại bỏ một biến, tức là tham chiếu từ tên đến giá trị sẽ bị xoá
và cô gắng sử dụng biến đó sẽ gây lỗi Một biến đã bị xoá có thê được gán lại
« - Câu lệnh pass: đóng vai trò như là một dạng NOP Câu lệnh này được dùng
để tạo các khối lệnh rong
« C4u lénh assert: duoc ding trong khi g& 16i dé kiém tra điều kiện nên đúng
« Cau lệnh yield: trả lại giá trị từ một hàm bộ sinh; bản thân yield cũng la một toán tử Dạng này được đùng để triển khai các đồng thường trình
« _ Câu lệnh return: trả lại một giá trị từ một hàm hay phương thức
« Cau lệnh Import: được dùng dé nhập các mô đun chứa các hàm vả biến được sử dụng trong chương trình hiện tại
Câu lệnh gán (=) hoạt động bằng cách liên kết một tên đưới dạng một tham chiếu với một đối tượng được cấp phát động riêng lẻ Các biến có thể được dùng lại bất cứ lúc nào với bất cứ đối tượng nào Trong Python, một tên biến chỉ giữ tham chiếu một cách chung chung và không có kiểu dữ liệu cô định đi kèm Tuy nhiên, tại một thời điểm nhất định, một biến sẽ tham chiếu đến một vài đối tượng có kiểu Nó được gọi là kiêu động, ngược lại với các ngôn ngữ lập trình kiểu tĩnh với mỗi biến chỉ
có thê chứa gia tri cua mot kiểu nhất định
2.2 Ứng dung cua Python trong hoc may
2.2.2 Xây dựng và huấn luyện mô hình
- Python có nhiều thư viện hỗ trợ xây dựng và huấn luyện mô hình học máy như Scikit-learn, Keras va TensorFlow Scikit-learn cung cap một loạt các thuật toán học máy tiêu chuẩn như hồi quy tuyến tính, cây quyết định, máy vector hỗ trợ và gom
Trang 11cụm Keras và TensorFlow cho phép bạn xây đựng và huấn luyện các mô hình học sâu như mạng nơ-ron và mạng nơ-ron tích chập (CNN)
2.2.3 Đánh giá va tinh chính mô hình
- Python cung cấp các công cu dé đánh giá hiệu suất của mô hình học máy Scikit- learn cung cấp các phương pháp đánh giá như chia dữ liệu thành tập huấn luyện và tập kiểm tra, cross-validation, tính toán các độ đo như độ chính xác, độ phu va do FI Ngoài ra, Scikit-learn cũng cung cấp các công cụ đề tính chỉnh tham số mô hình đề cải
thiện hiệu suất
2.2.4 Triển khai mô hình
- Python cho phép triển khai mô hình học máy vào các ứng dụng thực tế Bạn có thể tích hợp mô hình vào hệ thống hiện có bằng cách sử dụng các thư viện như Flask hoặc Diango để xây dựng các API web Bạn cũng có thể xây dựng giao diện người dùng cho mô hình bằng các thư viện như PyQt hoặc Tkinter Ngoài ra, Python cũng hỗ trợ triển khai mô hình trên nền tảng web bằng cách sử dụng các khung công việc như Flask hoặc DJango
2.2.5 Khám phá dữ liệu và trực quan hóa
- Python có các thư viện như Matplotlib và Seaborn đề khám phá và trực quan hóa đữ liệu Bạn có thể tạo biêu đồ đường, biểu đồ cột, biêu đồ phân tán vả biểu đồ hình quạt
đề hiền thị đữ liệu một cách trực quan và dễ hiểu Điều này giúp bạn hiểu rõ hơn về đữ liệu và hỗ trợ trong việc đưa ra quyết định về tiền xử lý dữ liệu và lựa chọn mô hình 2.2.6 Xử Ï) ngôn ngữ tự nhiên (NLP)
- Python có các thư viện mạnh mẽ như NLTK (Natural Language Toolkit) và SpaCy
để xử lý và phân tích ngôn ngữ tự nhiên Bạn có thê sử dụng Python đề thực hiện các tác vụ như tách từ, chuẩn hóa văn bản, phânloại từ, trích xuất đặc trưng từ văn bản vả
xây dựng mô hình học máy để phân loại văn bản, phân tích ý kiến, dịch thuật và nhiều
ứng dụng khác trong lĩnh vực NLP
2.3 Khám phá dữ liệu
2.3.1 Giới thiện bộ dữ liệu
Bộ dữ liệu “NASA Exoplanet” được tác giả “Aditya Mishra ML” đăng lên KAGGLE - một nền tảng chia sẻ đữ liệu và cộng đồng trực tuyến gồm các nhà khoa học dữ liệu và người thực hành máy học
Nguồn: https://www.kagsle.com/datasets/adityamishraml/nasaexoplanets
Trang 12Bộ dữ liệu NASA Exoplanet (tạm dịch: Kho lưu trữ ngoại hành tính của NASA) là cơ sở dữ liệu chứa thông tin vé tat cả các ngoại hành tính đã biết cho đến tháng 2 năm 2023 Những hành tính này được phát hiện bởi nhiều sứ mệnh không gian khác nhau, các đài quan sát trên mặt đất và một số phương pháp khác của NASA Bộ
dữ liệu bao gồm các thông tin như tên, khối lượng, bán kính, khoảng cách từ ngôi sao chủ của nó, chu kỳ quỹ đạo và các đặc điểm vật lý khác Bộ dữ liệu cũng bao gồm thông tin về ngôi sao chủ, chắng hạn như tên, khối lượng và bán kính của nó Kho lưu trữ được cập nhật thường xuyên khi ngoại hành tính mới được phát hiện và đây là nguồn tài nguyên quý giá cho các nhà thiên văn học nghiên cứu tính chất và sự phân
bố của các ngoại hành tinh trong thiên hà của chúng ta
2.3.2 Phân tích bộ dữ liệu
2.3.2.1 Khải quải trường thông tin:
Bộ dữ liệu có 5250 dữ liệu, gồm 13 trường chính, bao gồm:
® - Name (tên): tên của ngoại hành tĩnh
¢ Distance (khoang cách): cho biết khoảng cách từ hành tỉnh đó cho đến Trái Đất một cách gần chính xác, tính bằng đơn vị năm ánh sáng
¢ Stellar_Magnitude (độ sáng biểu kiến): cho biết độ sáng của một thiên thê Giá trị càng nhỏ thì thiên thể càng sáng
Vị dụ: mặt trời có độ sáng biểu kiến là -26,73 Ngôi sao mờ nhất có thể thấy bằng mắt thường có độ sáng 6
e© Planet Type (phân loại): đây là trường dữ liệu mà chúng ta cần quan tâm Nó cho biết phân lớp của một hành tính mà chúng ta đang cần tìm
s® Mass wrt: hành tính được sử đụng làm thước đo về khối lượng, ở đây
gồm hai đại diện chính là Trái Đất và sao Mộc
¢ Radius_multiplier (ti 1é ban kinh): cho biết tỉ lệ bán kính của hành tỉnh này so với hành tính được sử dụng làm thước đo dưới đây
® Radius wrt: hành tính được sử dụng làm thước đo về bán kính, gồm Trái Đất và sao Mộc
® Orbital radius (bán kính quỹ đạo): khoảng cách của hành tinh này tới ngôi sao chủ của nó, tinh bang don vi thién van (AU)
¢ Orbital_period (chu ky quy dao): thoi gian dé hanh tinh nay quay mot vòng quanh sao chủ, tính bằng năm
¢ Eccentricity (d6 léch tam): cho biét hinh dang quy dao cua hanh tinh này Độ lệch tâm cảng về 0, quỹ đạo cảng giống với đường tròn
¢ Detection method (phương pháp phat hién): cach ma NASA tim ra
hành tỉnh này, phổ biến nhất là phương pháp Quá cảnh
Trang 13- Phân loại hành tỉnh:
+ Hành tính khí không lồ: là các hành tính có khối lượng lớn và hầu như hoàn
toàn bao phủ bởi khí mỏng Chúng không có bề mặt rắn đề đứng lên và không thê ở trong điều kiện sống cho con người
Ví dụ: Sao Hải Vương (Neptune) và Sao Thổ (Jupiter) là ví dụ điển hình về
các hành tỉnh khí không lồ trong hệ Mặt Trời
+ Tương tụ sao Hải Vương: là các hành tỉnh này có tính chất và cấu trúc tương
tự sao Hải Vương (Neptune) Chúng thường là các hành tinh khí không lồ với một lớp
mỏng của khí, và không thích hợp cho sự sống con người
Ví dụ: Các ngoại hành tinh tương tự sao Hải Vương bao gồm các hành tỉnh ngoại hành của hệ Mặt Trời như Uranus, Kepler-22b va GJ 436b
+ Tương tụ trái đất: là các hành tỉnh ngoại hành có nhiều đặc điểm tương tự với Trái Đất, bao gồm một bề mặt rắn và điều kiện tiềm năng cho sự sống con ngwoi, nhưng có thể tồn tại một số khác biệt như tỷ lệ khí quyên và khả năng nước tỒn tại
Vi du: Kepler-186f va Kepler-442b là ví dụ về các hành tính tương tự Trái Đất
ở trong vùng có tiềm năng cho nước lỏng và sự sống
+ Siêu trái đất: là các siêu Trái Đất là các hành tỉnh ngoại hành có khối lượng
và kích thước lớn hơn so với Trái Đất Chúng có thể có điều kiện tiềm năng cho sự sống, nhưng trọng lực trên bề mặt của họ thường mạnh hơn, và khả năng tồn tại nước lỏng có thể bị ảnh hưởng
Ví dụ: Kepler-20e và Kepler-20f là các ví dụ về siêu Trái Đất có khối lượng lớn hơn và kích thước tương đối gần với Trái Đất
2.3.2.2 Xử lý và phân tích chỉ tiết
Đề hiểu rõ hơn về bộ đữ liệu này, chúng ta hãy cùng phân tích cụ thể những trường dữ liệu đáng lưu ý cũng như xử lý những dữ liệu không hợp lệ
a Khoảng cách Khoảng cách của các ngoại hành tỉnh không phải là một đữ liệu cần thiết trong việc phân loại chúng, nhưng là một dữ liệu quan trọng trong việc tim hiệu về bộ dữ liệu NASA Exoplanet nói chung
© Trước tiên, ta xét giá trị nhỏ nhất, lớn nhất và trung bình:
Giá trị lớn nhất 27727 Giá trị nhỏ nhất 4 Giá trị trung bình 2167.1687
Trang 15
o_ Các giá trị “Chưa biết” chỉ chiếm 0,32%, đo đó để xử lý những đữ liệu
này ta sẽ thay thế chúng bằng giá trị trung bình của trường đữ liệu
b Độ sáng biểu kiến:
Độ sáng biểu kiến cho biết cường độ sáng của một thiên thê tinh theo logarit Giống như khoảng cách, đây không phải là một giá trị quan trọng để phân loại các hành tĩnh
e Tinh gia tri nh nhất, lớn nhất, trung bình, chia khoảng và tính độ rộng mỗi
khoảng:
GTLN 44.61 GTNN 0.872 Trung binh 12.683738
Sé khoang 10
Độ rộng từng 4.8597778 khoảng
Trang 16
Biểu đồ tần suất độ sáng biểu kiến
Cac khoang
=> Nhận xét: Dữ liệu trong khoảng [3.3 - 8 1ó], [8 L6-13.02], [13.02-17.88] chiém
tỉ lệ lớn với tông tỉ lệ là 96,29%,
c Năm phát hiện Trước tiên lập bảng tân suât phát hiện của các năm: