Bước 1: Thu thập dữ liệu
Quá trình thu thập dữ liệu phụ thuộc và loại đề tài mà ta mong muốn xây dựng. Ví dụ ta muốn xây dựng mơ hình Học máy tính tốn giá nhà thì những dữ liệu
cần tìm là giá nhà, khu vực, đường xá, cơ sở hạ tầng,…
Bước 2: Chuẩn bị dữ liệu
Chuẩn bị dữ liệu là một trong những giai đoạn quan trọng nhất của Học máy, giúp xây dựng mơ hình Học máy chính xác. Chuẩn bị dữ liệu là quá trình làm sạch dữ liệu thơ, dữ liệu được thu thập từ nhiều nguồn thực và được chuyển thành một tập dữ liệu sạch và thống nhất. Dữ liệu thơ ban đầu cĩ một số đặc điểm như bị thiếu sĩt, khơng nhất quán, nhiễu,… vì vậy dữ liệu cần phải được xử lý trước khi Học máy.
Bước 3: Xây dựng mơ hình
Xây dựng mơ hình phù hợp với yêu cầu đề tài như hồi quy, phân loại, phân cụm.
Bước 4: Huấn luyện và kiểm tra mơ hình trên bộ dữ liệu
Để huấn luyện mơ hình, ban đầu ta chia mơ hình thành ba giai đoạn là : huấn luyện dữ liệu, kiểm chứng dữ liệu và kiểm tra dữ liệu. Để huấn luyện bộ phân lớp ta sử dụng tập hợp dữ liệu huấn luyện (train dataset), để tinh chỉnh các tham số của mơ hình ta sử dụng tập dữ liệu kiểm chứng (validation dataset), và sau đĩ kiểm tra hiệu suất của mơ hình ta sử dụng dữ liệu kiểm tra (test dataset). Khi huấn luyện dữ liệu thì khơng được sử dụng dữ liệu kiểm tra để huấn luyện.
Bước 5: Đánh giá
Đánh giá mơ hình là một phần quan trọng trong quy trình Học máy, giúp tìm ra mơ hình tốt nhất để đại diện cho dữ liệu và dự đốn mơ hình được chọn sẽ hoạt động như thế nào trong tương lai.
Bước 6: Sử dụng mơ hình
Sử dụng mơ hình tốt nhất đã được chọn để áp dụng dự đốn cho dữ liệu mới trong tương lai.
2.2.4.Phân loại các bài tốn của Học máy
Học máy được chia thành 3 dạng bài tốn chính là Học cĩ giám sát (Supervised Learning), Học khơng giám sát (Unsupervised Learning) và Học tăng cường (Reinforcement learing).
Trong đĩ Học cĩ giám sát là phương pháp được sử dụng phổ biến nhất hiện nay. Tập dữ liệu dùng để huấn luyện sẽ là các cặp input - output, nghĩa là ta đã biết được dữ liệu đầu vào và đầu ra tương ứng với đầu vào đĩ. Quá trình học sẽ cố gắng tìm ra mối quan hệ gần đúng nhất giữa đầu vào và đầu ra, hay nĩi một cách khác là đi tìm một mơ hình quan hệ giữa đầu vào x và đầu ra dựa vào hàm y = f(x). Khi đĩ ta cĩ thể dự đốn được đầu ra y tương ứng với dữ liệu x mới bằng hàm f(x).
Cĩ 2 loại bài tốn phổ biến trong Học cĩ giám sát:
+ Bài tốn hồi quy (Regression problem): đầu ra output cần dự đốn là các số thực cĩ thể nhận bất cứ giá trị nào. Ví dụ cần xây dựng một mơ hình với các dữ liệu đầu vào như hãng xe, số chỗ ngồi, động cơ, nội thất trang bị… của một chiếc xe ơtơ và dữ liệu đầu ra là giá bán của chiếc xe đĩ. Giá chiếc xe khơng thể đốn trước, cĩ thể là 500 triệu, 600 triệu, 5 tỷ, 10 tỷ đồng…
+ Bài tốn phân loại (Classification problem): đầu ra output là một trong các lớp (class) mà ta đã biết trước. Ví dụ, mục tiêu xây dựng một mơ hình Học máy dự đốn khả năng tốt nghiệp của sinh viên, như vậy đầu ra output cần dự đốn là cĩ tốt
nghiệp (y=0), hoặc trượt tốt nghiệp (y=1). Trong bài tốn phân loại này, đầu ra cần dự đốn chỉ cĩ thể 1 hoặc 0.
2.3. Một số kỹ thuật mã hĩa trong Học máy
2.1.1.Kỹ thuật chia cắt văn bản
2.1.1.1. Tokenization
Mã thơng báo (Tokenization) là một phương pháp tiền xử lý, chia cắt các dịng văn bản thành các từ, cụm từ, ký hiệu hoặc các yếu tố cĩ ý nghĩa khác. Mục tiêu chính của bước này là điều tra các từ đơn lẻ trong câu.
Ví dụ: Câu văn ngắn bằng tiếng anh sau đây: “He likes to read book and watch TV.”
Bằng phương pháp Mã thơng báo, Ta chia câu văn thành các từ đơn lẻ như sau: {‘He’, ‘likes’, ‘to’, ‘read’, ‘book’, ‘and’, ‘watch’, ‘TV’}.
2.1.1.2. Stop Words
Văn bản bao gồm nhiều từ khơng chứa ý nghĩa quan trọng trong các thuật tốn phân loại, chẳng hạn như { “a”, “about”, “above”, “across”, “after”, “afterwards”, “again”….}. Do đĩ, nếu để chúng trong câu thì sẽ gây ra khĩ khăn trong quá trình phân loại, giảm hiệu suất của mơ hình. Kỹ thuật phổ biến nhất để đối phĩ với những từ này là loại bỏ chúng khỏi các văn bản.
2.1.2.Kỹ thuật véc-tơ hĩa từ vựng
Mơ hình Túi đựng từ (Bag of Words) là một phương pháp phổ biến giúp xử lý các văn bản thành dạng vec-tơ số.
Giả sử ta cĩ hai câu văn ngắn:
(1) Michael likes to play football and watch football games too.
(2) Michael likes to read books.
Ta thiết lập một danh sách các từ đã được sử dụng và gọi là “từ điển” với 11 từ là: {‘Michael’, ‘likes’, ‘to’, ‘play’, ‘read’, ‘football’, ‘books’, ‘and’, ‘watch’, ‘games’ , ‘too’}.
Với mỗi câu, ta tạo được một véc-tơ đặc trưng cĩ số chiều bằng 11, mỗi phần tử đại diện cho số từ tương ứng xuất hiện trong câu văn bản đĩ. Ta cĩ 2 véc-tơ tương ứng với 2 câu văn là:
(1) [1, 1, 1, 1, 0 , 2, 0, 1, 1, 1, 1]
(2) [1, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0]
Câu văn thứ nhất cĩ 10 từ, trong đĩ chữ ‘Michael’ xuất hiện 1 lần thì phần tử thứ nhất là 1, tương tự thế phần tử bằng 2 chính là 2 chữ ‘football’ xuất hiện trong câu. Phần tử thứ 5 và thứ 7 là ‘read’ và ‘book’ khơng xuất hiện trong câu văn thứ
nhất do đĩ phần tử thứ 5 và thứ 7 sẽ bằng 0.
Tương tự, câu văn thứ 2 chỉ cĩ 5 từ là ‘Michael’, ‘likes’, ‘to’, ‘read’, ‘books’ và khơng cĩ từ nào xuất hiện 2 lần. Do đĩ, véc-tơ thứ hai cĩ 5 phần tử cĩ giá trị bằng 1 và 6 phần tử cĩ giá trị bằng 0.
Mơ hình Túi đựng từ cĩ một số đặc điểm sau:
• Với những ứng dụng thực tế, từ điển cĩ nhiều hơn 10 từ rất nhiều, cĩ thể đến hàng trăm nghìn hoặc thậm chí hàng triệu, như vậy véc-tơ đặc trưng thu được sẽ rất dài.
• Cĩ rất nhiều từ trong từ điển khơng xuất hiện trong một văn bản. Như vậy các vector đặc trưng thu được thường cĩ rất nhiều phần tử bằng 0. Các vector cĩ nhiều phần tử bằng 0 được gọi là véc-tơ thưa (sparse vector).
• Nhược điểm của BoW là nĩ khơng mang thơng tin về thứ tự của các từ. Cũng như sự liên kết giữa các câu, các đoạn văn trong văn bản.
2.1.3.Kỹ thuật xử lý Dữ liệu phân loại
Dữ liệu phân loại là dữ liệu mà giá trị của nĩ nằm trong một tập hợp các giá trị xác định và rời rạc.
Ví dụ: Trình độ của một người lao động cĩ thể là Tốt nghiệp THPT, Tốt nghiệp Đại học, Thạc sĩ, Tiến Sĩ…Nhĩm máu của một người cĩ thể là : A, B, O, AB…Thời tiết của một ngày cĩ thể là nắng, mưa, nhiều mây,…
Bởi vì tính rời rạc của các biến này mà khi sử dụng Học máy để tính tốn, ta cần phải số hĩa chúng thành các véc-tơ để máy cĩ thể học được, một phương pháp được sử dụng là One-hot-Encoding.
Ví dụ, biến phân loại trong bộ số liệu là “Yêu cầu học vấn”, với 5 giá trị trong biến là “Khơng yêu cầu”, “THPT”, “Đại học”, “Thạc sĩ”, “Tiến sĩ”. Phương pháp One-hot-Encoding sẽ tách biến “Yêu cầu học vấn” thành 5 biến tương ứng với 5 giá trị bao gồm “Khơng yêu cầu”, “THPT”, “Đại học”, “Thạc sĩ”, “Tiến sĩ” và giá trị của các biến này là nhị phân 0 hoặc 1.
Ví dụ: Một cơng việc yêu cầu trình độ “Đại học” thì giá trị ở biến “Đại học” sẽ là 1 và giá trị ở các biến cịn lại là 0. Khi đĩ véc-tơ mơ tả của cơng việc là [0,0,1,0,0]. Tương tự, nếu cơng việc khơng yêu cầu trình độ thì véc-tơ mơ tả là [1,0,0,0,0].
2.4. Một số thuật tốn Học máy phân loại
Với mục tiêu phân loại các tin đăng tuyển dụng cĩ phải là tin giả hay khơng, đây là bài tốn phân loại. Tác giả sẽ sử dụng một số thuật tốn phân loại điển hình trong dạng bài tốn phân loại lựa chọn ra thuật tốn cĩ điểm số cao nhất để áp dụng
vào mơ hình.
2.4.1.Thuật tốn Hồi quy Logistic
Hồi quy Logistic (Logistic Regression) là thuật tốn phổ biến nhất trong các bài tốn phân loại. Thuật tốn này ước lượng xác suất giá trị của biến phụ thuộc thuộc vào lớp nào (ví dụ như xác suất để một tin tuyển dụng là giả là bao nhiêu). Nếu ước lượng xác suất này lớn hơn 0,5, mơ hình sẽ dự báo giá trị này thuộc về lớp 1, ngược lại nếu xác xuất này nhỏ hơn 0,5 thì giá trị này sẽ thuộc về lớp 0.
Phương trình ước lượng của Hồi quy Logistic:
( ) ( T )
p hθ x σ X θ
∧
= =
Hàm σ(.)
là hàm sigmoid, giá trị đầu ra từ 0 đến 1. Hàm này được biểu diễn dưới đây: 1 ( ) 1 1 t