16 CHƯƠNG 2 CƠ SỞ LÝ THUYẾT VỀ PHƯƠNG PHÁP XỬ LÝ ẢNH ÁP DỤNG TRONG XÁC ĐỊNH MỨC ĐỘ UNG THƯ VÚ 2 1 Cấu trúc ảnh X ray 2 1 1 Khái niệm ảnh chụp X ray Ảnh chụp X ray Một ảnh có thể được định nghĩa là một Ma trận ký hiệu
Trang 116
CHƯƠNG 2 CƠ SỞ LÝ THUYẾT VỀ PHƯƠNG PHÁP XỬ LÝ ẢNH ÁP DỤNG TRONG XÁC ĐỊNH MỨC ĐỘ UNG THƯ VÚ
2.1 Cấu trúc ảnh X-ray
2.1.1 Khái niệm ảnh chụp X-ray
Ảnh chụp X-ray:
Một ảnh có thể được định nghĩa là một Ma trận ký hiệu: 𝐴 = [𝑎𝑖𝑗]𝑚×𝑛
Trong đó:
- 𝑚 là số hàng
- 𝑛 là số cột
- 𝑎𝑖𝑗 là phần tử tại vị trí hàng 𝑖 cột 𝑗 [17]
Hình 2.1 Ma trận 𝑚 × 𝑛
Trong ảnh chụp X-ray, mỗi ảnh bao gồm một tập hợp hữu hạn các phần tử ảnh được gọi là điểm ảnh (pixel) Mỗi điểm ảnh tương ứng với một phần tử 𝑎𝑖𝑗 của ma trận và nhận một giá trị xám trong khoảng [0, …,255] được gọi là Mức xám
Trang 217
Hình 2.2 Phần tử 𝑎𝑖𝑗 trong ma trận 𝑚 × 𝑛
Mỗi điểm ảnh được thể hiện bằng các nút mạng được mô tả như một hình vuông (Hình 2.2) Kích thước của điểm ảnh xác định độ phân giải không gian hoặc độ mịn của chi tiết có thể được phân biệt trong ảnh Kích thước điểm ảnh khác nhau tùy thuộc vào thông số ảnh, cường độ từ trường, thời gian cho phép thu nhận và các yếu tố khác [18]
2.1.2 Ma trận ảnh và phần tử ảnh
Ảnh gốc (ảnh tự nhiên) là ảnh liên tục về không gian và độ sáng Để xử lý bằng máy tính, ảnh cần phải được số hóa Số hóa ảnh là sự biến đổi gần đúng một ảnh liên tục thành một tập hợp điểm phù hợp với ảnh thật về vị trí (không gian) và độ sáng (mức xám) Khoảng cách giữa các điểm ảnh đó được thiết lập sao cho mắt người không phân biệt được ranh giới giữa chúng Mỗi một điểm ảnh như vậy gọi tắt là Pixel Trong ảnh hai chiều, mỗi ảnh là một ma trận và mỗi phần tử của ma trận là mỗi điểm ảnh ứng với cặp tọa độ (x,y) [19]
2.1.3 Mức xám
Mức xám của điểm ảnh là cường độ sáng của nó được gán bằng giá trị số tại điểm đó
- Ảnh nhị phân: như tên của nó cho thấy nó chỉ chứa hai phần tử là 0 và 1, trong đó
0 đề cập đến màu đen và 1 đề cập đến màu trắng Ảnh này còn được gọi là ảnh đơn sắc
- Ảnh đen trắng: ảnh chỉ bao gồm màu đen và màu trắng
Trang 318
- Ảnh 8 bit: Đây là định dạng ảnh nổi tiếng nhất Nó có 256 màu khác nhau và thường được gọi là ảnh xám Trong định dạng này, 0 là đại diện màu đen, 255 là đại diện màu trắng và 127 là đại diện màu xám
2.2 Ngưỡng phương sai
Phân đoạn hình ảnh là một quá trình cơ bản trong nhiều ứng dụng về hình ảnh, video
Nó thường được sử dụng để phân vùng một hình ảnh thành các vùng riêng biệt – điều này là lý tưởng đối với các đối tượng khác nhau trong thế giới thật Đây là một bước quan trọng trong việc phân tích nội dung và tìm hiểu hình ảnh
Mức xám của những điểm ảnh thuộc về đối tượng là khác hoàn toàn đối với mức xám của những điểm ảnh thuộc về phần nền Chúng ta có thể chia những điểm ảnh trong một hình ảnh thành 2 nhóm chính dựa theo các mức xám của chúng Các mức xám này có thể đóng vai trò là máy dò tìm để phân biệt giữa phần nền và đối tượng trong một hình ảnh Chọn một mức xám giữa 2 nhóm này để phân biệt phần nền và đối tượng – đó là ngưỡng Ngưỡng bao gồm 2 loại là ngưỡng toàn bộ và ngưỡng cục bộ Ngưỡng toàn bộ là ngưỡng được áp dụng cho toàn bộ hình ảnh trong khi ngưỡng cục
bộ áp dụng các giá trị ngưỡng khác nhau cho từng vùng khác nhau trong cùng một hình ảnh [4]
Mức xám là một hệ thống màu có mô hình đơn giản nhất với 256 cấp độ có giá trị từ
0 đến 255, tương ứng với sự biến thiên từ màu đen đến màu trắng [5] Các kỹ thuật nhị phân cho mức xám có thể được phân thành 2 nhóm chính: nhị phân ngưỡng toàn
bộ và nhị phân ngưỡng cục bộ Kỹ thuật nhị phân ngưỡng toàn bộ tìm một ngưỡng cho toàn bộ hình ảnh trong khi kỹ thuật nhị phân ngưỡng cục bộ thì sẽ có mỗi ngưỡng tương ứng cho những vùng khác nhau [4]
Kỹ thuật ngưỡng là một kỹ thuật quan trọng trong phân đoạn hình ảnh Nó có thể được mô tả như công thức dưới đây [4]:
𝑇 = 𝑇[𝑥, 𝑦, 𝑝(𝑥, 𝑦), 𝑓(𝑥, 𝑦)]
Trang 419
Trong đó:
- 𝑇 là giá trị ngưỡng
- 𝑥, 𝑦 là toạ độ của điểm có giá trị ngưỡng 𝑇
- 𝑝(𝑥, 𝑦), 𝑓(𝑥, 𝑦) là những điểm ảnh màu xám [6]
2.3 Độ trải giữa
2.3.1 Tứ phân vị
Tứ phân vị là đại lượng mô tả sự phân bố và sự phân tán của tập dữ liệu Tứ phân vị
có 3 giá trị, đó là tứ phân vị thứ nhất (Q1), thứ nhì (Q2) và thứ ba (Q3) Ba giá trị này chia một tập hợp dữ liệu (dữ liệu đã sắp xếp theo trật tự từ bé đến lớn) thành 4 phần
có số lượng bằng nhau
Tứ phân vị được xác định như sau:
- Sắp xếp các số theo thứ tự tăng dần
- Cắt dãy số thành 4 phần bằng nhau
- Tứ phân vị là các giá trị tại vị trí cắt
Q1 Q2 Q3 25% 25% 25% 25%
Hình 2.3 Vị trí tứ phân vị
2.3.2 Phạm vi
Phạm vi được định nghĩa đơn giản như công thức dưới đây:
𝑅𝑎𝑛𝑔𝑒 = ℎ𝑖𝑔ℎ𝑒𝑠𝑡 𝑣𝑎𝑙𝑢𝑒 𝑖𝑛 𝑎 𝑑𝑎𝑡𝑎 𝑠𝑒𝑡 − 𝑙𝑜𝑤𝑒𝑠𝑡 𝑣𝑎𝑙𝑢𝑒 𝑖𝑛 𝑎 𝑑𝑎𝑡𝑎𝑠𝑒𝑡 Trong đó:
- Range là phạm vi
- Highest value in a data set là giá trị lớn nhất của tập dữ liệu
- Lowest value in a data set là giá trị nhỏ nhất của tập dữ liệu
Trang 520
Phạm vi được tính toán dễ dàng và có thể hữu ích khi được sử dụng kết hợp với giá trị trung bình
Ví dụ: tính toán phạm vi cho 2 tập dữ liệu sau
𝐴 = {5,25,50,75,95}
𝐵 = {35,40,50,60,75}
Phương trình trên cho biết rằng để tính phạm vi của tập dữ liệu, chỉ cần trừ giá trị tối
đa trong tập dữ liệu cho giá trị tối thiểu trong tập dữ liệu đó
Đối với tập dữ liệu A, giá trị tối đa là 95 và giá trị tối thiểu là 5 Vì vậy, phạm vi của
tập dữ liệu A = 95 - 5 = 90
Đối với tập dữ liệu B, giá trị tối đa là 75 và giá trị tối thiểu là 35 Vì vậy, phạm vi của
tập dữ liệu B = 75 - 35 = 40
Phạm vi là một công cụ hữu ích để phát hiện bất kỳ lỗi nào trong việc nhập dữ liệu
Ví dụ: nếu tuổi của một học sinh ở trường tiểu học là 20 tuổi, thì luận văn biết rằng
có một lỗi nhập dữ liệu Tuy nhiên, phạm vi chỉ tính đến hai điểm dữ liệu (nhỏ nhất
và lớn nhất) và dễ bị biến dạng bởi các giá trị cực trị (hoặc ngoại lệ) trong tập dữ liệu
Vì vậy chúng ta nên thận trọng khi sử dụng [21]
2.3.3 Độ trải giữa
Vấn đề tiềm ẩn của các ngoại lệ có thể được khắc phục bằng cách sử dụng phép đo lan truyền mạnh hơn là độ trải giữa Độ trải giữa theo một ý tưởng tương tự với phạm
vi nhưng không sử dụng các giá trị cao nhất và thấp nhất trong tập dữ liệu mà sử dụng các giá trị ở một phần tư và ba phần tư (tứ phân vị: Q1, Q2, Q3) khi dữ liệu được sắp xếp theo thứ tự từ nhỏ nhất đến lớn Do đó, độ trải giữa xem xét phần trung tâm của
dữ liệu, ở hai bên của dải phân cách Độ trải giữa được định nghĩa là:
𝐼𝑄𝑅 = 𝑄3 − 𝑄1 Trong đó:
- IQR là giá trị độ trải giữa
Trang 621
- Q3 là giá trị tại vị trí ba phần tư của tập dữ liệu
- Q1 là giá trị tại vị trí một phần tư của tập dữ liệu
Ví dụ: Mười học sinh làm bài kiểm tra và kết quả như sau: 18, 14, 7, 13, 12, 13, 12,
19, 10 và 11 Tìm phạm vi và độ trải giữa cho dữ liệu này?
Phạm vi là sự khác biệt giữa giá trị cao nhất và giá trị thấp nhất, vì vậy:
Phạm vi = 19 − 7 = 12
Để tìm độ trải giữa, dữ liệu phải được sắp xếp theo thứ tự từ nhỏ đến lớn:
Tiếp đến chúng ta cần phải xác định Q1, Q2, Q3
Q2 là giá trị ở giữa dãy số hay còn gọi là medium Ta thấy dãy có 10 số thì hai số đứng giữa trong dãy là số thứ 5 và số thứ 6 Vậy giá trị medium sẽ là trung bình cộng
của hai số này và có giá trị là 12.5
Medium sẽ chia dãy số thành 2 phần có số lượng phần tử bằng nhau: phần bên trái 5
số và phần bên phải 5 số Từ đây, dễ dàng xác định được Q1 = 11 và Q3 = 14 (xem
Hình 2.4)
medium = 12.5 Hình 2.4 Vị trí Q1 và Q3
Vậy IQR = Q3 – Q1 = 14 – 11 = 3
2.4 Phương pháp Wrap để lựa chọn đặc trưng
Phương pháp Wrap là phương pháp đánh giá tất cả các kết hợp có thể được tạo ra từ các đặc trưng của đối tượng và chọn kết hợp được cho là tốt nhất cho một thuật toán
Trang 722
máy học cụ thể nào đó [8] Phương pháp này hoạt động dựa trên nguyên lý của thuật toán Lựa chọn tiến tuần tự
Thuật toán Lựa chọn tiến tuần tự (Sequential Feature Algorithms – SFAs) được sử dụng để làm giảm số lượng đặc trưng ban đầu từ 𝑑 chiều thành 𝑘 chiều với 𝑘 < 𝑑 Trong đó, 𝑘 chiều là tập con tập hợp các đặc trưng có liên quan nhất tới đối tượng Mục đích của thuật toán này là cải thiện hiệu quả tính toán của thuật toán (𝑘 chiều thay vì 𝑑 chiều) và làm giảm lỗi tổng quát của mô hình máy học bằng cách loại bỏ đi phần nhiễu (các đặc trưng không mang tính đại diện cho đối tượng) Tóm lại, SFAs loại bỏ hoặc thêm một đặc trưng tại một thời điểm dựa trên hiệu suất phân loại cho đến khi đạt được một tập con bao gồm các đặc trưng có kích thước 𝑘 mong muốn SFAs có 4 hướng tiếp cận như sau:
- Lựa chọn tiến tuần tự (Sequential Forward Selection – SFS)
- Lựa chọn lùi tuần tự (Sequential Backward Selection – SBS)
- Lựa chọn tiến – động tuần tự (Sequential Forward Floating Selection – SFFS)
- Lựa chọn lùi – động tuần tự (Sequential Backward Floating Selection – SBFS) SFFS và SBFS được coi là phiên bản mở rộng của SFS và SBS SFFS và SBFS có thêm một bước loại trừ hoặc bổ sung để loại bỏ các đặc trưng một khi chúng đã được
bổ sung hoặc loại trừ Điều này chỉ xảy ra khi tập các đặc trưng con được đánh giá là tốt hơn so với tập trước đó
Ưu điểm: thuật toán đánh giá tất cả các tập kết hợp các đặc trưng có thể được tạo ra
và chọn được kết quả tốt nhất cho một thuật toán máy học cụ thể
Nhược điểm: công việc kiểm tra tất cả các tập kết hợp các đặc trưng có thể rất tốn
kém về mặt tính toán, đặc biệt nếu tập các đặc trưng là rất lớn
2.4.1 Lựa chọn tiến tuần tự (SFS)
Thuật toán SFS được mô tả bằng mã giả dưới đây:
Dữ liệu đầu vào: 𝑌 = {𝑦1, 𝑦2, … , 𝑦𝑑}
Trang 823
- Thuật toán SFS lấy toàn bộ các đặc trưng (𝑑 đặc trưng) làm tập dữ liệu đầu vào
Dữ liệu đầu ra: 𝑋𝑘 = {𝑥𝑗|𝑗 = 1,2, … , 𝑘; 𝑥𝑗 ∈ 𝑌}, 𝑡𝑟𝑜𝑛𝑔 đó 𝑘 = (0,1,2, … , 𝑑)
- SFS trả về một tập các đặc trưng, số lượng các đặc trưng được chọn là 𝑘 trong đó
𝑘 < 𝑑, luận văn có tập tiên nghiệm
Khởi tạo: 𝑋0 = ∅, 𝑘 = 0
- Thuật toán được khởi tạo bằng một tập rỗng ∅, do đó 𝑘 = 0, 𝑘 là kích thướt của tập con
Bước 1 (thêm vào)
𝑥+ = arg max 𝐽(𝑥𝑘 + 𝑥), 𝑣ớ𝑖 𝑥 ∈ 𝑌 − 𝑋𝑘
𝑋𝑘+1 = 𝑋𝑘 + 𝑥+
𝑘 = 𝑘 + 1
Quay lại Bước 1
- Trong bước này, luận văn thêm một đặc trưng 𝑥+ vào tập con các đặc trưng 𝑋𝑘
- 𝑥+ là một đặc trưng tối ưu hoá nhất, tức là khi thêm 𝑥+ vào tập 𝑋𝑘 thì luận văn được tập 𝑋𝑘+1 tốt hơn tập 𝑋𝑘
- Lặp lại Bước 1 cho đến khi không tìm được bất kỳ đặc trưng 𝑥+ nào khác là đặc trưng tối ưu hoá nhất
Kết thúc: 𝑘 = 𝑝
- Luận văn thêm các đặc trưng từ tập con các đặc trưng 𝑋𝑘 cho đến khi kích thướt của tập con là 𝑘 chứa đựng các đặc trưng 𝑝 mong muốn, luận văn gọi đó là tập tiên nghiệm
2.4.2 Lựa chọn lùi tuần tự (SBS)
Thuật toán SBS được mô tả bằng mã giả dưới đây:
Dữ liệu đầu vào: tập tất cả các đặc trưng 𝑌 = {𝑦1, 𝑦2, … , 𝑦𝑑}
- Thuật toán SBS lấy toàn bộ các đặc trưng (𝑑 đặc trưng) làm tập dữ liệu đầu vào
Dữ liệu đầu ra: 𝑋𝑘 = {𝑥𝑗|𝑗 = 1,2, … , 𝑘; 𝑥𝑗 ∈ 𝑌}, 𝑡𝑟𝑜𝑛𝑔 đó 𝑘 = (0,1,2, … , 𝑑)
Trang 924
- SBS trả về một tập các đặc trưng, số lượng các đặc trưng được chọn là 𝑘 Trong
đó 𝑘 < 𝑑, luận văn có tập tiên nghiệm
Khởi tạo: 𝑋0 = 𝑌, 𝑘 = 𝑑
- Thuật toán được khởi tạo bằng tập 𝑌, do đó 𝑘 = 𝑑
Bước 1 (loại bỏ)
𝑥− = arg max 𝐽(𝑥𝑘 − 𝑥), 𝑣ớ𝑖 𝑥 ∈ 𝑋𝑘
𝑋𝑘−1 = 𝑋𝑘 − 𝑥−
𝑘 = 𝑘 − 1
Quay lại Bước 1
- Trong bước này, luận văn loại bỏ một đặc trưng 𝑥− từ tập con các đặc trưng 𝑋𝑘
- 𝑥− là một đặc trưng không tối ưu nhất, tức là khi loại bỏ 𝑥− từ tập 𝑋𝑘 thì luận văn được tập 𝑋𝑘−1 tốt hơn tập 𝑋𝑘
- Lặp lại Bước 1 cho đến khi không tìm được bất kỳ đặc trưng 𝑥− nào khác là đặc trưng không tối ưu nhất
Kết thúc: 𝑘 = 𝑝
- Luận văn thêm các đặc trưng từ tập con các đặc trưng 𝑋𝑘 cho đến khi kích thướt của tập con là 𝑘 chứa đựng các đặc trưng 𝑝 mong muốn, luận văn gọi đó là tập tiên nghiệm
2.4.3 Lựa chọn tiến – động tuần tự (SFFS)
Thuật toán SFFS được mô tả bằng mã giả dưới đây:
Dữ liệu đầu vào: 𝑌 = {𝑦1, 𝑦2, … , 𝑦𝑑}
- Thuật toán SFFS lấy toàn bộ các đặc trưng (𝑑 đặc trưng) làm tập dữ liệu đầu vào
Dữ liệu đầu ra: 𝑋𝑘 = {𝑥𝑗|𝑗 = 1,2, … , 𝑘; 𝑥𝑗 ∈ 𝑌}, 𝑡𝑟𝑜𝑛𝑔 đó 𝑘 = (0,1,2, … , 𝑑)
- SFFS trả về một tập các đặc trưng có kích thướt được chỉ định Ví dụ: trả về tập
có 5 đặc trưng từ 10 đặc trưng (𝑘 = 5, 𝑑 = 10)
Khởi tạo: 𝑋0 = ∅, 𝑘 = 0
Trang 1025
- Thuật toán được khởi tạo bằng một tập rỗng ∅, do đó 𝑘 = 0, 𝑘 là kích thướt của tập con
Bước 1 (thêm vào)
𝑥+ = arg max 𝐽(𝑥𝑘 + 𝑥), 𝑣ớ𝑖 𝑥 ∈ 𝑌 − 𝑋𝑘
𝑋𝑘+1 = 𝑋𝑘 + 𝑥+
𝑘 = 𝑘 + 1
Đi đến Bước 2
Bước 2 (điều kiện loại bỏ)
𝑥− = arg max 𝐽(𝑥𝑘 − 𝑥), 𝑣ớ𝑖 𝑥 ∈ 𝑋𝑘
𝑖𝑓 𝐽(𝑥𝑘− 𝑥) > 𝐽(𝑥𝑘):
𝑋𝑘−1 = 𝑋𝑘 − 𝑥−
𝑘 = 𝑘 − 1
Quay lại Bước 1
- Trong Bước 1, luận văn thêm một đặc trưng 𝑥+ từ tập 𝑌 vào tập con các đặc trưng
𝑋𝑘 để làm tăng hiệu suất cho tập con Sau đó đi đến Bước 2
- Trong Bước 2, chúng ta chỉ loại bỏ đi một đặc trưng nếu tập con được tạo ra sau khi loại bỏ là tối ưu hơn Nếu 𝑘 = 2 hoặc không thể thực hiện cải tiến thì quay lại Bước 1
- Ta lặp lại Bước 1, Bước 2 cho đến khi đạt được tập đặc trưng có kích thướt mong muốn 𝑘
Kết thúc: khi 𝑘 bằng số đặc trưng mong muốn
2.4.4 Lựa chọn lùi – động tuần tự (SBFS)
Thuật toán SBFS được mô tả bằng mã giả dưới đây:
Dữ liệu đầu vào: 𝑌 = {𝑦1, 𝑦2, … , 𝑦𝑑}
- Thuật toán SFFS lấy toàn bộ các đặc trưng (𝑑 đặc trưng) làm tập dữ liệu đầu vào
Dữ liệu đầu ra: 𝑋𝑘 = {𝑥𝑗|𝑗 = 1,2, … , 𝑘; 𝑥𝑗 ∈ 𝑌}, 𝑡𝑟𝑜𝑛𝑔 đó 𝑘 = (0,1,2, … , 𝑑)
Trang 1126
- SBFS trả về một tập các đặc trưng có kích thước được chỉ định Ví dụ: trả về tập
có 5 đặc trưng từ 10 đặc trưng (𝑘 = 5, 𝑑 = 10)
Khởi tạo: 𝑋0 = 𝑌, 𝑘 = 𝑑
- Thuật toán được khởi tạo bằng tập 𝑌, do đó 𝑘 = 𝑑
Bước 1 (loại bỏ)
𝑥− = arg max 𝐽(𝑥𝑘 − 𝑥), 𝑣ớ𝑖 𝑥 ∈ 𝑋𝑘
𝑋𝑘−1 = 𝑋𝑘 − 𝑥−
𝑘 = 𝑘 − 1
Đi đến Bước 2
Bước 2 (điều kiện thêm vào)
𝑥+ = arg max 𝐽(𝑥𝑘 + 𝑥), 𝑣ớ𝑖 𝑥 ∈ 𝑌 − 𝑋𝑘
𝑖𝑓 𝐽(𝑥𝑘+ 𝑥) > 𝐽(𝑥𝑘):
𝑋𝑘+1 = 𝑋𝑘 + 𝑥+
𝑘 = 𝑘 + 1
Quay lại Bước 1
- Trong Bước 1, luận văn loại bỏ một đặc trưng 𝑥− từ tập tập con các đặc trưng 𝑋𝑘
để làm tăng hiệu suất cho tập con Sau đó đi đến Bước 2
- Trong Bước 2, luận văn chỉ thêm lại một đặc trưng nếu tập con được tạo ra sau khi thêm là tối ưu hơn Nếu 𝑘 = 𝑑 − 1 hoặc không thể thực hiện cải tiến thì quay lại Bước 1
- Ta lặp lại Bước 1, Bước 2 cho đến khi đạt được tập đặc trưng có kích thước mong muốn 𝑘
Kết thúc: khi 𝑘 bằng số đặc trưng mong muốn
2.5 Thuật toán rừng ngẫu nhiên
Thuật toán Rừng ngẫu nhiên là thuật toán học có giám sát Nó có thể được sử dụng
cả trong phân loại và hồi quy Nó cũng là thuật toán linh hoạt và dễ sử dụng nhất Một khu rừng bao gồm nhiều cây, rừng càng có nhiều cây thì thì rừng càng mạnh
Trang 1227
Thuật toán Rừng ngẫu nhiên tạo cây quyết định dựa trên các mẫu được lựa chọn một cách ngẫu nhiên, nhận dự đoán từ mỗi cây và chọn giải pháp tốt nhất bằng phương pháp bỏ phiếu Nó cũng cung cấp một chỉ số khá tốt về tầm quan trọng của các đặc trưng
Để hiểu rõ hơn về thuật toán Rừng ngẫu nhiên, luận văn xem xét ví dụ sau:
Giả sử luận văn sắp có một chuyến du lịch nhưng chưa biết sẽ đi đâu Vậy luận văn
sẽ làm gì để tìm được một nơi thích hợp? Luận văn có thể tìm kiếm trực tuyến, đọc các nhận xét trên blog và cổng thông tin du lịch hoặc cũng có thể hỏi bạn bè
Giả sử rằng luận văn quyết định hỏi bạn bè và nói chuyện với họ về kinh nghiệm du lịch Trong quá khứ họ đã đến những nơi khác nhau nào? Luận văn nhận được một
số khuyến nghị từ những người bạn Bây giờ luận văn lập một danh sách những nơi được đề nghị Sau đó, luận văn yêu cầu họ bỏ phiếu (hoặc lựa chọn một địa điểm tốt nhất cho chuyến đi) từ danh sách các địa điểm đã được đề xuất mà luận văn đã thực hiện Nơi có số phiếu bầu cao nhất sẽ là lựa chọn cuối cùng cho chuyến đi
Quá trình quyết định trên, bao gồm 2 phần:
Đầu tiên là hỏi bạn bè về trải nghiệm du lịch cá nhân của họ và nhận được những đề xuất từ những nơi mà họ đã ghé thăm Phần này giống như sử dụng thuật toán cây quyết định Ở đây, mỗi người sẽ thực hiện lựa chọn một địa điểm được cho là tốt nhất
mà họ đã từng ghé thăm
Phần thứ hai, sau khi thu thập tất cả các đề xuất là quy trình bỏ phiếu để lựa chọn địa điểm tốt nhất trong danh sách đề xuất Toàn bộ quá trình nhận đề xuất từ bạn bè và
bỏ phiếu để lựa chọn nơi tốt nhất được gọi là thuật toán Rừng ngẫu nhiên
Về mặt kỹ thuật, đây là phương pháp tập hợp các cây quyết định được tạo ra trên các tập dữ liệu được chia nhẫu nhiên Tập hợp các cây quyết định này được gọi là rừng Thuật toán hoạt động trong 4 bước:
- Bước 1: chọn các mẫu nhẫu nhiên từ một tập dữ liệu nhất định