HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG BÁO CÁO BÀI TẬP LỚN HỆ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN THÀNH VIÊN NHÓM 08 HỌ VÀ TÊN Nguyễn Như Tuấn MSV B17DCCN659 HỌ VÀ TÊN Nguyễn Thị Dung MSV B17DCCN155 HỌ VÀ T[.]
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG BÁO CÁO BÀI TẬP LỚN HỆ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN THÀNH VIÊN NHÓM 08 HỌ VÀ TÊN : Nguyễn Như Tuấn MSV : B17DCCN659 HỌ VÀ TÊN : Nguyễn Thị Dung MSV : B17DCCN155 HỌ VÀ TÊN : Phạm Quốc Đạt MSV : B17DCCN118 GIẢNG VIÊN HƯỚNG DẪN: TS Nguyễn Đình Hóa Mục Lục Câu 1: Đặc điểm kho ảnh: Câu 2: Kỹ thuật xử lý phân loại ảnh hoa hành I Kĩ thuật xử lý ảnh 1.Quá trình xử lý ảnh Lọc trung bình - Median Filter 5 2.Đặc trưng ảnh 3.Ảnh biểu diễn ảnh: II Các phương pháp xử lý ảnh III Kỹ thuật phân loại ảnh 1.Tìm hiểu SVM 2.Tìm Hiểu KNN 16 IV Phương pháp rút trích đặc trưng hình ảnh HOG 18 Câu Xây dựng hệ thống 23 V Xây dựng hệ thống 23 Sơ đồ khối Quá trình thực 23 23 Bước 1: Tiền xử lý 23 Bước 2: Trích rút đặc trưng 24 3.Bước 3: Huấn luyện mơ hình (Phân loại ảnh) 29 Bước 4: Nhận dạng ảnh 32 4.1 Kết train test: 32 4.2 Kết tìm kiếm hình ảnh từ hình ảnh: 32 4.3 Code 32 Yêu Cầu Hãy sưu tầm 100 ảnh 15 loại hoa khác ảnh gồm hoa, ảnh có kích thước Tìm hiểu kỹ thuật xử lý phân loại ảnh hoa hành Xây dựng hệ thống nhận dạng ảnh hoa - Đầu vào: hoa thuộc loại hoa có chưa có - Đầu ra: nhãn hoa a Sơ đồ khối Quy trình thực b Trình bày thuộc tính sử dụng để nhận dạng nhãn Kỹ thuật để trích rút thuộc tính c Cách lưu trữ thuộc tính ảnh hoa Các nhận dạng ảnh hoa dựa thuộc tính Demo đánh giá kq đạt dc Câu 1: Đặc điểm kho ảnh: - Có khoảng 200 ảnh - 15 loại hoa, chia vào 15 folder khác - Mỗi ảnh có bơng hoa - Kích thước 64*64 - Mỗi loại hoa có nhiều hình dạng màu sắc khác nhau, có ảnh chụp gần ảnh chụp xa, loại có nhiều màu sắc Câu 2: Kỹ thuật xử lý phân loại ảnh hoa hành I Kĩ thuật xử lý ảnh Quá trình xử lý ảnh ● Thu nhận ảnh: Đặc điểm kho ảnh: - Có ảnh? 100 - 15 loại hoa, chia vào 15 folder khác - Mỗi ảnh có bơng hoa - Kích thước bao nhiêu? - Tại lấy kích thước này? - Mỗi loại hoa có nhiều hình dạng màu sắc khác nhau, có ảnh chụp gần ảnh chụp xa, loại có nhiều màu sắc ● Tiền xử lý -resize ảnh (64x64) , đổi jpg ❖ Lọc trung bình - Median Filter ● Ý tưởng - Với lọc trung bình, điểm ảnh (Pixel) thay trung bình trọng số điểm vùng lân cận - Giả sử có ma trận lọc (Kernel) (3x3) quét qua điểm ảnh ảnh đầu vào Isrc Tại vị trí điểm ảnh lấy giá trị điểm ảnh tương ứng vùng (3x3) ảnh gốc đặt vào ma trận lọc (Kernel) Giá trị điểm ảnh ảnh đầu ra Idst là giá trị trung bình tất điểm ảnh ma trận lọc (Kernel) ● Thuật toán - ảnh đầu vào với I(x,y) là giá trị điểm ảnh điểm (x,y) và ngưỡng θ ● Bước 1: Tính tổng thành phần ma trận lọc (Kernel) ● Bước 2: Chia lấy trung bình tổng thành phần ma trận tính với số lượng phần tử cửa sổ lọc giá trị Itb(x, y) ● Bước 3: Hiệu chỉnh: o Nếu I(x,y) - Itb(x,y) > θ thì I(x,y) = Itb(x,y) o Nếu I(x,y) - Itb(x,y) - Đặt f(Xi) = sign (Xi W + b) = -1, Xi W + b < ⇨ Như vậy, f(Xi) biểu diễn phân lớp Xi vào hai lớp nêu Ta nói yi= +1 Xi € lớp I yi = -1 Xi € lớp II Khi đó, để có siêu phẳng f ta phải giải tốn sau: - Tìm với W thỏa mãn điều kiện sau: yi(sin (Xi.W + b)) ≥ với i € 1,n ❖ Bài tốn SVM giải kỹ thuật sử dụng toán tử Lagrange để biến đổi thành dạng đẳng thức Một đặc điểm thú vị SVM mặt phẳng định phụ thuộc Support Vector có khoảng cách đến mặt phẳng định 1/ Cho dù điểm khác bị xóa thuật tốn cho kết giốngnhư ban đầu Đây điểm bật phương pháp SVM so với phương pháp khác tất liệu tập huấn luyện đùng để tối ưu hóa kết Kết Luận: - - - Trong trường hợp nhị phân phân tách tuyến tính, việc phân lớp thực qua hàm định f(x) = sign( + b), hàm thu việc thay đổi vectơ chuẩn w, vectơ để cực đại hóa viền chức Việc mở rộng SVM để phân đa lớp đầu tư nghiên cứu Có phương pháp tiếp cận để giải vấn để xây dựng kết hợp nhiều phân lớp nhị phân SVM (Chẳng hạn: q trình luyện với SVM, tốn phân m lớp biến đổi thành tốn phân 2*m lớp, hai lớp, hàm định xác định cho khả tổng quát hóa tối đa) Trong phương pháp đề cập tới hai cách là một-đổi-một, một-đối-tất 1.4.2 Bài toán phân lớp với SVM - - Bài toán đặt là: Xác định hàm phân lớp để phân lớp mẫu tương lai, nghĩa với mẫu liệu xi cần phải xác định xi phân vào lớp +1 hay lớp -1 Để xác định hàm phân lớp dựa phương pháp SVM, ta tiến hành tìm hai siêu phẳng song song cho khoảng cách y giữa chúng lớn để phân tách hai lớp làm hai phía Hàm phân tách tương ứng với phương trình siêu phẳng nằm hai siêu phẳng tìm Các điểm mà nằm hai siêu phẳng phân tách gọi Support Vector Các điểm định đến hàm phân tách liệu 1.4.3 Bài toán nhiều phân lớp với SVM - - Để phân nhiều lớp kỹ thuật SVM ngun thủy chia khơng gian liệu thành phần trình lặp lại nhiều lần Khi hàm định phân liệu vào lớp thứ i tập n , 2-Iớp là: fi(x) = wi.xi + bi Những phần tử x là support vector thỏa điều kiện +1 thuộc lớp i fi (x) = -1 thuộc phần lại Như vậy, tốn phân nhiều lớp sử dụng phương pháp SVM hồn tồn thực giống tốn hai lớp Bằng cách sử dụng chiến lược "một- đốimột”(one - against - one) Giả sử tốn cần phân loại có k lớp (k > 2), chiến lược "một-đối-một”sẽ tiến hành k(k-l)/2 lần phân lớp nhị phân sử dụng phương pháp SVM Mỗi lớp tiến hành phân tách với k-1 lớp lại để xác định k-1 hàm phân tách dựa vào toán phân hai lớp phương pháp SVM 1.4.4 Các bước phương pháp SVM - - - - Phương pháp SVM yêu cầu liệu diễn tả vector số thực Như đầu vào chưa phải số ta cần phải tìm cách chuyển chúng dạng số SVM Tiền xử lý liệu: Thực biến đổi liệu phù hợp cho q trình tính tốn, tránh số q lớn mơ tả thuộc tính Thường nên co giãn (scaling) liệu để chuyển đoạn [-1, 1] [0, 1] Chọn hàm hạt nhân: Lựa chọn hàm hạt nhân phù hợp tương ứng cho tốn cụ thể để đạt độ xác cao trình phân lớp Thực việc kiểm tra chéo để xác định tham số cho ứng dụng Điều định đến tính xác trình phân lớp Sử dụng tham số cho việc huấn luyện với tập mẫu Trong trình huấn luyện sử dụng thuật tốn tối ưu hóa khoảng cách siêu phẳng trình phân lớp, xác định hàm phân lớp không gian đặc trưng nhờ việc ánh xạ liệu vào không gian đặc trưng cách mô tả hạt nhân, giải cho cảhaitrường hợp liệu phân tách không phân tách tuyến tính khơng gian đặc trưng Kiểm thử tập liệu Test 2.Tìm Hiểu KNN 1.1 Giới thiệu KNN (K-Nearest Neighbors) thuật tốn học có giám sát đơn giản sử dụng nhiều khai phá liệu học máy Ý tưởng thuật tốn khơng học điều từ tập liệu học (nên KNN xếp vào loại lazy learning), tính tốn thực cần dự đốn nhãn liệu Lớp (nhãn) đối tượng liệu dự đốn từ lớp (nhãn) k hàng xóm gần Ví dụ: Giả sử ta có D tập liệu phân loại thành nhãn (+) (-) biểu diễn trục tọa độ hình vẽ điểm liệu A chưa biết nhãn Vậy làm cách để xác định nhãn A (+) hay (-)? Có thể thấy cách đơn giản so sánh tất đặc điểm liệu A với tất tập liệu học gắn nhãn xem giống nhất, liệu (đặc điểm) A giống với liệu điểm mang nhãn (+) điểm A mang nhãn (+), liệu A giống với liệu nhãn (-) mang nhãn (-), trơng đơn giản mà KNN làm Trong trường hợp KNN, thực tế khơng so sánh liệu (không phân lớp) với tất liệu khác, thực tế thực phép tính tốn học để đo khoảng cách liệu với tất điểm tập liệu học D để thực phân lớp Phép tính khoảng cách điểm Euclidian, Manhattan, trọng số, Minkowski, … 1.2 Ý tưởng KNN - Thuật toán KNN cho liệu tương tự tồn tại gần nhau trong khơng gian, từ cơng việc tìm k điểm gần với liệu cần kiểm tra Việc tìm khoảng cách điểm củng có nhiều cơng thức sử dụng, tùy trường hợp mà lựa chọn cho phù hợp Đây cách để tính khoảng cách điểm liệu x, y có k thuộc tính: - Các bước KNN: Ta có D tập điểm liệu gắn nhãn A liệu chưa phân loại Đo khoảng cách (Euclidian, Manhattan, Minkowski, Minkowski Trọng số) từ liệu A đến tất liệu khác phân loại D Chọn K (K tham số mà bạn định nghĩa) khoảng cách nhỏ Kiểm tra danh sách lớp có khoảng cách ngắn đếm số lượng lớp xuất Lấy lớp (lớp xuất nhiều lần nhất) Lớp liệu lớp mà bạn nhận bước 1.3 Ưu điểm Thuật toán đơn giản, dễ dàng triển khai Độ phức tạp tính tốn nhỏ Xử lý tốt với tập liệu nhiễu 1.4 Nhược điểm Với K nhỏ dễ gặp nhiễu dẫn tới kết đưa khơng xác Cần nhiều thời gian để thực phải tính tốn khoảng cách với tất đối tượng tập liệu Cần chuyển đổi kiểu liệu thành yếu tố định tính 1.5 Ứng dụng KNN mơ hình đơn giản trực quan có hiệu cao khơng tham số; mơ hình khơng đưa giả định việc phân phối liệu Hơn nữa, sử dụng trực tiếp để phân loại đa lớp Thuật toán KNN có nhiều ứng dụng ngành đầu tư, bao gồm dự đoán phá sản, dự đoán giá cổ phiếu, phân bổ xếp hạng tín dụng trái phiếu doanh nghiệp, tạo số vốn trái phiếu tùy chỉnh IV Phương pháp rút trích đặc trưng hình ảnh HOG Lược đồ mức xám (histogram) ảnh, từ sau ta qui ước gọi lược đồ xám, hàm cung cấp tần suất xuất mức xám (grey level) Lược đồ xám biểu diễn hệ toạ độ vng góc x,y Trong hệ toạ độ này, trục hoành biểu diễn số mức xám từ đến N, N số mức xám (256 mức trường hợp xét) Trục tung biểu diễn số điểm ảnh cho mức xám (số điểm ảnh cú cựng mức xám) Cũng biểu diễn khác chút: trục tung tỷ lệ số điểm ảnh có mức xám tổng số điểm ảnh - Histogram cung cấp cho thông số bản, độ sáng độ tương phản (contrast) ảnh Độ tương phản đặc cho thay đổi độ sáng đối tượng so với Cú thể nói, độ tương phản độ điểm ảnh hay vùng ảnh so với Ta có vài nhận xét histogram: + NX1 Histogram tốt có hình núi với độ cao tăng dần từ trái, cao thấp bên phải Điều chứng tỏ số lượng điểm ảnh nhiều độ sáng trung bình (Xem Hình 2.3) Hỡnh 2.3: Histogram tốt + NX2 Ảnh tối: histogram bị nghiêng bên trái, có cột gần thẳng đứng sát trái (Xem Hình 2.4) + NX3 Ảnh sáng: histogram bị nghiêng bên phải, có cột gần thẳng đứng sát phải (Xem Hình 2.5) ... kho ảnh: Câu 2: Kỹ thuật xử lý phân loại ảnh hoa hành I Kĩ thuật xử lý ảnh 1.Quá trình xử lý ảnh Lọc trung bình - Median Filter 5 2.Đặc trưng ảnh 3 .Ảnh biểu diễn ảnh: II Các phương pháp xử lý ảnh. .. Hãy sưu tầm 100 ảnh 15 loại hoa khác ảnh gồm hoa, ảnh có kích thước Tìm hiểu kỹ thuật xử lý phân loại ảnh hoa hành Xây dựng hệ thống nhận dạng ảnh hoa - Đầu vào: hoa thuộc loại hoa có chưa có... 2: Kỹ thuật xử lý phân loại ảnh hoa hành I Kĩ thuật xử lý ảnh Quá trình xử lý ảnh ● Thu nhận ảnh: Đặc điểm kho ảnh: - Có ảnh? 100 - 15 loại hoa, chia vào 15 folder khác - Mỗi ảnh có bơng hoa