Để bước đầu xây dựng cơ sở dữ liệu lá cây, em đã tiến hành thu thập hình ảnh lá cây của một số loài cây quý hiếm thuộc khu bảo tồn thiên nhiên Na Hang, tỉnh Tuyên Quang. Dữ liệu hình ảnh chủ yếu đƣợc lấy tại khu bảo tồn Bản Bung, xã Thanh Tương huyện Na Hang tỉnh Tuyên Quang. Thời gian thu thập dữ liệu hình ảnh đƣợc tiến hành vào tháng 5 năm 2018.
Các thông tin về cây thuốc đƣợc kế thừa từ các tài liệu có liên quan nhƣ: Các bộ thực vật chí, đa dạng thực vật khu bảo tồn thiên nhiên Na Hang tỉnh Tuyên Quang
3.1.1 Cơ sở dữ liệu hình ảnh - Tổng số ảnh thu thập: 380
- Tổng số mẫu ảnh (ảnh lá cây ): 38 - Số lƣợng ảnh mỗi mẫu: 10
- Tổng số loài cây lấy đƣợc mẫu: 23 - Định dạng ảnh: JPG
- Độ phân giải camera: 9MP
- Kích cỡ ảnh nhỏ nhất (Width x Hight): 115x 122 pixels - Kích cỡ ảnh lớn nhất (Width x Hight): 1000x 3792 pixels
3.1.2 Phương pháp lấy mẫu hình ảnh lá cây:
Đối với mỗi cây, trên một cây thường xuất hiện nhiều mẫu lá khác nhau ở thời kì sinh trưởng của lá khác nhau như lá non, lá già... Do đó, chúng ta sẽ lựa chọn mẫu lá đặc trƣng nhất, phổ biến nhất, cụ thể nhƣ sau:
+ Đối với cây lá đơn: Với mỗi cây dùng để lấy mẫu, ta lựa chọn lá có hình dạng bao gồm phiến lá, gân chính, gân phụ; Không bị sứt mẻ, bìa lá không bị rách hoặc sâu ăn; Màu sắc lá mầu đậm nổi nhất của lá, thông thường là lấy lá thứ năm đến lá thứ mười của một cành tính từ búp của cảnh.
+ Đối với cây lá kép: Tương tự đối với cây lá đơn, với mỗi mẫu lá cũng tiến hành lựa chọn những phiến lá kép bao gồm phiến lá, gân chính, gân phụ;
Không bị sứt mẻ, bìa lá không bị rách hoặc sâu ăn; Màu sắc lá mầu đậm nổi bật nhất tương ứng với cây, thông thường cũng là nhánh lá kép thứ năm đến thứ mười trên một cành. Tuy nhiên, với mỗi nhánh lá kép có nhiều lá nhỏ thì luôn chọn lá nhỏ trên đỉnh trên đỉnh của nhánh. Một số lá không thể lấy đƣợc lá nhỏ thì chụp ảnh toàn bộ nhành lá.
Vì bài toán phân đoạn ảnh lá cây trong môi trường tự nhiên với nền phức tạp là bài toán khó với nhiều thách thức trong thị giác máy tính. Do đó, các công trình nghiên cứu về nhận dạng hoặc tra cứu thực vật dựa trên hình ảnh lá thường dựa trên giả định rằng ảnh lá cây được chụp trên nền đơn giản.
Trong khuôn khổ của đề tài, dữ liệu lá cây thuốc đƣợc lấy hình ảnh của lá cây đƣợc chụp trên nền đơn giản (màu trắng). Hình ảnh lá cây thuốc đƣợc thu thập bằng điện thoại thông minh với camera sau có độ phân giải 9MP.
Do điều kiện có hạn về thời gian, khả năng di chuyển nên số lƣợng mẫu lá cây thu thập được chỉ là 38, thuộc địa phận Bản Bung, xã Thanh Tương, huyện Na Hang, tỉnh Tuyên Quang.
Hình 3.1: Hình ảnh 38 mẫu lá cây đã thu thập được trong đề tài.
Dưới đây là thông tin về một số loài cây thuốc xuất hiện trong cơ sở dữ liệu đã thu thập đƣợc
Bảng 3.1: Danh sách mẫu thực vật trong cơ sở dữ liệu
ID Tên cây ID Tên cây
01 Cây Cà Lồ 20 Cây Nghiến
02 Cây Hu 21 Cây Lim
03 Cây Ô Dô 22 Cây Lim (cả cành)
04 Cây Sổ 23 Cây Lát
05 Cây Tăm 24 Cây Phay
06 Cây Tăm (cả cành) 25 Cây Nhội ( cả cành)
07 Cây Đinh (cả cành) 26 Cây Nhội
08 Cây Đinh (lá đỉnh) 27 Cây Vảy Ốc
09 Cây Đinh (lá cạnh đỉnh) 28 Cây Vảy Ốc (cả cành) 10 Cây Đinh (lá giữa cành) 29 Cây Lim Xẹt (cả cành) 11 Cây Đinh (lá cuống 1) 30 Cây Lim Xẹt 12 Cây Đinh (lá cuống 2) 31 Cây Vàng Anh
13 Cây Chăm Pa 32 Cây Kẹn
14 Cây Cơi (cành) 33 Cây lá đắng (9 lá)
15 Cây Cơi 34 Cây lá đắng (9 lá) (cả cành)
16 Cây Đắng Cày 35 Cây Trầm Hương
17 Cây Dướng (lá già) 36 Cây Trầm Hương (lá đỉnh) 18 Cây Dướng (lá non) 37 Cây Trầm Hương (lá nhánh)
19 Cây Húng rừng 38 Cây Sa Nhân