Logo Trường Đại học Công nghệ thông tin

ỨNG DỤNG CÁC MÔ HÌNH HỌC SÂU
TRONG PHÁT HIỆN LÚA CỎ BẰNG ẢNH TỪ UAV

GVHD: TS. Nguyễn Văn Hòa

Học viên: Lê Trương Hồng Danh

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, ĐHQG-HCM, 2025

1 / 26

Giới thiệu Đề tài & Tính cấp thiết

1. Lúa cỏ

Lúa cỏ (Weedy rice), một dạng lúa hoang dại, đang là mối đe dọa đáng kể cho sản xuất lúa gạo, đặc biệt ở các vùng canh tác sạ trực tiếp.

2. Thực trạng Hiện nay

Sản xuất lúa ở ĐBSCL đã dần chuyển sang canh tác theo các mô hình “1 triệu ha”, “cánh đồng lớn”, “mặt ruộng không dấu chân”. Việc thăm đồng thủ công để phát hiện lúa cỏ trở nên kém hiệu quả.

3. Tính cấp thiết

Công nghệ UAV và các mô hình máy học, đặc biệt là học sâu, là xu hướng kết hợp để xây dựng các hệ thống giám sát trong lĩnh vực nông nghiệp tiên tiến

2 / 26

Vấn đề Báo động: Sự Tàn phá của Lúa cỏ

100%

Thiệt hại Năng suất

Trong trường hợp nhiễm nặng, nông dân có thể mất trắng hoàn toàn.

20%

Mức giảm Phổ biến

Thiệt hại năng suất trung bình thường dao động từ 15-20%.

XUỐNG CẤP

Chất lượng Nông sản

Hạt lúa cỏ lẫn vào làm giảm giá trị thương mại và xuất khẩu.

2 / 26

Thời điểm vàng biệt Lúa cỏ

Giai đoạn làm đồng

Đây là thời điểm lý tưởng cho các mô hình học sâu phát hiện lúa cỏ dựa trên ảnh UAV RGB, vì các khác biệt về hình thái trở nên rõ rệt:

  • 📏Chiều cao cây: Lúa cỏ thường vươn cao hơn lúa thường.
  • 🍃Màu sắc & Hình dạng lá: Lá lúa cỏ dài, hẹp hơn và có xu hướng chuyển sang màu vàng nhạt hơn sau khoảng 40-50 ngày.
  • 🌾Hình dạng thân: Thân lúa cỏ mảnh và đứng hơn thân lúa thường.
So sánh hình thái lúa cỏ và lúa trồng

Minh họa sự khác biệt về chiều cao (dưới) và màu sắc giữa lúa cỏ và lúa trồng (trên).

4 / 26

So sánh các Công trình Liên quan

Tiêu chí Đề tài của tôi Đào Đức Anh và cộng sự Ong và cộng sự Võ Quốc Tuấn và cộng sự Alirezazadeh và cộng sự
Mục tiêu Phát hiện lúa cỏ trên ruộng lúa Phân đoạn cỏ dại trên cây trồng nói chung Phát hiện cỏ dại trên bắp cải Trung Quốc Phân tích mối quan hệ giữa mức độ nhiễm rầy nâu và tỷ lệ diện tích canh tác lúa bị nhiễm Phân biệt cây trồng và cây cỏ để giảm thiểu hiện tượng che khuất và mất cân bằng dữ liệu
Đối tượng nghiên cứu Lúa cỏ Cỏ dại Cỏ dại Rầy nâu trên lúa Cây trồng và cây cỏ
Phương pháp Ứng dụng các mô hình học sâu (CNN, CNN-LSTM, YOLO,...) Sử dụng mô hình học sâu CNN kết hợp với ảnh quang phổ cận hồng ngoại Sử dụng mô hình học sâu CNN Sử dụng chỉ số khác biệt thực vật NDVI, NDRE và kết hợp với số liệu điều tra thực địa Sử dụng mô hình YOLOv4 cải tiến
Dữ liệu Ảnh UAV thu thập từ thiết bị DJI Mavic 3 Multispectral Ảnh UAV với camera quang phổ cận hồng ngoại Ảnh UAV Ảnh UAV và số liệu điều tra thực địa Ảnh UAV
Sản phẩm - Bộ dữ liệu ảnh UAV trên cây lúa đã được gán nhãn.
- Giải pháp phát hiện lúa cỏ hiệu quả và chính xác.
Thiết kế hệ thống UAV và quy trình làm việc để phân đoạn hình ảnh cỏ dại bằng học sâu trong nông nghiệp chính xác. Mô hình phát hiện cỏ dại dựa trên UAV cho bắp cải Trung Quốc. Mô hình phân tích mối quan hệ giữa mức độ nhiễm rầy nâu và tỷ lệ diện tích canh tác lúa bị nhiễm. Mô hình YOLOv4 cải tiến để phân biệt cây trồng và cây cỏ với độ chính xác cao hơn.
5 / 26

Mục tiêu của đề tài

📥

Đầu vào (Input)

Tập dữ liệu ảnh RGB được thu thập từ UAV trên cây lúa bằng thiết bị DJI chuyên dụng tại An Giang

📤

Đầu ra (Output)

Đánh giá hiệu quả các mô hình trong việc phát hiện lúa cỏ bằng ảnh từ UAV

6 / 26

Giải pháp Công nghệ

Kết hợp hai công nghệ tiên tiến để tạo ra một giải pháp để giải quyết vấn đề trên:

🛰️

Thiết bị bay không người lái (UAV)

Thu thập ảnh độ phân giải cao trên diện rộng một cách nhanh chóng và hiệu quả.

🧠

Học sâu (Deep Learning)

Tự động phân tích, phát hiện các vùng có lúa cỏ với độ chính xác cao.

7 / 26

Phương pháp & Quy trình Nghiên cứu

Quy trình Tổng thể

✈️

1. Thu thập Ảnh

UAV bay chụp

🖼️

2. Xử lý & Gán nhãn

Tăng cường dữ liệu

🤖

3. Huấn luyện Mô hình

4 mô hình học sâu

📊

4. Đánh giá Kết quả

So sánh hiệu năng

8 / 26

Thu thập dữ liệu thực địa

Công tác chuẩn bị và lấy dữ liệu tại thực địa

Quy trình Khoa học & Hệ thống

Công tác thu thập dữ liệu được khởi đầu bằng việc thiết lập liên hệ với các hộ nông dân và cơ quan quản lý nông nghiệp địa phương.

  • 🗓️Thời gian: Hè Thu 2024, Đông Xuân 2024-2025. Thời điểm thu thập dữ liệu lủa cỏ tốt nhất từ ngày 40-50.
  • 🔄Tần suất: Khoản mỗi tuần nhóm dành 1 ngày để bay lấy dữ liệu. (việc bay mỗi tuần theo khuyến cáo của IRRI về việc tần suất thăm đồng)
  • 🎯Đối tượng: Trọng tâm là hình ảnh của lúa canh tác và lúa cỏ với độ phân giải cao để đảm bảo chất lượng phân tích.
9 / 26

Mô phỏng Đường bay của UAV

Tối ưu hóa Vùng quét

Để đảm bảo thu thập dữ liệu đồng đều và đầy đủ trên toàn bộ diện tích, UAV được lập trình để bay theo một đường bay dạng lưới (grid pattern) được xác định trước.

  • 📏Độ cao bay: 12 mét để cân bằng giữa độ phân giải ảnh và vùng bao phủ.
  • ⚙️Chế độ chụp: Tự động theo khoảng thời gian để đảm bảo mật độ ảnh nhất quán.

Sau khi người dùng chọn vùng bay và điểm xuất phát, Phần mềm của hãng sản xuất sẽ tự động thiết lập đường bay cho tối ưu

Sơ đồ đường bay của UAV

Mô hình đường bay dạng lưới giúp quét toàn bộ khu vực.

10 / 26

TIỀN XỬ LÝ DỮ LIỆU

Trước khi đưa ảnh vào huấn luyện, tiến hành các bước tiền xử lý

  • Kiểm tra dữ liệu ảnh: Thu thập các tập tin ảnh thô từ UAV, đảm bảo chất lượng hình ảnh, độ rõ nét và độ bao phủ cần thiết.
  • Xử lý và tiền xử lý ảnh: căn chỉnh ảnh, điều chỉnh hiệu ứng tối cạnh và biến dạng ảnh dựa trên metadata,...
  • Ghép nối ảnh: ghép ảnh trực giao bằng phần mềm Pix4Dfields (bản trail 14 ngày)
  • Cắt ảnh và Thay đổi kích thước: để phù hợp với với đầu vào của các mô hình huấn luyện
Sơ đồ đường bay của UAV
11 / 26

GÁN NHÃN DỮ LIỆU

Mỗi ảnh UAV được gán nhãn thủ công bằng công cụ Anylabeling cho đối tượng là lúa cỏ xuất hiện trong hình. Công cụ gán nhãn cho phép vẽ viền phân đoạn chính xác theo hình dạng cây hoặc chùm cỏ. Kết quả là mỗi ảnh có một mask nhị phân đánh dấu vùng lúa cỏ.

12 / 26

Thiết bị UAV và Dữ liệu nghiên cứu

DJI Mavic 3 Multispectral

DJI Mavic 3 Multispectral

📷Camera RGB: 20MP, chụp ảnh và quay video quang phổ.
🛰️Camera Đa phổ: 4 camera 5MP (Green, Red, Red Edge, Cận hồng ngoại).
🎯Ứng dụng: Chuyên dụng cho khảo sát, lập bản đồ và giám sát nông nghiệp chính xác.

Từ Ảnh gốc đến Dữ liệu Huấn luyện

Để đảm bảo các mô hình học hiệu quả và được đánh giá khách quan, bộ dữ liệu đã được xây dựng một cách cẩn thận.

600 ảnh gốc được thu thập từ thực địa.
Mở rộng lên 6,329 ảnh nhờ kỹ thuật tăng cường dữ liệu.
Chia thành 3 tập: Huấn luyện (70%), Kiểm định (15%)Kiểm tra (15%).
13 / 26

Thống kê Dữ liệu Đối tượng

Thống kê số lượng ảnh và polygon

Tập dữ liệu Số lượng ảnh Số lượng polygon TB polygon/ảnh
Huấn luyện 4,430 47,216 ~10.66
Kiểm tra 949 10,790 ~11.37
Kiểm định 950 10,233 ~10.77

Kết quả cho thấy phân bố đối tượng (polygon) giữa các tập tương đối đồng đều, phù hợp cho việc huấn luyện và đánh giá mô hình học sâu.

14 / 26

Thông số Cấu hình & Môi trường

🖥️Môi trường Google Collab Pro+, Python 3.x
⚙️CPU Intel(R) Xeon(R)
🧠RAM 53GB
🚀GPU NVIDIA A100
📦Framework PyTorch

Thực nghiệm được tiến hành trên môi trường tính toán hiệu năng cao để đảm bảo tốc độ huấn luyện và đánh giá các mô hình học sâu phức tạp.

15 / 26

Các mô hình sử dụng trong đề tài

Nhóm Phân đoạn Thể hiện (Instance Segmentation)

Mục tiêu: Phát hiện và khoanh vùng từng đối tượng riêng lẻ.

YOLOv11-seg: Mô hình một giai đoạn, xử lý ảnh một lần duy nhất. Nổi bật về tốc độ.

Mask R-CNN: Mô hình hai giai đoạn (đề xuất vùng -> phân loại & tạo mặt nạ). Nổi bật về độ chính xác.

Nhóm Phân đoạn Ngữ nghĩa (Semantic Segmentation)

Mục tiêu: Phân loại từng pixel trong ảnh vào các lớp đối tượng.

U-Net: Kiến trúc đối xứng với các "kết nối tắt" (skip connections), giúp giữ lại chi tiết và xác định ranh giới chính xác.

DeepLabv3: Sử dụng "tích chập giãn nở" (Atrous Convolution) để nắm bắt ngữ cảnh ở nhiều tỷ lệ mà không giảm độ phân giải.

16 / 26

LÝ DO CHỌN MÔ HÌNH

Để có thể chọn ra 2 mô hình nổi bật trong mỗi nhóm, em tiến hành tìm kiếm một số bài viết/công bố về việc so sánh các mô hình để có cơ sở lựa chọn.

Ví dụ về chọn YOLO: "Comparing YOLOv8, SSD, and Faster-RCNN for Real-Time Object Detection" được công bố trên https://app.readytensor.ai


Mô hình mAP50 (%) Thời gian suy luận (ms) FPS Lợi thế chính để lựa chọn (so với các phương pháp thay thế)
YOLOv8 85.6 10.3 97 Hiệu suất thời gian thực vượt trội, độ chính xác cân bằng
SSD 78.2 16.5 60 Cân bằng giữa tốc độ và độ chính xác
Faster R-CNN 89.3 120.4 8 Độ chính xác cao nhất, nhưng tốn kém về mặt tính toán
17 / 26

Ưu nhược điểm của các mô hình

YOLOv11-seg

Ưu điểm:

  • Tốc độ xử lý rất nhanh.
  • Gộp chung tác vụ phát hiện và phân đoạn.

Nhược điểm:

  • Độ chính xác phân đoạn có thể chưa bằng các mô hình chuyên biệt.

Mask R-CNN

Ưu điểm:

  • Độ chính xác rất cao.
  • Tách biệt đối tượng rõ ràng.

Nhược điểm:

  • Chậm hơn đáng kể so với YOLO.
  • Đòi hỏi tài nguyên cao.

U-Net

Ưu điểm:

  • Hiệu quả với tập dữ liệu nhỏ.
  • Chính xác cao ở ranh giới.
  • Kiến trúc đơn giản.

Nhược điểm:

  • Không phân đoạn theo từng thể hiện.

DeepLabv3

Ưu điểm:

  • Phân đoạn tốt ở nhiều kích thước.
  • Chính xác cao trong phân đoạn ngữ nghĩa.

Nhược điểm:

  • Không phân biệt được các thể hiện.
  • Kiến trúc phức tạp.
18 / 26

Các Tiêu chí Đánh giá Mô hình

Đối với nhóm Phân đoạn Thể hiện (YOLO và Mask R-CNN)

  • Mean Average Precision (mAP): Đây là chỉ số quan trọng nhất, đánh giá độ chính xác trung bình của cả hộp giới hạn (Box mAP) và mặt nạ phân đoạn (Seg mAP).
  • Mean Recall: Chỉ số này đo lường khả năng mô hình tìm thấy tất cả các đối tượng và pixel tương ứng của chúng trong ảnh.

Đối với nhóm Phân đoạn Ngữ nghĩa (U-Net và Deeplab)

  • Intersection over Union (IoU) & Dice: Các thước đo cốt lõi, đánh giá mức độ trùng khớp không gian giữa vùng dự đoán và vùng thực tế.
  • Precision & Recall: Cung cấp thông tin chi tiết hơn về các loại lỗi, cụ thể là khả năng dự đoán đúng các pixel (Precision) và khả năng phát hiện đầy đủ các pixel (Recall).
19 / 26

Quá trình Huấn luyện YOLO & Mask R-CNN

YOLOv11-seg

Log huấn luyện YOLOv11-seg

Các đường cong mất mát (loss) giảm đều, trong khi các chỉ số hiệu suất (mAP) tăng ổn định, cho thấy mô hình hội tụ tốt và không bị quá khớp (overfitting).

Mask R-CNN

Log huấn luyện Mask R-CNN

Tương tự YOLO, các chỉ số mất mát của Mask R-CNN giảm nhanh ở giai đoạn đầu và dần ổn định, cho thấy quá trình huấn luyện hiệu quả.

20 / 26

Kết quả Phân đoạn Thể hiện

Nhiệm vụ: Khoanh vùng và xác định từng cụm lúa cỏ riêng lẻ.

YOLOv11 vs. Mask R-CNN

So sánh các chỉ số hiệu năng

YOLOv11 thể hiện hiệu suất vượt trội trên tất cả các chỉ số chính. Đặc biệt, khả năng "tìm thấy" đối tượng (Recall) và độ chính xác trung bình (mAP) đều cao hơn đáng kể so với Mask R-CNN.

21 / 26

Quá trình Huấn luyện U-Net & DeepLabv3

U-Net

Log huấn luyện U-Net

Loss trên tập huấn luyện và kiểm định đều giảm và hội tụ, cho thấy mô hình học tốt và có khả năng khái quát hóa, ít bị quá khớp.

DeepLabv3

Log huấn luyện DeepLabv3

Loss trên tập kiểm định có xu hướng biến động và không giảm ổn định như trên tập huấn luyện, đây là một dấu hiệu của hiện tượng quá khớp.

22 / 26

Kết quả Phân đoạn Ngữ nghĩa

U-Net vs. DeepLabv3

So sánh các chỉ số hiệu năng (%)

U-Net thể hiện ưu thế vượt trội trên tất cả 4 chỉ số quan trọng, cho thấy khả năng xác định ranh giới và diện tích lúa cỏ chính xác và đáng tin cậy hơn so với DeepLabv3.

23 / 23

Minh họa & Demo Sản phẩm

Để thuận tiện cho việc kiểm tra, một website demo đã được xây dựng cho phép người dùng tải ảnh lên và nhận kết quả phát hiện lúa cỏ từ 4 mô hình.

Giao diện website demo
Kết quả phát hiện lúa cỏ từ các mô hình
24 / 26

Kết luận

Nghiên cứu đã đánh giá và tìm ra các mô hình học sâu hiệu quả cho bài toán phát hiện lúa cỏ bằng ảnh UAV, cung cấp cơ sở khoa học vững chắc cho việc lựa chọn công nghệ phù hợp.

🏆 YOLOv11-seg là lựa chọn tốt nhất cho nhiệm vụ phát hiện nhanh và khoanh vùng từng đối tượng (Instance Segmentation).
🎯 U-Net là lựa chọn tối ưu cho nhiệm vụ phân đoạn chính xác diện tích (Semantic Segmentation).

Kết quả này mở ra tiềm năng cho việc phát triển các công cụ nông nghiệp chính xác, hỗ trợ nông dân quản lý đồng ruộng hiệu quả, giảm thiểu thiệt hại và chi phí.

25 / 26

Trân trọng cảm ơn

Thầy/Cô đã lắng nghe!

Hỏi & Đáp

26 / 26