
ỨNG DỤNG CÁC MÔ HÌNH HỌC SÂU
TRONG PHÁT HIỆN LÚA CỎ BẰNG ẢNH TỪ UAV
GVHD: TS. Nguyễn Văn Hòa
Học viên: Lê Trương Hồng Danh
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN, ĐHQG-HCM, 2025
Giới thiệu Đề tài & Tính cấp thiết
1. Lúa cỏ
Lúa cỏ (Weedy rice), một dạng lúa hoang dại, đang là mối đe dọa đáng kể cho sản xuất lúa gạo, đặc biệt ở các vùng canh tác sạ trực tiếp.
2. Thực trạng Hiện nay
Sản xuất lúa ở ĐBSCL đã dần chuyển sang canh tác theo các mô hình “1 triệu ha”, “cánh đồng lớn”, “mặt ruộng không dấu chân”. Việc thăm đồng thủ công để phát hiện lúa cỏ trở nên kém hiệu quả.
3. Tính cấp thiết
Công nghệ UAV và các mô hình máy học, đặc biệt là học sâu, là xu hướng kết hợp để xây dựng các hệ thống giám sát trong lĩnh vực nông nghiệp tiên tiến
Vấn đề Báo động: Sự Tàn phá của Lúa cỏ
100%
Thiệt hại Năng suất
Trong trường hợp nhiễm nặng, nông dân có thể mất trắng hoàn toàn.
20%
Mức giảm Phổ biến
Thiệt hại năng suất trung bình thường dao động từ 15-20%.
XUỐNG CẤP
Chất lượng Nông sản
Hạt lúa cỏ lẫn vào làm giảm giá trị thương mại và xuất khẩu.
Thời điểm vàng biệt Lúa cỏ
Giai đoạn làm đồng
Đây là thời điểm lý tưởng cho các mô hình học sâu phát hiện lúa cỏ dựa trên ảnh UAV RGB, vì các khác biệt về hình thái trở nên rõ rệt:
- 📏Chiều cao cây: Lúa cỏ thường vươn cao hơn lúa thường.
- 🍃Màu sắc & Hình dạng lá: Lá lúa cỏ dài, hẹp hơn và có xu hướng chuyển sang màu vàng nhạt hơn sau khoảng 40-50 ngày.
- 🌾Hình dạng thân: Thân lúa cỏ mảnh và đứng hơn thân lúa thường.

Minh họa sự khác biệt về chiều cao (dưới) và màu sắc giữa lúa cỏ và lúa trồng (trên).
So sánh các Công trình Liên quan
Tiêu chí | Đề tài của tôi | Đào Đức Anh và cộng sự | Ong và cộng sự | Võ Quốc Tuấn và cộng sự | Alirezazadeh và cộng sự |
---|---|---|---|---|---|
Mục tiêu | Phát hiện lúa cỏ trên ruộng lúa | Phân đoạn cỏ dại trên cây trồng nói chung | Phát hiện cỏ dại trên bắp cải Trung Quốc | Phân tích mối quan hệ giữa mức độ nhiễm rầy nâu và tỷ lệ diện tích canh tác lúa bị nhiễm | Phân biệt cây trồng và cây cỏ để giảm thiểu hiện tượng che khuất và mất cân bằng dữ liệu |
Đối tượng nghiên cứu | Lúa cỏ | Cỏ dại | Cỏ dại | Rầy nâu trên lúa | Cây trồng và cây cỏ |
Phương pháp | Ứng dụng các mô hình học sâu (CNN, CNN-LSTM, YOLO,...) | Sử dụng mô hình học sâu CNN kết hợp với ảnh quang phổ cận hồng ngoại | Sử dụng mô hình học sâu CNN | Sử dụng chỉ số khác biệt thực vật NDVI, NDRE và kết hợp với số liệu điều tra thực địa | Sử dụng mô hình YOLOv4 cải tiến |
Dữ liệu | Ảnh UAV thu thập từ thiết bị DJI Mavic 3 Multispectral | Ảnh UAV với camera quang phổ cận hồng ngoại | Ảnh UAV | Ảnh UAV và số liệu điều tra thực địa | Ảnh UAV |
Sản phẩm | - Bộ dữ liệu ảnh UAV trên cây lúa đã được gán nhãn. - Giải pháp phát hiện lúa cỏ hiệu quả và chính xác. |
Thiết kế hệ thống UAV và quy trình làm việc để phân đoạn hình ảnh cỏ dại bằng học sâu trong nông nghiệp chính xác. | Mô hình phát hiện cỏ dại dựa trên UAV cho bắp cải Trung Quốc. | Mô hình phân tích mối quan hệ giữa mức độ nhiễm rầy nâu và tỷ lệ diện tích canh tác lúa bị nhiễm. | Mô hình YOLOv4 cải tiến để phân biệt cây trồng và cây cỏ với độ chính xác cao hơn. |
Mục tiêu của đề tài
Đầu vào (Input)
Tập dữ liệu ảnh RGB được thu thập từ UAV trên cây lúa bằng thiết bị DJI chuyên dụng tại An Giang
Đầu ra (Output)
Đánh giá hiệu quả các mô hình trong việc phát hiện lúa cỏ bằng ảnh từ UAV
Giải pháp Công nghệ
Kết hợp hai công nghệ tiên tiến để tạo ra một giải pháp để giải quyết vấn đề trên:
🛰️
Thiết bị bay không người lái (UAV)
Thu thập ảnh độ phân giải cao trên diện rộng một cách nhanh chóng và hiệu quả.
🧠
Học sâu (Deep Learning)
Tự động phân tích, phát hiện các vùng có lúa cỏ với độ chính xác cao.
Phương pháp & Quy trình Nghiên cứu
Quy trình Tổng thể
1. Thu thập Ảnh
UAV bay chụp
2. Xử lý & Gán nhãn
Tăng cường dữ liệu
3. Huấn luyện Mô hình
4 mô hình học sâu
4. Đánh giá Kết quả
So sánh hiệu năng
Thu thập dữ liệu thực địa

Quy trình Khoa học & Hệ thống
Công tác thu thập dữ liệu được khởi đầu bằng việc thiết lập liên hệ với các hộ nông dân và cơ quan quản lý nông nghiệp địa phương.
- 🗓️Thời gian: Hè Thu 2024, Đông Xuân 2024-2025. Thời điểm thu thập dữ liệu lủa cỏ tốt nhất từ ngày 40-50.
- 🔄Tần suất: Khoản mỗi tuần nhóm dành 1 ngày để bay lấy dữ liệu. (việc bay mỗi tuần theo khuyến cáo của IRRI về việc tần suất thăm đồng)
- 🎯Đối tượng: Trọng tâm là hình ảnh của lúa canh tác và lúa cỏ với độ phân giải cao để đảm bảo chất lượng phân tích.
Mô phỏng Đường bay của UAV
Tối ưu hóa Vùng quét
Để đảm bảo thu thập dữ liệu đồng đều và đầy đủ trên toàn bộ diện tích, UAV được lập trình để bay theo một đường bay dạng lưới (grid pattern) được xác định trước.
- 📏Độ cao bay: 12 mét để cân bằng giữa độ phân giải ảnh và vùng bao phủ.
- ⚙️Chế độ chụp: Tự động theo khoảng thời gian để đảm bảo mật độ ảnh nhất quán.
Sau khi người dùng chọn vùng bay và điểm xuất phát, Phần mềm của hãng sản xuất sẽ tự động thiết lập đường bay cho tối ưu

Mô hình đường bay dạng lưới giúp quét toàn bộ khu vực.
TIỀN XỬ LÝ DỮ LIỆU
Trước khi đưa ảnh vào huấn luyện, tiến hành các bước tiền xử lý
- Kiểm tra dữ liệu ảnh: Thu thập các tập tin ảnh thô từ UAV, đảm bảo chất lượng hình ảnh, độ rõ nét và độ bao phủ cần thiết.
- Xử lý và tiền xử lý ảnh: căn chỉnh ảnh, điều chỉnh hiệu ứng tối cạnh và biến dạng ảnh dựa trên metadata,...
- Ghép nối ảnh: ghép ảnh trực giao bằng phần mềm Pix4Dfields (bản trail 14 ngày)
- Cắt ảnh và Thay đổi kích thước: để phù hợp với với đầu vào của các mô hình huấn luyện

GÁN NHÃN DỮ LIỆU
Mỗi ảnh UAV được gán nhãn thủ công bằng công cụ Anylabeling cho đối tượng là lúa cỏ xuất hiện trong hình. Công cụ gán nhãn cho phép vẽ viền phân đoạn chính xác theo hình dạng cây hoặc chùm cỏ. Kết quả là mỗi ảnh có một mask nhị phân đánh dấu vùng lúa cỏ.

Thiết bị UAV và Dữ liệu nghiên cứu

DJI Mavic 3 Multispectral
Từ Ảnh gốc đến Dữ liệu Huấn luyện
Để đảm bảo các mô hình học hiệu quả và được đánh giá khách quan, bộ dữ liệu đã được xây dựng một cách cẩn thận.
Thống kê Dữ liệu Đối tượng
Thống kê số lượng ảnh và polygon
Tập dữ liệu | Số lượng ảnh | Số lượng polygon | TB polygon/ảnh |
---|---|---|---|
Huấn luyện | 4,430 | 47,216 | ~10.66 |
Kiểm tra | 949 | 10,790 | ~11.37 |
Kiểm định | 950 | 10,233 | ~10.77 |
Kết quả cho thấy phân bố đối tượng (polygon) giữa các tập tương đối đồng đều, phù hợp cho việc huấn luyện và đánh giá mô hình học sâu.
Thông số Cấu hình & Môi trường
Thực nghiệm được tiến hành trên môi trường tính toán hiệu năng cao để đảm bảo tốc độ huấn luyện và đánh giá các mô hình học sâu phức tạp.
Các mô hình sử dụng trong đề tài
Nhóm Phân đoạn Thể hiện (Instance Segmentation)
Mục tiêu: Phát hiện và khoanh vùng từng đối tượng riêng lẻ.
YOLOv11-seg: Mô hình một giai đoạn, xử lý ảnh một lần duy nhất. Nổi bật về tốc độ.
Mask R-CNN: Mô hình hai giai đoạn (đề xuất vùng -> phân loại & tạo mặt nạ). Nổi bật về độ chính xác.
Nhóm Phân đoạn Ngữ nghĩa (Semantic Segmentation)
Mục tiêu: Phân loại từng pixel trong ảnh vào các lớp đối tượng.
U-Net: Kiến trúc đối xứng với các "kết nối tắt" (skip connections), giúp giữ lại chi tiết và xác định ranh giới chính xác.
DeepLabv3: Sử dụng "tích chập giãn nở" (Atrous Convolution) để nắm bắt ngữ cảnh ở nhiều tỷ lệ mà không giảm độ phân giải.
LÝ DO CHỌN MÔ HÌNH
Để có thể chọn ra 2 mô hình nổi bật trong mỗi nhóm, em tiến hành tìm kiếm một số bài viết/công bố về việc so sánh các mô hình để có cơ sở lựa chọn.
Ví dụ về chọn YOLO: "Comparing YOLOv8, SSD, and Faster-RCNN for Real-Time Object Detection" được công bố trên https://app.readytensor.ai
Mô hình | mAP50 (%) | Thời gian suy luận (ms) | FPS | Lợi thế chính để lựa chọn (so với các phương pháp thay thế) |
---|---|---|---|---|
YOLOv8 | 85.6 | 10.3 | 97 | Hiệu suất thời gian thực vượt trội, độ chính xác cân bằng |
SSD | 78.2 | 16.5 | 60 | Cân bằng giữa tốc độ và độ chính xác |
Faster R-CNN | 89.3 | 120.4 | 8 | Độ chính xác cao nhất, nhưng tốn kém về mặt tính toán |
Ưu nhược điểm của các mô hình
YOLOv11-seg
Ưu điểm:
- Tốc độ xử lý rất nhanh.
- Gộp chung tác vụ phát hiện và phân đoạn.
Nhược điểm:
- Độ chính xác phân đoạn có thể chưa bằng các mô hình chuyên biệt.
Mask R-CNN
Ưu điểm:
- Độ chính xác rất cao.
- Tách biệt đối tượng rõ ràng.
Nhược điểm:
- Chậm hơn đáng kể so với YOLO.
- Đòi hỏi tài nguyên cao.
U-Net
Ưu điểm:
- Hiệu quả với tập dữ liệu nhỏ.
- Chính xác cao ở ranh giới.
- Kiến trúc đơn giản.
Nhược điểm:
- Không phân đoạn theo từng thể hiện.
DeepLabv3
Ưu điểm:
- Phân đoạn tốt ở nhiều kích thước.
- Chính xác cao trong phân đoạn ngữ nghĩa.
Nhược điểm:
- Không phân biệt được các thể hiện.
- Kiến trúc phức tạp.
Các Tiêu chí Đánh giá Mô hình
Đối với nhóm Phân đoạn Thể hiện (YOLO và Mask R-CNN)
- Mean Average Precision (mAP): Đây là chỉ số quan trọng nhất, đánh giá độ chính xác trung bình của cả hộp giới hạn (Box mAP) và mặt nạ phân đoạn (Seg mAP).
- Mean Recall: Chỉ số này đo lường khả năng mô hình tìm thấy tất cả các đối tượng và pixel tương ứng của chúng trong ảnh.
Đối với nhóm Phân đoạn Ngữ nghĩa (U-Net và Deeplab)
- Intersection over Union (IoU) & Dice: Các thước đo cốt lõi, đánh giá mức độ trùng khớp không gian giữa vùng dự đoán và vùng thực tế.
- Precision & Recall: Cung cấp thông tin chi tiết hơn về các loại lỗi, cụ thể là khả năng dự đoán đúng các pixel (Precision) và khả năng phát hiện đầy đủ các pixel (Recall).
Quá trình Huấn luyện YOLO & Mask R-CNN
YOLOv11-seg

Các đường cong mất mát (loss) giảm đều, trong khi các chỉ số hiệu suất (mAP) tăng ổn định, cho thấy mô hình hội tụ tốt và không bị quá khớp (overfitting).
Mask R-CNN

Tương tự YOLO, các chỉ số mất mát của Mask R-CNN giảm nhanh ở giai đoạn đầu và dần ổn định, cho thấy quá trình huấn luyện hiệu quả.
Kết quả Phân đoạn Thể hiện
Nhiệm vụ: Khoanh vùng và xác định từng cụm lúa cỏ riêng lẻ.
YOLOv11 vs. Mask R-CNN
So sánh các chỉ số hiệu năng
YOLOv11 thể hiện hiệu suất vượt trội trên tất cả các chỉ số chính. Đặc biệt, khả năng "tìm thấy" đối tượng (Recall) và độ chính xác trung bình (mAP) đều cao hơn đáng kể so với Mask R-CNN.
Quá trình Huấn luyện U-Net & DeepLabv3
U-Net

Loss trên tập huấn luyện và kiểm định đều giảm và hội tụ, cho thấy mô hình học tốt và có khả năng khái quát hóa, ít bị quá khớp.
DeepLabv3

Loss trên tập kiểm định có xu hướng biến động và không giảm ổn định như trên tập huấn luyện, đây là một dấu hiệu của hiện tượng quá khớp.
Kết quả Phân đoạn Ngữ nghĩa
U-Net vs. DeepLabv3
So sánh các chỉ số hiệu năng (%)
U-Net thể hiện ưu thế vượt trội trên tất cả 4 chỉ số quan trọng, cho thấy khả năng xác định ranh giới và diện tích lúa cỏ chính xác và đáng tin cậy hơn so với DeepLabv3.
Minh họa & Demo Sản phẩm
Để thuận tiện cho việc kiểm tra, một website demo đã được xây dựng cho phép người dùng tải ảnh lên và nhận kết quả phát hiện lúa cỏ từ 4 mô hình.


Kết luận
Nghiên cứu đã đánh giá và tìm ra các mô hình học sâu hiệu quả cho bài toán phát hiện lúa cỏ bằng ảnh UAV, cung cấp cơ sở khoa học vững chắc cho việc lựa chọn công nghệ phù hợp.
Kết quả này mở ra tiềm năng cho việc phát triển các công cụ nông nghiệp chính xác, hỗ trợ nông dân quản lý đồng ruộng hiệu quả, giảm thiểu thiệt hại và chi phí.
Trân trọng cảm ơn
Thầy/Cô đã lắng nghe!
Hỏi & Đáp