Detecție și identificare de obiecte folosind ESP32-CAM
Introducere
Proiectul folosește modulul ESP32-CAM pentru a construi un sistem de recunoaștere a imaginilor, capabil să identifice diverse obiecte în timp real. Modulul camera captează imaginea, iar un model de inteligență artificială antrenat o analizează și afișează rezultatul, adică obiectul detectat împreună cu procentul de încredere pe un ecran OLED. Pe lângă afișaj, am adăugat și un servomotor care rotește brațul cu 90° pentru a ridica sau coborî poarta, în funcție de obiectul identificat.
Scopul proiectului este implementarea unui sistem automat de sortare a fructelor folosind computer vision. Camera ESP32-CAM capturează imagini în timp real, un model MobileNetV2 antrenat custom clasifică obiectele, iar un servomotor acționează o poartă mecanică în funcție de rezultat.
Sunt pasionată de inteligența artificială și am vrut să construiesc ceva care să combine IA cu microcontrollerele. Provocarea principală este atât găsirea celui mai bun model care să clasifice corect obiectele.
Proiectul are aplicații practice variate. Într-un supermarket, de exemplu, poate identifica automat produsul pus pe cântar, eliminând nevoia de a căuta manual codul acestuia și accelerând procesul pentru toți clienții. Pentru persoanele nevăzătoare, este deosebit de util deoarece nu mai trebuie să caute un cod pe un ecran pe care nu îl pot vedea. Mai departe, sistemul poate fi adaptat pentru inventariere și sortare automată în depozite sau clasificarea fructelor și legumelor în agricultură.
Descriere generală
Module hardware:
ESP32-CAM — microcontrollerul principal al proiectului. Captează imaginea prin camera integrată, rulează modelul AI și controlează toate celelalte componente.
Servomotor SG90 — conectat la pinul GPIO16 al ESP32-CAM. Primește semnal PWM de la ESP32-CAM și rotește brațul cu 90° pentru a ridica sau coborî poarta, în funcție de obiectul identificat de modelul AI.
Modul Nano micro servo motor SG90 - servomotor de 9g controlat prin PWM pe GPIO16, folosit pentru acționarea porții mecanice
FTDI Programmer — conectat prin UART la ESP32-CAM. Are dublu rol: încarcă codul pe microcontroller și îl alimentează cu 5V prin USB de la PC.
Module software:
Flask — framework web Python care rulează pe laptop și servește ca intermediar între browser, modelul AI și ESP32-CAM. Gestionează rutele HTTP pentru stream video, clasificare și comunicarea cu ESP32-CAM.
TensorFlow + MobileNetV2 — modelul de clasificare antrenat custom pe laptop folosind transfer learning. Primește imaginile capturate de ESP32-CAM, le clasifică în categoriile apple, lemon sau empty și returnează label-ul împreună cu scorul de încredere.
Arduino IDE — mediul de programare folosit pentru a scrie codul care leagă toate componentele: camera, modelul AI, ecranul OLED și buzzerul.
Hardware Design
Listă de piese:
ESP32-CAM - microcontroller principal cu cameră integrată și modul WiFi/Bluetooth
USB to Serial Converter - convertor FTDI FT232RL folosit pentru programarea ESP32-CAM și alimentarea acestuia prin USB
Breadboard - placă de prototipare pentru conectarea componentelor fără lipire
0.96” OLED Display - ecran SSD1306 conectat prin I2C care afișează obiectul detectat și procentul de încredere
Modul Nano micro servo motor SG90 - servomotor de 9g controlat prin PWM pe GPIO16, folosit pentru acționarea porții mecanice
Fire de legătură - fire jumper pentru realizarea conexiunilor între componente pe breadboard
Obiecte pentru antrenare - obiecte fizice fotografiate și folosite pentru antrenarea modelului AI în Edge Impulse
Demonstrație funcționare
Schemă electrică
Schema electrică prezintă sistemul complet al proiectului ESP32-CAM Object Detection, realizată în KiCad 10.0.3. Aceasta include patru componente principale: microcontrollerul ESP32-WROOM-32 în centrul schemei, display-ul OLED conectat prin I2C , convertorul USB-Serial FT232RL conectat prin UART pentru programare și alimentare la 5V, și servomotorul SG90 alimentat separat din baterii 4xAA la 6V. Firele verzi indică conexiunile de semnal și alimentare între componente, iar simbolurile de alimentare (+3.3V, +5V, +6V, GND) sunt distribuite corespunzător fiecărei componente în funcție de tensiunea necesară.
| Pin FTDI | Semnal | Conectat la | De ce? |
| VCC | Alimentare | ESP32 5V | Furnizează 5V prin USB de la laptop către ESP32 |
| GND | Masă | ESP32 GND | Referință comună de tensiune |
| TX | Transmisie | ESP32 U0R | FTDI trimite date, ESP32 primește - încărcare cod |
| RX | Recepție | ESP32 U0T | ESP32 trimite date, FTDI primește - Serial Monitor |
| Pin ESP32 | Semnal | Conectat la | De ce? |
| 5V | Alimentare | FTDI VCC | Primește alimentare 5V prin USB |
| GND | Masă | FTDI GND + Baterii GND + OLED GND | Masă comună pentru toate componentele |
| 3.3V | Alimentare | OLED VCC | 3.3V pentru OLED |
| GPIO0 | Boot mode | GND | Conectat la GND, mod programare. Deconectat, rulare normală |
| GPIO14 | I2C SCL | OLED SCL | Clock I2C pentru OLED |
| GPIO15 | I2C SDA | OLED SDA | Date I2C pentru OLED |
| GPIO16 | PWM | Servo semnal | Generează semnal PWM |
| Pin OLED | Semnal | Conectat la | De ce? |
| GND | Masă | ESP32 GND | Referință comună |
| VCC | Alimentare | ESP32 3.3V | OLED funcționează la 3.3V |
| SCL | I2C clock | ESP32 GPIO14 | Primește clock-ul I2C de la ESP32 |
| SDA | I2C date | ESP32 GPIO15 | Primește datele de afișat de la ESP32 |
| Pin Servo | Culoare fir | Conectat la | De ce? |
| VCC | Roșu | Baterii +6V | Alimentare separată baterii |
| GND | Maro/Negru | Baterii GND + ESP32 GND | Masă comună |
| Semnal | Portocaliu | ESP32 GPIO16 | Primește semnal PWM |
Software Design
Descrierea codului aplicaţiei (firmware):
mediu de dezvoltare (if any) (e.g. AVR Studio, CodeVisionAVR)
librării şi surse 3rd-party (e.g. Procyon AVRlib)
algoritmi şi structuri pe care plănuiţi să le implementaţi
(etapa 3) surse şi funcţii implementate
Stadiul actual al implementării software
Proiectul este implementat pe două componente software distincte care comunică prin WiFi.
ESP32-CAM (Arduino C++) rulează două servere HTTP simultane. Portul 81 găzduiește stream-ul MJPEG video în timp real, implementat prin librăria eloquent_esp32cam. Portul 82 găzduiește un server REST
API custom cu trei rute: /jpeg pentru captura unui singur frame, /rezultat pentru primirea predicției și afișarea pe OLED, și /servo pentru controlul servomotorului prin semnal PWM. Camera RHYX transmite date RGB565 raw, iar frame-urile sunt copiate în memorie înainte de trimitere.
Serverul Python (Flask + TensorFlow) rulează pe laptop și se ocupă de predictie. Primește frame-urile RGB565 raw de la ESP32, aplică conversia de bytes și transformarea în format BGR, după care rulează modelul MobileNetV2 antrenat custom. Rezultatul este trimis înapoi la ESP32 pentru afișare pe OLED și control servo.
Motivația alegerii bibliotecilor
eloquent_esp32cam — oferă stream MJPEG într-un thread separat, fără a bloca execuția principală.
Adafruit_SSD1306 + Adafruit_GFX — librării pentru display-ul OLED SSD1306 în ecosistemul Arduino. Oferă funcții de nivel înalt pentru text și grafică, abstractizând complet protocolul I2C.
WebServer (ESP32) — librărie nativă ESP32 pentru server HTTP. Aleasă în locul librăriilor third-party deoarece nu introduce conflicte cu camera sau I2C, și suportă nativ send_P pentru trimiterea datelor binare raw.
driver/ledc.h (ESP-IDF) — driver direct pentru controlul PWM al servomotorului. Librăria ESP32Servo a cauzat crash-uri prin conflict cu interfața I2S a camerei, deoarece folosea același timer hardware. Prin utilizarea directă a driver-ului LEDC cu LEDC_TIMER_2 și LEDC_CHANNEL_2, conflictul a fost eliminat complet.
Flask — framework web Python
TensorFlow + MobileNetV2 — modelul MobileNetV2 pre-antrenat pe ImageNet prin transfer learning a fost ales deoarece oferă acuratețe ridicată cu un dataset mic (240 imagini per clasă). Antrenarea de la zero ar fi necesitat mii de imagini. MobileNetV2 este optimizat pentru dispozitive cu resurse limitate, iar inferența pe laptop durează sub 100ms.
OpenCV — aleasă pentru conversia RGB565 → BGR și redimensionarea imaginilor. Oferă funcția nativă COLOR_BGR5652BGR care face conversia eficient.
Scheletul proiectului și interacțiunea dintre funcționalități
Arhitectura generala
Browser (localhost:5000)
↕ HTTP
Flask Server (Python)
↕ HTTP WiFi
ESP32-CAM
↕ I2C
OLED Display
↕ PWM
Servo SG90
Flux clasificare
1. Utilizatorul deschide http://localhost:5000
2. Browser afișează stream live (refresh la 300ms)
3. Utilizatorul apasă “Clasifica”
4. Browser → POST /clasificare → Flask
5. Flask → GET /jpeg → ESP32 portul 82
6. ESP32 flush frame vechi → captură nouă
7. Trimite 153600 bytes RGB565 raw
8. Flask swap bytes → conversie RGB565→BGR
9. MobileNetV2 → predicție label + confidence
10. Flask → GET /rezultat → ESP32 OLED
11. Flask → GET /servo?grade=90 (dacă apple)
12. Flask → sleep(3) → GET /servo?grade=0
13. Flask → JSON {detectii, snapshot} → Browser
14. Browser afișează rezultat + snapshot
Interacțiunea dintre funcționalități din laborator
Lab GPIO
Lab UART este folosit pentru debug prin Serial.printf() la fiecare eveniment important: inițializare cameră, trimitere frame, primire rezultat.
Lab PWM este folosit pentru controlul servomotorului prin driverul LEDC cu LEDC_TIMER_2 la 50Hz și rezoluție 12 biți, generând semnalul PWM pe GPIO16.
Lab I2C este folosit pe două magistrale simultane: GPIO14/GPIO15 pentru OLED SSD1306 la adresa 0x3C, și GPIO26/GPIO27 pentru configurarea internă a camerei prin protocolul SCCB.
Validarea funcționalităților
Camera și conversia RGB565 au fost validate prin salvarea locală a fișierului ultima_captura.jpg după fiecare clasificare și verificarea vizuală că imaginea este corectă și culorile sunt normale.
Modelul TensorFlow a fost validat prin antrenare cu 100% validation accuracy pe setul de validare, și prin testarea live cu obiecte reale în fața camerei, observând predicțiile în timp real în consolă și pe OLED.
Comunicația WiFi a fost validată prin monitorizarea log-urilor Flask care confirmă fiecare cerere HTTP: accesarea /jpeg, trimiterea la /rezultat și controlul /servo.
Optimizări realizate
Flush frame vechi — înainte de captură, frame-ul vechi din buffer este aruncat pentru ca clasificarea să folosească mereu imaginea curentă.
Copiere buffer — buffer-ul camerei este copiat în memorie și camera eliberată imediat, eliminând conflictele cu stream-ul MJPEG.
Transfer Learning — MobileNetV2 pre-antrenat pe ImageNet cu layerele înghețate, obținând 100% validation accuracy cu doar 240 imagini per clasă.
Threshold clasificare — predicțiile sub 70% confidence sunt tratate automat ca empty, prevenind activarea greșită a servo-ului.
Byte-swapping RGB565 — bytes primiți de la camera RHYX sunt reordonați în Python înainte de conversie, corectând culorile imaginilor trimise modelului.
Link Github: https://github.com/saratutuianu/UPB-PM-Automatic-object-sorting-using-ML
Link videoclip functionare: https://youtu.be/nlO-m5YhCmo
Rezultate Obţinute
Care au fost rezultatele obţinute în urma realizării proiectului vostru.
Concluzii
Download
O arhivă (sau mai multe dacă este cazul) cu fişierele obţinute în urma realizării proiectului: surse, scheme, etc. Un fişier README, un ChangeLog, un script de compilare şi copiere automată pe uC crează întotdeauna o impresie bună

.
Fişierele se încarcă pe wiki folosind facilitatea Add Images or other files. Namespace-ul în care se încarcă fişierele este de tipul :pm:prj20??:c? sau :pm:prj20??:c?:nume_student (dacă este cazul). Exemplu: Dumitru Alin, 331CC → :pm:prj2009:cc:dumitru_alin.
Jurnal
Puteți avea și o secțiune de jurnal în care să poată urmări asistentul de proiect progresul proiectului.
Bibliografie/Resurse
Listă cu documente, datasheet-uri, resurse Internet folosite, eventual grupate pe Resurse Software şi Resurse Hardware.
Export to PDF