Laboratorul 04 - Portainer, GitLab CI/CD, monitorizare, logare, vizualizare, cozi de mesaje [CS Open CourseWare]

Laboratorul 04 - Portainer, GitLab CI/CD, monitorizare, logare, vizualizare, cozi de mesaje

În acest laborator, vom începe prin a discuta despre utilizarea Portainer, care acționează ca un GUI pentru Docker Swarm, și apoi vom implementa procesul de CI/CD („continuous integration and continuous deployment”) utilizând GitLab CI/CD și Portainer. Această parte a laboratorului se va desfășura pe local sau folosind Docker Machine, întrucât infrastructura de la Play With Docker nu permite rularea runnerilor de GitLab. Găsiți toate fișierele de configurare prezentate în această parte de laborator în repo-ul oficial al laboratorului (în BooksService și IOService găsiți sursele și Dockerfile-urile pentru cele două containere proprii, iar în Configs găsiți fișierele Docker Compose și YAML-ul de configurare pentru Kong).

Pentru partea a doua a laboratorului (logare și monitorizare), vom lucra cu fișierele care se găsesc în subgrupul Laborator 4 din grupul oficial de GitLab al materiei. Directoarele Testapp și Worker conțin fișierele sursă și Dockerfile pentru cele două aplicații pe care le vom rula, directorul Docker conține fișierele Docker Compose cu care vom face deployment, iar directorul Configs conține configurările pentru diversele servicii pe care le vom adăuga în deployment.

Portainer

Portainer este o platformă Web care permite administrarea unui cluster Docker Swarm. Instrucțiunile oficiale se pot găsi aici.

Portainer poate rula ca un container separat sau ca serviciu de Swarm. Vă recomandăm să îl rulați ca serviciu de Swarm.

În cazul în care rulează ca serviciu de Swarm, Portainer are două componente: aplicația Web propriu-zisă, și un agent care rulează în mod global (pe toate nodurile).

Un exemplu de fișier Docker Compose de stivă de servicii pentru Portainer poate fi observat mai jos.

version: '3.2'

services:
  agent:
    image: portainer/agent:2.11.1
    volumes:
      - /var/run/docker.sock:/var/run/docker.sock
      - /var/lib/docker/volumes:/var/lib/docker/volumes
    networks:
      - agent_network
    deploy:
      mode: global
      placement:
        constraints: [node.platform.os == linux]

  portainer:
    image: portainer/portainer-ce:2.11.1
    command: -H tcp://tasks.agent:9001 --tlsskipverify
    ports:
      - "9443:9443"
      - "9000:9000"
      - "8000:8000"
    volumes:
      - portainer_data:/data
    networks:
      - agent_network
    deploy:
      mode: replicated
      replicas: 1
      placement:
        constraints: [node.role == manager]

networks:
  agent_network:
    driver: overlay
    attachable: true

volumes:
  portainer_data:

Dashboard-ul Portainer va fi accesibil pe portul 9000. La prima accesare, se setează un utilizator administrator cu o parolă.

Pe lângă utilitatea oferită de posibilitatea gestiunii cluster-ului prin interfața vizuală, Portainer oferă webhook-uri de CI/CD. Un webhook este un endpoint care, atunci când este accesat, execută o acțiune. În cazul Portainer, webhook-urile vor actualiza serviciile de Docker. Pentru a genera un webhook, se intră pe pagina serviciului și se face toggle pe „Service Webhook”, așa cum se observă în imaginea de mai jos.

Pentru a crea un webhook, trebuie mai întâi ca serviciul să ruleze în cadrul Docker Swarm.

De asemenea, Portainer vă facilitează interacțiunea cu Docker Swarm fără a fi nevoie de a da comenzi în terminal, cum ar fi gestionarea secretelor.

Nu doar atât, dar, ca să aveți control complet asupra serviciilor ce pot rula în Swarm, puteți să lansați stiva de servicii direct din editorul de YML din secțiunea Stacks.

Ca Portainer să poată să vă acceseze registrele private, puteți să adăugați acele registre de imagini în secțiunea Registries cu utilizatorul vostru și parola/un token de acces.

Gitlab CI/CD

Conceptul de CI/CD se referă la:

continuous integration - integrarea automată în sistem a modificărilor de cod
continuous deployment - plasarea automată a codului modificat în testare/producție.

Acest concept se mulează natural pe filozofia microserviciilor, unde o aplicație este „spartă” în mai multe module separate și independente. Pe măsură ce codul unui modul este actualizat, acesta este integrat automat în sistem, fără să perturbe execuția celorlalte module.

În acest laborator, se exemplifică procesul de CI/CD folosind GitLab. Gitlab CI/CD se bazează pe două componente:

Gitlab Runners - procese care executa pipeline-uri
.gitlab-ci.yml - fișier YAML de configurații declarative, care descrie ce face fiecare etapă dintr-un pipeline.

Un runner execută un pipeline. Un pipeline este format din etape. Fiecare etapă este descrisă în fișierul de configurație .gitlab-ci.yml.

Structura codului sursă

Pentru a putea folosi conceptul de CI/CD cu GitLab cat mai eficient, se recomandă ca fiecare microserviciu să se afle în propriul său repository, iar toate repository-urile să fie grupate într-un grup. Așadar, pentru acest laborator, vom avea următoarele repository-uri:

IOService - conține codul pentru microserviciul IO implementat la laboratoarele anterioare
BooksService - conține codul pentru microserviciul de cărți implementat la laboratoarele anterioare
Configs - conține fișierele de configurare necesare rulării stivei de servicii.

Codul este accesibil pe repo-ul oficial al laboratorului.

Gitlab Runners

Gitlab Runners sunt procese care execută pipeline-uri. Atunci când se dă comanda git push, este lansat în execuție un pipeline aferent repository-ului respectiv (de aici recomandarea de a avea un repository per serviciu).

Acestea vin în mai multe forme, însă modul cel mai facil de a lansa un runner în execuție este sub formă de containere Docker.

Configurare

Pentru a folosi un runner, este nevoie, în primul rând, să se acceseze pagina repository-ului sau a grupului GitLab.

Un runner de grup va putea rula pipeline-uri pentru fiecare repository din grupul respectiv. Un runner de repository va putea rula pipeline-uri doar pentru acel repository.

Se intră în meniul de CI/CD al paginii de proiect și apoi se selectează opțiunea „Expand” din dreptul „Runners”.

Gitlab Runners în Docker

Configuraera unui runner folosind Docker este simplă și necesită trei pași:

instalarea
înregistrarea
modificarea fișierului de configurație config.toml.

Pentru instalare, se rulează următoarea comandă:

$ docker run -d --name gitlab-runner --restart always -v /srv/gitlab-runner/config:/etc/gitlab-runner \
    -v /var/run/docker.sock:/var/run/docker.sock gitlab/gitlab-runner:latest

Runner-ul va rula în modul bind mount. Calea de pe gazdă dată runner-ului (în cazul de față, /srv/gitlab-runner/config) trebuie să existe. În ea vor fi reținute configurațiile runner-ului din interiorul containerului. În mod similar, se poate folosi un volum.

Pentru înregistrare, se rulează următoarea comandă și se urmează pașii specificați:

$ docker run --rm -it -v /srv/gitlab-runner/config:/etc/gitlab-runner gitlab/gitlab-runner register

Token-ul de înregistrare este cel din pagina grupului de GitLab.

Trebuie ținut minte ce se specifică la tag, deoarece tag-ul runnerul-ui va fi folosit în cadrul script-ului .gitlab-ci.yml.

Atunci când se cere imaginea de Docker, se poate specifica docker:19.03.

Trebuie specificată aceeași cale de bind mount ca la comanda de instalare.

Runner-ul de GitLab care rulează în Docker se bazează pe conceptul DinD („Docker in Docker”). Pentru anumite operații, este nevoie de acces elevat asupra sistemului Docker din gazdă. Așadar, trebuie făcute două modificări asupra fișierului de configurație config.toml.

Fișierul config.toml se găsesște la calea specificata în comanda de instalare de la etapa 1.

concurrent = 1
check_interval = 0
 
[session_server]
  session_timeout = 1800
 
[[runners]]
  name = "IDP lab 4 runner"
  url = "https://gitlab.com/"
  token = "jEzCz9PACYL4Y1FB8vs2"
  executor = "docker"
  [runners.custom_build_dir]
  [runners.cache]
    [runners.cache.s3]
    [runners.cache.gcs]
    [runners.cache.azure]
  [runners.docker]
    tls_verify = false
    image = "docker:19.03"
    privileged = true
    disable_entrypoint_overwrite = false
    oom_kill_disable = false
    disable_cache = false
    volumes = ["/cache", "/var/run/docker.sock:/var/run/docker.sock"]
    shm_size = 0

Modificările necesare sunt următoarele:

„privileged” trebuie să fie setat pe „true”
la volume, trebuie adăugat și „/var/run/docker.sock:/var/run/docker.sock”.

Dupa ce se efectuează modificările, se execută următoarea comandă:

$ docker restart gitlab-runner

Script-ul de pipeline

Script-ul .gitlab-ci.yml descrie execuția unui pipeline pe un runner. Puteți observa un astfel de script mai jos.

docker-build-master:
  stage: build
  before_script:
    - docker login -u "$CI_REGISTRY_USER" -p "$CI_REGISTRY_PASSWORD" $CI_REGISTRY
  script:
    - docker build --pull -t "$CI_REGISTRY_IMAGE" .
    - docker push "$CI_REGISTRY_IMAGE"
  only:
    - master
  tags:
    - idp
    - lab4

deploy-service-master:
  stage: deploy
  script:
    - apk add --update curl
    - curl -XPOST http://192.168.99.126:9000/api/webhooks/e37c80b1-9315-49d2-b0ad-5b3d8dade98e
  only:
    - master
  tags:
    - idp
    - lab4

Trebuie câte un astfel de script .gitlab-ci.yml pentru fiecare repository.

Script-ul prezentat mai sus descrie două etape ale pipeline-ului:

build - codul este construit într-o imagine de Docker și salvat într-un registru
deploy - serviciul de Docker este încărcat in cluster-ul de Swarm, utilizând un webhook Portainer.

Un webhook se poate genera doar după ce serviciul rulează deja in Swarm.

Un pipeline se poate observa din GitLab mergând la meniul „CI/CD” al unui repository, la opțiunea „Pipelines”.

Un exemplu de fișier .gitlab-ci.yml funcțional poate fi găsit aici.

Monitorizare

Monitorizare din linia de comandă

În această parte de laborator, se abordează problema monitorizării. Într-o aplicație Docker, se pot monitoriza în primul rând metrici despre mașinile (fizice sau virtuale) pe care rulează serviciile noastre, apoi metrici care țin de containerele care rulează în swarm, și, nu în ultimul rând, metrici care țin de aplicația propriu-zisă și pe care le putem defini.

Cea mai simplă metodă de a monitoriza unul sau mai multe containere este prin intermediul interfeței în linie de comandă din Docker, folosind comanda docker container stats în felul următor:

$ docker container run --name myalpine -it -d alpine

$ docker container stats myalpine
 
CONTAINER ID   NAME       CPU %     MEM USAGE / LIMIT   MEM %     NET I/O     BLOCK I/O    PIDS
5d002ad9bba1   myalpine   0.00%     484KiB / 7.774GiB   0.01%     806B / 0B   135kB / 0B   1

În exemplul de mai sus, s-a pornit un container de Linux Alpine, care apoi se monitorizează continuu. Informațiile afișate includ ID-ul și numele containerului, consumul de CPU și memorie, cantitatea de date schimbate pe interfețele de rețea, activitatea pe disc, etc. Dacă se dorește monitorizarea mai multor containere simultan, se poate utiliza comanda docker stats:

$ docker container run --name myalpine2 -it -d alpine

$ docker stats
 
CONTAINER ID   NAME        CPU %     MEM USAGE / LIMIT   MEM %     NET I/O       BLOCK I/O    PIDS
97ab4376c5b7   myalpine2   0.01%     352KiB / 7.774GiB   0.00%     586B / 0B     0B / 0B      1
5d002ad9bba1   myalpine    0.02%     484KiB / 7.774GiB   0.01%     1.02kB / 0B   135kB / 0B   1

În exemplul de mai sus, s-a mai pornit un container adițional. Prin comanda docker stats, se afișează informații statistice despre toate containerele care rulează pe mașină.

Comanda de mai sus poate fi customizată prin formatarea output-ului în funcție de câmpurile care se doresc a fi afișate, precum și modul în care acest lucru este făcut:

$ docker stats --format "{{.Container}}: {{.CPUPerc}}"
 
97ab4376c5b7: 0.02%
5d002ad9bba1: 0.01%

$ docker stats --format "table {{.Name}}\t{{.CPUPerc}}\t{{.MemUsage}}"
 
NAME        CPU %     MEM USAGE / LIMIT
myalpine2   0.01%     352KiB / 7.774GiB
myalpine    0.03%     484KiB / 7.774GiB

Dacă se dorește doar afișarea primului rezultat de monitorizare (în loc de o afișare continuă), se poate folosi comanda docker container stats --no-stream.

Monitorizare prin Docker Remote API

Pe lângă comenzile din CLI, Docker oferă și un set de endpoint-uri HTTP remote sub forma unui API, prin care se pot trimite comenzi către daemon-ul de Docker. Printre endpoint-urile din API-ul de Docker, există și câteva care oferă informații mai detaliate de monitorizare:

$ curl --unix-socket /var/run/docker.sock http://localhost/containers/97ab4376c5b7/stats
 
{
  "read": "2022-04-19T08:52:27.9008855Z",
  "preread": "0001-01-01T00:00:00Z",
  "pids_stats": {
    "current": 1,
    "limit": 18446744073709551615
  },
[...]
  "cpu_stats": {
    "cpu_usage": {
      "total_usage": 51201000,
      "usage_in_kernelmode": 14821000,
      "usage_in_usermode": 36379000
    },
    "system_cpu_usage": 18947870000000,
    "online_cpus": 4,
    "throttling_data": {
      "periods": 0,
      "throttled_periods": 0,
      "throttled_time": 0
    }
  },
[...]
  "memory_stats": {
    "usage": 360448,
    "stats": {
[...]
    },
    "limit": 8346984448
  },
  "name": "/myalpine2",
  "id": "97ab4376c5b7e0411abd33277d3ea6ec7e902bdc9af9826d3afe6ff8f9325249",
  "networks": {
    "eth0": {
      "rx_bytes": 936,
      "rx_packets": 12,
[...]
    }
  }
}

Datele sunt generate o dată la o secundă și sunt în format JSON, așa cum se poate observa mai sus (unde s-a formatat JSON-ul pentru a fi urmărit mai ușor, și s-au păstrat doar părți din output, pentru claritate). La rularea comenzii, este necesar ID-ul containerului care se dorește a fi monitorizat.

Monitorizare de evenimente Docker

Dacă se dorește monitorizarea în timp real a unor evenimente Docker ce au loc pe mașina gazdă, se poate folosi comanda docker system events, așa cum se prezintă mai jos:

$ docker system events
 
# aceste evenimente se generează atunci când oprim containerul myalpine2
2022-04-19T11:57:02.936639300+03:00 container kill 97ab4376c5b7e0411abd33277d3ea6ec7e902bdc9af9826d3afe6ff8f9325249 (image=alpine, name=myalpine2, signal=15)
2022-04-19T11:57:12.977888700+03:00 container kill 97ab4376c5b7e0411abd33277d3ea6ec7e902bdc9af9826d3afe6ff8f9325249 (image=alpine, name=myalpine2, signal=9)
2022-04-19T11:57:13.102094700+03:00 container die 97ab4376c5b7e0411abd33277d3ea6ec7e902bdc9af9826d3afe6ff8f9325249 (exitCode=137, image=alpine, name=myalpine2)
2022-04-19T11:57:13.165242800+03:00 network disconnect 56499229054c04a928960053276ea4bf37c12e575bcdafa522140c835372df62 (container=97ab4376c5b7e0411abd33277d3ea6ec7e902bdc9af9826d3afe6ff8f9325249, name=bridge, type=bridge)
2022-04-19T11:57:13.184247100+03:00 container stop 97ab4376c5b7e0411abd33277d3ea6ec7e902bdc9af9826d3afe6ff8f9325249 (image=alpine, name=myalpine2)
 
# acest eveniment se generează atunci când ștergem containerul myalpine2
2022-04-19T11:57:19.124295200+03:00 container destroy 97ab4376c5b7e0411abd33277d3ea6ec7e902bdc9af9826d3afe6ff8f9325249 (image=alpine, name=myalpine2)
 
# aceste evenimente se generează atunci când pornim un container myalpine3
2022-04-19T11:57:40.002873200+03:00 container create fc65cf12a86cf253127415d0b0dabf2399e9dbfa15315c106e3f3566a9b2aee3 (image=alpine, name=myalpine3)
2022-04-19T11:57:40.082728100+03:00 network connect 56499229054c04a928960053276ea4bf37c12e575bcdafa522140c835372df62 (container=fc65cf12a86cf253127415d0b0dabf2399e9dbfa15315c106e3f3566a9b2aee3, name=bridge, type=bridge)
2022-04-19T11:57:40.449862600+03:00 container start fc65cf12a86cf253127415d0b0dabf2399e9dbfa15315c106e3f3566a9b2aee3 (image=alpine, name=myalpine3)

În exemplul de mai sus, s-a pornit monitorizarea de evenimente într-un terminal, iar în celălalt terminal întâi s-a oprit containerul myalpine2 creat anterior, apoi s-a șters, iar în final s-a creat un container myalpine3.

Docker generează notificări pentru evenimente care au loc asupra containerelor, daemonului Docker, imaginilor, rețelelor virtuale, volumelor, etc. Este de asemenea posibilă filtrarea output-ului comenzii de mai sus în funcție de tipul de eveniment căutat, de un anumit container, etc.:

$ docker system events -f event=die -f container=myalpine3                            
 
2022-04-19T12:01:22.419370500+03:00 container die fc65cf12a86cf253127415d0b0dabf2399e9dbfa15315c106e3f3566a9b2aee3 (exitCode=137, image=alpine, name=myalpine3)

Monitorizare folosind Prometheus

Prometheus este un toolkit open-source de monitorizare și alertare scris în Go, care colectează metrici prin citirea lor din endpoint-uri HTTP ale componentelor monitorizate (astfel de componente pot fi containere Docker, sau chiar Prometheus însuși). Oferă un model de date multi-dimensional, cu seriile de timp identificate prin-un nume de metrică și perechi cheie-valoare. Componentele monitorizate sunt descoperite prin servicii de descoperire (ca DNS, Consul, etc.) sau prin configurații statice. În plus, Prometheus oferă un limbaj de query funcțional numit PromQL, prin intermediul căruia se pot compune query-uri mai complexe.

În mod implicit, Docker expune metrici pentru Prometheus pe portul 9323, ceea ce înseamnă că o instanță de Prometheus poate monitoriza runtime-ul de Docker de pe un nod.

Această opțiune este încă în stadiu experimental pentru MacOS, așa că este nevoie să se adauge linia “metrics-addr” : “0.0.0.0:9323” în setările avansate de daemon Docker din Docker Desktop.

În general, metricile unei componente care expune date pentru Prometheus se găsesc la un endpoint numit metrics, și așa este cazul și pentru Docker, care expune datele pentru Prometheus la adresa http://localhost:9323/metrics. Acolo se pot observa toate metricile expuse de Docker, iar pașii pentru a vizualiza datele de monitorizare folosind Prometheus sunt descriși în continuare.

Așa cum s-a specificat și mai sus, Prometheus se poate auto-monitoriza. Pentru acest lucru, sunt necesare două componente. În primul rând, este necesar un fișier YAML prin care se setează componentele care se doresc a fi monitorizate, precum și modul în care acestea sunt descoperite pe rețea. Pentru a monitoriza Docker și Prometheus, putem folosi următorul fișier de configurare (pe care îl puteți găsi în repository-ul Configs):

Click to display ⇲

Click to hide ⇱

prometheus.yml

scrape_configs:
  - job_name: 'prometheus'
    scrape_interval: 5s
    static_configs:
      - targets: ['prometheus:9090']

  - job_name: 'docker'
    scrape_interval: 5s
    static_configs:
      - targets: ['host.docker.internal:9323']

În fișierul de mai sus, se creează două job-uri de monitorizare:

unul denumit prometheus, care va colecta date din endpoint-ul HTTP la 5 secunde, de pe interfața serviciului de Prometheus care va fi pornit pe portul 9090
unul denumit docker, care va colecta date din endpoint-ul HTTP tot la 5 secunde, de pe interfața gazdei Docker pe care se rulează (host.docker.internal se rezolvă la adresa IP internă a gazdei).

Vom rula Prometheus ca un serviciu Docker prin intermediul unui fișier Docker Compose (pe care îl puteți găsi în repository-ul Docker), care arată astfel:

Click to display ⇲

Click to hide ⇱

prometheus-stack.yml

version: "3.8"

services:
    prometheus:
        image: prom/prometheus
        volumes:
            - ../configs/prometheus/prometheus.yml:/etc/prometheus/prometheus.yml
        ports:
            - 9090:9090

Odată ce facem deployment-ul pe baza acestui fișier de Compose (așa cum am studiat în laboratorul 3), la adresa http://<IP>:9090/graph se va găsi dashboard-ul Prometheus (prezentat mai jos, unde se pot vedea datele monitorizate și se pot adăuga grafice noi), iar la http://<IP>:9090/targets se vor găsi componentele monitorizate. De asemenea, ca la Docker, la http://<IP>:9090/metrics se pot găsi toate metricile generate de Prometheus.

În URL-urile de mai sus, <IP> se referă la adresa externă a unui nod din cluster-ul Docker (sau localhost, dacă rulăm local).

În imaginea de mai sus, s-a ales monitorizarea metricii prometheus_http_requests_total și o reprezentare de tip stacked a datelor, pe un interval de un minut. În textbox-ul de sus, se poate alege metrica ce se dorește a fi afișată (din dropdown-ul de sub el, sau se poate scrie un query în PromQL). Pentru afișare, se apasă butonul Execute, iar vizualizarea poate fi atât în format de grafic (așa cum este prezentat în imaginea de mai sus), cât și la consolă. Se pot adăuga astfel oricâte grafice pe dashboard.

Monitorizarea stării nodurilor

Pentru monitorizarea stării nodurilor care rulează servicii Docker, este necesar ca metricile aferente să fie publicate pe un endpoint HTTP. Pentru acest lucru, se poate folosi componenta Node Exporter din Prometheus, care expune metrici hardware și de sistem de operare de pe mașina gazdă către Prometheus.

Pentru a porni și componenta de Node Exporter pe fiecare nod din cluster, trebuie să adăugăm un serviciu nou în stiva noastră de servicii, rezultând următorul fișier Docker Compose (pe care îl puteți găsi în repository-ul Docker):

Click to display ⇲

Click to hide ⇱

prometheus-nexporter-stack.yml

version: "3.8"

services:
    prometheus:
        image: prom/prometheus
        volumes:
            - ../configs/prometheus/prometheus-nexporter.yml:/etc/prometheus/prometheus.yml
        ports:
            - 9090:9090
        networks:
            - monitoring

    node_exporter:
        image: prom/node-exporter
        deploy:
            mode: global
        volumes:
            - /proc:/host/proc:ro
            - /sys:/host/sys:ro
            - /:/rootfs:ro
        command:
            - '--path.procfs=/host/proc'
            - '--path.rootfs=/rootfs'
            - '--path.sysfs=/host/sys'
            - '--collector.filesystem.mount-points-exclude=^/(sys|proc|dev|host|etc)($$|/)'
        ports:
            - 9100:9100
        networks:
            - monitoring

networks:
    monitoring:

Rețeaua comună este necesară pentru că cele două componente (Prometheus și Node Exporter) trebuie să poată comunica între ele pentru a avea acces la date. De asemenea, se poate observa mai sus că serviciul de Node Exporter este rulat în modul global, ceea ce înseamnă ca va rula pe fiecare nod din swarm (pentru a putea exporta metrici de monitorizare pentru fiecare nod în parte). Parametrii de tip mount au rolul de a realiza o mapare între sistemele de fișiere Linux/MacOS de statistici (sysfs și procfs) de pe mașina gazdă și cele din container.

Noul fișier de configurare pentru Prometheus, pe care îl puteți găsi în repository-ul Configs, arată în felul următor:

Click to display ⇲

Click to hide ⇱

prometheus-nexporter.yml

global:
  scrape_interval: 3s

scrape_configs:
  - job_name: 'prometheus'
    scrape_interval: 5s
    static_configs:
      - targets: ['prometheus:9090']

  - job_name: 'docker'
    scrape_interval: 5s
    static_configs:
      - targets: ['host.docker.internal:9323']

  - job_name: 'node resources'
    static_configs:
      - targets: ['node_exporter:9100']
    params:
      collect[]:
        - cpu
        - meminfo
        - diskstats
        - netdev
        - netstat

  - job_name: 'node storage'
    static_configs:
      - targets: ['node_exporter:9100']
    params:
      collect[]:
        - filefd
        - filesystem
        - xfs

Se poate observa că au apărut două target-uri noi, node resources și node storage. Deși ambele iau date din același endpoint, sunt separate într-un mod logic după tipul de date pe care le expun.

Când se face deploy, la adresa http://<IP>:9090/targets se vor putea observa toate cele patru target-uri (Docker, Prometheus, cele două target-uri noi specifice Node Exporter), iar la http://<IP>:9090/graph se pot acum alege pentru monitorizare inclusiv metrici generate de Node Exporter.

Monitorizare folosind cAdvisor

O altă variantă de monitorizare a mașinilor gazdă și a containerelor este cAdvisor de la Google, care oferă informații de nivel înalt despre CPU și memorie, dar și despre containerele existente. cAdvisor face sampling o dată pe secundă, iar datele sunt ținute un minut (dacă se dorește o stocare de lungă durată, sunt necesare alte servicii).

Pentru monitorizarea folosind cAdvisor, este necesar să se pornească un serviciu de cAdvisor în aceeași rețea cu serviciul de Prometheus și să se adauge target-ul de cAdvisor în fișierul de configurare Prometheus. Noul fișier de configurare, pe care îl puteți găsi în repository-ul Configs, arată în felul următor:

Click to display ⇲

Click to hide ⇱

prometheus-nexporter-cadvisor.yml

global:
  scrape_interval: 3s

scrape_configs:
  - job_name: 'prometheus'
    scrape_interval: 5s
    static_configs:
      - targets: ['prometheus:9090']

  - job_name: 'docker'
    scrape_interval: 5s
    static_configs:
      - targets: ['host.docker.internal:9323']

  - job_name: 'node resources'
    static_configs:
      - targets: ['node_exporter:9100']
    params:
      collect[]:
        - cpu
        - meminfo
        - diskstats
        - netdev
        - netstat

  - job_name: 'node storage'
    static_configs:
      - targets: ['node_exporter:9100']
    params:
      collect[]:
        - filefd
        - filesystem
        - xfs

  - job_name: 'cadvisor'
    static_configs:
      - targets: ['cadvisor:8080']

Diferența față de fișierul precedent de configurare este adăugarea target-ului cadvisor. Mai departe, putem face deploy pe baza fișierul Docker Compose de mai jos, pe care îl puteți găsi în repository-ul Docker:

Click to display ⇲

Click to hide ⇱

prometheus-nexporter-cadvisor-stack.yml

version: "3.8"

services:
    prometheus:
        image: prom/prometheus
        volumes:
            - ../configs/prometheus/prometheus-nexporter-cadvisor.yml:/etc/prometheus/prometheus.yml
        ports:
            - 9090:9090
        networks:
            - monitoring

    node_exporter:
        image: prom/node-exporter
        deploy:
            mode: global
        volumes:
            - /proc:/host/proc:ro
            - /sys:/host/sys:ro
            - /:/rootfs:ro
        command:
            - '--path.procfs=/host/proc'
            - '--path.rootfs=/rootfs'
            - '--path.sysfs=/host/sys'
            - '--collector.filesystem.mount-points-exclude=^/(sys|proc|dev|host|etc)($$|/)'
        ports:
            - 9100:9100
        networks:
            - monitoring

    cadvisor:
        image: gcr.io/cadvisor/cadvisor
        deploy:
            mode: global
        volumes:
            - /:/rootfs:ro
            - /var/run:/var/run:ro
            - /sys:/sys:ro
            - /var/lib/docker/:/var/lib/docker:ro
            - /dev/disk:/dev/disk/:ro
        ports:
            - 8080:8080
        networks:
            - monitoring

networks:
    monitoring:

În urma deployment-ului, metricile colectate de cAdvisor vor fi disponibile pentru monitorizare din dashboard-ul de Prometheus. Dacă nu se dorește accesarea din Prometheus, cAdvisor oferă și o interfață Web proprie, care se află la adresa http://<IP>:8080/, unde se pot regăsi informații despre containerele care rulează (sub categoria /docker), precum și despre utilizarea nodului pe care rulează serviciul, așa cum se poate observa în imaginea de mai jos.

Monitorizarea propriilor aplicații

Până acum, am monitorizat metrici despre nodurile Docker și despre containere, dar nu și despre aplicațiile noastre. Dacă dorim să facem acest lucru, este necesar să exportăm din aplicațiile noastre niște endpoint-uri HTTP care să poată fi citite de Prometheus, exact cum fac toate celelalte componente monitorizate mai sus.

O modalitate de a realiza acest lucru este de a urma documentația oficială Prometheus de instrumentare și de a ne expune direct din aplicații endpoint-ul de metrici cu datele afișate conform specificațiilor. Totuși, acest lucru nu este foarte la îndemână, dar partea bună este că există o serie de biblioteci sau framework-uri care ne ușurează exportarea de metrici, indiferent de limbajul folosit.

În cadrul acestui laborator, exemplificăm monitorizarea propriilor aplicații folosind pachetul prometheus-client în Python. Însă, înainte de a vedea cum se folosește, ar fi util de discutat despre tipurile de metrici acceptate de Prometheus. Astfel, conform documentației oficiale, există patru categorii principale de metrici:

Counter - un contor unic a cărui valoare poate doar să crească sau să fie resetată la zero
Gauge - o valoare numerică ce poate urca sau coborî în mod arbitrar
Histogram - colectează observații (precum durate de cereri sau dimensiuni de răspunsuri) și le numără în bucket-uri configurabile, oferind totodată și o sumă a tuturor valorilor observate
Summary - similar cu Histogram, dar oferă și cuantile configurabile peste o fereastră dinamică de timp.

Pachetul prometheus-client oferă funcții ușor de utilizat pentru fiecare din tipurile de metrici de mai sus, plus alte câteva auxiliare. Este suficient ca, în aplicațiile din care vrem să exportăm metrici, să instanțiem obiecte specifice tipurilor de metrici și să le actualizăm unde este cazul, și să pornim partea de server care va expune metricile respective pe un endpoint pentru Prometheus. Puteți vedea un exemplu simplu de aplicație Flask care exportă cinci metrici (Counter, Gauge, Histogram, Summary și Info) pe portul 8000 în repository-ul Testapp. Acolo, pe lângă surse, există și un Dockerfile cu ajutorul căruia se poate construi o imagine Docker pentru această aplicație. De asemenea, imaginea se poate găsi deja construită pe Docker Hub cu numele mobylab/idp-laborator4-testapp.

Aplicația din laborator rulează și un server web care poate primi cereri de tip POST pe portul 5000 pentru a genera date legate de metricile oferite, astfel:

inc_counter - crește valoarea metricii de tip Counter
inc_gauge - crește valoarea metricii de tip Gauge
dec_gauge - scade valoarea metricii de tip Gauge
set_gauge - setează valoarea metricii de tip Gauge (cu un parametru numit value)
set_summary - setează valoarea metricii de tip Summary (cu un parametru numit value)
set_histogram - setează valoarea metricii de tip Histogram (cu un parametru numit value).

Pe partea de deployment, este necesar să adăugam aplicația noastră într-o rețea comună cu Prometheus, rezultând următorul fișier Docker Compose, pe care îl puteți găsi în repository-ul Docker:

Click to display ⇲

Click to hide ⇱

prometheus-nexporter-cadvisor-testapp-stack.yml

version: "3.8"

services:
    prometheus:
        image: prom/prometheus
        volumes:
            - ../configs/prometheus/prometheus-nexporter-cadvisor-testapp.yml:/etc/prometheus/prometheus.yml
        ports:
            - 9090:9090
        networks:
            - monitoring

    node_exporter:
        image: prom/node-exporter
        deploy:
            mode: global
        volumes:
            - /proc:/host/proc:ro
            - /sys:/host/sys:ro
            - /:/rootfs:ro
        command:
            - '--path.procfs=/host/proc'
            - '--path.rootfs=/rootfs'
            - '--path.sysfs=/host/sys'
            - '--collector.filesystem.mount-points-exclude=^/(sys|proc|dev|host|etc)($$|/)'
        ports:
            - 9100:9100
        networks:
            - monitoring

    cadvisor:
        image: gcr.io/cadvisor/cadvisor
        deploy:
            mode: global
        volumes:
            - /:/rootfs:ro
            - /var/run:/var/run:ro
            - /sys:/sys:ro
            - /var/lib/docker/:/var/lib/docker:ro
            - /dev/disk:/dev/disk/:ro
        ports:
            - 8080:8080
        networks:
            - monitoring

    testapp:
        image: mobylab/idp-laborator4-testapp
        ports:
            - 8000:8000
            - 5000:5000
        networks:
            - monitoring

networks:
    monitoring:

Din punct de vedere al fișierului de configurare pentru Prometheus, trebuie adăugat un job pentru aplicația noastră, pe portul 8000, rezultând următorul fișier, pe care îl puteți găsi în repository-ul Configs:

Click to display ⇲

Click to hide ⇱

prometheus-nexporter-cadvisor-testapp.yml

global:
  scrape_interval: 3s

scrape_configs:
  - job_name: 'prometheus'
    scrape_interval: 5s
    static_configs:
      - targets: ['prometheus:9090']

  - job_name: 'docker'
    scrape_interval: 5s
    static_configs:
      - targets: ['host.docker.internal:9323']

  - job_name: 'node resources'
    static_configs:
      - targets: ['node_exporter:9100']
    params:
      collect[]:
        - cpu
        - meminfo
        - diskstats
        - netdev
        - netstat

  - job_name: 'node storage'
    static_configs:
      - targets: ['node_exporter:9100']
    params:
      collect[]:
        - filefd
        - filesystem
        - xfs

  - job_name: 'cadvisor'
    static_configs:
      - targets: ['cadvisor:8080']

  - job_name: 'testapp'
    static_configs:
      - targets: ['testapp:8000']

Odată ce s-a făcut deployment-ul, putem observa la http://<IP>:9090/targets și noul target, pe care putem apoi face query-uri din pagina de grafice, așa cum se poate observa în imaginea de mai jos.

Logare

Loki este un sistem de agregare de log-uri scalabil, creat de cei de la Grafana și inspirat de Prometheus. Mai concret, este un fel de Prometheus pentru log-uri, gândit să fie eficient și ușor de utilizat, folosind DynamoDB pentru indexare și S3 pentru stocare. Loki nu indexează textul log-urilor, ci grupează log-urile în stream-uri și le indexează astfel, împărțind query-urile în bucăți mici și realizându-le în paralel.

Ca funcționalitate, Loki colectează log-uri de la mai mulți clienți (cum ar fi Promtail, Logstash, driver-ul de Docker, etc.), le indexează, și apoi le exportă către alte servicii precum Grafana sau AlertManager. În cadrul acestui laborator, vom folosi un driver Docker de logging custom pentru Loki, care se instalează în felul următor:

$ docker plugin install grafana/loki-docker-driver:latest --alias loki --grant-all-permissions

$ docker plugin ls
 
ID             NAME          DESCRIPTION           ENABLED
6a20054403a8   loki:latest   Loki Logging Driver   true

Odată instalat driver-ul, acesta poate fi folosit la pornirea unui container sau a unui serviciu (fie din linia de comandă, fie dintr-un fișier Docker Compose) pentru a redirecționa log-urile acestuia către Loki. Pe lângă această modificare pe care trebuie să o facem deployment-ului unei aplicații, este nevoie să adăugăm serviciul de Loki (care rulează pe portul implicit 3100) și serviciul de Grafana (vom intra mai târziu în detalii despre Grafana, dar momentan ne este necesar pentru a putea vizualiza datele colectate de Loki). Ajungem astfel la următorul fișier Docker Compose, pe care îl puteți găsi în repository-ul Docker:

Click to display ⇲

Click to hide ⇱

prometheus-nexporter-cadvisor-testapp-loki-stack.yml

version: "3.8"

services:
    prometheus:
        image: prom/prometheus
        volumes:
            - ../configs/prometheus/prometheus-nexporter-cadvisor-testapp.yml:/etc/prometheus/prometheus.yml
        ports:
            - 9090:9090
        networks:
            - monitoring
            - visualizing

    node_exporter:
        image: prom/node-exporter
        deploy:
            mode: global
        volumes:
            - /proc:/host/proc:ro
            - /sys:/host/sys:ro
            - /:/rootfs:ro
        command:
            - '--path.procfs=/host/proc'
            - '--path.rootfs=/rootfs'
            - '--path.sysfs=/host/sys'
            - '--collector.filesystem.mount-points-exclude=^/(sys|proc|dev|host|etc)($$|/)'
        ports:
            - 9100:9100
        networks:
            - monitoring

    cadvisor:
        image: gcr.io/cadvisor/cadvisor
        deploy:
            mode: global
        volumes:
            - /:/rootfs:ro
            - /var/run:/var/run:ro
            - /sys:/sys:ro
            - /var/lib/docker/:/var/lib/docker:ro
            - /dev/disk:/dev/disk/:ro
        ports:
            - 8080:8080
        networks:
            - monitoring

    testapp:
        image: mobylab/idp-laborator4-testapp
        logging:
            driver: loki
            options:
                loki-url: http://host.docker.internal:3100/loki/api/v1/push
                loki-external-labels: job=myjob,owner=radu,environment=development
        ports:
            - 8000:8000
            - 5000:5000
        networks:
            - monitoring
            - logging

    loki:
        image: grafana/loki
        volumes:
            - ../configs/loki/loki.yml:/etc/config/loki.yml
            - ../configs/loki/wal:/wal
        entrypoint:
            - /usr/bin/loki
            - -config.file=/etc/config/loki.yml
        ports:
            - 3100:3100
        networks:
            - logging
            - visualizing

    grafana:
        image: grafana/grafana
        volumes:
            - grafana-volume:/var/lib/grafana
        ports:
            - 3000:3000
        depends_on:
            - loki
        deploy:
            placement:
                constraints: [node.role == manager]
        networks:
            - visualizing

networks:
    monitoring:
    logging:
    visualizing:

volumes:
    grafana-volume:

Se poate observa adăugarea atributului logging pentru aplicația noastră, pe care am pus-o într-o rețea comună cu Loki. De asemenea, pentru partea de vizualizare a log-urilor, Loki este în aceeași rețea cu Grafana. De asemenea, se mai observă că Loki are nevoie de un fișier YAML de configurare. Puteți vedea un exemplu mai jos (care se găsește și în directorul loki din repository-ul Configs):

Click to display ⇲

Click to hide ⇱

loki.yml

auth_enabled: false

server:
  http_listen_port: 3100

ingester:
  lifecycler:
    address: 127.0.0.1
    ring:
      kvstore:
        store: inmemory
      replication_factor: 1
    final_sleep: 0s
  chunk_idle_period: 5m
  chunk_retain_period: 30s

schema_config:
  configs:
  - from: 2023-04-24
    store: boltdb
    object_store: filesystem
    schema: v11
    index:
      prefix: index_
      period: 168h

storage_config:
  boltdb:
    directory: /tmp/loki/index

  filesystem:
    directory: /tmp/loki/chunks

limits_config:
  enforce_metric_name: false
  reject_old_samples: true
  reject_old_samples_max_age: 168h

chunk_store_config:
  max_look_back_period: 0

table_manager:
  chunk_tables_provisioning:
    inactive_read_throughput: 0
    inactive_write_throughput: 0
    provisioned_read_throughput: 0
    provisioned_write_throughput: 0
  index_tables_provisioning:
    inactive_read_throughput: 0
    inactive_write_throughput: 0
    provisioned_read_throughput: 0
    provisioned_write_throughput: 0
  retention_deletes_enabled: false
  retention_period: 0

Atenție la data pe care o selectați la atributul schema_config și la perioada de indexare. Dacă perioadă de indexare nu este valabilă, nu veți putea vedea log-urile.

Se observă deci că nu trebuie modificat nimic în codul aplicației ale cărei log-uri dorim să le preluam, ci doar în Docker Compose. Odată ce facem deployment-ul, putem vizualiza log-urile preluate și agregate de Loki cu ajutorul Grafana. Grafana este o suită open source de analiză și vizualizare de metrici (precum și alertare), care are suport pentru un număr mare de surse de date, printre care și Loki sau Prometheus.

Odată ce serviciul de Grafana este pornit, putem accesa dashboard-ul său la http://<IP>:3000/. Este nevoie întâi să ne logăm (credențialele implicite sunt admin / admin), după care putem adăuga o sursă nouă de date selectând opțiunea Add your first data source de pe ecranul principal. Ca tip de sursă de date, se selectează Loki, după care se introduce URL-ul http://loki:3100 și se salvează. În acest moment, dacă intrăm pe http://<IP>:3000/explore, putem observa sursa de log-uri Loki și putem să selectăm în funcție de label-uri. Odată selectat un label, se pot vedea (în timp real sau pe o perioadă determinată) log-urile dorite, așa cum se observă în imaginea de mai jos.

Vizualizare

Așa cum am importat Loki ca sursă de date în Grafana pentru a realiza query-uri și a avea o interfață grafică ușor de utilizat, același lucru îl putem face și pentru Prometheus. Dacă, până acum, se generau date care să fie afișate în Prometheus, în cazul de față Prometheus funcționează ca sursă de date, iar Grafana va primi datele și le va afișa într-un dashboard.

Tot ce trebuie făcut în Docker Compose este să punem Grafana și Prometheus în aceeași rețea, iar apoi să intrăm pe dashboard la http://<IP>:3000/ și să adăugăm noua sursă de date, similar cu Loki (URL-ul sursei fiind de această dată http://prometheus:9090). Odată adăugat Prometheus ca sursă, se pot crea dashboard-uri pe metricile expuse de Prometheus, așa cum se poate observa în imaginea de mai jos.

Cozi de mesaje

În multe cazuri, am putea avea o aplicație unde este necesar să realizăm anumite procesări în mod asincron, separat de fluxul principal al aplicației, cu scopul de a îmbunătăți performanțele și timpii de răspuns ai aplicației noastre. Un mod de a realiza acest lucru este prin intermediul cron jobs și task-uri de background, dar o variantă mai facilă este utilizarea cozilor asincrone de mesaje.

RabbitMQ este un exemplu popular de broker asincron de mesaje care este ușor de pornit și configurat, putând gestiona milioane de mesaje. RabbitMQ funcționează pe modelul publish/subscribe, unde procese de tip publisher generează date care sunt stocate de broker-ul RabbitMQ în cozi, iar procese de tip subscriber se abonează la cozile respective și primesc mesajele atunci când acestea sunt publicate.

În cadrul exemplului din acest laborator, aplicația Testapp pe care am văzut-o înainte va avea rolul de publisher. Atunci când se trimite un POST pe ruta generate_event cu un parametru numit event, se va publica evenimentul respectiv într-o coadă numită task_queue. De cealaltă parte, va mai exista o aplicație separată numită Worker (ale cărei surse se găsesc aici) care va acționa ca subscriber. Se va abona la mesajele din coada task_queue și le va afișa atunci când le primește. Puteți găsi și o imagine Docker deja construită pentru Worker pe Docker Hub cu numele mobylab/idp-laborator4-worker.

Este util de menționat faptul că, pentru a realiza conexiunea cu broker-ul RabbitMQ atât în Testapp, cât și în Worker, folosim pachetul Pika, deoarece acesta oferă o implementare a protocolului AMQP 0-9-1 folosit de RabbitMQ.

Având imaginile pentru Testapp și Worker, putem să ne actualizăm fișierul Docker Compose astfel:

adăugăm un serviciu de RabbitMQ cu imaginea rabbitmq:management-alpine și îl punem într-o rețea nouă
punem serviciul testapp (deja existent) și în această nouă rețea
adăugăm serviciul Worker și îl punem în aceeași rețea.

Cu aceste modificări, ajungem la următorul fișier Docker Compose, pe care îl puteți găsi în repository-ul Docker:

Click to display ⇲

Click to hide ⇱

prometheus-nexporter-cadvisor-testapp-loki-rmq-stack.yml

version: "3.8"

services:
    prometheus:
        image: prom/prometheus
        volumes:
            - ../configs/prometheus/prometheus-nexporter-cadvisor-testapp.yml:/etc/prometheus/prometheus.yml
        ports:
            - 9090:9090
        networks:
            - monitoring
            - visualizing

    node_exporter:
        image: prom/node-exporter
        deploy:
            mode: global
        volumes:
            - /proc:/host/proc:ro
            - /sys:/host/sys:ro
            - /:/rootfs:ro
        command:
            - '--path.procfs=/host/proc'
            - '--path.rootfs=/rootfs'
            - '--path.sysfs=/host/sys'
            - '--collector.filesystem.mount-points-exclude=^/(sys|proc|dev|host|etc)($$|/)'
        ports:
            - 9100:9100
        networks:
            - monitoring

    cadvisor:
        image: gcr.io/cadvisor/cadvisor
        deploy:
            mode: global
        volumes:
            - /:/rootfs:ro
            - /var/run:/var/run:ro
            - /sys:/sys:ro
            - /var/lib/docker/:/var/lib/docker:ro
            - /dev/disk:/dev/disk/:ro
        ports:
            - 8080:8080
        networks:
            - monitoring

    testapp:
        image: mobylab/idp-laborator4-testapp
        logging:
            driver: loki
            options:
                loki-url: http://host.docker.internal:3100/loki/api/v1/push
                loki-external-labels: job=myjob,owner=radu,environment=development
        ports:
            - 8000:8000
            - 5000:5000
        depends_on:
            - rabbitmq
        networks:
            - monitoring
            - logging
            - rmq

    rabbitmq:
        image: rabbitmq:management-alpine
        ports:
            - 5672:5672
            - 15672:15672
        networks:
            - rmq
        hostname: rabbitmq

    worker:
        image: mobylab/idp-laborator4-worker
        depends_on:
            - rabbitmq
        networks:
            - rmq

    loki:
        image: grafana/loki
        volumes:
            - ../configs/loki/loki.yml:/etc/config/loki.yml
            - ../configs/loki/wal:/wal
        entrypoint:
            - /usr/bin/loki
            - -config.file=/etc/config/loki.yml
        ports:
            - 3100:3100
        networks:
            - logging
            - visualizing

    grafana:
        image: grafana/grafana
        volumes:
            - grafana-volume:/var/lib/grafana
        ports:
            - 3000:3000
        depends_on:
            - loki
        deploy:
            placement:
                constraints: [node.role == manager]
        networks:
            - visualizing

networks:
    monitoring:
    logging:
    visualizing:
    rmq:

volumes:
    grafana-volume:

Odată ce deployment-ul este făcut, putem întâi să verificăm dacă broker-ul RabbitMQ este funcțional intrând pe http://<IP>:15672/ și logându-ne cu credențialele implicite guest / guest. Putem astfel observa că avem o singură coadă (task_queue) pe care nu s-a publicat încă vreun mesaj.

Dacă vrem să publicăm mesaje, este suficient să trimitem o cerere de POST pe ruta generate_event cu un parametru numit event către Testapp (adică pe portul 5000). În consola administrativă a RabbitMQ, putem observa prezența mesajului.

De asemenea, putem să ne uităm la log-urile aplicației Worker și să verificăm că mesajul a fost primit cu succes, astfel (presupunând că stiva noastră de servicii se numește prom):

$ docker service logs prom_worker                                                            
 
prom_worker.1.q3clmboqw5ij@docker-desktop    | Worker started
prom_worker.1.q3clmboqw5ij@docker-desktop    | Worker connected
prom_worker.1.q3clmboqw5ij@docker-desktop    | Received hello

Pentru a vă ușura testarea acestui laborator, găsiți în directorul postman din repository-ul Configs o colecție de rute pe care le puteți importa direct în Postman.

Exerciții

Pornind de la structura din repo-ul oficial al laboratorului, creați un grup cu trei repository-uri (BooksService, Configs și IOService).
Modificați fișierul stack-kong.yml pentru a folosi imagini din registrul vostru pentru serviciile de business logic și IO.
Porniți o stivă de servicii pentru aplicația de bibliotecă pe baza fișierului Docker Compose modificat.
Pe baza exemplului de fișier Docker Compose pentru Portainer de mai sus, porniți o stivă de servicii Portainer.
Din Portainer, generați un webhook pentru serviciul de business logic.
Instalați și configurați un GitLab Runner.
Adăugați un script .gitlab-ci.yml în repository-ul de business logic cu o etapă de build și una de deploy, conform modelului din laborator.
Faceți un push din repository-ul de business logic și verificați că stiva de servicii se actualizează corespunzător.

Laboratorul 04 - Portainer, GitLab CI/CD, monitorizare, logare, vizualizare, cozi de mesaje

idp/laboratoare/04.txt · Last modified: 2023/04/24 21:41 by radu.ciobanu

Old revisions

Media Manager Back to top