Inspectarea fișierelor
- Inspectarea rapida a conținutului fișierelor
  - Prelucrarea informației dintr-un fișier
    - Afișarea parțială a unui fișier
    - Exerciții
- Căutarea în fișiere
  - Exerciții
  - Opțiuni uzuale ale grep

Inspectarea fișierelor

Inspectarea rapida a conținutului fișierelor

În secțiunea anterioară, am văzut cum căutăm fișiere în sistem cu ajutorul utilitarelor locate și find. Căutăm un fișier cu un scop: vrem să găsim fișierul README pentru informații despre compilarea proiectului, vrem să ne amintim un detaliu de implementare din cod, etc.

De cele mai multe ori acțiunea noastră se poate grupa în una din următoarele două categorii:

Ne dorim să inspectăm rapid conținutul fișierelor pentru a ne da seama dacă am găsit informația căutată.
Ne dorim să afișăm pe ecran conținutul fișierelor pentru a extrage și prelucra informații din acestea.

Prelucrarea informației dintr-un fișier

Pentru a afișa pe ecran conținutul unui fișier folosim utlitarul cat. Rulăm comanda de mai jos, pentru a exemplifica:

student@uso:~$ cat ~/uso-lab/labs/05-cli/support/make-folder/hangman.c 
#include <stdio.h>
#include <string.h>
 
int main() {
  // Get word to guess
  char answer[128];
  printf("Enter word to guess: ");
 
[...]

Observăm că pentru un fișier cu un număr mare de linii, așa cum este binary_search.c, afișarea întregului conținut pe ecran devine un impediment în a putea înțelege și urmări conținutul. De aceea vă încurajăm să folosiți less în loc de cat pentru a inspecta un fișier: vă este mult mai ușor să vă plimbați în interiorul fișierului și puteți folosi funcția search pentru a căuta în fișier. De asemeni, folosind less vă păstrați consola curată și puteți urmări mai ușor ce comenzi ați dat anterior și care au fost rezultatele acestora.

Folosim comanda cat în combinație cu alte comenzi pentru a extrage sau filtra conținutul anumitor fișiere. Comanda cat primește ca argumente calea către unul sau mai multe fișiere și afișează pe ecran conținutul concatenat al acestora.

Un exemplu uzual este faptul că vrem să extragem informațiile despre starea memoriei sistemului din fișierul /proc/meminfo. Pentru aceasta rulăm comanda de mai jos:

student@uso:~$ cat /proc/meminfo | grep "Mem"
MemTotal:        2041248 kB
MemFree:          236092 kB
MemAvailable:     874420 kB

În exemplul de mai sus folosim cat pentru a oferi ca intrare conținutul fișierului /proc/meminfo utilitarului grep; cu utilitarul grep filtrăm conținutul după textul "Mem". Cu alte cuvinte, outputul comenzii cat /proc/meminfo, adică conținutul fișierului /proc/meminfo este textul pe care utilitarul grep îl prelucrează.

Exercițiu: Plecând de la exemplul de mai sus, extrageți din fișierul /proc/cpuinfo dimensiunea memoriei cache a procesorului vostru; filtrați conținutul după textul "cache".

Afișarea parțială a unui fișier

Am văzut că utilitarul cat afișează întreg conținutul unui fișier. Există scenarii în care suntem interesați doar de începutul sau sfârșitul unui conținut. Pentru aceste cazuri putem folosi utilitarele:

head - afișează primele 10 linii din conținut
tail - afișează ultimele 10 linii din conținut

Valoarea 10 este valoarea implicită a ambelor utilitare, dar putem specifica un alt număr de linii.

Așa cum am observat în capitolul despre procese, putem folosi utilitarul ps pentru a vedea care sunt procesele din sistem și ce resurse consumă acestea. Memoria sistemului este una dintre cele mai importante resurse; dacă sistemul nostru rămâne fără memorie disponibilă, tot sistemul este afectat: sistemul se va “mișca” mai greu, procesele se vor “mișca” mai greu sau pot chiar să își întrerupă activitatea. Știind acest lucru, suntem interesați să vedem care sunt primele zece procese care consumă cea mai multă memorie.

Folosim utilitarul ps pentru a afișa toate procesele din sistem:

student@uso:~$ ps -e -ouser,uid,pid,%mem,%cpu,rss,cmd --sort=%mem
 
USER       UID   PID %MEM %CPU   RSS CMD
root         0     2  0.0  0.0     0 [kthreadd]
 
[...]
 
student   1000  8338  3.0  0.0 61860 /usr/lib/evolution/evolution-calendar-factory-subprocess --factory all --bus-name org.gnome.evolution.dataserver.Subprocess.Backend.Calendarx8307x2 --own-path /org/gnome/evolution/dataserver/Subprocess/Backend/Calendar/8307/2
student   1000  8307  3.1  0.0 64628 /usr/lib/evolution/evolution-calendar-factory
root         0  1338  3.8  0.0 78880 /usr/bin/dockerd -H fd:// --containerd=/run/containerd/containerd.sock
student   1000  7782  3.9  0.0 81312 /usr/lib/xorg/Xorg vt1 -displayfd 3 -auth /run/user/1000/gdm/Xauthority -background none -noreset -keeptty -verbose 3
student   1000  8437  8.4  0.0 171916 /usr/bin/gnome-software --gapplication-service
student   1000  7938 18.0  0.1 368304 /usr/bin/gnome-shell

Am folosit opțiunea -ouser,uid,pid,%mem,%cpu,rss,cmd pentru a selecta coloanele pe care să le afișeze ps.

Am folosit opțiunea --sort cu argumentul %mem pentru a sorta procesele după procentul de memorie folosită.

Folosiți comanda ps -e -ouser,uid,pid,%mem,%cpu,rss,cmd --sort=%mem | less pentru a vizualiza rezultatul comenzii ps într-o sesiune interactivă less.

Observăm că avem procesele sortate crescător după coloana %MEM. Folosim utilitarul tail pentru a extrage din rezultatul ps cele mai consumatoare zece procese:

student@uso:~$ ps -e -ouser,uid,pid,%mem,%cpu,rss,cmd --sort=%mem | tail
student   1000 12966  1.8  0.0 38216 /usr/lib/gnome-terminal/gnome-terminal-server
root         0  1074  2.2  0.0 45460 /usr/bin/containerd
student   1000  8274  2.3  0.0 48296 nautilus-desktop
root         0   336  2.6  0.0 53612 /lib/systemd/systemd-journald
student   1000  8338  3.0  0.0 61860 /usr/lib/evolution/evolution-calendar-factory-subprocess --factory all --bus-name org.gnome.evolution.dataserver.Subprocess.Backend.Calendarx8307x2 --own-path /org/gnome/evolution/dataserver/Subprocess/Backend/Calendar/8307/2
student   1000  8307  3.1  0.0 64628 /usr/lib/evolution/evolution-calendar-factory
root         0  1338  3.8  0.0 78880 /usr/bin/dockerd -H fd:// --containerd=/run/containerd/containerd.sock
student   1000  7782  3.9  0.0 81312 /usr/lib/xorg/Xorg vt1 -displayfd 3 -auth /run/user/1000/gdm/Xauthority -background none -noreset -keeptty -verbose 3
student   1000  8437  8.4  0.0 171916 /usr/bin/gnome-software --gapplication-service
student   1000  7938 18.0  0.1 368248 /usr/bin/gnome-shell

În acest moment am găsit răspunsul căutat, dar avem două mici neajunsuri:

Ne lipsește antetul, așa că nu știm ce informații avem pe coloane
Procesele sunt sortate crescător, a.î. cel mai consumator este ultimul; vrem să fie sortate descrescător

Rezolvăm cele două probleme prin intermediul opțiunii --sort: dacă punem un - (minus) în fața argumentului după care sortăm, o să sortăm descrescător. Rulăm comanda:

student@uso:~$ ps -e -ouser,uid,pid,%mem,%cpu,rss,cmd --sort=-%mem | less
USER       UID   PID %MEM %CPU   RSS CMD
student   1000  7938 18.0  0.1 368248 /usr/bin/gnome-shell
student   1000  8437  8.4  0.0 171916 /usr/bin/gnome-software --gapplication-service
student   1000  7782  3.9  0.0 81312 /usr/lib/xorg/Xorg vt1 -displayfd 3 -auth /run/user/1000/gdm/Xauthority -background none -noreset -keeptty -verbose 3
root         0  1338  3.8  0.0 78880 /usr/bin/dockerd -H fd:// --containerd=/run/containerd/containerd.sock
student   1000  8307  3.1  0.0 64628 /usr/lib/evolution/evolution-calendar-factory
 
[...]

Observăm că acum avem formatul dorit. Ne mai rămâne să extragem primele 11 linii din rezultatul comenzii de mai sus; 11 deoarece prima este linia antetului iar următoarele zece sunt procesele de interes. Pentru aceasta utilizăm comanda head cu opțiunea -11 ca în exemplul de mai jos:

student@uso:~$ ps -e -ouser,uid,pid,%mem,%cpu,rss,cmd --sort=-%mem | head -11
USER       UID   PID %MEM %CPU   RSS CMD
student   1000  7938 18.0  0.1 367952 /usr/bin/gnome-shell
student   1000  8437  8.4  0.0 171916 /usr/bin/gnome-software --gapplication-service
student   1000  7782  3.9  0.0 81312 /usr/lib/xorg/Xorg vt1 -displayfd 3 -auth /run/user/1000/gdm/Xauthority -background none -noreset -keeptty -verbose 3
root         0  1338  3.8  0.0 78880 /usr/bin/dockerd -H fd:// --containerd=/run/containerd/containerd.sock
student   1000  8307  3.1  0.0 64628 /usr/lib/evolution/evolution-calendar-factory
student   1000  8338  3.0  0.0 61860 /usr/lib/evolution/evolution-calendar-factory-subprocess --factory all --bus-name org.gnome.evolution.dataserver.Subprocess.Backend.Calendarx8307x2 --own-path /org/gnome/evolution/dataserver/Subprocess/Backend/Calendar/8307/2
root         0   336  2.6  0.0 53612 /lib/systemd/systemd-journald
student   1000  8274  2.3  0.0 48296 nautilus-desktop
root         0  1074  2.2  0.0 45460 /usr/bin/containerd
student   1000 12966  1.8  0.0 38216 /usr/lib/gnome-terminal/gnome-terminal-server

Exerciții

Afișați primele zece procese sortate în funcție de memoria ocupată (Hint: RSS). Nu uitați să includeți antetul.
Afișați ultimele zece procese sortate în funcție de utilizarea procesorului (Hint: CPU). Nu uitați să includeți antetul.

Căutarea în fișiere

Așa cum am văzut până în acest punct din carte, majoritatea comenzilor Linux afișează o gamă largă de informații pe care apoi utilizatorul (adică noi) le filtrează pentru a extrage ceea ce îl intresează. La începutul acestei secțiuni, dar și de-a lungul cărții, am folosit utilitarul grep ca să filtrăm rezultatul unei comenzi.

Comanda grep este una dintre cele mai folosite în linie de comandă. Sintaxa de folosire a grep este următoarea:

SYNOPSIS
       grep [OPTIONS] PATTERN [FILE...]

grep caută PATTERN în lista de fișiere primită ca argument și afișează liniile care conțin PATTERN-ul căutat. Atunci când nu primește nici un fișier, citește text de la tastatură (intrarea standard) și afișează liniile care conțin PATTERN-ul căutat.

Până acum noi am utilizat grep după modelul de mai jos:

student@uso:~$ cat uso-lab/labs/05-cli/support/make-folder/hangman.c | grep gameover
  int gameover = 0;
  while (! gameover) {
    gameover = 1;
        gameover = 0;

În exemplul de mai sus, operatorul | trimite textul afișat de comanda cat către intrarea standard a comenzii grep. Acesta comandă este un exemplu de oneliner. Vom discuta mai multe despre oneliners în secțiunea următoare.

Comanda următoare este echivalentă cu cea de mai sus:

student@uso:~$ grep gameover uso-lab/labs/05-cli/support/make-folder/hangman.c
  int gameover = 0;
  while (! gameover) {
    gameover = 1;
        gameover = 0;

Observăm modul de folosire: grep PATTERN cale/către/fișier.

Exerciții

Căutați patternul “l” în fișierul hangman.c, pentru a vedea care sunt headerele incluse în acest fișiere (#include <...>). Observați cât de multe rezultate irelevante ați găsit datorită faptului că am căutat doar caracterul l. Folosiți patternul “include” în încercarea de a restrânge căutarea.

Opțiuni uzuale ale grep

Afișarea numărului liniei care conține patternul

Folosim opțiunea -n pentru a afișa și numărul liniei care conține patternul căutat:

student@uso:~$ grep -n gameover uso-lab/labs/05-cli/support/make-folder/hangman.c
18:  int gameover = 0;
19:  while (! gameover) {
46:    gameover = 1;
49:        gameover = 0;

Căutarea case-insensitive

Implicit, grep caută în mod case-sensitive patternul, așa cum putem observa din exemplul de mai jos:

student@uso:~$ grep Gameover uso-lab/labs/05-cli/support/make-folder/hangman.c
student@uso:~$

Pentru a efectua căutarea textului în mod case-insesnsitive, folosim opțiunea -i, ca în exemplul de mai jos:

student@uso:~$ grep -i Gameover uso-lab/labs/05-cli/support/make-folder/hangman.c
  int gameover = 0;
  while (! gameover) {
    gameover = 1;
        gameover = 0;

Excluderea unui pattern

Pentru a afișa toate liniile, mai puțin pe cele care conțin pattern, folosim opțiunea -v, ca în exemplul de mai jos:

student@uso:~$ grep -v gameover uso-lab/labs/05-cli/support/make-folder/hangman.c
#include <stdio.h>
#include <string.h>
 
int main() {
  // Get word to guess
  char answer[128];
  printf("Enter word to guess: ");
  fflush(stdout);
  scanf(" %s", answer);
 
  int N = strlen(answer);
  int mask[N];
  for (int i=0; i < N; ++i) {
    mask[i] = 0;
  }
 
[...]

Cu alte cuvinte, am afișat toate liniile din fișiere care nu conțin patternul gameover.

Căutarea recursivă a unui pattern

În căutările noastre de până acum, ca și în exemplele de mai sus, am presupus că știm în ce fișiere se găsește informația căutată de noi. Acest lucru este adevărat pentru fișiere din sistem cu informații bine cunoscute, cum ar fi /proc/meminfo, dar atunci când lucrăm cu un proiect nou nu vom ști în ce fișiere să căutăm informația dorită. De exemplu, în cazul proiectului cu algoritmi implementați în C, noi am făcut presupunerea că vom găsi linii care conțin patternul gameover în fișierul uso-lab/labs/05-cli/support/make-folder/hangman.c.

Atunci când nu știm în ce fișiere se află informația căutată putem să-i spunem lui grep să caute recursiv prin toată ierarhia de fișiere dintr-un anumit director. Pentru a efectua o căutare recursivă folosim opțiunea -r, ca în exemplul de mai jos:

student@uso:~$ grep -r gameover uso-lab/ | less
uso-lab/labs/05-cli/support/make-folder/hangman.c:  int gameover = 0;
uso-lab/labs/05-cli/support/make-folder/hangman.c:  while (! gameover) {
uso-lab/labs/05-cli/support/make-folder/hangman.c:    gameover = 1;
uso-lab/labs/05-cli/support/make-folder/hangman.c:        gameover = 0;
uso-lab/labs/04-appdev/support/simple-make/hangman.c:  int gameover = 0;
uso-lab/labs/04-appdev/support/simple-make/hangman.c:  while (! gameover) {
uso-lab/labs/04-appdev/support/simple-make/hangman.c:    gameover = 1;
uso-lab/labs/04-appdev/support/simple-make/hangman.c:        gameover = 0;

Best practice

De cele mai multe ori vom folosi opțiunile -n, -i și -r în aceelași timp. În cazul nostru de până acum, aceasta se traduce în:

student@uso:~$ grep -nri uso-lab | less
uso-lab/lectures/auto/demo/grades/script.wiki:3:Pentru acest scenariu, actualizați [[https://github.com/systems-cs-pub-ro/uso-lab|repository-ul public de USO]] și navigați în subdirectorul ''lectures/auto/grades/'':
uso-lab/lectures/auto/demo/grades/script.wiki:6:student@uso:~$ cd uso-lab
uso-lab/lectures/auto/demo/grades/script.wiki:7:student@uso:~/uso-lab$ git pull
uso-lab/lectures/auto/demo/grades/script.wiki:8:student@uso:~/uso-lab$ cd lectures/auto/grades
uso-lab/lectures/auto/demo/grades/script.wiki:9:student@uso:~/uso-lab/lectures/auto/grades$ ls
uso-lab/lectures/auto/demo/grades/script.wiki:19:student@uso:~/uso-lab/lectures/auto/grades$ wc -l 2016-2017.csv
uso-lab/lectures/auto/demo/grades/script.wiki:21:student@uso:~/uso-lab/lectures/auto/grades$ wc -l 2017-2018.csv
uso-lab/lectures/auto/demo/grades/script.wiki:23:student@uso:~/uso-lab/lectures/auto/grades$ wc -l 2018-2019.csv
uso-lab/lectures/auto/demo/grades/script.wiki:25:student@uso:~/uso-lab/lectures/auto/grades$ wc -l 2019-2020.csv
uso-lab/lectures/auto/demo/grades/script.wiki:32:student@uso:~/uso-lab/lectures/auto/grades$ tail -n +2 2019-2020.csv | wc -l
uso-lab/lectures/auto/demo/grades/script.wiki:34:student@uso:~/uso-lab/lectures/auto/grades$ echo -n "2019-2020: " ; tail -n +2 2019-2020.csv | wc -l
uso-lab/lectures/auto/demo/grades/script.wiki:45:student@uso:~/uso-lab/lectures/auto/grades$ for i in *.csv; do echo -n "$(basename "$i" .csv): " ; tail -n +2 "
:

Astfel avem o căutare cât mai cuprinzătoare și putem folosi funcția de căutare în sesiunea interactivă less pentru a găsi linia și fișierul care ne interesează.

Exerciții

Găsiți toate fișierele din sistem care includ headerul stdio.h.

Table of Contents

Inspectarea fișierelor

Inspectarea rapida a conținutului fișierelor

Prelucrarea informației dintr-un fișier

Afișarea parțială a unui fișier

Exerciții

Căutarea în fișiere

Exerciții

Opțiuni uzuale ale grep

Afișarea numărului liniei care conține patternul

Căutarea case-insensitive

Excluderea unui pattern

Căutarea recursivă a unui pattern

Best practice

Exerciții