Software per Linux



(rieccomi dopo mesi di nulla.. a casa malato e mi do da fare 😛 )

Quest’articolo fa parte di una serie di articoli sui tool GNU (e quindi Linux) per manipolare testi.

L’esempio che si era visto in quell’articolo, con awk, è il seguente:
cat sottotitoli.srt | awk 'NR%2==1' > sottotitoli-dispari.srt

il cui scopo era rimuovere tutte le righe pari… fra poco sarà tutto più chiaro!

awk è un altro software per la manipolazione dei testi, secondo il mio parere si adatta meglio a lavorare su testi con una struttura rigida, ad esempio divisi per colonne (tipo tabella), ogni elemento di questa “tabella” è chiamato ‘campo’. Per elaborare il risultato di molti comandi Linux questo strumento è comodissimo 🙂

Per comprendere cosa intendo ecco un piccolo esempio che potete replicare facilmente aprendo un terminale:

$ cal
luglio 2009
lu ma me gi ve sa do
1  2  3  4  5
6  7  8  9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31

Il comando cal senza parametri stampa il calendario del mese corrente (Luglio 2009 in questo caso).
Vediamo cosa succede se diamo in pasto il risultato del comando cal ad awk.

$ cal | awk '{ print $3; }'
me
3
8
15
22
29

Quel che ho fatto qui è semplicissimo: eseguo il comando cal, quindi il risultato lo butto in pasto al comando awk (si ottiene grazie al pipe, ovvero la linea verticale ‘|’).
il “programma” che viene fatto girare da awk è semplicemente: { print $3; }. Ovvero: stampa la terza colonna (Mercoledì).

In realtà awk è un vero linguaggio di programmazione e quindi più potente, per certi versi, di sed: contiene funzioni richiamabili e permette di effettuare operazioni matematiche con i dati in elaborazione!

In questo breve tutorial impareremo il significato del comando visto qui sopra e cercherò di insegnarvi ad utilizzare awk in modo più approfondito: applicando pattern “per riga” ed effettuando operazioni su stringhe e numeri!

Prerequisiti

Per poter comprendere appieno questo tutorial è necessario che abbiate compreso e fatto un po’ di pratica con le regular expression (o regex) di cui vi ho parlato qui.
Non sono richieste particolari esperienze di programmazione ma aiutano parecchio.

il software si chiama gawk

Si.. non awk ma gawk! awk è il linguaggio, gawk è l’implementazione GNU del linguaggio!
Cioè { print $3; } è un comando nel linguaggio awk che dice di stampare la terza colonna, mentre il software che esegue codice awk si chiama gawk in sistemi GNU/* come Linux.

lanciare gawk

Il manuale di gawk è molto ben scritto, anche se in inglese, e io ho imparato ad utilizzare awk semplicemente leggendo questo manuale e provando di volta in volta.

man gawk

le opzioni principali per lanciare gawk (per le altre guardate il manuale):

  • -F fs o --field-separator fs « l’opzione del comando awk vi permette di specificare quali sono i caratteri che volete siano considerati come separatori di campo (se omessa verranno usati gli spazi e le tabulazioni) e indovinate un po? si può, volendo, indicare quali sono i separatori di campo con una espressione regolare (regex)
  • -f script-file o --file script-file « specifica un file di script awk invece che indicarlo dalla linea di comando tra apici

awk si lancia con questa sintassi (notate gli apici prima e dopo i comandi):

awk '<programma>' nome-file-su-cui-lavorare

oppure

cat nome-file-su-cui-lavorare | awk '<programma>'

oppure

awk -f programma-awk.awk nome-file-su-cui-lavorare

Se ad esempio vogliamo chiedere ad awk di usare la virgola come carattere di separazione dei campi (Field Separator, FS) possiamo invocare awk così:

awk -F, '<programma>'

esiste un caso particolare in cui questo non funziona: se cercate di impostare il SOLO carattere tabulazione (che si indica con ‘\t’) come FS non riuscirete a scriverlo in questo modo… dovrete usare questa scrittura:

awk -F "\t" '<programma>'

che poteva comunque essere utilizzata anche per la virgola o per passare una regex ad awk

un altro modo per fare la stessa cosa è impostare la variabile FS all’interno del programma così:

awk 'BEGIN {FS = ","} { ... }'

Questo metodo è più comodo se volete scrivere uno script invece che lanciare da linea di comando…

Inoltre con l’esempio vediamo 2 cose nuove: BEGIN e l’utilizzo di variabili (cioè contenitori di dati che possono cambiare durante l’esecuzione del codice).

Per chiarificare immaginate di avere questa riga di testo: “tizio,caio,sempronio” e di voler effettuare una separazione utilizzando la virgola anziché gli spazi… Otterreste quindi i campi “tizio”, “caio” e “sempronio”.

$ echo 'tizio,caio,sempronio' | gawk -F, '{ print "1=" $1 " - 2=" $2 " - 3=" $3; }'
1=tizio – 2=caio – 3=sempronio

Con quest’esempio abbiamo anche visto come concatenare delle stringhe (del testo): quello che vuoi volete scrivere potete metterlo tra virgolette doppie… per concatenare più stringhe (metterle una dopo l’altra) è sufficiente elencarle separate da spazio!

Struttura di base di un programma awk

Il testo è suddiviso in record e campi: possiamo pensare ai record come le “righe” di un file di testo e ai “campi” come le sue “colonne”.
Come abbiamo visto prima nell’esempio del calendario i campi sono separati automaticamente dove ci sono spazi, i record sono separati con degli “a capo”. Entrambe questi limitatori si possono cambiare modificando le variabil FS (Field separator, separatore di campo) e RS (Record Separator, separatore di record).

gawk legge un record alla volta, lo suddivide in campi e vi permette di lavorarci.

La struttura di un programma awk è la seguente:

pattern1 { azioni }
pattern2 { azioni }
function nome(parametri) { azioni }

I pattern selezionano dei record su cui verranno svolte delle azioni.
Le funzioni sono comode quando dobbiamo ripetere le stesse operazioni più volte nelle nostre azioni.

Ora vedremo come si utilizzano le variabili in un programma awk, quindi cosa sono i pattern e come sfruttarli…
Il tutto verrà supportato da esempi!

Variabili

Come in qualunque linguaggio di programmazione una variabile è un etichetta: un contenitore!
Le variabili gawk possono contenere numeri o testo e awk si occupa automaticamente di convertire dall’uno all’altro all’occorrenza.

Dichiarare una variabile è semplice:

numero = 12;
testoNumero = "4";
saluto = "ciao";
nome = "daniele";
concatenamento = testo " " nome; /* ciao daniele */
risultato = numero / testoNumero; /* 3 */

Le variabili, una volta che assumono un valore, sono utilizzabili ovunque nel programma awk: sono “globali”.

Ci sono alcune variabili “speciali” già definite da awk, ed alcune le abbiamo già usate:

  • $1: primo campo del record
  • $2: secondo campo del record
  • $0: l’intero record
  • NF: (Number of Fields) numero di campi ($1, $2, …)
  • FS: (Field Separator) separatore di campo, può essere modificato durante l’esecuzione e cambia i valori delle variabili $1, $2, $3, …
  • NR: (Number of Records) numero di record processati (per semplicità pensatelo come il numero di riga per ora)
  • FNR: Numero del record corrente nel file (questo è effettivamente il numero di riga/record)
  • RS: (Record Separator) carattere separatore tra record (predefinito è l’a-capo)

Le trovate tutte nel manuale di gawk.

Vediamo alcuni esempi:

conta il numero di righe di un file di testo. (stesso risultato del comando wc -l di Linux):

gawk '{numeroRighe = numeroRighe +1;} END { print numeroRighe; }'

inserisce i numeri di riga di un file (1. prima riga, 2. seconda riga, ecc…):

gawk '{ print FNR ". " $0;}'

Supponente poi di avere una file con una lista “nome: numero”:

primo salto: 170
secondo salto: 175
terzo salto: 180

si può facilmente calcolare e stampare una media con awk:

BEGIN {
FS = ":"; /* imposto come separatore i 2 punti */
}
{
conteggioRighe = conteggioRighe +1; /* questo può anche essere scritto conteggioRighe++; */
totale = totale + $2; /* il secondo campo è quello dopo i due punti */
print $0; /* stampo tutta la riga invariata */
}
END {
print "-----------"; /* un separatore */
print "media: " totale/conteggioRighe;
}

vettori

tra le variabili si possono anche definire vettori!

mioArray[indice] = valore;
print mioArray[indice];

l’indice e il valore possono essere qualunque variabile: un numero o una stringa.
Quindi questo è perfettamente legale:

mioArray["febbre"] = 38;
mioArray["vomito"] = "si purtroppo";
mioArray[1] = "tutto chiaro?";

pattern di riga

Vi siete chiesti il perché delle parentesi graffe? O perché BEGIN è stato scritto di fronte ad esse nell’ultimo esempio? Qui viene spiegato il perché.

Il linguaggio awk va definito in questo modo:

BEGIN { comandi da eseguire all'inizio }
PATTERN1 { comandi da eseguire per le righe che corrispondono al pattern 1 }
PATTERN2 { comandi da eseguire per le righe che corrispondono al pattern 2 }
END { comandi da eseguire alla fine}

Si ma cos’è un pattern?

Il pattern è in sostanza qualcosa che dice ad awk su quali parti del testo lavorare!
Il pattern può essere un espressione regolare, una espressione di una qualche relazione o una combinazione di queste cose!

Ad ogni pattern sono associate una o più azioni che vengono racchiuse tra parentesi graffe ‘{ }’. Se l’azione viene omessa questa corrisponde all’azione ‘{print}’ che semplicemente stampa l’intero pattern senza azioni su di esso!

Quindi un pattern può essere:

  • una regex: /regex/ { fai qualcosa per le righe che soddisfano la regular expression }
  • un confronto NR%2 == 1 { fai qualcosa con i numeri di riga dispari }: NR è la variabile “numero di riga”, NR%2 è il modulo 2, cioè il resto della divisione per 2.

più pattern possono essere messi in OR/AND/NOT. Cioè ad esempio si può dire che si vuole effettuare un particolare comando per le righe pari che cominciano con dei numeri mettendo in AND un confronto (righe pari) e una regolar expression (cominciano con un numero):

NR%2==0 && /^[0-9].*/ { comandi da applicare a righe pari che cominciano con un numero }

! /topo/ { fai qualcosa con le righe che NON contengono la parola "topo" }

Ci sono due pattern speciali: BEGIN e END. Questi pattern ignorano i dati d’ingresso (il testo).
Con BEGIN la parte “azione” viene eseguita tutta PRIMA di leggere un qualsiasi input.
Con END la parte “azione” viene eseguita DOPO aver finito di processare l’intero testo in input.

Nell’esempio con il file dei sottotitoli abbiamo utilizzato solamente il pattern indicando che volevamo awk lavorasse solo sulle righe dispari.

le funzioni

gawk vi mette a disposizione diverse funzioni già pronte, qui ve ne elenco qualcuna ma vi rimando al manuale di gawk per una lista completa.

  • print(stringa): l’abbiamo già vista, stampa a video delle stringhe
  • lenght(stringa): restituisce la lunghezza di una stringa
  • tolower(stringa): restituisce la stringa in caratteri minuscoli
  • toupper(stringa): restituisce la stringa in caratteri maiuscoli
  • int(numero): restituisce l’intero del numero (toglie i decimali)
  • cos(numero): calcola il coseno di un numero
  • sqrt(numero): calcola la radice quadrata di un numero
  • system(stringa di comando): esegue un comando Linux

supponiamo di voler rendere più evidenti tutte le righe di un testo con la scritta “important” all’interno.
Solo le righe che contentono la parola “important” sono state convertite in TUTTO MAIUSCOLE, le altre sono state stampate così come sono (notare il ! di NOT davanti alla seconda regex):

awk '/important/ { print toupper($0);} !/important/ { print $0; }'

nuove funzioni possono essere definite anche da voi seguendo la sintassi, vediamo una modifica del comando precedente:

awk '/important/ { print maiuscolo($0);} !/important/ { print $0; } function maiuscolo(stringa) { return toupper(stringa); }'

Cicli e condizionali

Come tutti i linguaggi di programmazione anche awk mette a disposizione dei comandi per gestire il flusso di operazioni!

  • if (condizione) { azione } else { altra azione }
  • while (condizione) { azione da ripetere }
  • for (inizializzazione; condizione; avanzamento) { azione da ripetere }
  • for (indice in array) { azioni con gli elementi di un array }

Per chi ha famigliarità con un linguaggio di programmazione non serve aggiungere altro a questa lista, per gli altri non sarà così ovvia…
Mi limiterò a fare qualche esempio per lasciar “intuire” come utilizzarli ma non è presunzione di questo tutorial insegnare a programmare a chi non lo ha mai fatto:

Riprendiamo l’esempio con i salti di prima (notate in fondo il comando if):


BEGIN {
FS = ":"; /* imposto come separatore i 2 punti */
}
{
conteggioRighe = conteggioRighe +1; /* questo può anche essere scritto conteggioRighe++; */
totale = totale + $2; /* il secondo campo è quello dopo i due punti */
print $0; /* stampo tutta la riga invariata */
}
END {
print "-----------"; /* un separatore */
calcoloMedia = totale/conteggioRighe;
if (calcoloMedia < 120) { print "media: CHE SCHIAPPA!!!"; }
else { print "media: " totale/conteggioRighe; }

}

Stavolta se la media di altezza per il salto in alto è inferiore a 120 verrà stampato CHE SCHIAPPA!!! 🙂

Come altro esempio immaginate di avere questo file:

salto in alto: 190
salto in alto: 174
salto in lungo: 5.3
100 metri: 9.5
salto in lungo: 4.8
salto in alto: 193
100 metri: 10.2

Ora vedremo, come ultimo esempio, come calcolare le medie di tutte le varie discipline in un colpo solo:


BEGIN {
FS = ":"; /* imposto come separatore i 2 punti */
}
{
conteggioRighe[$1]++;
totale[$1] = totale[$1] + $2; /* l'indice è il nome della disciplina ($1), il valore il risultato ($2) */
print $0; /* stampo tutta la riga invariata */
}
END {
print "-----------"; /* un separatore */
print "MEDIE:";
/* per ogni indice dell'array stampa una media */
for (indice in totale) { print indice ": " totale[indice]/conteggioRighe[indice]; }
}

ecco quello che si ottiene eseguendo questo programmino:

$ awk -f programmino.awk attletica.txt
salto in alto: 190
salto in alto: 174
salto in lungo: 5.3
100 metri: 9.5
salto in lungo: 4.8
salto in alto: 193
100 metri: 10.2
———–
MEDIE:
salto in alto: 185.667
100 metri: 9.85
salto in lungo: 5.05

sono disponibile per domande 🙂
se vi sembra ci siano parti poco chiare fatemelo notare e farò del mio meglio per renderle più chiare

ps: scusate ho fatto casini con il copia incolla.. ora dovrebbe essere a posto


Ho fatto un’introduzione a Gimp e una panoramica delle funzionalità di Alfresco.

Le mie due presentazioni potete scaricarle qui.

Probabilmente presto si potrà scaricare tutto il materiale del Linux Day 2008 di Biella sul sito del BiLUG.

Ringrazio chi mi ha ascoltato.


Ho creato un video (2 per la verità) in cui spiego come rimuovere le asperità di un immagine utilizzando il software free (gratis E libero) Gimp.

La stessa tecnica può essere utilizzata per rimuovere rughe, cicatrici e tagli da un viso o la pelle in genere, crepe da muri e pavimenti (o soffitti) o qualunque tipo di asperità in un immagine!

Sfruttando la medesima tecnica è possibile AGGIUNGERE le asperità all’immagine donando rughe a qualche giovane amico, cicatrici alla proprià metà e magari qualche buco nel muro qua e là dove prima non c’era 🙂

Ho utilizzato la versione 2.4.5 di Gimp.

Il video è diviso in 2 parti e ho in programma di scrivere una descrizione dei passaggi più dettagliata qui in questo articolo ma il tempo, si sà, è tiranno e questo non sarà disponibile oggi 🙂

Non so quando ne avrò il tempo in effetti…

Nella seconda parte mostro dei risultati che non ho spiegato come ottenere perché sono già spiegati da un altro tutorial (non video ma ugualmente molto ben fatto) di Linux4Life: potete trovare il tutorial di cui parlo a questo indirizzo, ma guardate i video prima 😉

Eccoli qua:

Prima parte…

…seconda parte.

Potete trovare l’intervo video ad “alta qualità” qui

dubbi? domande? consigli?

Non esistate a darli 🙂


Mi ritrovo a ringraziare nuovamente PaulTT per le sue utilissime segnalazioni su mplayer/mencoder!!

Rimuovere parti di un video, ad esempio le pubblicità, è semplicissimo su Linux se usate mplayer!! Non lo avrei mai pensato 😀

Cosa si può fare

semplicemente:

  • marcare delle parti di un video per essere automaticamente saltate o “silenziate” tutte le volte che lo si guarda
  • ricodificare il video eliminando o silenziando le parti che vogliamo

e per farlo basta guardarsi il video una volta, anche scorrendolo veloce, e dando 1 paio di comandi
Ebbene.. ecco come fare…

(altro…)


Su Linux non ci sono, per quanto ne so, software dedicati alla sola creazione di Gif animate partendo da un video…

Esistono però strumenti che ci permettono di ottenere comunque il risultato!

In particolare mplayer fa al caso nostro! (quindi installatelo se non lo avete)

Per questa guida vi mostrerò come trasformare questo video in una gif animata, ad esempio per crearvi un vostro avatar!

Il video di cui creerò la gif (mitico One Piece¹)

e poi vi darò qualche suggerimento per sperimentare voi stessi e ottenere qualche risultato più interessante di quello che ho ottenuto io in pochi secondi…

(altro…)


Ho parlato qualche giorno fa di PulseAudio e di come presto manderà in pensione esound su tutti i sistemi Gnome.

PulseAudio per ora è difficile da integrare nel proprio sistema o almeno è difficile se non si è un minimo smalizziati! Comunque il problema più grosso è a mio avviso la mancanza di guide per farlo! Ecco perché qui spiego come ho fatto sul mio sistema…

Questa guida è orientata a sistemi Debian/Ubuntu ma può essere riadattata a qualunque distribuzione Linux purché si installino i pacchetti pulseaudio corrispondenti a quelli che tratto qui.

La guida non è comunque semplicissima, se seguendola fate casini nel vostro sistema non sarà colpa mia :). In ogni caso se vi fate i backup dei file che modificate e ponete attenzione in quel che fate dovrebbe andare tutto liscio…

Vi ricordo che PulseAudio è un software in via di sviluppo: pertanto potrebbe essere instabile o avere delle mancanze/malfunzionamenti di vario tipo… Siete caldamente invitati quindi a non lamentarvi in caso di problemi! Aiutate invece gli sviluppatori segnalandoli e aiutandoli a risolverli… In fondo riporterò una lista dei problemi che IO ho rilevato e quelli che mi segnalerete.

(altro…)


Da circa un mese sto imparando ad usare Gimp (The GNU Image Manipulation Program): il software di foto ritocco libero. Gimp si pronuncia “Ghimp” anche se noi italiani tendiamo a chiamarlo “gimp”. Io stesso nel filmato mi sono lasciato sfuggire un “gimp”, chiedo venia!

Esempio dei risultati

Ecco un esempio dei risultati che potete ottenere

Questo vuole essere il primo semplice tutorial di tanti che seguiranno in futuro, tempo permettendo.

[EDIT]
Qui si descrive una tecnica manuale (e non solo) per la rimozione occhi rossi, spesso il Filtro “rimuovi occhi rossi” di gimp è sufficiente per i pigri, si trovano moltissimi tutorial di quest’ultimo.. Qui imparerete a farlo a mano e forse imparerete anche qualcosa di più sulle tecniche di fotoritocco
[/EDIT]

Il tutorial comprende anche un video per i più pigri 🙂

Invece per chi sà già muoversi con Gimp e non è interessato a tutti gli spiegoni sulla teoria che ci sta dietro ecc ecc… può andare in fondo all’articolo e troverà la spiegazione dei passi essenziali 🙂

(altro…)

Pagina successiva »