GNU



(rieccomi dopo mesi di nulla.. a casa malato e mi do da fare 😛 )

Quest’articolo fa parte di una serie di articoli sui tool GNU (e quindi Linux) per manipolare testi.

L’esempio che si era visto in quell’articolo, con awk, è il seguente:
cat sottotitoli.srt | awk 'NR%2==1' > sottotitoli-dispari.srt

il cui scopo era rimuovere tutte le righe pari… fra poco sarà tutto più chiaro!

awk è un altro software per la manipolazione dei testi, secondo il mio parere si adatta meglio a lavorare su testi con una struttura rigida, ad esempio divisi per colonne (tipo tabella), ogni elemento di questa “tabella” è chiamato ‘campo’. Per elaborare il risultato di molti comandi Linux questo strumento è comodissimo 🙂

Per comprendere cosa intendo ecco un piccolo esempio che potete replicare facilmente aprendo un terminale:

$ cal
luglio 2009
lu ma me gi ve sa do
1  2  3  4  5
6  7  8  9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31

Il comando cal senza parametri stampa il calendario del mese corrente (Luglio 2009 in questo caso).
Vediamo cosa succede se diamo in pasto il risultato del comando cal ad awk.

$ cal | awk '{ print $3; }'
me
3
8
15
22
29

Quel che ho fatto qui è semplicissimo: eseguo il comando cal, quindi il risultato lo butto in pasto al comando awk (si ottiene grazie al pipe, ovvero la linea verticale ‘|’).
il “programma” che viene fatto girare da awk è semplicemente: { print $3; }. Ovvero: stampa la terza colonna (Mercoledì).

In realtà awk è un vero linguaggio di programmazione e quindi più potente, per certi versi, di sed: contiene funzioni richiamabili e permette di effettuare operazioni matematiche con i dati in elaborazione!

In questo breve tutorial impareremo il significato del comando visto qui sopra e cercherò di insegnarvi ad utilizzare awk in modo più approfondito: applicando pattern “per riga” ed effettuando operazioni su stringhe e numeri!

Prerequisiti

Per poter comprendere appieno questo tutorial è necessario che abbiate compreso e fatto un po’ di pratica con le regular expression (o regex) di cui vi ho parlato qui.
Non sono richieste particolari esperienze di programmazione ma aiutano parecchio.

il software si chiama gawk

Si.. non awk ma gawk! awk è il linguaggio, gawk è l’implementazione GNU del linguaggio!
Cioè { print $3; } è un comando nel linguaggio awk che dice di stampare la terza colonna, mentre il software che esegue codice awk si chiama gawk in sistemi GNU/* come Linux.

lanciare gawk

Il manuale di gawk è molto ben scritto, anche se in inglese, e io ho imparato ad utilizzare awk semplicemente leggendo questo manuale e provando di volta in volta.

man gawk

le opzioni principali per lanciare gawk (per le altre guardate il manuale):

  • -F fs o --field-separator fs « l’opzione del comando awk vi permette di specificare quali sono i caratteri che volete siano considerati come separatori di campo (se omessa verranno usati gli spazi e le tabulazioni) e indovinate un po? si può, volendo, indicare quali sono i separatori di campo con una espressione regolare (regex)
  • -f script-file o --file script-file « specifica un file di script awk invece che indicarlo dalla linea di comando tra apici

awk si lancia con questa sintassi (notate gli apici prima e dopo i comandi):

awk '<programma>' nome-file-su-cui-lavorare

oppure

cat nome-file-su-cui-lavorare | awk '<programma>'

oppure

awk -f programma-awk.awk nome-file-su-cui-lavorare

Se ad esempio vogliamo chiedere ad awk di usare la virgola come carattere di separazione dei campi (Field Separator, FS) possiamo invocare awk così:

awk -F, '<programma>'

esiste un caso particolare in cui questo non funziona: se cercate di impostare il SOLO carattere tabulazione (che si indica con ‘\t’) come FS non riuscirete a scriverlo in questo modo… dovrete usare questa scrittura:

awk -F "\t" '<programma>'

che poteva comunque essere utilizzata anche per la virgola o per passare una regex ad awk

un altro modo per fare la stessa cosa è impostare la variabile FS all’interno del programma così:

awk 'BEGIN {FS = ","} { ... }'

Questo metodo è più comodo se volete scrivere uno script invece che lanciare da linea di comando…

Inoltre con l’esempio vediamo 2 cose nuove: BEGIN e l’utilizzo di variabili (cioè contenitori di dati che possono cambiare durante l’esecuzione del codice).

Per chiarificare immaginate di avere questa riga di testo: “tizio,caio,sempronio” e di voler effettuare una separazione utilizzando la virgola anziché gli spazi… Otterreste quindi i campi “tizio”, “caio” e “sempronio”.

$ echo 'tizio,caio,sempronio' | gawk -F, '{ print "1=" $1 " - 2=" $2 " - 3=" $3; }'
1=tizio – 2=caio – 3=sempronio

Con quest’esempio abbiamo anche visto come concatenare delle stringhe (del testo): quello che vuoi volete scrivere potete metterlo tra virgolette doppie… per concatenare più stringhe (metterle una dopo l’altra) è sufficiente elencarle separate da spazio!

Struttura di base di un programma awk

Il testo è suddiviso in record e campi: possiamo pensare ai record come le “righe” di un file di testo e ai “campi” come le sue “colonne”.
Come abbiamo visto prima nell’esempio del calendario i campi sono separati automaticamente dove ci sono spazi, i record sono separati con degli “a capo”. Entrambe questi limitatori si possono cambiare modificando le variabil FS (Field separator, separatore di campo) e RS (Record Separator, separatore di record).

gawk legge un record alla volta, lo suddivide in campi e vi permette di lavorarci.

La struttura di un programma awk è la seguente:

pattern1 { azioni }
pattern2 { azioni }
function nome(parametri) { azioni }

I pattern selezionano dei record su cui verranno svolte delle azioni.
Le funzioni sono comode quando dobbiamo ripetere le stesse operazioni più volte nelle nostre azioni.

Ora vedremo come si utilizzano le variabili in un programma awk, quindi cosa sono i pattern e come sfruttarli…
Il tutto verrà supportato da esempi!

Variabili

Come in qualunque linguaggio di programmazione una variabile è un etichetta: un contenitore!
Le variabili gawk possono contenere numeri o testo e awk si occupa automaticamente di convertire dall’uno all’altro all’occorrenza.

Dichiarare una variabile è semplice:

numero = 12;
testoNumero = "4";
saluto = "ciao";
nome = "daniele";
concatenamento = testo " " nome; /* ciao daniele */
risultato = numero / testoNumero; /* 3 */

Le variabili, una volta che assumono un valore, sono utilizzabili ovunque nel programma awk: sono “globali”.

Ci sono alcune variabili “speciali” già definite da awk, ed alcune le abbiamo già usate:

  • $1: primo campo del record
  • $2: secondo campo del record
  • $0: l’intero record
  • NF: (Number of Fields) numero di campi ($1, $2, …)
  • FS: (Field Separator) separatore di campo, può essere modificato durante l’esecuzione e cambia i valori delle variabili $1, $2, $3, …
  • NR: (Number of Records) numero di record processati (per semplicità pensatelo come il numero di riga per ora)
  • FNR: Numero del record corrente nel file (questo è effettivamente il numero di riga/record)
  • RS: (Record Separator) carattere separatore tra record (predefinito è l’a-capo)

Le trovate tutte nel manuale di gawk.

Vediamo alcuni esempi:

conta il numero di righe di un file di testo. (stesso risultato del comando wc -l di Linux):

gawk '{numeroRighe = numeroRighe +1;} END { print numeroRighe; }'

inserisce i numeri di riga di un file (1. prima riga, 2. seconda riga, ecc…):

gawk '{ print FNR ". " $0;}'

Supponente poi di avere una file con una lista “nome: numero”:

primo salto: 170
secondo salto: 175
terzo salto: 180

si può facilmente calcolare e stampare una media con awk:

BEGIN {
FS = ":"; /* imposto come separatore i 2 punti */
}
{
conteggioRighe = conteggioRighe +1; /* questo può anche essere scritto conteggioRighe++; */
totale = totale + $2; /* il secondo campo è quello dopo i due punti */
print $0; /* stampo tutta la riga invariata */
}
END {
print "-----------"; /* un separatore */
print "media: " totale/conteggioRighe;
}

vettori

tra le variabili si possono anche definire vettori!

mioArray[indice] = valore;
print mioArray[indice];

l’indice e il valore possono essere qualunque variabile: un numero o una stringa.
Quindi questo è perfettamente legale:

mioArray["febbre"] = 38;
mioArray["vomito"] = "si purtroppo";
mioArray[1] = "tutto chiaro?";

pattern di riga

Vi siete chiesti il perché delle parentesi graffe? O perché BEGIN è stato scritto di fronte ad esse nell’ultimo esempio? Qui viene spiegato il perché.

Il linguaggio awk va definito in questo modo:

BEGIN { comandi da eseguire all'inizio }
PATTERN1 { comandi da eseguire per le righe che corrispondono al pattern 1 }
PATTERN2 { comandi da eseguire per le righe che corrispondono al pattern 2 }
END { comandi da eseguire alla fine}

Si ma cos’è un pattern?

Il pattern è in sostanza qualcosa che dice ad awk su quali parti del testo lavorare!
Il pattern può essere un espressione regolare, una espressione di una qualche relazione o una combinazione di queste cose!

Ad ogni pattern sono associate una o più azioni che vengono racchiuse tra parentesi graffe ‘{ }’. Se l’azione viene omessa questa corrisponde all’azione ‘{print}’ che semplicemente stampa l’intero pattern senza azioni su di esso!

Quindi un pattern può essere:

  • una regex: /regex/ { fai qualcosa per le righe che soddisfano la regular expression }
  • un confronto NR%2 == 1 { fai qualcosa con i numeri di riga dispari }: NR è la variabile “numero di riga”, NR%2 è il modulo 2, cioè il resto della divisione per 2.

più pattern possono essere messi in OR/AND/NOT. Cioè ad esempio si può dire che si vuole effettuare un particolare comando per le righe pari che cominciano con dei numeri mettendo in AND un confronto (righe pari) e una regolar expression (cominciano con un numero):

NR%2==0 && /^[0-9].*/ { comandi da applicare a righe pari che cominciano con un numero }

! /topo/ { fai qualcosa con le righe che NON contengono la parola "topo" }

Ci sono due pattern speciali: BEGIN e END. Questi pattern ignorano i dati d’ingresso (il testo).
Con BEGIN la parte “azione” viene eseguita tutta PRIMA di leggere un qualsiasi input.
Con END la parte “azione” viene eseguita DOPO aver finito di processare l’intero testo in input.

Nell’esempio con il file dei sottotitoli abbiamo utilizzato solamente il pattern indicando che volevamo awk lavorasse solo sulle righe dispari.

le funzioni

gawk vi mette a disposizione diverse funzioni già pronte, qui ve ne elenco qualcuna ma vi rimando al manuale di gawk per una lista completa.

  • print(stringa): l’abbiamo già vista, stampa a video delle stringhe
  • lenght(stringa): restituisce la lunghezza di una stringa
  • tolower(stringa): restituisce la stringa in caratteri minuscoli
  • toupper(stringa): restituisce la stringa in caratteri maiuscoli
  • int(numero): restituisce l’intero del numero (toglie i decimali)
  • cos(numero): calcola il coseno di un numero
  • sqrt(numero): calcola la radice quadrata di un numero
  • system(stringa di comando): esegue un comando Linux

supponiamo di voler rendere più evidenti tutte le righe di un testo con la scritta “important” all’interno.
Solo le righe che contentono la parola “important” sono state convertite in TUTTO MAIUSCOLE, le altre sono state stampate così come sono (notare il ! di NOT davanti alla seconda regex):

awk '/important/ { print toupper($0);} !/important/ { print $0; }'

nuove funzioni possono essere definite anche da voi seguendo la sintassi, vediamo una modifica del comando precedente:

awk '/important/ { print maiuscolo($0);} !/important/ { print $0; } function maiuscolo(stringa) { return toupper(stringa); }'

Cicli e condizionali

Come tutti i linguaggi di programmazione anche awk mette a disposizione dei comandi per gestire il flusso di operazioni!

  • if (condizione) { azione } else { altra azione }
  • while (condizione) { azione da ripetere }
  • for (inizializzazione; condizione; avanzamento) { azione da ripetere }
  • for (indice in array) { azioni con gli elementi di un array }

Per chi ha famigliarità con un linguaggio di programmazione non serve aggiungere altro a questa lista, per gli altri non sarà così ovvia…
Mi limiterò a fare qualche esempio per lasciar “intuire” come utilizzarli ma non è presunzione di questo tutorial insegnare a programmare a chi non lo ha mai fatto:

Riprendiamo l’esempio con i salti di prima (notate in fondo il comando if):


BEGIN {
FS = ":"; /* imposto come separatore i 2 punti */
}
{
conteggioRighe = conteggioRighe +1; /* questo può anche essere scritto conteggioRighe++; */
totale = totale + $2; /* il secondo campo è quello dopo i due punti */
print $0; /* stampo tutta la riga invariata */
}
END {
print "-----------"; /* un separatore */
calcoloMedia = totale/conteggioRighe;
if (calcoloMedia < 120) { print "media: CHE SCHIAPPA!!!"; }
else { print "media: " totale/conteggioRighe; }

}

Stavolta se la media di altezza per il salto in alto è inferiore a 120 verrà stampato CHE SCHIAPPA!!! 🙂

Come altro esempio immaginate di avere questo file:

salto in alto: 190
salto in alto: 174
salto in lungo: 5.3
100 metri: 9.5
salto in lungo: 4.8
salto in alto: 193
100 metri: 10.2

Ora vedremo, come ultimo esempio, come calcolare le medie di tutte le varie discipline in un colpo solo:


BEGIN {
FS = ":"; /* imposto come separatore i 2 punti */
}
{
conteggioRighe[$1]++;
totale[$1] = totale[$1] + $2; /* l'indice è il nome della disciplina ($1), il valore il risultato ($2) */
print $0; /* stampo tutta la riga invariata */
}
END {
print "-----------"; /* un separatore */
print "MEDIE:";
/* per ogni indice dell'array stampa una media */
for (indice in totale) { print indice ": " totale[indice]/conteggioRighe[indice]; }
}

ecco quello che si ottiene eseguendo questo programmino:

$ awk -f programmino.awk attletica.txt
salto in alto: 190
salto in alto: 174
salto in lungo: 5.3
100 metri: 9.5
salto in lungo: 4.8
salto in alto: 193
100 metri: 10.2
———–
MEDIE:
salto in alto: 185.667
100 metri: 9.85
salto in lungo: 5.05

sono disponibile per domande 🙂
se vi sembra ci siano parti poco chiare fatemelo notare e farò del mio meglio per renderle più chiare

ps: scusate ho fatto casini con il copia incolla.. ora dovrebbe essere a posto


Ho fatto un’introduzione a Gimp e una panoramica delle funzionalità di Alfresco.

Le mie due presentazioni potete scaricarle qui.

Probabilmente presto si potrà scaricare tutto il materiale del Linux Day 2008 di Biella sul sito del BiLUG.

Ringrazio chi mi ha ascoltato.


Ho creato un video (2 per la verità) in cui spiego come rimuovere le asperità di un immagine utilizzando il software free (gratis E libero) Gimp.

La stessa tecnica può essere utilizzata per rimuovere rughe, cicatrici e tagli da un viso o la pelle in genere, crepe da muri e pavimenti (o soffitti) o qualunque tipo di asperità in un immagine!

Sfruttando la medesima tecnica è possibile AGGIUNGERE le asperità all’immagine donando rughe a qualche giovane amico, cicatrici alla proprià metà e magari qualche buco nel muro qua e là dove prima non c’era 🙂

Ho utilizzato la versione 2.4.5 di Gimp.

Il video è diviso in 2 parti e ho in programma di scrivere una descrizione dei passaggi più dettagliata qui in questo articolo ma il tempo, si sà, è tiranno e questo non sarà disponibile oggi 🙂

Non so quando ne avrò il tempo in effetti…

Nella seconda parte mostro dei risultati che non ho spiegato come ottenere perché sono già spiegati da un altro tutorial (non video ma ugualmente molto ben fatto) di Linux4Life: potete trovare il tutorial di cui parlo a questo indirizzo, ma guardate i video prima 😉

Eccoli qua:

Prima parte…

…seconda parte.

Potete trovare l’intervo video ad “alta qualità” qui

dubbi? domande? consigli?

Non esistate a darli 🙂


Voglio semplicemente segnalarvi un’interessante discussione nella mailing list del kernel Linux in cui ha partecipato anche Linus Torvarlds, che spiega dettagliatamente perché non gli piace la GPLv3 (tutto in inglese e c’è parecchio da leggere, quindi mettetevi comodi)

Quite fundamentally, whenever you extend the reach” of a license past just the derived work, you will *always* get into a situation where people who designed two different things get into a conflict when they meet. The GPLv2 simply avoids the conflict entirely, and has no problem at all with the “Do unto others as you would have them do unto you”.

In poche parole, quando si estende l’influenza di una licenza ai lavori derivati, si arriverà sempre in una situazione in cui le persone che hanno creato due cose diverse arriveranno ad un conflitto quando si incontreranno. La GPLv2 semplicemente evita del tutto tale conflitto, e non c’è alcun problema con il “Fai ad altri ciò vorresti fosse fatto a te”. [traduzione mia]

In effetti sono d’accordo con quanto dice Linus qui..

non ho ancora avuto il tempo di leggerla tutta (la discussione) e me la appunto qui.. riservandomi di riprendere il Thread per tradurre e commentare altre frasi

non ho ancora un’opinione sulla GPLv3, credo che leggere i botta e risposta di persone che ne sanno di più possa iniziare a farmi comprendere meglio la tematica

qui la discussione (andare all’ultima pagina per leggerla dal principio)

oppure per leggerla più comodamente (perché strutturata ad albero) e non perdersi il continuo della discussione (che cambia titolo) qui

Segnalo infine questo articolo comparso su slashdot, non consideratelo! Il bloggers ha estrapolato alcune frasi di Linus, togliendole dal contesto, e ha così creato un immagine sbagliata della posizione di Linus.. si è tra l’altro “dimenticato” di linkare il messaggio a cui si riferisce.

Invito tutti i lettori che si addentrano nella lettura della discussione a riportare parti di frasi (con link alla pagina in cui possono essere ritrovate) e commentarle..

via al dibattito su GPLv2 vs GPLv3

per favore astenetevi da flame e manteniamo il discorso su un piano civile 😉


Ultimamente la comunità Linux è cresciuta molto: tante persone vi si avvicinano entusiaste, abbracciano gli ideali del software libero e senza conoscere a fondo quel che stanno facendo cominciano un’opera di “reclutamento” impreparata ed ossessiva, oserei dire RELIGIOSA.
Io stesso talvolta esagero con la mia propaganda.

Il risultato che questi nuovi adepti ottengono è spesso quello di allontanare gli utenti da Linux e dal software libero, spaventandoli.

Linux è una scelta! Non dev’essere imposto, se si vuole promuoverlo come alternativa non si può omettere di elencarne i difetti o, comunque, i problemi a cui un utente andrà incontro se decide di provare questa alternativa.

L’articolo è piuttosto lungo (è da un po’ che lo preparo). Cercherò di evidenziare le parti più importanti e di strutturarlo per una migliore leggibilità, tenterò di mantenerlo aggiornato per quanto mi sarà possibile e sarò lieto di valutare suggerimenti e segnalazioni che vogliate fornirmi nei commenti.

Con questo articolo cercherò di spiegare in breve le motivazioni del software libero, ed in particolare di Linux, quindi cercherò di stilare una lista dei vantaggi rispetto al suo principale rivale, così come dei problemi che si potrebbero incontrare. L’ambizione è quella di creare una lista completa e aggiornata: con l’aiuto dei lettori spero di riuscirci. Se dovesse diventare troppo lunga valuterò il trasferimento su un wiki.

Versione Guida: 1.3.3

******* LOG AGGIORNAMENTI *******

08/11/2007 – 1.3.3

  • Correzione della correzione ortografica (mi sono accorto ora che durante la correzione e il restiling di alcune frasi ho incasinato il significato o lasciato pezzi per strada 😛 )
  • aggiunta sezione per spiegare cos’è una distribuzione
  • aggiunta sezione “più lavoro in Italia e meno soldi all’estero”
  • aggiunta una nota importante che spiega come comportarsi correttamente per avere aiuto nei forum nelle mailing list e nelle chat

07/09/2007 – 1.3.1

  • Aggiunto qualche aggiornamento (dichiarazione di AMD sul rilascio delle specifiche delle schede video, driver conexant Dell ecc…)
  • Correzione ortografica e formale dell’intero testo: ringrazio Paola per l’aiuto.

10/07/2007 – 1.3.0

  • Enfasi sui problemi con i modem 56k integrati e ADSL modem USB nella sezione dei problemi con i driver
  • Spiegata meglio la sezione “niente .exe”
  • Programmi per Linux, come orientarsi e dove cercare
  • Link alla guida “da Windows a Ubuntu”

10/06/2007 – 1.1.3

  • Aggiunto link all’articolo sul perché i Virus per Linux non saranno mai una minaccia.

21/05/2007 – 1.1.2

  • NTFS è stabile anche in scrittura fino alla versione per Windows XP

19/05/2007 – 1.1.1

  • Aggiunta la sezione “link ad articoli simili” a fine articolo

25/04/2007 – 1.1.0

  • Introduzione versioni
  • Aggiunto problema/differenza: gestione permessi
  • Aggiornata la guida sul filesystem

*********

Buona lettura..

(altro…)