Granduca-ITConsulting Blog

martedì 8 novembre 2011

Estrazione indirizzi e numeri di telefono da www.paginebianche.it

Il sito www.paginebianche.it è tra i più grandi database di numeri di telefono di utenti e aziende.

Utilizzandolo, forse anche voi vi siete chiesti se esista un metodo abbordabile per estrarre in maniera automatizzata gli indirizzi e i numeri di telefono delle ricerche eseguite.

Una possibile soluzione potrebbe essere quella che descrivo di seguito e che si avvale di iMacros, plug-in gratuito, per Firefox e Chrome, che permette di automatizzare la navigazione con il browser.

iMacros permette di registrare le operazioni compiute durante la navigazione e di ripeterle infinite volte. Durante la fase di registrazione le azioni dell'utente generano un codice nel linguaggio di scripting interno; è anche possibile anche modificare o scrivere manualmente uno script.

Questo è il codice per l'estrazione dei nominativi da una pagina dei risultati di www.paginebianche.it

VERSION BUILD=7401004 RECORDER=FX
SET !EXTRACT_TEST_POPUP NO
TAG POS={{!LOOP}} TYPE=H2 ATTR=CLASS:rgs EXTRACT=TXT
TAG POS=R1 TYPE=SPAN ATTR=CLASS:street-address EXTRACT=TXT
TAG POS=R1 TYPE=SPAN ATTR=CLASS:locality EXTRACT=TXT
TAG POS=R1 TYPE=SPAN ATTR=CLASS:type EXTRACT=TXT
TAG POS=R1 TYPE=SPAN ATTR=CLASS:value EXTRACT=TXT
SAVEAS TYPE=EXTRACT FOLDER=c:\ FILE=extracted.csv

Sarà innanzi tutto necessario copiare queste istruzioni e salvare lo script con nome.

La prima volta, inoltre, sarà necessario modificare nell'ultima riga il percorso e il nome del file generato.

Eseguire la ricerca inserendo i criteri desiderati per nome e città

Avviare lo script utilizzando la funzione esegui loop, impostando come valore Max il numero di risultati ottenuti dalla ricerca (xx Risultati trovati)

Ripetere l'operazione per tutte le pagine dei risultati che si vuole. I dati raccolti verranno aggiunti al file csv indicato nello script.

Questa soluzione non è completamente automatizzata, richiedendo di eseguire manualmente la ricerca per ogni criterio di proprio interesse. E' da considerarsi una buona soluzione per volumi medio piccoli di ricerche!

Se trovate utile questo script o avete qualche osservazione utile non mancate di inserirla nei commenti!

domenica 5 giugno 2011

Source code highlighting

Se si è autori di articoli che riguardano lo sviluppo software o se si ha la necessità di sviluppare un proprio cms in cui inserire da interfaccia web del codice sorgente è probabile che ci si presenterà la necessità di visualizzare del codice (PHP, HTML, CSS, Javascript, C#, objectC, Java, ecc.) all'interno di una pagina HTML.

Come fare? Di seguito troverete un elenco di possibili soluzioni:

google code prettify: semplice e leggero
SyntaxHighlighter; componente molto utilizzato; sicuramente lo avete visto anche voi in molti blog
GeSHi - Generic Syntax Highlighert:

Se la vostra esigenza è solo quella di includere del codice sorgente in un articolo, allora potrebbe non servire installare nulla; la soluzione più semplice, infatti, è utilizzare alcuni servizi online per generare il codice html corrispondente, da copiare e incollare direttamente nell'editor HTML del proprio articolo.

In questo caso si può utilizzare tohtml.com, oppure lo stesso GeSHi.
Qualsiasi altro suggerimento potete segnalarlo nei commenti!

sabato 4 giugno 2011

Leggere ed interpretare un file csv con fgetcsv

I file csv sono spesso utilizzati per scambiare dati, sia tra sistemi che per l'utente finale.


Pur essendo dei semplici file di testo, sono l'ideale per essere utilizzati da fogli elettronici come Excel o OpenOffice, senza la necessità di ricorrere a pesanti librerie esterne che rincorrono il supporto di formati pseudo aperti.

Il php, dalla versione 5.3, supporta la lettura dei file csv con la funzione fgetcsv: la funzione legge la successiva riga e restituisce i valore del record letto in un array; di seguito potete vedere un semplice codice che legge l'intero file e ne mostra il contenuto. 

Da notare che la funzione fgetcsv permette di specificare il limitatore da utilizzare, come pure il carattere che racchiude le stringhe; nell'esempio il delimitatore è il pipe ('|'), mentre le stringhe sono racchiuse da doppi apici '"'

<?php
$pathfilename='path/nomefile.csv';
$delimiter = '|';
$enclosure = '"';

$f = fopen($pathfilename, 'r');
if ($f) {
    while ($line = fgetcsv($f,$delimiter,$enclosure)) {  
       print_r($line);
    }
    fclose($f);
} else {
    echo "Errore nella lettura del file!";
}
?>

L'array così ottenuto è pronto per ogni altra elaborazione si abbia bisogno di implementare.

Wappalyzer: Plugin Firefox per scoprire la piattaforma di un sito

La curiosità si sà, è una delle virtù del programmatore, e non solo. Spesso, di fronte ad un sito ben fatto o che presenta qualche caratteristica che varrebbe la pena approfondire, la prima cosa che ci si chiede è: con quali strumenti, linguaggi, framework, e simili sarà stato sviluppato?

Wappalyzer: identificati nell'ordine: apache, Get Satisfaction, Google Analitic, JQuery, Quantcast e Swiftlet

Wappalyzer è un plugin per Firefox che permette non solo di rispondere a queste domande ma anche scoprire molte altre cose. Una volta installato, infatti, per ciascun sito visitato visualizza nella barra degli indirizzi un elenco di icone, indicanti le diverse tecnologie sicuramente in uso.

Wappalyzer è in grado di riconoscere CMS, librerie javascript, http server, sistemi di monitoring e analisi del traffico, ecc. Qui trovate l'elenco delle tecnologie che Wappalyzer è in grado di riconoscere.

Si tratta di un interessante plugin, utile per scoprire davvero una quantità di cose interessanti.

Potete scaricare Wappalyzer da qui. Da poco è anche disponibile per Chrome!