Il sito www.paginebianche.it è tra i più grandi database di numeri di telefono di utenti e aziende.
Utilizzandolo, forse anche voi vi siete chiesti se esista un metodo abbordabile per estrarre in maniera automatizzata gli indirizzi e i numeri di telefono delle ricerche eseguite.
Una possibile soluzione potrebbe essere quella che descrivo di seguito e che si avvale di iMacros, plug-in gratuito, per Firefox e Chrome, che permette di automatizzare la navigazione con il browser.
iMacros permette di registrare le operazioni compiute durante la navigazione e di ripeterle infinite volte. Durante la fase di registrazione le azioni dell'utente generano un codice nel linguaggio di scripting interno; è anche possibile anche modificare o scrivere manualmente uno script.
Questo è il codice per l'estrazione dei nominativi da una pagina dei risultati di www.paginebianche.it
VERSION BUILD=7401004 RECORDER=FX
SET !EXTRACT_TEST_POPUP NO
TAG POS={{!LOOP}} TYPE=H2 ATTR=CLASS:rgs EXTRACT=TXT
TAG POS=R1 TYPE=SPAN ATTR=CLASS:street-address EXTRACT=TXT
TAG POS=R1 TYPE=SPAN ATTR=CLASS:locality EXTRACT=TXT
TAG POS=R1 TYPE=SPAN ATTR=CLASS:type EXTRACT=TXT
TAG POS=R1 TYPE=SPAN ATTR=CLASS:value EXTRACT=TXT
SAVEAS TYPE=EXTRACT FOLDER=c:\ FILE=extracted.csv
Sarà innanzi tutto necessario copiare queste istruzioni e salvare lo script con nome.
La prima volta, inoltre, sarà necessario modificare nell'ultima riga il percorso e il nome del file generato.
Eseguire la ricerca inserendo i criteri desiderati per nome e città
Avviare lo script utilizzando la funzione esegui loop, impostando come valore Max il numero di risultati ottenuti dalla ricerca (xx Risultati trovati)
Ripetere l'operazione per tutte le pagine dei risultati che si vuole. I dati raccolti verranno aggiunti al file csv indicato nello script.
Questa soluzione non è completamente automatizzata, richiedendo di eseguire manualmente la ricerca per ogni criterio di proprio interesse. E' da considerarsi una buona soluzione per volumi medio piccoli di ricerche!
Se trovate utile questo script o avete qualche osservazione utile non mancate di inserirla nei commenti!
martedì 8 novembre 2011
Estrazione indirizzi e numeri di telefono da www.paginebianche.it
domenica 5 giugno 2011
Source code highlighting
Se si è autori di articoli che riguardano lo sviluppo software o se si ha la necessità di sviluppare un proprio cms in cui inserire da interfaccia web del codice sorgente è probabile che ci si presenterà la necessità di visualizzare del codice (PHP, HTML, CSS, Javascript, C#, objectC, Java, ecc.) all'interno di una pagina HTML.
In questo caso si può utilizzare tohtml.com, oppure lo stesso GeSHi.
Qualsiasi altro suggerimento potete segnalarlo nei commenti!
Come fare? Di seguito troverete un elenco di possibili soluzioni:
- google code prettify: semplice e leggero
- SyntaxHighlighter; componente molto utilizzato; sicuramente lo avete visto anche voi in molti blog
- GeSHi - Generic Syntax Highlighert:
In questo caso si può utilizzare tohtml.com, oppure lo stesso GeSHi.
Qualsiasi altro suggerimento potete segnalarlo nei commenti!
sabato 4 giugno 2011
Leggere ed interpretare un file csv con fgetcsv
I file csv sono spesso utilizzati per scambiare dati, sia tra sistemi che per l'utente finale.
Pur essendo dei semplici file di testo, sono l'ideale per essere utilizzati da fogli elettronici come Excel o OpenOffice, senza la necessità di ricorrere a pesanti librerie esterne che rincorrono il supporto di formati pseudo aperti. Il php, dalla versione 5.3, supporta la lettura dei file csv con la funzione fgetcsv: la funzione legge la successiva riga e restituisce i valore del record letto in un array; di seguito potete vedere un semplice codice che legge l'intero file e ne mostra il contenuto. Da notare che la funzione fgetcsv permette di specificare il limitatore da utilizzare, come pure il carattere che racchiude le stringhe; nell'esempio il delimitatore è il pipe ('|'), mentre le stringhe sono racchiuse da doppi apici '"'
<?php $pathfilename='path/nomefile.csv'; $delimiter = '|'; $enclosure = '"'; $f = fopen($pathfilename, 'r'); if ($f) { while ($line = fgetcsv($f,$delimiter,$enclosure)) { print_r($line); } fclose($f); } else { echo "Errore nella lettura del file!"; } ?>
L'array così ottenuto è pronto per ogni altra elaborazione si abbia bisogno di implementare.
Etichette:
PHP
Wappalyzer: Plugin Firefox per scoprire la piattaforma di un sito
La curiosità si sà, è una delle virtù del programmatore, e non solo. Spesso, di fronte ad un sito ben fatto o che presenta qualche caratteristica che varrebbe la pena approfondire, la prima cosa che ci si chiede è: con quali strumenti, linguaggi, framework, e simili sarà stato sviluppato?
Wappalyzer è un plugin per Firefox che permette non solo di rispondere a queste domande ma anche scoprire molte altre cose. Una volta installato, infatti, per ciascun sito visitato visualizza nella barra degli indirizzi un elenco di icone, indicanti le diverse tecnologie sicuramente in uso.
Wappalyzer è in grado di riconoscere CMS, librerie javascript, http server, sistemi di monitoring e analisi del traffico, ecc. Qui trovate l'elenco delle tecnologie che Wappalyzer è in grado di riconoscere.
Si tratta di un interessante plugin, utile per scoprire davvero una quantità di cose interessanti.
Potete scaricare Wappalyzer da qui. Da poco è anche disponibile per Chrome!
Wappalyzer: identificati nell'ordine: apache, Get Satisfaction, Google Analitic, JQuery, Quantcast e Swiftlet |
Wappalyzer è in grado di riconoscere CMS, librerie javascript, http server, sistemi di monitoring e analisi del traffico, ecc. Qui trovate l'elenco delle tecnologie che Wappalyzer è in grado di riconoscere.
Si tratta di un interessante plugin, utile per scoprire davvero una quantità di cose interessanti.
Potete scaricare Wappalyzer da qui. Da poco è anche disponibile per Chrome!
Etichette:
Firefox Plugin
Iscriviti a:
Post (Atom)