venerdì 3 dicembre 2010

Google : velocizzare la ricerca nella barra

Da tempo volevo scrivere qualcosa su Google.
Questo gigante misterioso .. dietro le sue interfacce semplici e spartane .. si nasconde un mostro che non dorme mai (chissa se i suoi dipendenti dormono :-))

Se leggete questo articolo fino alla fine ... potrete scoprire "come fare incazzare quelli di google" ... :-)


http://www.google.com/webhp?hl=it




Ho tra le mani da tempo un piccolo manuale di Apogeo:
Titolo: "Google - per cercare tutto in Rete e per essere certi di farsi trovare"
Autore: Salvatore Romagnolo
Edizione: i manuali di pcWorld e Apogeo

Ora ripubblicato con apogeo sotto questo nuovo titolo:
http://books.google.com/books?id=xQts69zEMZoC&printsec=frontcover&dq=salvatore+romagnolo&hl=it&ei=IX35TK32LZCdOsal_dQK&sa=X&oi=book_result&ct=result&resnum=1&ved=0CCcQ6AEwAA#v=onepage&q&f=false

Semplice, non molto tenico, ma diretto ed efficace per una buona panoramica su Google e i suoi misteri.
Di certo non descrive i "crawler" o il sistema attuale e complesso del "page ranking".
Posso assicurare che la sua lettura lascia qualche moneta in tasca, nel senso che ripaga la lettura (e l'acquisto) con conoscenze in più rispetto ad un uso tradizionale e basilare di google.


La cosa che mi premeva scrivere mentre pensavo alla stesura di questo articoletto, era di riportare solo le "query string" veloci di google che possono facilitare la ricerca dalla barra spartana ed essenziale di google.
Poi più mi spingevo avanti con la lettura piu capivo che non capivo a fondo e ho inziato a provare, testare e cercare altre info sul colosso informatico che domina il nostro secolo.

Partiamo con ordine.

Ecco una cosa che mi ha sbalordito mentre facevo i miei "query string test" ..
diciamo che era prevedibile, ma non pensavo potesse succedere in soli due secondi di prove ..




Approfondisco il link ed ecco la pagina con le spiegazioni del blocco ! :-)
Potete leggere anche voi ..

http://www.google.com/support/websearch/bin/answer.py?&answer=86640&hl=




Volevo semplicemente fare delle prove con la combinazione ragionata e logica dei seguenti comandi che si possono inserire direttamente nella barra di ricerca di google.
Un modo veloce e diretto senza dover passare per il modulo delle ricerche avanzate e impostare manualmente tutti i campi.


Ecco un breve curiosita: fate attenzione alla cifra sotto la barra di ricerca.
Oltre 11 miliardi di foto catalogate !
Che si presumono abbiano estenzione jpg .... solo le jpg senza contare gli altri formati ( o non formati) delle foto on line "beccate dai crawler" di google...
E su base Italia come paese di ricerca !




E non finisce qui
Facciamo una prova per i pdf (si presume con estensione .pdf)



Oltre 2 miliardi di file .. una mostruosita .. sempre riferita ad una ricerca partendo come paese dall Italia.......


Quante pagine web sono catalogate da google ???
Impressionante risultato ... oltre 22 miliardi di pagine (si presume ricerca su paese Italia e pagine in Italiano)





Iniziamo con ordine subito ad elencare i comandi in modo da arrivare subito al nocciolo dell articolo senza perderci in chiacchiere su google (ce ne sarebbero tante .. anzi milioni di chiacchiere e discussioni e approfondimenti.. ma evitiamo :-))


Elenco comandi di ricerca veloci nelle barra di "google search"

Nella barra di ricerca di google si possono utilizzare i seguenti comandi per specificare il tipo di ricerca.
La loro combinazione risulta molto potente e veloce.
Facciamo pero alcune premesse e note prima di inziare.

Nota:
tutte le stringhe inserite nel campo di ricerca di google vengono trasmesse in minuscolo anche se digitate in maiuscolo o in combinazione di maiuscolo/minuscolo.


Quindi scrivere :

ALBERGO Di Roma

viene trasformato in
"albergo" AND "di" AND "roma"




Nota:
Un altra considerazione da fare riguarda la lemmatizzazione.
Google non "normalizza" le operazioni di ricerca, cioe non effettua la lemmatizzazione.
In parole povere, se viene digitata una parola al singolare o al plurale, le ricerche daranno diversi risultati.
E questa e una considerazione importante da tenere presente.
Poiche ogni ricerca corrisponde esattamente al termine cercato.




Partiamo con i nostri operatori

Operatori logici




operatore AND

esempio:
albergo AND di AND roma
cerca tutte le pagine che contengono entrambe le stringhe inserite, cioe si otterra una serie di risultati riguardanti pagine che contengono, in qualsiasi posizione del testo, il termine "albergo" ed il termine "di" ed il termine "roma".

Da qui una considerazione per ottimizzare le ricerche:
evitare le preposizioni (semplici o composte) e gli articoli (determinativi o indeterminativi).
Ossia utilizzarli solo in caso di effettiva necessita, o solo quando il caso lo richiede.

Infatti nell' immagine sotto riportata, si possono vedere dei risultati "ibridi" (siamo alla 10a pagina di ricerca di google non alle prime pagine, anche se a volte risultati "ibridi" e inattesi si presentano nelle prime pagine dei risultati di google)

Parlo di risultati "ibridi" nel senso che google cerca nelle pagine anche la preposizione "di" e la evidenzia in neretto perche la considera "chiave di ricerca".
Come dire: google cerca, nell esempio appena fatto (alberghi AND di AND roma) tutte le pagine (in italiano, perche impostato di default) che contengono la parola (in qualsiasi posizione della pagina) "albergo", la preposizione "di" e la parola "roma".

Ad esempio in una pagina puo esserci una frase di questo tipo : "oggi il signor Pincopallino proprietario dell'"albergo" Luxor nel veneto, si e recato presso il palazzo della regione per discutere "di" affari con gli imprenditori "di" "roma" .. "
..che magari non corrisponde affatto a quello che noi avevamo espresso nella barra di ricerca: "tutti gli alberghi di roma".

Questa piccola attenzione di evitare articoli e preposizioni nelle stringhe (di ricerca), potrebbe essere considerato gia un primo filtro automatico per le nostre ricerce in google.

http://www.google.com/search?client=ubuntu&channel=fs&q=alberghi+di+roma&ie=utf-8&oe=utf-8#q=alberghi+di+roma&hl=it&prmd=ivmcn&ei=c4T5TMnLGMyXhQefsYmGCQ&start=90&sa=N&fp=9bf033d1155b1695






operatore OR

esempio:
albergo OR colosseo OR roma
cerca tutte le pagine che contengono almeno una delle stringhe inserite, in qualsiasi posizione della pagina.



operatore -

Inserendo il segno meno "-", prima di un termine, si esclude questo termine dalla ricerca.



operatore +

Inserendo il segno meno "+", prima di un termine, si permette a google di includere alcuni caratteri comuni che normalmente non vengono considerati perche potrebbero rallentare le fasi di ricerca.

esempio:
se si inserisce nella barra di ricerca porto o porto' , non si distinguerà il significato, e l elenco dei risultati comprendera sia il sostantivo sia il verbo coniugato.

Digitando invece +portò si otterra un risultato diverso, ossia solo il verbo coniugato di portare e verranno esclusi i risultati di porto .
Oppure come detto in precedenza si potrebbe utilizzare una combinazione in questo modo:
+portò AND -porto

Ho fatto delle prove senza operatore e sembra che non sia più necessario inserire "+" per specificare caratteri speciali comuni (accentati) della lingua italiana.





operatore ~

Estende la ricerca effettuata per una determinata stringa a tutti i suoi sinonimi
allinurl:index ~index*

Come risultato otteniamo (o meglio dire, dovremmo ottenere tutte le pagine presenti nel web che hanno nel proprio url la stringa "index" e (AND di default quando omesso e quando segue un altra stringa dopo la prima) tutte le pagine che contengono la parola o similitudini di "index seguito da qualsiasi carattere o combinazione di esse" (operatore *)..
nella foto sotto il risultato:



Da notare che vengono messe in grassetto da google i link alle pagine che contengono la parola "index" e non nella breve descrizione delle pagine.





operatore " "

Si utilizza quando si vuole cercare una pagina web che contiene una frase esatta o un nome specifico.



operatore *

Viene utilizzato in sostituzione di uno o piu caratteri.

esempio:
televi*
i risultati comprendono una serie di pagine che contengono le parole che iniziano con "televi" e a cui seguono combinazioni di caratteri come televisione, televideo, television e cosi a continuare ad esaurimento (nella lingua italiana perche impostato di default)

http://www.google.com/webhp?hl=it#sclient=psy&hl=it&site=webhp&q=televi*&aq=f&aqi=&aql=&oq=&gs_rfai=&pbx=1&fp=9bf033d1155b1695




Puo essere usato anche come carattere jolly ossia in questo modo:
"tele*ni"

Anche se i risultati potrebbero essere poco attendibili dato che al posto dell operatore * google ci va a mettere "qualsiasi carattere di qualsiasi lunghezza".

Ecco infatti, notate nella foto sotto le parole in grassetto nelle pagine dei risultati:




Da notare infine che il carattere ? lo considera "spazio" o almeno come succede per le epressioni regolari "un solo qualsiasi carattere al posto dell ?".

Ecco una differenza rispetto all'esempio sopra descritto prima con l' operatore * e ora con ?.
"tele?ni"




Un altra differenza l'ho provata sulla stringa "rosa"..
Ecco una sequenza delle ricerche a partire da una ricerca senza operatori fino ad una una ricerca un po piu esigente.
Controllate il numero di risultati e il tempo impiegato.
Si noteranno risultati assolutamente differenti.


Passo 1)
ricerca senza uso di operatori
rosa

Circa 117.000.000 risultati (0,08 secondi)



Passo 2)
"rosa"

Circa 118.000.000 risultati (0,06 secondi)



Passo 3)
"r*sa"

Circa 2.290.000.000 risultati (0,07 secondi)




Passo 4)
"r?sa"

Circa 606.000 risultati (0,10 secondi)



Passo 5)
"*rosa*"

Circa 434.000.000 risultati (0,09 secondi)



Passo 6)
*rosa*

Circa 423.000.000 risultati (0,06 secondi)






Operatori avanzati


site:stringa o url

ricerca imitata a un dominio o a un sito specifico



link:stringa o url

si otterranno tutte le pagine che dispongono di un collegamento al sito specificato (url)



related:stringa o url

si ottiene un elenco di siti che vengono considerati simili



filetype:estensione (con o senza punto) o stringa

si puo restringere i campo della ricerca ad un solo formato di file



inurl:url o stringa

seguito da uno o piu termini (stringa AND (OR) stringa) si otterranno una serie di risultati che includono nel proprio url l url specificato o la stringa specificata



allinurl:url o stringa

digitando allinurl: seguito da due o piu termini si otterranno una serie di risultati che includono tutte le parole digitate nell indirizzo web (url)

Ad esempio con il link dell universita di Pisa si presume dai risultati di google che sono presenti nel web oltre 50.000 pagine (per essere precisi Circa 52.600 risultati) con url http://www.unipi.it


allinurl:http://www.unipi.it




inurl:http://www.unipi.it

a differenza dell operatore precedente che ne prevede con lo stesso url circa 5.000 pagine in meno.




intitle:stringa
si otterra una serie di risultati che includono il primo termine nel titolo delle pagine web e i restanti nel titolo o nel testo


allintitle:stringa
seguito da due o piu termini si otterra una serie di risultati che includono tutte le parole digitate nel titolo



cache:url
si otterra la versione cache del sito stesso

Nota:
viene indicata anche la data dell ultima memorizzazione della pagina da parte di google, nel caso in foto 23 nov 2010 21:09:36 GMT.


http://webcache.googleusercontent.com/search?sclient=psy&hl=it&site=webhp&q=cache%3Aakillex.blogspot.com&aq=f&aqi=&aql=&oq=&gs_rfai=&pbx=1




info:url
si otterrano tutte le informazioni riguardanti il sito specificato



Vediamo un uso pratico e funzionale di quanto descritto fino ad ora.


Ecco un modo per trovare tutte le slide del prof. Frosini della facolta di ingegneria informatica di Pisa (dipartimento iet).
Possiamo incrociare vari risultati di varie e differenti ricerche.


La prima ricerca mira alle slide pdf del corso di java del prof. Frosini presenti sul suo sito on line.
"java" "+java" "*java*" "*.*pdf" site:http://www.iet.unipi.it/g.frosini

La stringa di ricerca indica: tutte le pagine e/o file, che contengono al loro interno la parola "java", e la parola "java e caratteri non usati di frequente",e le parole che contengono al loro interno la stringa "java" e l'eventuale estensione di file ("qualsiasi cosa").pdf: il campo di ricerca deve essere ristretto al solo sito http://www.iet.unipi.it/g.frosini

Ecco la pagina dei risultati:



Altro informazioni importante sul sito di nostro interesse potrebbe essere la seguente, nel caso non dovesse essere piu disponibile on line la pagina si puo far ricorso alla cache di google:

info:http://www.iet.unipi.it/g.frosini




Per concludere.... se esagerate troppo con le query e le varie combinazioni vi uscira di sicuro un messaggio come questo ...



google vi blocca le ricerche ... si protegge in qualche modo da "eventuali query string automatiche" generate a raffica da un robot software che potrebbe sovraccaricare i suoi sistemi ...

ma niente paura .. cancellando la memoria cache del browser si puo riprendere da dove si aveva interrotto...


Un altra osservazione importante.
Nella barra degli url(s) potete inserire direttamente la stringa di ricerca nel seguente formato:

http://www.google.it/search?q=info:google.com

sostituire alla stringa
q=info:google.com (q sta probablmente per query)

q=site:nome:_del_sito

oppure ancora

q=allinurl:nome_del_sito



Per approfondire:
http://www.google.com/intl/gn/help/operators.html

http://www.kerouac3001.com/guida-ai-comandi-di-google-47.htm



Un altra interessante osservazione parte da una domanda:
quante sono le sottodirectory di google e come google da importanza a se stesso ?

Ecco alcune immagini con la query string che porta alla risposta:

http://www.google.com/* site:http://www.google.com




"http://www.google.com/a*" site:http://www.google.com

Al posto della a possono essere inserite lettere dell'alfabeto in base al tipo di sotto-directory di google cercata.
Oppure eliminare la a per visualizzare (secondo il page ranking di google) le sue (sotto)directory piu utilizzate.






Da terminare ... a breve.

0 commenti:

Posta un commento