Come si fanno le ricerche in Internet


Roma, AIB Sezione Lazio, 8 aprile 2009



Giovanna Frigimelica
frigimelica@aib.it


Indice


Strumenti



Breve introduzione a Internet

Il primo progetto che indagasse la fattibilità di un collegamento tra più computer, attraverso i quali ognuno potesse avere accesso a dati e programmi, risale agli inizi del 1962. Era il periodo della guerra fredda con l'Unione Sovietica. Nel 1969, i primi quattro computer furono collegati tra loro in quella che verrà chiamata ARPANET, la prima rete, la madre di Internet. Negli anni successivi, altri computer vennero aggiunti ad ARPANET, e fu messo a punto il protocollo di comunicazione che andava utilizzato tra questi host computers. Da questo momento in poi, gli utenti di ARPANET iniziarono a sviluppare le applicazioni. Nel 1972 venne introdotta una delle applicazioni che ha stravolto il tradizionale modo di comunicare, ossia la posta elettronica.

Un nuova versione del protocollo di trasmissione dati venne ideata, per rispondere alle necessità di una rete ad architettura aperta. Questo, detto TCP/IP (Transmission Control Protocol / Internet Protocol) è molto simile ad un protocollo di comunicazioni.

Negli anni ottanta iniziarono a diffondersi le LAN (Local Area Network, ossia reti locali) e i Personal Computer, e anche Internet iniziò a diffondersi. Sempre in questo periodo, "la rete" si svincolò dalle sue origini militari, per diventare uno strumento di uso comune di diverse comunità.

Il TCP/IP è indipendente dal modo in cui è fisicamente realizzata la rete (es. linea telefonica, cavo in fibra ottica, rete di trasmissione satellitare, etc.).
Il protocollo IP ha il compito di impacchettare i dati in uscita e inviarli a un particolare computer fra quelli connessi alla rete. Ogni computer, infatti, è dotato di un indirizzo numerico costituito da quattro sequenze di cifre.

Es.

62.211.65.12

collega direttamente al sito di Virgilio.it

Questi indirizzi numerici hanno una struttura ben definita, che identifica univocamente host e sottoreti in Internet. Per la distribuzione dei pacchetti di informazioni, il TCP/IP funziona come una spedizione tradizionale per posta.

Questi indirizzi numerici sono molto comodi per i computer, ma poco amichevoli per gli esseri umani. A tale proposito è stato sviluppato un sistema di indirizzamento simbolico, il Domain Name Service (DNS). Attraverso il DNS ogni host di Internet può essere dotato di un nome composto da caratteri, di lunghezza illimitata. Anche i nomi sono sequenze di stringhe separate da punti, e l'articolazione rispecchia la struttura gerarchica dell'indirizzo. Il DNS suddivide la rete in domini, che a loro volta si dividono in sottodomini, e così via.

Es.

bncrm.librari.beniculturali.it

Gerarchicamente l'indirizzo si legge da destra a sinistra, in quanto il dominio più alto è .it, andando verso sinistra si scende al dominio di rete del Ministero per in beni e le attivittà culturali, ovvero beniculturali, mentre librari è il sottodominio assegnato alla Direzione generale per i beni librari e quindi bncr alla Biblioteca nazionale centrale Vittorio Emanuele II di Roma.
La parte degli applicativi è l'ultimo livello nell'architettura del TCP/IP. La maggior parte dei servizi telematici di Internet si basa su un'interazione denominata architettuta client/server.

Questo modello prevede una "scissione" dell'applicazione informatica in due parti, di cui una risiede in un computer remoto (server) e l'altra nel nostro computer (client). Quando il programma viene lanciato, per funzionare necessita dell'altra metà, che va a cercare.

Affinché l'interazione tra client e server possa essere effettuata, è necessario che entrambi utilizzino un linguaggio comune. In Internet esistono numerosi protocolli, i piu' diffusi sono:



Il world wide web

Il World Wide Web, chiamato comunemente www o Web, nasce come progetto del CERN (Conseil Européen pour la Recherche Nucléaire) nel 1989 per collegare tra loro le informazioni presenti nei nodi di Internet.

Nel 1990 il suo inventore, Tim Berners-Lee, inizia a lavorare ad un programma per la visualizzazione di ipertesti, basato su una interfaccia utente grafica (GUI, Graphical User Interface). Il nome del programma elaborato è "www". Questi studi rispondevano alla necessità di ottenere un accesso più veloce e semplice alle informazioni possedute dal singolo sul proprio computer remoto.

Facilità d'uso e accessibilità erano, e sono tuttora, le principali caratteristiche del Web. Il Web è uno degli ultimi servizi di Internet elaborati, in ordine di tempo, ma la sua concezione ipertestuale ha da subito riscosso grande successo. Non si può parlare semplicemente di ipertesto riferendoci al Web, perché al suo interno non troviamo solo testo, ma anche immagini, fotografie, file musicali e audiovisivi. Per questo è più corretto parlare di ipermedium, ovvero ipertesto multimediale. Questa sua struttura consente una navigazione per associazione di idee, anziché una fruizione lineare delle informazioni contenute, grazie alla presenza dei link. Essi collegano la parte di sito che stiamo fruendo con altre informazioni, sia all'interno dello stesso sito sia al suo esterno, e così via. Inoltre, nello stesso messaggio comunicativo, possono essere utilizzati più media e/o più linguaggi.

Il linguaggio standard per la creazione di siti Web è l'HTML, ovvero HyperText Markup Language, che è una filiazione di uno standard generale SGML (ISO 8879:1986). È detto linguaggio di marcatura perché per contraddistinguere la funzione di certe parti all'interno dell'ipertesto, l'autore l'autore ne indica il ruolo tramite i marcatori (tag). Il browser poi sarà in grado di interpretare le varie istruzioni correttamente. Ad esempio, se nel mio testo desidero che una certa parola appaia in grassetto, mi limito a marcarla con il tag preposto che indica il grassetto. Sarà poi il browser (Internet Explorer, Mozilla Firefox, Chrome, per citare quelli più diffusi), cioè il software che "interpreta" il linguaggio HTML per visualizzarlo, a rendere in grassetto la parola.

L'ultima versione del linguaggio è XHTML 1.0. Una pagina web semplice in XHTML ha questa stuttura:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<title>Titolo della pagina, che compare in alto nella finestra del browser</title>
<meta name="author" content="Nome Cognome" />
<meta name ="description" content="Descrizione del contenuto, serve per la ricerca da parte dei motori" />
<meta name ="keywords" content="parole chiave, come sopra" />
</head>

<body>

<h1>Titolo principale</h1>
<h2>Titolo di sezione</h2>
<h3>Titolo di sottosezione</h3>
Dopo i titoli posso mettere una linea orizzontale che separi dal resto del testo<hr />
<p>Testo normale, che può essere in <b>grassetto</b>,
in <i>corsivo</i>, <u>sottolineato</u>. Per andare a capo<br />
Posso inserire anche dei <a href="http://www.miosito.it">link</a></p>
</body>

</html>

Le parole tra parentesi uncinate <...> sono i tag. Qui sono stati indicati quelli più basici, me se esistono molti altri per inserire nelle pagine web immagini, tabelle, elenchi puntati/numerati, etc. Una pagina web si crea facilmente con blocco note (non in Word o Wordpad, che inseriscono formattazioni al testo), salvando il file con estensione .html o .htm. Sarà poi possibile aprire il documento con un browser per vederlo; le modifiche vanno sempre fatte sul codice, quindi il file va ri-salvato e la pagina web aggiornata per vedere i cambiamenti. Il codice può essere visto anche aprendo una pagina web qualsiasi e visualizzando l'HTML (in Explorer Visualizza --> HTML).

Il Web, come molti altri servizi di Internet, utilizza l'architettura client-server. Nel nostro caso il client è il browser che utilizziamo per navigare in Internet, capace di visualizzare i documenti presenti su un server nel Web (to browse = scorrere, sfogliare).

Ogni volta che desideriamo visualizzare una pagina Web di Internet, dobbiamo indicare al nostro browser = client dove andare a cercare, cioè l'indirizzo del server in cui è presente la pagina desiderata. Questi indirizzi si chiamano URL (Uniform Resource Locator). Ogni URL si articola in: Gli schemi di indirizzamento utilizzati sono: I formati più comuni di documenti che si possono trovare in Internet sono, con indicata la relativa estensione: I browser possono visualizzare alcuni di questi documenti, mentre per altri servono programmi appositi.

indice


Information retrieval



Principi di base per la ricerca in ambiente elettronico

Uno dei vantaggi principali delle fonti informative elettroniche è sicuramente la possibilità di ricercare una grande quantità di dati, con tecniche complesse che consentono il recupero di informazioni in base a criteri stabiliti dall'utente. In ambiente elettronico, potenzialmente ogni elemento parte di un record è ricercabile.
Il salto, rispetto alla ricerca in un catalogo cartaceo, è dall'indicizzazione pre-coordinata, ovvero stabilita a priori dal catalogatore, all'indicizzazione post-coordinata per parole del testo, in cui l'associazione di concetti o termini avviene solo al momento della formulazione della richiesta.

Le tecniche di information retrieval sono valide in vari contesti, come basi di dati bibliografiche, motori di ricerca in Internet, OPAC, ... Proprio perché l'ambiente elettronico favorisce il proprio sviluppo grazie alle sue caratteristiche di flessibilità, la ricerca deve essere precisa e conforme alla sintassi del sistema, per evitare di recuperare un alto numero di documenti non pertinenti (il cosiddetto rumore).

La tecnica più utilizzata è quella basata sui cosiddetti operatori booleani, che consente una ricerca complessa fra più termini inseriti, correlati logicamente tra loro tramite gli operatori. La ricerca ha inizio con un confronto degli elementi posti nella query con quelli presenti nel data base; vengono poi applicate le operazioni di insieme, secondo la successione prevista dagli operatori. Gli operatori booleani più diffusi sono:
- AND: intersezione, recupera solo i record che contengano entrambi i termini specificati. Più AND si immettono in fase di ricerca, più si restringe il numero dei risultati

 
- OR: unione, recupera i record che presentino almeno uno dei termini forniti. Più OR si immettono in fase di ricerca, più si amplia il numero dei risultati.
 
- NOT: complemento, rintraccia i record che soddisfano un determinato criterio escludendone altri espressi nella query. Utile per disambiguare i termini (ad. esempio lavagna NOT luminosa)
 
- XOR: esclusione, recupera i record che contengano esclusivamente uno dei criteri immessi. specificando promessi XOR sposi, si ottengono tutti i record che contengono la sola parola promessi e tutti quelli che contengono la sola parola sposi, ma non quelli che le contengono entrambe.
 

(le immagini sono tratte da Metitieri, Ridi. Biblioteche in rete)

Alcuni sistemi permettono la ricerca esatta di frasi chiudendo i termine tra virgolette. Ad esempio, se volessi cercare pagine web sull'AIB, se io scrivessi Associazione italiana biblioteche troverei molto rumore, poiché i termini presi singolarmente sono piuttosto generici. Inserendoli tra virgolette, avrei una risposta precisa, perché i termini immessi verrebbero cercati vicini.

Questi linguaggi, solitamente, consentono una serie di "trucchi" per perfezionare la ricerca. Gli operatori booleani corrispondono alle operazioni matematiche: AND alla moltiplicazione, OR alla somma e NOT alla sottrazione; spesso è possibile scrivere direttamente i simboli matematici al posto degli operatori linguistici. Volendo alterare l'ordine naturale delle operazioni (che è NOT, AND, OR), è possibile utilizzare le parentesi: ad esempio, la ricerca biblioteche AND Metitieri OR Ridi ha un risultato molto diverso se scritta biblioteche AND (Metitieri OR Ridi).

Sempre per raffinare la ricerca, è possibile troncare i termini per rintracciare parole simili. I caratteri cosiddetti jolly più usati sono $, %, *
Ad esempio, immettendo il termine giornal* verranno recuperati documenti che contengono giornale, giornali, giornalista, giornalismo, giornaliero, etc.
Altri caratteri jolly possono essere inseriti al posto di una lettera all'interno della parola per mascherare un carattere; per ricercare frasi esatte, i termini vanno racchiusi tra virgolette. d esempio, "nel mezzo del * di nostra vita". Altre funzionalità avanzate di ricerca possono essere offerte dai vari strumenti, come limitazione per data, lingua, tipologia di documento, etc.

Oltre a questo tipo di ricerca, spesso all'utente viene concesso di effettuare uno scorrimento (browsing) dell'archivio dei dati o di liste organizzate di termini significativi, come ad esempio avviene nello scorrimento di liste di autori, titoli e soggetti nei cataloghi bibliografici. Un altro tipo di ricerca possibile è quella ipertestuale, che consente una fruizione non lineare delle informazioni recuperate, effettuando nuove ricerche partendo dai risultati.



Strategie di ricerca

Il primo passo da compiere è certamente quello di analizzare con precisione il bisogno informativo, per individuare con precisione la strategia di ricerca ottimale da sviluppare. Dai gradi di esaustività e di specificità adottati per l'immissione dei dati, risulteranno determinati gradi di richiamo e precisione. Il primo riguarda la quantità dei documenti pertinenti recuperati sul totale di quelli esistenti nella banca dati interrogata. La seconda si riferisce alla quantità dei documenti pertinenti sul totale di quelli recuperati (pertinenti o no). Se la strategia di ricerca non è costruita in modo appropriato, il rischio di perdere informazioni utili è elevato. Si deve tenere presente che il rapporto tra richiamo e precisione è inversamente proporzionale (ovvero aumentando il richiamo diminuisce la precisione e viceversa). Occorre decidere, caso per caso, quale dei due aspetti si vuole privilegiare. In genere si preferisce avere maggiore richiamo, analizzando poi con calma tutti i risultati per eliminare il "rumore" (ovvero i documenti non pertinenti).

La fase di ricognizione generale deve individuare il punto focale della ricerca, e deve determinare la terminologia specifica, sia in lingua italiana sia in altre lingue, su cui si baserà la ricerca. È bene avvalersi di dizionari, enciclopedie e manuali. Per i dizionari segnaliamo http://www.yourdictionary.com/
Nell'information retrieval una "parola" è una qualsiasi stringa di caratteri alfanumerici, da A a Z e da 0 a 9, delimitati da uno spazio o da segni di punteggiatura. Nell'eseguire una ricerca, i termini inseriti dall'utente vengono raffrontati alle parole memorizzate nell'indice. Va quindi posta grande attenzione durante la digitazione: in caso di errori il sistema non riconoscerà la parola cercata (anche se alcuni sistemi ora suggeriscono l'errore, es. il motore di ricerca Google).

Nel caso in cui i termini associabili all'argomento siano generici, è bene associarne altri che possano ridurre il rumore. Es. per ricercare informazioni sulla danza sevillana si può associare il termine a flamenco

Nella ricerva vanno sempre inseriti solo i termini significativi, eliminando le cosiddette stopwords, ovvero quelle parole non significative ai fini della ricerca e che vengono registrate in un apposito arichivio in modo che in cui il processo di ricerca salti la parola e riprenda.
Solitamente, gli archivi di stopwords contengono differenti liste a seconda del contesto, della percentuale con cui vengono ripetute e dei filtri che vengono impostati; in generale si parla di:

Ad esempio quindi per cercare in una banca dati bibliografica l'opera "Sei personaggi in cerca d'autore" sarà sufficiente inserire i termini di ricerca personaggi cerca autore
Ovviamente se i termini vengono inseriti tra virgolette, come abbiamo visto viene ricercata la frase esatta, comprese eventuali stopwords
es. GSM or "Global System for Mobile Communications"

Qualora il termine individuato abbia delle varianti, dei sinonimi o termini equivalenti, se si vuole effettuare una ricerca completa vanno utilizzati gli operatori booleani e se possibile il troncamento finale.
es. macchiavelli OR machiavelli
    gravidanza OR maternità OR figl*

L'operatore NOT può essere molto utile qualora si sappia già che con i termini immessi verranno recuperate molte pagine che non interessano
es. "biologia cellulare" NOT dipartimento NOT corso

 
 



Strumenti per le ricerche bibliografiche in Internet

La ricerca bibliografica è quel complesso di attività volte ad accertare l'esistenza, descrivere efficacemente e accedere al contenuto informativo di documenti che rispondono alle caratteristiche specificate da chi compie la ricerca.
I mezzi con cui è possibile pubblicare un documento (testuale, grafico, video, sonoro), oggi sono diventati molto numerosi. Se i tipi di supporti fisici non sono pochi, ancora di più sono le tipologie concettuali dei documenti (es. monografie, periodici, atti di congressi, raccolte di saggi, pubblicazioni ufficiali, letteratura grigia). Ne consegue che i canali di ricerca sono molteplici, e per raggiungere l'obiettivo tutte le strade utili devono essere percorse.

Va doverosamente fatta la distinzione fra bibliografie e cataloghi: è un concetto che deve essere chiaro per poter effettuare ricerche bibliografiche rapide ed efficaci.
Una bibliografia elenca l'esistenza di documenti dotati di determinate caratteristiche (es. documenti dello stesso autore, su un argomento, di un editore, etc.), ma senza indicare dove materialmente sono, mentre un catalogo include i documenti posseduti da una determinata biblioteca (o un gruppo di biblioteche), indicando dove poterli reperire.

Lo schema di base della maggior parte delle ricerche bibliografiche può essere:

  1. consultazione delle bibliografie per scoprire che cosa è stato pubblicato nel settore oggetto della ricerca
  2. interrogazione dei cataloghi per sapere dove rintracciare quello che si vuole effettivamente leggere
  3. recupero dei documenti desiderati


Banche dati bibliografiche

Una banca dati è una collezione di informazioni registrate in formato leggibile all'elaboratore elettronico e relative ad un preciso dominio di conoscenze, organizzata allo scopo di poter essere consultata dai suoi utilizzatori. Caratteristica peculiare di una base di dati è la sua strutturazione interna in record, che a loro volta sono strutturati in campi e sottocampi. Questa strutturazione consente di effettuare ricerche precise e complesse, al fine di recuperare con esattezza l'informazione ricercata.
È possibile distinguere alcune tipologie di banche dati, che possono essere innanzitutto divise in: Le banche dati generalmente sono a pagamento, anche se alcune sono disponibili gratuitamente on line. Esistono repertori che possono essere consultati per orientarsi nell'offerta commerciale, tenuti dai distributori nazionali di questi prodotti, ad esempio per l'Italia
Limitato solo all'Italia è il repertorio "Guida alle Banche dati Italiane" http://uptoit.org/ital/monitor/monitor.htm

Altri tipi molto importanti di banche dati bibliografiche sono le bibliografie nazionali, che registrano tutte le pubblicazioni (a stampa e anche su altri supporti) prodotte in un determinato paese, e i cataloghi dei libri in commercio, che includono tutto ciò che si può reperire sul mercato librario nazionale ad una determinata data. Di entrambe le tipologie, per l'Italia, si segnala la BNI - Bibliografia nazionale Italiana, curata dalla Biblioteca nazionale centrale di Firenze, e Alice, catalogo italiani dei libri in commercio. Di recente entrambi hanno cambiato distributore e sono ora acquistabili presso Licosa www.licosa.com. Ovviamente le librerie on line basano il loro archivio commerciale sul catalogo dei libri in commercio del paese di riferimento. La più vasta e famosa libreria esclusivamente virtuale del mondo è Amazon.com http://www.amazon.com, inaugurata nel 1995, sul cui sito è possibile consultare un catalogo internazionale di oltre due milioni e mezzo di titoli, prevalentemente in lingua inglese, che possono essere ordinati on line. Interessante e utile il "Search inside", che permette di visualizzare frontespizio, indice, quarta di copertina e alcune pagine. La scheda del libro contiene anche recensioni, link ad altri libri che citano quello esaminato, collegamenti a libri simili per categoria o argomento.

In Italia è attivo dal 1998 Internet bookshop Italia http://www.ibs.it, con 380 mila titoli italiani 60.000 cd, 15.000 film in formato DVD e 4.000 videogiochi. Da qualche anno offre anche un vasto catalogo di 850.000 libri e audiolibri in lingua inglese.

Per i libri antichi o non più in commercio segnaliamo Mare magnum librorum http://www.maremagnum.com, dotato di un catalogo collettivo che comprende 492 librerie e più di due milioni di titoli, con link diretti a diversi venditori, e Abebooks http://www.abebooks.com/ che ricerca oltre 100 milioni di libri (usati o fuori commercio) da 13.500 venditori.


OPAC

La maggior parte delle biblioteche ormai è automatizzata, e la catalogazione avviene in formato elettronico. I cataloghi che ne derivano sono resi pubblicamente accessibili come siti web interrogabili. OPAC è un acronimo che sta per
O n-line
P ublic
A ccess
C atalog

ossia catalogo in linea accessibile pubblicamente.

È importante, quando si consulta un catalogo in linea, sapere con precisione che cosa esso effettivamente contenga: quali biblioteche, a partire da che anno di pubblicazione, eventuali criteri con cui le opere sono state catalogate, etc. Ad es. la base dati SBN della Biblioteca nazionale di Roma attualmente contiene tutti i documenti a stampa pervenuti in Biblioteca dal 1988. Per le opere stampate in precedenza deve essere consultato il catalogo cartaceo.

I libri sono registrati negli OPAC in unità dette record. Ogni record è la descrizione di un'opera. Le informazioni sono organizzate in diversi campi: l'utilità del catalogo elettronico sta tutta qui. Ogni elemento del record è potenzialmente ricercabile, mentre nel catalogo cartaceo le possibilità di ricerca sono limitate all'intestazione e ai soggetti.

Generalmente esistono tre principali modalità di ricerca:

  1. per campi: l'immissione dei termini è ristretta ai campi di cui si possiedono informazioni(autore, titolo, editore, collana, etc.). Se per esempio si stanno cercando tutte le opere di Umberto Eco presenti nell'OPAC, si cercherà la parola eco solo nel campo "autore". Se cerchiamo il volume "Il nome della rosa" si potrà aggiungere, nel campo titolo rosa
  2. per liste: il sistema richiede di inserire una sola stringa, contenente una o più parole da cercare nel campo selezionato (generalmente autore, titolo, o soggetto). Come risposta viene visualizzata una lista di voci che iniziano con la parola o le parole richieste, oppure con parole che nell'ordine alfabetico si trovano vicino. Questo sistema permette di compensare una parte dei possibili errori nello spelling delle parole richieste; e, inoltre, permette di vedere contemporaneamente diverse voci che inizino con le stesse parole, per poi scegliere quella desiderata.
  3. ricerca libera: come detto, potenzialmente ogni elemento del record è ricercabile, e se non ci sono restrizioni, i termini immessi saranno ricercati in tutto il record bibliografico.
Inserendo le parole bisogna fare attenzione allo spelling: un banale errore di battitura può produrre un risultato negativo. Generalmente non fa differenza utilizzare lettere maiuscole o minuscole. Con i segni diacritici gli opac si comportano in modi diversi: di solito, omettendo i diacritici si trovano anche le parole che li contengono. Un discorso simile vale per i segni di punteggiatura (virgole, punti, due punti eccetera), i trattini e gli apostrofi. Alcuni opac li trascurano automaticamente, altri richiedono uno spazio bianco, per evitare che le due parti vengano considerate un'unica parola. Es. ricerca opere Massimo D'Azeglio in SBN
http://opac.internetculturale.it/cgi-bin/main.cgi?type=autlist (Azeglio) e nel Catalogo del polo bibliotecario parlamentare http://bcdcatalogo.camera.it/ALEPH (D'Azeglio trasformato in DAZEGLIO)

Quando nello stesso campo si inseriscono più parole, di solito gli OPAC cercano i record che le contengono tutte, ovvero utilizzano l'operatore AND. Anche tra i campi spesso di default l'operatore è AND, anche se a volte è possibile specificarne uno diverso.

In Italia, il Servizio Bibliotecario Nazionale (SBN), il cui OPAC può essere consultato a partire dal portale Internet culturale http://www.internetculturale.it/moduli/opac/opac.jsp/, comprende biblioteche di diversa natura e tipologia (statali - tra cui le due nazionali centrali -, comunali, universitarie, di accademie private, etc.), per un totale di oltre 3000 biblioteche. L'OPAC SBN attualmente ha una consistenza di 8 milioni di titoli moderni, 600 mila titoli antichi (ovvero volumi stampati prima del 1830), 293 mila testate di periodico.

Un altro utilissimo strumento è il MAI (MetaOpac Azalai Italiano) http://www.aib.it/aib/opac/mai2.htm, gestito da AIB e CILEA (Consorzio Interuniversitario Lombardo per la Elaborazione Automatica), che consente di interrogare con un'unica interfaccia oltre 250 cataloghi connessi. In sostanza non effettua la ricerca su un archivio proprio, ma nei record degli OPAC connessi. È uno strumento che non va ovviamente utilizzato per cercare l'ultimo bestseller appena uscito, quanto piuttosto libri difficilmente reperibili.
Il MAI si basa su un repertorio, sempre curato dall'AIB e dal CILEA, che cataloga tutti gli OPAC di biblioteche italiane, consultabile a http://www.aib.it/aib/opac/repertorio.htm e che attualmente repertoria oltre 1000 cataloghi.
Il repertorio è suddiviso per tipologia di biblioteca, per area geografica e per tipo di documenti. Ne conseguono maschere di ricerca personalizzate nel MAI, ovvero Ricerca selettiva http://www.aib.it/aib/opac/mai.htm3 e Ricerca per regione http://www.aib.it/aib/opac/mai3.htm3. Dal MAI sono nati 9 Metaopac specializzati.

Altro strumento importantissimo è ACNP (Archivio Collettivo Nazionale dei Periodici) http://acnp.cib.unibo.it/cgi-ser/start/it/cnr/fp.html, che consente la ricerca dei periodici posseduti da 2400 biblioteche in Italia. Per ogni testata vengono fornite le principali informazioni bibliografiche, gli opportuni legami a continuazioni, supplementi, titoli precedenti o varianti, editori, enti autori, etc. Ogni biblioteca, poi, ne fornisce la consistenza e maggiori informazioni sulla consultazione del periodico e le modalità di richiesta di fornitura di articoli. L'archivio si è arricchito grazie alla catalogazione delle riviste elettroniche ed è in corso di implementazione l'archivio degli spogli.

In ambito internazionale, l'AIB mantiene una pagina con repertori di cataloghi e biblioteche nel mondo che può essere una buona base di partenza per orientarsi http://www.aib.it/aib/lis/r.htm3.
Si potrebbero elencare tutte le biblioteche nazionali europee e cataloghi collettivi di singoli paesi, strumenti fondamentali per una ricerca in ambito internazionale, ma è preferibile segnalare un metaopac che ne comprende buona parte, ovvero il Karlsruher Virtueller Katalog http://www.ubka.uni-karlsruhe.de/kvk/kvk/kvk_it.html. Il KVK è un metaopac con interfaccia in 5 lingue, che consente di ricercare, cumulativamente o separatamente, molti OPAC di biblioteche nazionali e librerie on line.
Vale la pena però visitare l'OPAC della Library of Congress http://catalog.loc.gov/ anche solo per il gusto di fare una ricerca nell'archivio bibliografico più grande del mondo, con oltre 100 milioni di documenti.

Nel contesto dei servizi bibliotecari è necessario sempre di più connettere tutta l'informazione disponibile, per costruire un ambiente informativo pienamente interconnesso; quindi database bibliografici e di abstract con i cataloghi, i cataloghi con i testi pieni presenti on line, etc. Sono nati così gli strumenti "OpenURL", software che permettono alla biblioteca ibrida di stabilire link tra le varie risorse elettroniche (a pagamento o ad accesso libero) che costituiscono la sua collezione. Un utente che effettui una ricerca, ottenuta una risposta può richiedere dei collegamenti rilevanti ad altre risorse della collezione.
Questi collegamenti possono essere:

es. ricerca Guida alle fonti di documentazione europea in rete / Carola Cerami nel catalogo della biblioteca dell'IUE http://www.iue.it/LIB/Catalogue/


Biblioteche digitali

La biblioteca digitale è una biblioteca immateriale, ovvero senza collezioni fisiche, in cui vengono conservati e resi disponibili esclusivamente documenti digitali (ovvero nati come tali o convertiti da originali cartacei), gestiti e catalogati elettronicamente. Tra le più importanti in Italia:

BDI - Biblioteca Digitale Italiana: progetto avviato dalla Direzione Generale per i beni librari del Ministero e gestito dall'ICCU, supporta la digitalizzazione da parte di biblioteche e rende disponibili i documenti tramite il portale Internetculturale http://www.internetculturale.it/moduli/digi/digi.jsp. In questa sezione sono visibili i documenti digitalizzati, a bassa risoluzione, dalle biblioteche e da altre istituzioni culturali italiane che via via aderiscono.
Tra i primi lavori portati a termine c'è la digitalizzazione dei cataloghi storici delle biblioteche italiane http://cataloghistorici.bdi.sbn.it/code/index.asp con 215 cataloghi storici, a volume e a schede, di 35 biblioteche italiane appartenenti al Ministero per i Beni e le Attività Culturali, a Enti locali e a Istituti. In seguito i progetti si sono occupati di documenti musicali e pubblicazioni periodiche. Attualmente sono in corso di realizzazioni tre grandi progetti relativi alla digitalizzazione di 3000 manoscritti conservati nei plutei della Biblioteca Medicea Laurenziana di Firenze, degli incunaboli volgari ed umanistici presenti nelle biblioteche italiane e straniere.

Manuzio: http://www.liberliber.it progetto, nato nel 1993 e promosso dall'Associazione "Liber liber", che diffonde gratuitamente testi letterari italiani (classici o testi non più vincolati dalla legge sui diritti d'autore). Molti testi sono disponibili in formato Rtf e in Html, scaricabili o direttamente consultabili on line. L'archivio conta più di 1000 testi e 1.400 brani di musica classica contenuti in LiberMusic (viene distribuito anche su Cd-Rom e DVD-Rom).

Progetti internazionali:

Gallica: http://gallica.bnf.fr, biblioteca digitale nata nel 1997 dalle collezioni della Biblioteca nazionale di Francia. A oggi offre 90.000 opere digitalizzate come immagini, e 1200 in formato testuale, 500 documenti sonori, 80.000 immagini. L'archivio è dotato di un motore di ricerca potente e molto efficace.

Europeana: http://www.europeana.eu/ versante francese della Biblioteca Digitale Europea. Anche in questo progetto è coinvolta la Biblioteca nazionale francese e, in minor misura, dalla Biblioteca Nazionale Ungherese e da quella Portoghese. Contiene attualmente 12.000 testi digitalizzati, scaricabili anche in formato testuale e la ricerca tramite il motore interno viene fatta sul full text. Le opere sono consultabili anche per percorsi tematici. Tutti i documenti presenti in Europeana si trovano anche in Gallica, ma con modalità di consultazione e ricerca diversi. Europeana consente anche di personalizzare i testi e registrare quelli di interesse in una sorta di bookmarks on line.

The European Library, http://www.theeuropeanlibrary.org progetto promosso dalla Commissione Europea consente di ricercare testi digitalizzati provenienti da 23 delle 47 biblioteche nazionali coinvolte nel progetto. Attualmente consente l'accesso a 150 milioni di record (libri, mappe, registrazioni audio e video, etc.).

Google books: nel corso del 2004 Google ha avviato un grande progetto per digitalizzare le raccolte di alcune biblioteche e mostrarne, al pari di un catalogo, informazioni relative ai libri oltre che alcuni frammenti. In sostanza sulla base del termine di ricerca immesso, si estrapolano le frasi contenenti quel termine e appare la relativa porzione di pagina. Se il libro non è protetto da copyright, viene visualizzato per intero. Una ricerca più approfondita consente di cercare altre pagine all'interno dell'intero libro contenenti il termine di ricerca. Sono inoltre presenti link verso librerie online per acquistare il libro, per cercare recensioni nel Web, per trovare il libro in una biblioteca (per ora è connesso solo Worldcat, servizio a pagamento dell'americana OCLC), per visualizzare ulteriori informazioni sull'editore.
es. http://books.google.com/books?id=DJDKaxEEfYgC

Per fare tutto ciò, Google ha lavorato con alcune grandi biblioteche, soprattutto americane (New York Public library, Harvard, Stanford, Oxford). È uno strumento che difficilmente potrà essere utile al bibliotecario nelle sue ricerche, ma che sicuramente avvicina uno strumento potentissimo o molto utilizzato come Google al mondo delle biblioteche e si servizi offerti.
Es. Ricerca in Google books musei roma

I periodici sono state le prime importanti pubblicazioni a recepire la novità di internet e a sfruttare a proprio favore la trasforazione di questo nuovo mezzo di comunicazione. I primi e-journals sono nati in ambito universitario, e venivano diffusi tramite delle liste di distribuzione.
I progetti più importanti di recupero retrospettivo in formato digitale delle vecchie annate di periodici cartacei di ambito scientifico ed accademico sono:

Impossibile avere un repertorio completo ed aggiornato di tutte le pubblicazioni elettroniche periodiche. Gli strumenti che si possono utilizzare per orientarsi sono l'Ulrich's international periodicals directory e The serials directory (disponibili a pagamento). Attraverso tali repertori è stato stimato che a fine 2003 fosse possibile identificare e raggiungere circa 11 mila periodici accademici dotati di peer-review (ovvero di un comitato scientifico incaricato di valutare la validità scientifica degli articoli proposti per la pubblicazione) disponibili anche, o soltanto, in Internet. Accessibile gratuitamente (ma molto meno ampia) è DOAJ (Directory of open access journals) http://www.doaj.org, con oltre 2600 e-journals accademici ad accesso gratuito dotati di peer-review.




La ricerca di informazioni nel Web

Internet, soprattutto negli ultimi 15/20 anni, ha avuto uno sviluppo esponenziale; si calcola che attualmente ci siano oltre 100 milioni di siti web (cfr. http://www.useit.com/alertbox/web-growth.html) e oltre 15 miliardi di pagine.

La relativa facilità del linguaggio HTML, la possibilità di comprare spazi sul Web o di averne anche gratis e la mancanza di una "selezione editoriale" consentono a chiunque abbia un po' di dimestichezza con l'informatica di mettere on line qualsiasi tipo di pagine. Questo implica che Internet sia la più vasta risorsa informativa a portata di mano. Questo implica l'errata tendenza a pensare che nel Web si trovi sempre e comunque la risposta a ogni quesito.
La ricerca in ambiente WWW si avvale di strumenti molto potenti, ma che devono essere usati con cognizione di causa, tenendo presente che l'information overload può creare notevoli problemi. Il formato HTML con cui è costruito il World Wide Web fino a poco tempo fa era l'unico ricercabile dagli strumenti in Internet. Ma nella Rete esistono anche altri tipi di documenti (file audio e video, testi in formato PDF, immagini, mailing list, etc.) e gli strumenti disponibili si stanno man mano adeguando, anche se è ancora difficile recuperare un oggetto che non sia testuale.

Gli strumenti più diffusi per la ricerca nella Rete sono di due tipologie:
  1. motori di ricerca o indici Web per parola: i termini inseriti dall'utente vengono ricercati dal programma all'interno di un vastissimo archivio di pagine web. Ovviamente l'automatismo porta con sé molto rumore;
  2. indici web per argomento o directories: repertori di siti censiti da personale specializzato e organizzati in categorie in base al contenuto semantico. Il lavoro umano garantisce un filtro qualitativo e diminuisce il rumore, ma gli archivi sono di gran lunga più piccoli

Motori di ricerca

Chiamati anche indici web per parola e search engines, rintracciano automaticamente i termini inseriti nell'apposita maschera, all'interno di un vastissimo archivio di pagine web, tramite programmi chiamati robot o spider. Questi programmi setacciano il Web alla ricerca di potenziali pagine da includere nel loro database seguendo i link in uscita dai siti che hanno già archiviato. Se una pagina non è linkata in nessun sito, i programmi di ricerca non la troveranno mai. L'unico modo, in questo caso, è che una persona sottoponga l'URL al motore di ricerca, affinché venga analizzata la pagina ed inserita nell'archivio. Una volta trovate le pagine, il programma le passa ad un altro per l'indicizzazione. Il testo, i link e il restante contenuto di ogni sito web viene analizzato e archiviato nel database del motore di ricerca: quando effettuiamo una ricerca, quindi, non lo facciamo realmente in tutta la Rete, ma in questo archivio.

I risultati ottenuti sono presentati sotto forma di elenco ordinato per rilevanza, creato attraverso un algoritmo. Generalmente, una pagina sarà presentata tra le prime dell'elenco se contiene i termini ricercati in posizioni "importanti" come nel tag <title> della pagina, nelle prime righe del testo, soprattutto nei titoli di sezione, nei tag <META description> e <META keywords>.
Anche l'alta frequenza con cui la parola è presente ha un suo peso. Alcuni motori analizzano i link in uscita per comprendere meglio l'argomento trattato, e quelli in entrata per capire quanto citata è la pagina. Altri monitorizzano quali link vengono scelti tra i risultati di una ricerca: più un sito è cliccato più importante diventa. Non esiste certezza dei metodi di ranking utilizzati dai vari motori, poiché nessuno li dichiara apertamente.

I motori di ricerca sono strumenti molto potenti, che archiviano miliardi di pagine web, ma che non offrono esiti molto precisi, anche se consentono di perfezionare la ricerca attraverso le tecniche di IR. E' importante tenere sempre presente che il motore non interpreta i termini che l'utente immette, per il programma sono una mera sequenza alfanumerica.
Il più efficace e noto motore di ricerca, a livello mondiale, è Google

 <http://www.google.it>

Google, fondato nel 1998, in pochi anni si è imposto come il motore di ricerca più utilizzato ed apprezzato dagli utenti del Web. Ricerca in oltre 10 miliardi di pagine Web (provate a mettere "a" nella maschera di ricerca e vedere il numero delle pagine di risposta) e oltre un miliardo di immagini, l'archivio più vasto esistente.
Molto apprezzata è soprattutto l'ordinamento per rilevanza dei risultati, che si basa sulla tecnologia PageRank. Essa usa l'estesa struttura di collegamenti del Web come strumento di organizzazione. In breve, Google interpreta un collegamento dalla pagina A alla pagina B come un "voto" espresso dalla pagina A sulla pagina B. Google misura quindi l'importanza di una pagina dai voti che riceve. Le pagine votanti, inoltre, vengono analizzate da Google. I voti espressi da pagine che sono a loro volta "importanti" pesano di più e contribuiscono a rendere importanti anche altre pagine. Pagine importanti, di elevata qualità, ricevono un PageRank più elevato e vengono ordinate o classificate in posizioni migliori tra i risultati.

Google analizza l'intero contenuto di ciascuna pagina Web mantenendo suddivisioni e posizioni precise di tutti i termini presenti nella pagina.
Google presenta la versione cache delle pagine, ovvero la pagina così come appariva quando indicizzata e inserita nell'archivio. Il vantaggio che l'utente ne ricava è la visualizzazione della pagina anche se non è più disponibile on line; inoltre i termini di ricerca immessi sono evidenziati (funzione molto utile se il testo è lungo).

Google non supporta completamente la ricerca booleana: di default tra più termini usa AND; se nella ricerca trova pagine in cui i termini siano vicini nella frase, queste compaiono per prime tra i risultati. Per ricercare con l'operatore OR, deve essere scritto in lettere maiuscole perché venga interpretato correttamente. Supporta anche NOT con il simbolo - (inserendo uno spazio prima del simbolo ma non dopo). La ricerca di prossimità si effettua inserendo i termini tra virgolette ("...").

La funzione di troncamento non è supportata, ma a volte risponde alla ricerca con variazioni di singolare/plurale, varianti e sinonimi, senza che la cosa però sia gestibile dall'utente. Nella ricerca di prossimità, però, è possibile inserire un asterisco tra le parole se non si è sicuri di un termine ricercato.
Es. "nel mezzo del * di nostra vita"

Nella maschera di ricerca avanzata, è possibile ricercare i risultati:

È possibile inoltre filtrare la ricerca per lingua, formato del file, aggiornamento della pagina, dominio. I termini immessi possono essere ricercati solo in una parte della pagina che può essere specificata, ovvero in qualsiasi parte, nel titolo, nel corpo, nell'URL o nei link presenti. Interessante anche la ricerca di definizioni di parole con define:[termine]. Se Google individua definizioni per quella parola o frase nel Web, vengono visualizzate.

Google, nell'effettuare la ricerca, ignora i termini frequenti (stop words) come articoli, preposizioni, etc.
Curiosa la pagina Zeitgeist http://www.google.com/intl/en/press/zeitgeist/index.html, che mostra i termini più ricercati con Google in tutto il mondo.

La fortuna di Google è dovuta a diversi fattori, primo fra tutto l'ottimo sistema di ordinamento dei risultati, che ha permesso ai programmatori, fin dalla sua nascita, di inserire il bottone "mi sento fortunato" nella maschera ricerca semplice. Con questa opzione, invece di visualizzare la lista delle pagine web che soddisfano i criteri di ricerca immessi, si va direttamente alla prima di esse. Un altro grande vantaggio è la specializzazione del sito nella ricerca pura: quando nacque Google, nel Web dilagava la tendenza a costruire "portali", veri "suk dell'informazione", e anche motori di ricerca si erano trasformati. Google ha sempre presentato la sua maschera con il solo logo, senza banner pubblicitari, immagini o altro.

L'alto utilizzo da parte dei navigatori ha fatto sì che Google fosse il primo a creare la toolbar, scaricabile gratuitamente e da installare nel proprio PC, per un accesso diretto alla ricerca in ogni momento della navigazione. Google si diffonde in tutto il Web grazie anche alle sue API, che consentono ai programmatori di inserire la ricerca all'interno di programmi e servizi Web.

Un paio di anni fa è stato lanciato Google Scholar http://scholar.google.com/. Consente un accesso facile e immediato a diverse fonti per la ricerca in ambito scientifico ed accademico. Quindi riviste, libri, monografie e articoli, provenienti da editori e società professionali, ma anche archivi aperti e siti web. Google Scholar, tramite uno dei seuoi segretissimi algoritmi, valuta il testo dell'articolo, l'autore, la pubblicazione in cui appare e il numero di volte in cui viene citato in altri documenti accademici. I risultati più pertinenti vengono sempre visualizzati nella prima pagina.
Ogni articolo è fornito di abstract e, se disponibile sul web, un link porta all'articolo completo. Google scholar identifica inoltre altri articoli che citano l'articolo richiesto e documenti sullo stesso argomento, consente accesso diretto alla ricerca di informazioni nel web e linka ad altri servizi per biblioteche. Nella pagina delle preferenze è possibile settare il cosiddetto "link alle biblioteche". Nell'apposito campo è possibile inserire una città; se ci sono biblioteche collegate al progetto, nella pagina dei risultati della ricerca di Google Scholar verranno visualizzati ulteriori link che facilitano l'accesso alle risorse delle biblioteche selezionate. Per l'Italia è di default è selezionato il collegamento ad ACNP (Catalogo Italiano dei Periodici).
Es. settare la ricerca di biblioteche su Firenze http://scholar.google.com/scholar_setprefs?nosubmit.x=0&nosubmit.y=0&inststart=0&hl=it&lang=all&instq=firenze&inst=acnp.cib.unibo.it&num=10&scis=yes&scisf=4 e ricercare Biblioteche oggi

Purtroppo Google non dichiara la quantità di documenti archiviati e l'estrazione automatica dei dati porta con sé numerosi errori. Resta comunque uno strumento di integrazione innovativo per le biblioteche, che possono integrare patrimoni, risorse e servizi offerti ad uno strumento potentissimo e famoso come Google. Google Scholar deve essere utilizzato con cognizione di causa ma può essere una buona base di partenza per una una ricerca o uno strumento complementare se si possiedono gli altri prodotti.

Esistono altri motori di ricerca, che qui di seguito vengono elencati:

Altri link possono essere recuperati nel sito http://www.motoridiricerca.it

Fino a qualche tempo fa, poteva essere utile analizzare anche i motori di ricerca "italiani". Attualmente tutte le maschere di ricerca dei principali search engines possono essere visualizzate in italiano, come anche le ricerche effettuate limitate al web italiano.

Per la ricerca in ambito accademico sono stati realizzati strumenti alternativi come Scirus http://www.scirus.com/, che effettua la ricerca in oltre 300 milioni di pagine web che contengano argomenti scientifici. In sostanza la ricerca viene effettuata solo su determinati siti classificati a monte come "scientifici", per diminure il rumore. Ad esempio cercando REM un qualsiasi motore di ricerca risponderebbe con pagine sul gruppo rock, mentre Scirus risponde prevalentemente con pagine o articoli sul Rapid Eye Movement, ovvero la fase del sonno caratterizzata da intensa attività onirica.

Indici web per argomento

Di fronte alla costante crescita del Web, i motori di ricerca automatizzati rispondono alle ricerche degli utenti con un "rumore" sempre crescente. Per venire incontro alle necessità di fornire ai navigatori delle risorse per argomento, sono nati gli indici web generali. Chiamati anche directory, presentano elenchi ragionati di pagine web suddivise in categorie gerarchiche. Questa analisi non è fatta dalla macchina, ma da personale specializzato che seleziona le risorse e le organizza, integrando il titolo e l'URL con una breve descrizione. Il lavoro di questo personale è assimilabile alla catalogazione semantica del bibliotecario, tanto che l'aiuto della directory di Yahoo! riporta questa spiegazione:

Yahoo! è organizzata in una Directory di categorie. Ogni categoria può contenere diverse sottocategorie e/o un insieme di siti che sono stati recensiti dai Surfer di Yahoo!. Così come le biblioteche e le librerie suddividono i libri in diversi settori come Istruzione, Viaggi o Scienze, i Surfer di Yahoo! (i bibliotecari della Rete) semplificano le ricerche sul Web inserendo i siti nella categoria appropriata. Così come i bibliotecari realizzano cataloghi per semplificare la ricerca di un testo o di un documento, Yahoo! ha creato una directory con categorie e sottocategorie, che ti aiutano a trovare le informazioni di cui hai bisogno in Rete.

Le directories sono utili, quindi, quando l'argomento della ricerca è generale (es. la filosofia), e serve quindi uno strumento per orientarsi, anche quando non si conoscono bene la materia e l'ambito della ricerca.

I soggetti non sono standardizzati, e quindi possono variare a seconda di chi produce le varie directories. I link sono pochi e selezionati, quindi il richiamo è basso, mentre la precisione è alta. Da tenere conto anche che i aggiornamento molto più lenti di un motore di ricerca. Spesso dispongono di un motore di ricerca interno per individuare la categoria più pertinente. Questa ricerca non deve essere confusa con la ricerca nell'intero Web; controllare sempre dove ci si trova prima di lanciare una query.

La maggior parte dei motori di ricerca ora ha anche directory associata. Le due funzionalità spesso sono integrate, quindi effettuando una ricerca con il search engine, se viene recuperata una pagina inserita nella directory, è possibile accedere direttamente alla categoria di cui fa parte. Facendo sempre un parallelismo con il mondo bibliotecario, il concetto è simile a quello dello scaffale aperto associato alla Classificazione Decimale Dewey: una volta individuato sullo scaffale il libro che mi interessa, posso sempre prendere altri libri collocati vicini, che saranno sullo stesso argomento.


I principali indici web per argomento sono:

Google e altri indici web utilizzano i dati dell'Open Directory Project, raggiungibile all'indirizzo http://www.dmoz.org/. L'obiettivo è produrre la più completa directory del Web facendo affidamento su un ampio esercito di editori volontari. Chi è interessato a partecipare, infatti, può organizzare una piccola porzione di Web e proporla al resto della popolazione, selezionando il materiale e conservando solo il meglio. Attualmente conta quasi 5 milioni di risorse elencate, 600.000 categorie e 75.000 redattori.

Le directories più note e complete sono internazionali, ma per venire incontro alle necessità di utenti di vari paesi, è possibile accedere a sezioni dedicate a risorse per paese. Ad esempio, Google directory, che utilizza i dati ODP, presenta tutte le categorie, specificando il fatto che la maggior parte dei link sono in inglese, con possibilità di accedere alla sezione World - Italiano. Yahoo!, invece, nella pagina principale in italiano, presenta il link alla directory "locale" (http://it.dir.yahoo.com) e dalle varie categorie consente di accedere alle corrispondenti prevalentemente in inglese. Il simbolo @ alla fine della categoria indica che essa si trova in più punti all'interno della directory. Yahoo! inoltre segnala con un simbolo particolare (un paio di occhiali da sole) i siti più interessati all'interno della categoria.

Altri indici web per argomento sono i cosiddetti virtual reference desk. Il nome viene dal fatto che replicano a livello virtuale la sala di consultazione di una biblioteca; sono quindi un primo punto di accesso a Internet, nel caso siano generali, e possono essere utili nelle ricerche di quick reference in biblioteca. Ne esistono anche di specializzati, che presentano risorse attinenti a una determinata disciplina o argomento, e spesso sono realizzati da esperti del settore. Nella maggior parte dei casi i link sono valutati e commentati. Provate a ricercare all'interno della categoria desiderata ad esempio di Yahoo! directory la sottocategoria "elenchi".

A tale proposito, si possono ricordare, in ambito italiano:

A livello internazionale, vanno ricordati:

Alcuni suggerimenti per la ricerca. Se l'argomento può essere ricondotto a termini univoci o frasi distintive, come a nomi propri di luoghi o persone, la ricerca migliore è quella in Google, eventualmente racchiudendo la frase tra virgolette.
Es. "sindrome di down"
dagherrotipo

Le categorie sono fondamentali se la ricerca necessita informazioni ad ampio raggio su un argomento generico
es. riciclaggio dei rifiuti con informazioni su metodologie, dati sull'inquinamento, prospettive future, etc. Nella Directory Yahoo! Sotto Società e culture > Ambiente e natura > Gestione rifiuti.

Se si cercano home page  o documenti che parlino principalmente dell'argomento indicato, si può provare a limitare la ricerca nel campo <title>, presupponendo che chi ha curato la pagina abbia inserito i termini nel tag:
es. title:"Associazione italiana biblioteche"



Altri strumenti di ricerca

Oltre alle due grandi famiglie di strumenti per la ricerca in Internet, esistono altri mezzi a disposizione.

I meta-search engines effettuano una ricerca simultanea su più indici, attraverso un'unica maschera di immissione dati e visualizzazione delle risposte. I pregi sono la facilità di utilizzo, e la ricerca simultanea con i principali motori di ricerca. D'altro canto, non è chiaro ad esempio se la visualizzazione dei risultati si basa su un ranking, se risultati uguali vengano schiacciati o meno, se vengano visualizzati solo i primi risultati ottenuti da ciascun motore.
Un esempio da citare, comunque, è Webcrawler
http://www.webcrawler.com che utilizza per la ricerca Google, Yahoo!, MSN Search, Ask.com, About.com, MIVA, LookSmart mostrando i migliori risultati. Molto interessante anche Clusty http://www.clusty.com, un meta motore che non si limita a mostrare i siti web recuperati, ma li raggruppa per categorie, apllicando le tecniche statistiche di clustering.

I multi-indici, invece, consentono la ricerca su più motori, interrogandoli uno alla volta. Es. Proteus http://www.thrall.org/proteus.html.

Archivi di pagine web possono essere utili nel caso si ricerchino informazioni o pagine non più rintracciabili perché modificate o rimosse. L'Internet archive http://www.archive.org consente l'accesso alla Wayback machine: digitando l'URL della pagina, è possibile visualizzare le versioni passate, salvate ogni sei mesi a partire dal 1996.

Strumenti per il quick reference come dizionari, enciclopedie e similari risorse di prima consultazione, sono a volte accessibili anche in Internet; può tornare utile conoscerne l'esistenza.

Valutazione delle fonti

Il problema che si pone oggi riguardo le fonti elettroniche non è più solo la ricerca delle informazioni, quanto piuttosto l'acquisizione di capacità adeguate per la valutazione del contenuto recuperato. Internet è un contenitore immenso di informazioni di qualsiasi tipo provenienti da tutto il mondo. Mancando una politica di controllo editoriale di quanto pubblicato, tranne per quanto concerne materiale illegale come quello pedo-pornografico, chiunque può pubblicare quello che più gli aggrada (da saggi scientifici a fotografie del proprio gatto) il più delle volte in forma anonima. Per questo è diventato cruciale stabilire dei criteri di valutazione.

La proposta di Elena Boretti è stata quella di adattare la famosa griglia di Whittaker, ideata per le fonti cartacee, alla Rete. Le pagine web andrebbero considerate quindi sotto questi aspetti:

  1. autorevolezza: va verificato se il nome dell'autore è specificato e se il suo iter di studi o quello professionale danno garanzia riguardo al trattamento dell'informazione;
  2. progetto: l'optimum è che scopo della pubblicazione, destinatari e tipologia di trattamento del soggetto siano dichiarati nel sito;
  3. contenuto: va analizzata la chiarezza con cui l'argomento è trattato, la profondità, l'accuratezza, l'affidabilità, ma anche l'eventuale adozione di un particolare punto di vista, che potrebbe rendere parziale la trattazione. Anche lo stile utilizzato gioca un ruolo importante, come il livello di esposizione. Altri elementi importanti sono la frequenza di revisione, la presenza di una bibliografia e di link esterni;
  4. struttura: se per le fonti cartacee si valuta la presenza di indici, suddivisioni e rinvii, per le pagine web si può verificare se il documento è lineare o ipertestuale, se ci sono degli indici, se i link interni sono coerenti e utili;
  5. impaginazione e manifattura: certamente la qualità della stampa non trova un corrispettivo in ambiente elettronico, ma è importante, ad esempio, che il sito sia visualizzabile con qualsiasi browser, che sia leggibile e graficamente equilibrato. Ad esempio l'URL esplicitato nelle pagine e stabile è una garanzia;
  6. posizionamento: anche le pagine web acquisiscono credito se citate o indicizzate in altre fonti, o se superano positivamente il confronto con altre simili.

Alcune strategie da seguire possono essere le seguenti.

Queste considerazioni sono tratte da Joe Barker, The teaching library, University of California, Berkeley, che ha creato un'utile e adattabile checklist consultabile all'indirizzo
http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/EvalForm.pdf di cui si fornisce di seguito una traduzione italiana.




Bibliografia


Strumenti

A Brief History of the Internet / Barry M. Leiner ... [et al.], The Internet Society (versione 3.32). http://www.isoc.org/internet/history/brief.shtml

Internet 2004 : manuale per l'uso della rete / Marco Calvo ... [et al.]. Roma-Bari : Laterza, 2003, oppure http://www.liberliber.it/biblioteca/c/calvo/internet_2004/html/01_indice.htm

A little history of the World Wide Web from 1945 to 1995 (versione 1.49) / Dan Connolly, W3C. http://www.w3.org/History.html

World Wide Web / Alberto Salarelli. Roma : Associazione Italiana Biblioteche, 1997.

La biblioteca digitale / Alberto Salarelli, Anna Maria Tammaro. Nuova edizione interamente riveduta e ampliata. Milano : Editrice Bibliografica, 2006.


Nozioni di Information retrieval

Cercare informazioni in Internet: strumenti e strategie / Claudio Gnoli. ESB Forum, http://www.burioni.it/forum/gnoli-mot.htm

Finding information on the Internet: a tutorial / University of California, Berkeley, http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/FindInfo.html

Indicizzazione semantica nell'era digitale / Claudio Gnoli. ESB Forum, http://www.burioni.it/forum/gnoli-sem.htm

Ricerca e selezione delle fonti di informazione / Riccardo Ridi. Roma: Ministero per i Beni culturali e ambientali, RAI, Italia Lavoro, AIB, 1998.

Strumenti e strategie per la ricerca di informazioni WWW / Riccardo Ridi. Versione 3.10 (2008-03-03) http://www.burioni.it/forum/ridi-mot.htm

Strumenti per le ricerche bibliografiche in Internet

Biblioteche in rete : istruzioni per l'uso / Fabio Metitieri, Riccardo Ridi. Nuova ed. riv. e agg. Roma-Bari : Laterza, 2005, oppure http://www.laterza.it/bibliotecheinrete/index.htm

Gli opac : una guida per il pubblico all'utilizzo dei cataloghi in linea / Claudio Gnoli. http://www.aib.it/aib/contr/gnoli1.htm

SFX e OpenURL: gli esperimenti del team di Van de Sompel / Cinzia Bucchioni. Bibliotime 5(2002), n. 2, http://didattica.spbo.unibo.it/bibliotime/num-v-2/bucchion.htm

Troppo o troppo poco? Web of Science, Scopus, Google Scholar: tre database a confronto / Ezio Tarantino. Bollettino AIB 46(2006), n. 1-2, http://www.aib.it/aib/boll/2006/0601023.htm

La biblioteca digitale: definizioni, ingredienti e problematiche / Riccardo Ridi, in "Bollettino AIB" vol. 44 (2004), n. 3, p. 273-343, http://eprints.rclis.org/2535/

La ricerca di informazioni nel Web

Guide per la ricerca in Internet / Sara Franzoso. AIB-WEB, http://www.aib.it/aib/lis/motori.htm

Search Engines showdown : the users' guide to web searching / Greg R. Notess, http://www.searchengineshowdown.com

Search Engine watch : the source for search engine marketing / Danny Sullivan. http://searchenginewatch.com

Research beyond Google: 119 authoritative, invisible, and comprehensive resources. http://oedb.org/library/college-basics/research-beyond-google

Critical Evaluation of Resources / Joe Barker. http://www.lib.berkeley.edu/TeachingLib/Guides/Evaluation.html

Evaluating Information Found on the Internet / Elizabeth E. Kirk. http://www.library.jhu.edu/researchhelp/general/evaluating/

Valutare Internet : la valutazione di fonti di documentazione web / Elena Boretti. http://www.aib.it/aib/contr/boretti1.htm

Evaluating Web content / University at Albany, New York. http://library.albany.edu/usered/eval/evalweb/

Beyond algorithms: a librarian's guide to finding web sites you can trust / Karen G. Schneider. http://www.google.com/librariancenter/articles/0601_02.html


(Gli indirizzi URL sono aggiornati ad aprile 2009)