Intervia Logo
Inicio - Contacta con Intervía - Avisos legales - SOPORTE TÉCNICO

Buscadores tipo "Crawler"

Contenido

Inicio Noticias Crawlers Directorios Metacrawlers Otros

Páginas sin mantenimiento a partir de Febrero de 2003

¿Que son?

Sitios donde podemos buscar contenidos de la web mediante palabras clave que dan como resultado un listado de páginas que tengan relación con ellas. 

¿Como funcionan?

Usan unos programas de rastreo, también llamados robots, arañas o gusanos ("crawlers"), que buscan por Internet sitios y páginas web, almacenando e indexando todo su contenido en gigantescas bases de datos.

Para dar los resultados, cada uno de los grandes motores de búsqueda utilizan unas reglas o algoritmos que son los encargados de decidir que es lo que se nos devolverá como resultado.

La utilidad de estos sitios depende de varios factores como, su capacidad para evitar el spam, el correcto funcionamiento de sus algoritmos de búsqueda, su capacidad para detectar "dead-links" (enlaces, páginas o sitios que ya no existen) y la capacidad para añadir todos los nuevos contenidos que aparecen a diario en Internet.

¿Hay muchos motores de búsqueda?

No, en realidad son muy pocos los que tienen suficiente capacidad de proceso y ancho de banda para procesar muchos millones de páginas y mantenerlas actualizadas. Los recursos necesarios son tales que sólo unas cuantas empresas con muchos medios son las poseedoras de estos servicios.

Lista de buscadores basados en Crawler:

AltaVista / Magallanes / Raging Search

AltaVista es uno de los motores de búsqueda más grandes de Internet en número de páginas. Su gran cantidad de contenido y de posibilidades de búsqueda ha hecho de él uno de los más usados del mundo. AltaVista Magallanes es una versión en Castellano para España y Raging Search es una versión simplificada de AltaVista que sólo contiene el buscador, sin las funciones de portal.

Combina los resultados de su propia base de datos con el servicio "Ask Jeeves" al que llama "Ask AltaVista" y con directorios temáticos procedentes de Open Directory y de LookSmart.

AltaVista empezó a funcionar en Diciembre de 1995 como un servicio de Digital (altavista.digital.com). Al producirse la compra de Digital por Compaq en 1998, esta separó AltaVista como una compañía independiente que está actualmente controlada por CMGI

Direct Hit

Trabaja principalmente como fuente de datos para otros buscadores aunque tiene su propia página desde la que se pueden hacer búsquedas. Lo utilizan como fuente principal de datos Hotbot, MSN Search, Lycos y el metacrawler Ask Jeeves, que compró Direct Hit por $500 millones de dólares en febrero de 2000.

Este buscador, al igual que Google, clasifica sus resultados por popularidad, pero además utiliza un sistema estadístico avanzado y mide el tiempo de las visitas.

Excite / Excite España

Es uno de los más populares y además de los contenidos de páginas web ofrece resultados con información sobre empresas y deportes entre otros. Empezó a funcionar a finales de 1995 y rápidamente creció absorbiendo a dos de sus principales competidores, Magellan en Julio de 1996 y Webcrawler en noviembre de 1996. Estos dos buscadores siguen funcionando como servicios separados.

FAST Search

También llamado "All The Web" (toda la web). Esta empresa Noruega es la primera en declarar que ha indexado toda la web con más de 200 millones de páginas, en cualquier caso es uno de los más grandes buscadores de Internet. Su motor genera, entre muchos otros, parte de los resultados de Terra Lycos y del portal Español ya.com.

Go (Infoseek)

Go es un portal producido por Infoseek y Disney. Los resultados provienen del motor de búsqueda de Infoseek, que ya no existe como buscador independiente, (infoseek.com es ahora go.com). Sus resultados son muy consistentes gracias al algoritmo de búsqueda ESP y también posee su propia lista de temática de clasificación manual.

Google

Este buscador utiliza la popularidad de los links como sistema primario para dar prioridad a sus resultados, es decir, muestra principalmente los sitios que más han elegido otros usuarios y por tanto los más populares. Básicamente, los usuarios están votando por los sitios más interesantes y por tanto es muy útil para búsquedas donde la popularidad es importante, como los viajes o los coches. 

Poseen una de las bases de datos más grandes (suelen pelear por el primer puesto con FAST Search), con más de 1.000 millones de páginas indexadas por su "crawler", que provee de resultados a Yahoo y Netscape Search

Utilizan Open Directory para mostrar su propio directorio en http://directory.google.com.

Una de las cosas más interesantes es su página de preferencias que permite elegir el interface de búsqueda entre 15 idiomas y los resultados entre 25, además se puede indicar cuantos resultados por página se quieren obtener, 10, 20, 30, 50 ó 100. Estas preferencias se guardan en nuestro navegador usando cookies y cada vez que conectemos con Google se activarán los valores seleccionados.

Inktomi

Inktomi es una de las bases de datos más grandes de Internet, a la altura de los otros grandes FAST Search, Google, AltaVista y Northern Light. En algunas de sus búsquedas se tiene en cuenta también la popularidad, es decir, cuanta más gente pulse en un link más arriba aparecerá en las búsquedas.

Originalmente creado como el servicio de búsqueda de la universidad de Berkeley, sus creadores montaron una empresa con el mismo nombre, Inktomi. No es un servicio al que se pueda acceder desde una página web para buscar, sino que provee de datos a muchos otros, entre los que se encuentran su principal cliente, Hotbot y además MSN Search, Snap, Goto, ICQ, Cnet, Geocities, la española Terra y hasta julio de 2000 también Yahoo, (aunque esta a optado finalmente por usar Google).

Los distintos socios de Inktomi pueden configurar determinados filtros, como el de importancia, lo que puede dar diferentes resultados a pesar de compartir la misma base de datos. Algunos de los socios internacionales son Anzwers en Australia, Canada.com en Canadá, Goo en Japón, UKMax en el Reino Unido, Swiss Search en Suiza, Radar UOL en Brasil, eHOLA y QuePasa en Latinoamérica y Terra en España. En su sitio web hay una lista con muchos de sus socios.

Lycos

Lycos adquirida recientemente por Terra Networks por 12.500 millones de dólares, es la propietaria de otros servicios muy populares de Internet como Tripod, WhoWhere, Angelfire, MailCity, HotBot, HotWired, Wired News, Webmonkey, Suck.com, MyTime, Sonique y Quote.com.

Empezó como un servicio que dependía de los resultados de explorar la red con su propia araña. En abril de 1999 adoptó un modelo de listas clasificadas similar al de Yahoo obteniendo los datos de Open Directory y añadiendo resultados de FAST Search y Direct Hit. En octubre de 1998 compraron a su competidor Hotbot, que continua funcionando como un servicio independiente.

Actualmente Lycos detecta el país de donde procede el navegante, cargando su versión regional. En el caso de España, al cargar lycos.com se nos redirecciona automáticamente a lycos.es.

Northern Light

Empezó a funcionar en 1997 y es uno de los más populares y con mayor número de páginas indexadas. Tiene la capacidad de agrupar todos los documentos de forma que sólo se muestra un documento por cada sitio web, permitiendo ver el resto pulsando en el link "More Results". Además tienen una colección de documentos proveniente de distintas fuentes, como revistas y bases de datos privadas, que no son accesibles desde otros sitios de Internet. Estos documentos se pueden buscar gratuitamente, pero verlos tiene un pequeño coste.

RealNames

Es una alternativa más fácil para llegar a sitios web. Los que tengan habilitado su navegador para funcionar con RealNames podrán escribir "keywords" (palabras clave) directamente para obtener un sitio web, en vez de la dirección de este, por ejemplo, bastaría escribir Nissan para acabar en el web de Nissan, sin preocuparnos de nada más.

RealNames también alquila sus servicios a otros portales y buscadores. Los más importantes son AltaVista, LookSmart, MSN Search, Inktomi, Google, Metacrawler, iwon, Go (Infoseek) y Voila. Hay una lista completa en su sitio web.

Nota Junio 2002: RealNames cierra tras perder su acuerdo con Microsoft, que permitía resolver los keywords en su navegador "explorer". Previamente habían cesado sus acuerdos con AltaVista, Google y Go entre otros. 

Teoma

Este nuevo buscador que empezó a funcionar a finales de mayo de 2001, fue desarrollado en un proyecto financiado con fondos federales (fondos públicos del gobierno  de EEUU) por el laboratorio de computación de la universidad Rutgers en 1998. En Octubre de 2001 ha sido comprado por AskJeeves por una cantidad que no se ha hecho pública, pero que parece ser del orden de los 4 millones de dólares.

El aspecto recuerda mucho a Google ¿casualidad?. Como resultado de las búsquedas, en la parte superior muestra temas relacionados con los "keywords" usados, ordenados en carpetas. Debajo los resultados de su "crawler" ordenados por asunto.

El algoritmo de búsqueda es peculiar, busca todas las páginas que contienen las palabras buscadas y cuando tiene una lista (que ellos llaman "community"), entonces posiciona primero las que tienen más enlaces de las demás dentro de esa lista.

Nota Junio 2002: Teoma ha sido el web con más incremento de tráfico en Abril de 2002, un 2100% según Nielsen/Net Ratings. Teoma es ya el segundo buscador más utilizado después de Google dada la gran calidad de sus resultados, aunque todavía funciona únicamente en inglés. 

Voila / Voila España

Voila es un buscador con su propio sistema de rastreo y con 150 millones de páginas almacenadas en su base de datos, lo que le convierte en uno de los más grandes de Europa. Está respaldado por France Telecom  y dispone de versiones para Alemania, Bélgica, Dinamarca, EEUU, Francia, Reino Unido, Holanda, Italia y Portugal. Cada uno de estos sitios es capaz de buscar contenidos globales o regionales, especialmente de páginas en francés, de las que Voila almacena más de 10 millones. 

Dispone de una característica de búsqueda temática muy útil para buscar sólo sobre determinados deportes o sobre turismo. Al igual que Northern Light es capaz de combinar resultados de un mismo servidor para mostrar más variedad de contenidos distintos. Su lista de clasificación temática proviene de LookSmart y dispone también de la ayuda de RealNames para buscar directamente sitios web relacionados con los "keywords" usados. Por ejemplo, si escribimos Nissan el primer link destacado con un icono de RealNames nos enlaza con Nissan.es cuando usamos la versión española, a Nissan.co.uk cuando usamos la versión del Reino Unido, Etc., pero además, no sólo funciona con grandes empresas, por ejemplo, ante la búsqueda de 'Serman Computer', es capaz de encontrar su web y enlazarlo directamente. 

Voila se utiliza también para proveer de resultados a Wanadoo, el portal de Uni2, propiedad también de France Telecom, pero curiosamente sólo utiliza su base de datos, sin combinar los resultados con los de LookSmart o RealNames, lo que unido a la escasa información adicional de este portal, incita a no usarlo.

Por último he podido comprobar que el Internet Explorer de Microsoft utiliza los servicios temáticos de Voila para hacer sus búsquedas, al menos para la versión Española, en vez de usar MSN Search, que es el utilizado en la versión americana del Navegador. 

Nota Junio 2002: Las versiones internacionales de Voila han desaparecido. Además el buscador de Microsoft ya no resuelve las búsquedas usando Voila, ahora usa su propio buscador MSN. 

WebCrawler

Webcrawler es el más pequeño de los grandes buscadores, es por esto que no es el mejor sitio para buscar cosas raras, pero esto también hace que ante una búsqueda sencilla aparezcan resultados menos abrumadores que los de otros.

Empezó a funcionar el 20 de abril de 1994 como un proyecto de investigación del estudiante Erik Selberg y el profesor Oren Etzioni la universidad de Washington. Fue comprado por American Online en marzo de 1995 y posteriormente por Excite en noviembre de 1996. Actualmente es propiedad de la empresa InfoSpace.

WebTop

Tienen su propia utilidad de rastreo y tienen una de las más grandes bases de datos (unos 500 millones de páginas). Además de los resultados de páginas web, dan información de otro tipo como información sobre empresas o sobre temas relacionados con WAP. También disponen de una herramienta llamada k-check para verificar webs.

©1994-2008 Juan Cimadevilla
©1994-2008 Intervía Information Technologies, SL
Publicado bajo licencia GFDL.

Este documento puede copiarse y modificarse libremente para cualquier uso, de acuerdo a los términos de la licencia GFDL.
Vea aquí una traducción no oficial de la licencia GFDL.
Recuerde que debe mantenerse el copyright intacto en cualquier copia que se haga del documento.
Atención, sólo algunas páginas del web están publicadas bajo licencia GFDL, revise cada pie de página para asegurarse.
Para más información lea nuestros avisos legales.

http://www.intervia.com/
Mantuano 46 - 28002 Madrid
Tel 902 998 027