Programación web: Búsqueda en Internet

Búsqueda en Internet

Un motor de búsqueda es un sistema informático que busca archivos almacenados en servidores web gracias a su spider

(o Web crawler). Un ejemplo son los buscadores de Internet (algunos buscan sólo en la Web pero otros buscan además en noticias, servicios como Gopher, FTP, etc.) cuando se pide información sobre algún tema. Las búsquedas se hacen con palabras clave o con árboles jerárquicos por temas; el resultado de la búsqueda es un listado de direcciones Web en los que se mencionan temas relacionados con las palabras clave buscadas.

Como operan en forma autom

ática, los motores de búsqueda contienen generalmente más información que los directorios. Sin embargo, estos últimos también han de construirse a partir de búsquedas (no automatizadas) o bien a partir de avisos dados por los creadores de páginas (lo cual puede ser muy limitante). Los buenos directorios combinan ambos sistemas. Hoy en día Internet se ha convertido en una herramienta, para la búsqueda de información, rápida, para ello han surgido los buscadores que son un motor de búsqueda que nos facilita encontrar información rápida de cualquier tema de interés, en cualquier área de las ciencias, y de cualquier parte del mundo.

Araña web

Una araña web (o araña de la web) es un programa que inspecciona las páginas del World Wide Web de forma metódica y automatizada. Uno de los usos más frecuentes que se les da consiste en crear una copia de todas las páginas web

visitadas para su procesado posterior por un motor de búsqueda que indexa las páginas proporcionando un sistema de búsquedas rápido. Las arañas web suelen ser bots (el tipo más usado de éstos).

Las arañas web comienzan visitando una lista de URLs, identifica los hiperenlaces en dichas páginas y los añade a la lista de URLs a visitar de manera recurrente de acuerdo a determinado conjunto de reglas. La operación normal es que se le da al programa un grupo de direcciones iniciales, la araña descarga estas direcciones, analiza las páginas y busca enlaces a páginas nuevas. Luego descarga estas páginas nuevas, analiza sus enlaces, y así sucesivamente.

Entre las tareas más comunes de las arañas de la web tenemos:

Crear el índice de una máquina de búsqueda.

Analizar los enlaces de un sitio para buscar links rotos.

Recolectar información de un cierto tipo, como precios de productos para recopilar un catálogo.

Directorios

Una tecnología barata, ampliamente utilizada por gran cantidad de scripts en el mercado. No se requieren muchos recursos de informática. En cambio, se requiere más soporte humano y mantenimiento.

Los algoritmos son mucho más sencillos, presentando la información sobre los sitios registrados como una colección de directorios. No recorren los sitios web ni almacenan sus contenidos. Solo registran algunos de los datos de nuestra página, como el título y la descripción que se introduzcan al momento de registrar el sitio en el directorio.

Los resultados de la búsqueda, estarán determinados por la información que se haya suministrado al directorio cuando se registra el sitio. En cambio, a diferencia de los motores, son revisadas por operadores humanos, y clasificadas según categorías, de forma que es más fácil encontrar páginas del tema de nuestro interés.

Más que buscar información sobre contenidos de la página, los resultados serán presentados haciendo referencia a los contenidos y temática del sitio.

Su tecnología es muy barata y sencilla.

Ejemplos de directorios: Antiguos directorios, Open Directory Project, Yahoo!, Terra (antiguo Olé). Ahora, ambos utilizan tecnología de búsqueda jerárquica, y Yahoo! conserva su directorio. Buscar Portal, es un directorio, y la mayoría de motores hispanos son directorios

Como aparecer en los buscadores (Referente a Google).

Directriz de diseño y contenido:

Cree un sitio con una jerarquía y vínculos de texto claros. Se debe poder acceder a todas las páginas desde al menos un vínculo de texto estático.

Ofrezca a los usuarios un mapa del sitio con vínculos que apunten a las secciones importantes de su sitio. Si el mapa del sitio contiene más de 100 vínculos, puede dividirlo en varias páginas.

Cree un sitio útil con mucha información y escriba páginas que describan su contenido claramente y con exactitud.

Determine las palabras que los usuarios escribirían para encontrar sus páginas y asegúrese de que su sitio realmente las incluya.

Intente utilizar texto en lugar de imágenes para mostrar nombres, contenido o vínculos importantes. El rastreador de Google no reconoce texto incorporado dentro de las imágenes.

Asegúrese de que los códigos TITLE y ALT sean descriptivos y precisos.

Compruebe que n

o haya vínculos rotos o código HTML incorrecto.

Si decide utilizar páginas dinámicas, (p. ej., una URL que contenga un carácter '?'), tenga en cuenta que no todos los motores de búsqueda rastrean páginas dinámicas, además de páginas estáticas. Esto ayuda a mantener parámetros cortos y un número reducido de los mismos.

Mantenga los vínculos de una página dada en un número razonable (menos de 100).

Directriz técnica:

Utilice un navegador de texto como Lynx para examinar su sitio, ya que la mayoría de las arañas de los motores de búsqueda ven su sitio de la misma manera que lo haría Lynx. Si las funciones avanzadas como Javascript, cookies, ID de sesión, marcos, DHTML o Flash impiden la visualización de todo su sitio en un navegador de texto, es posible que las arañas de los motores de búsqueda tengan problemas para rastrear el mismo.

Permita que

los robots de búsqueda rastreen sus sitios sin ID de sesión o argumentos que hacen un seguimiento de su ruta a lo largo del sitio. Estas técnicas son de gran utilidad para el seguimiento del comportamiento de un usuario individual, pero el patrón de acceso de los robots es completamente distinto. El uso de estas técnicas puede llevar a una indexación incompleta de su sitio, ya que es posible que los robots no puedan eliminar las URL que tengan un aspecto distinto pero que en realidad apuntan a la misma página.

Asegúrese de que su servidor Web admite la cabecera HTTP "If-Modified-Since". Esta función permite que su servidor Web avise a Google si su contenido ha cambiado desde la última vez que rastreamos su sitio. La compatibilidad con esta función le ahorra ancho de banda y gastos generales.

Utilice el archivo robots.txt en su servidor Web. Este archivo comunica a los rastreadores qué directorios pueden o no rastrearse. Asegúrese de que el archivo está actualizado para su sitio de modo que no bloquee accidentalmente el rastreador Googlebot. Visite http://www.robotstxt.org/wc/faq.html (sólo disponible en inglés) para obtener respuestas a las preguntas más frecuentes sobre los robots y cómo controlarlos cuando visiten su sitio.

Si su compañía adquiere un sistema de administración de contenido, asegúrese de que éste pueda exportar el contenido de modo que las arañas de los motores de búsqueda puedan rastrear su sitio.

Fuentes

http://es.wikipedia.org/wiki/Motor_de_b%C3%BAsqueda

http://www.sitiosespana.com/notas/junio-2005/APARECER-GOOGLE.htm

Saludos...

Programación web

lunes, 22 de noviembre de 2010

Búsqueda en Internet

No hay comentarios:

Publicar un comentario