Cercar en aquest blog

22/2/11

Creació d'un motor de recerques de planes Web (Part I)

Després d'estar estudiant les avantatges de la programació asíncrona amb el Visual Studio Async CTP i d'haver testetjat el rendiment de la BD no relacional, sense esquema, MongoDB, he decidit implementar un motor de recerca de planes Web.

Un motor de recerques, basa els seus resultats en la recerca de informació en un magatzem de "pàgines web" enregistrades i indexades de manera variable, segons un criteris pleestablerts pels creadors de la part que agafa una plana i la estudia "el web spider", agafant paraules, frases, etc, de diferents parts d'aquesta, i enmagatzema aquesta informació en una BD per tal de que un cercador en pugui fer ús. Per tant la manera en que desbrocem una plana, depén de nosaltres. Per exemple, en aquesta implementació, simple, agafarem de la plana, només:

El text del titol
El text del tag "meta name=keywords"
El text del tag "meta name=Description"


A cada paraula trobada en aquests textos els hi donarem uns pesos diferents segons en quina part la trobem. Per exemple, al les paraules trobades al tag "meta name=keywords", li donarem el pes màxim, ja que són paraules que l'autor explícitament ha resaltat, i les paraules del titol les de menos pes. Però no deixa de ser un criteri.

Per altre banda, les planes que volem indexar, les llegirem d'un fitxer anomenat sitemap.xml, que seguirà la estructura establerta en http://www.xml-sitemaps.com/.
La següent imatge il.lustra tot el procés de indexació d'un lloc web.


Si voleu entendre el funcionament d' alguns dels ceracdors més importants, us recomano el següent article:

How Internet Search Engines Work