Krok za krokem: Atomz


Nedávno jsem informoval o výborné vyhledávací službě Atomz. Nyní je tu podrobný návod, jak nastavit tuto službu tak, abychom optimalizovali výsledky vyhledávání pro stránky generované aplikací RapidWeaver, konkrétně pro stránku typu Blog.

Pokud ponecháte nastavení na stránkách Atomz beze změny, budou indexovány všechny vaše stránky a následně budou také všechny prohledávány. To znamená, že pokud umístíte vyhledávací pole do stránky Blog, bude určitý výraz vyhledáván i na ostatních stránkách. Tomu bude odpovídat i vysoký počet výsledků a jejich často malá souvislost s tímto výrazem. Stránka s výsledky vyhledávání bude pravděpodobně nepřehledná a bude nutné na ní listovat, abyste skutečně našli to, co hledáte (záleží samozřejmě na množství textu na stránkách). Pomocí URL masek (Options / Crawling / URL Masks) lze velmi účinně omezit vyhledávání pouze na tu oblast, kde se hledané výrazy nejvíce vyskytují a tím také podstatně zvýšit efektivitu vyhledávání, tj. omezit nerelevantní odkazy.
include http://www.moje_stranky.cz/blog/
exclude http://www.moje_stranky.cz/
Je to jednoduché - maska “exclude” zcela vyloučí stránky z vyhledávání a maska “include” naopak určitou stránku do vyhledávání začlení. Na prvním příkladu je tedy nastaveno hledání pouze na stránce blog, a zakázáno na úvodní stránce a všech stránkách na nižší úrovni. Takto tedy lze udělat výjimku na konkrétní podstránce, přesto, že stránka jí nadřazená je vyloučena z vyhledávání. Je ale nezbytné vždy dodržet pořadí v seznamu: nejdříve musí být zavedena maska include a teprve potom maska exclude.

Stránku Blog jsem vybral záměrně, protože je oproti jiným hodně specifická a také je vysoká pravděpodobnost, že pokud na vašich stránkách je, bude hledání probíhat právě na ní. Tato stránka obsahuje enormní množství odkazů - nejen na samotné články o které při hledání jde, ale i na kategorie, archivy a tagy. Tyto odkazy jsou pro orientaci na stránce blog velmi důležité, ale vy výsledcích vyhledávání způsobují chaos - často se opakující výsledek se stejným nebo hodně podobným obsahem, který vás ale na konkrétní výraz nepřivede.



Nyní se tedy zaměříme na eliminování právě těchto odkazů. K tomu poslouží regulární výrazy, pomocí kterých řekneme vyhledávacímu robotovi, že se nám jedná o všechny tyto tři generické odkazy, pod něž spadají i všechny kategorie, archivy a tagy, které teprve v budoucnu vzniknou. Do pole URL Masks vložíme místo původního obsahu následující kód:
include regexp ^.*\category-..*$ noindex
include regexp ^.*\tag-..*$ noindex
include regexp ^.*\archive-..*$ noindex
include http://www.moje_stranky.cz/blog/
exclude http://www.moje_stranky.cz/
Tímto jsme dosáhli toho, že hledání bude probíhat pouze na stránce Blog a ve výsledcích se zobrazí již pouze odkazy na samotné články, které obsahují hledaný výraz. Pouze v případě, že článek ještě není v archivu, objeví se i jeden odkaz na hlavní stránku blogu.

Ještě malý tip na lepší zvýraznění vyhledaného výrazu v textu - v nastavení Templates / Settings / Context Highlight vložte do pole “Start Highlight Tags“:
<strong><font color="red">
a do pole “Stop Highlight Tags”:
</font></strong>