Robots.txt -Pirmas žvilgsnis
Parašė INferno 2007 liepos 5 11:07:55
Robots.txt failas naudojamas paieškos varikliams teisingai oreantuoti svetainėje, nurodant kokį turinį indeksuoti o kurio nerodyti. Šio failo pagalba galite ir visiškai uždrausti paieškos vorams matyti jūsų svetainę
Robots.txt Pradmenys
Norėdami pasidaryti robots.txt jūms tereikia atsidaryti notepad (ar kitą tekstų redaktorių) ir išsaugoti parašytą failą kaip robots.txt Tada jūms teliks patalpinti robots.txt faila pagrindinėje tinklapio direktorijoje.
Yra keletas svrbiausių parametrų rašant šį failą: ā€User-agentā€™ ā€Allowā€™ ā€Disallowā€™. User agent parametras nurodo kuriam paieškos voriukui skirta komanda. Disallow parametras nurodo kurias vietas ar failus/pletinius neindeksuoti.
Leisti visus paieškos robotus
User-agent: *
Disallow:
Uždrausti visus paiesškos robotus
User-agent: *
Disallow: /
Neleisti Google paieškos robotui pas jus lankytis
User-agent: Googlebot
Disallow:
Daugiau paremetrų
Galite naudoti parametrą ā€Allowā€™. Jei pavyzdžiui norite uždrausti googlei indeksuoti visus paveikslėlius išskyrus vieną
Leidžiame indeksuoti tik vieną išskirtinį paveikslėlį
User-Agent: Googlebot
Disallow: /images/
Allow: /images/example.gif
Kitas svarbus parametras kurį rekomenduoju naudoti - ā€Sitemapā€™.
Nurodome kur yra tinklapio žemelapis (sitemap)
User-agent: *
Disallow:
Sitemap: http://www.uzdarbis.biz/sitemap.xml
Wordpress pavyzdys
Štai pavyzdys kurį naudoja manasis wordpress naudojantis blogas
User-agent: *
# Neleidžiame indeksuoti failų esančių šiose direktorijose
Disallow: /cgi-bin/
Disallow: /stats/
Disallow: /dh_
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /contact/
Disallow: /wp-content/b
Disallow: /wp-content/p
Disallow: /wp-content/themes/askapache/4
Disallow: /wp-content/themes/askapache/c
Disallow: /wp-content/themes/askapache/d
Disallow: /wp-content/themes/askapache/f
Disallow: /wp-content/themes/askapache/h
Disallow: /wp-content/themes/askapache/in
Disallow: /wp-content/themes/askapache/p
Disallow: /wp-content/themes/askapache/s
Disallow: /trackback/
Disallow: /*?*
Disallow: */trackback/
User-agent: Googlebot
# Neleidžiame indeksuoti failų su šiais plėtiniais
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /*.php*
Disallow: */trackback*
Disallow: /*?*
Disallow: /z/
Disallow: /wp-*
Allow: /wp-content/uploads/
# Leidžiame google robotui indeksuoti paveikslėlius.
User-agent: Googlebot-Image
Allow: /*
# Leidžiame adsense botui naršyti ir ieškoti raktažodžių
User-agent: Mediapartners-Google*
Disallow: /*?*
Allow: /about/
Allow: /contact/
Allow: /wp-content/
Allow: /tag/
Allow: /*.php$
Allow: /*.js$
# Neleidžiame archyvuoti tinklapio
User-agent: ia_archiver
Disallow: /
# uždraudžiame lankytis duggmirror
User-agent: duggmirror
Disallow: /
Apibendrinimas
Robots.txt nėra kažkas labai sudėtingo, tačiau pravers apsaugant administratoriau ā€ploteliā€¯ ar privačias zonas tinklapyje. Jei turite minčių kaip papildyti šį straipniuką leiskite man žinoti :)
Norėdami patalpinti šią informaciją savo tinklalapyje, nepamirškite nurodyti straipsnio autoriaus tinklalapio adreso: [url]http://uzdarbis.biz[/url]