Blogeihin tulevat roskakommentit ovat yhä suurempi ongelma. Monet blogia pitävät ovat huomanneet juttujen perään ilmestyviä kommentteja, joiden sisältö on joko siansaksaa tai tarkoituksetonta tekstiä. Roskakommenttien varsinainen sisältö ovatkin tekstissä olevat linkit, jotka vievät erilaisille mainossivuille. Linkkien tarkoituksena ei ole saada lukijoita klikkailemaan linkkejä, vaan kommenttien lähettäjälle riittää että hakukoneet, Google etunenässä, huomaavat linkit.
Googlella on tiedostettu ongelma ja he julkaisivatkin tänään oman ratkaisunsa ongelmaan.
Jotta voisi ymmärtää mitä roskakommentteja lähettävä spammeri oikein haluaa, täytyy ensin ymmärtää Googlen toimintaperiaatetta.
Google järjestää hakutulokset paremmuusjärjestykseen sen perusteella miten johonkin sivuun on linkitetty. Jos haet Googlesta vaikkapa hakusanaa “uutisia“, ylimmäksi nousee Maikkarin uutissivusto. Kyseinen sivu on korkealla hakutuloksissa koska monet nettisivujen ylläpitäjät ovat tehneet linkkejä tälle sivulle ja Google päättelee että sivun “tärkeys” (PageRank) on korkea.
Sivuston PageRank nousee sisääntulevista linkeistä. Mitä tärkeämmät sivustot tekevät linkkejä, sitä enemmän kohteen arvo nousee. Jos MTV3 uutisista tehdään linkki vaikkapa Pinseriin, se nostaa Pinserin tärkeyttä Googlen silmissä.
Kun mainostaja haluaa tuotteillensa hyvää näkyvyyttä hakukoneissa, hän voi mainoksien ostamisen lisäksi pyrkiä myös vaikuttamaan Googlen hakutulosten esittämisjärjestykseen. Tätä voi tehdä hankkimalla sivuilleen mahdollisimman paljon sisääntulevia linkkejä muilta sivustoilta. Rehellisiä tapoja tähän löytyy: esim. tekemällä hyviä ja kiinnostavia sivustoja.
Epärehellinen (ja paljon halvempi) tapa on yrittää tunkea linkkejä väkisin muille sivuille. Yleensä tämä ei ole mahdollista, mutta blogit ovat mukava poikkeus. Blogeissa nimittäin kuka tahansa voi lisätä juttujen perään kommentteja ja kirjoittaa niihin haluamiaan osoitteita. Kommentit tulevat näkyviin sivun sisällössä samanarvoisena kuin varsinainen blogitekstikin. Roskakommentointi on syntynyt.
Spammerit ovat ovelia pirulaisia, joten he eivät välttämättä tyydy rakentamaan yksinkertaisia viittauksia roskakommentista sivulle joka haluaa suurempaa PageRankia. Sen sijaan he rakentavat monimutkaisia verkostoja, joissa sivut nostavat toistensa arvoa ja lopulta vaikuttavat suoraan varsinaisen mainossivun sijoitukseen hakukoneissa.
Ja sitten siihen Googlen ratkaisuun. Entäpä jos blogin pitäjä voisikin jotenkin kertoa Googlelle: “Nämä linkit ovat kommentteja eikä niitä kannata huomioida laskettaessa sivun arvoa”?
Juuri näin on nyt tehty. Googlen sivuja indeksoiva robotti jättää tästä lähtien linkin huomioimatta jos linkkikomentoon lisätään attribuutti rel=”nofollow”.
Ennen: <a href=”http://spammerin.sivusto.com/”>linkkiteksti</a>
Jälkeen: <a href=”http://spammerin.sivusto.com/” rel=”nofollow”>linkkiteksti</a>
Blogien omistajat voivat nyt muuttaa sivupohjiaan siten, että kommenteissa oleviin linkkeihin lisätään tuo attribuutti. Spammerien toimet käyvät silloin hyödyttömiksi (ja maailma on taas hieman parempi paikka). Tai ainakin alamme kulkea siihen suuntaan.
Movablen Typen käyttäjien kannattaa myös huomioida, että sille on saataville ko. toiminnallisuuden toteuttava Nofollow-plugin:
http://www.movabletype.org/news/2005/01/movable_type_nofollow_p.shtml
Sama WordPressille:
http://www.phaedo.cx/includes/wpNofollow.php.zip
Ihan mukavalta kuulostaa. Onkos tämä attribuutti sitten standardin mukainen?
Siis XTHML-standardin mukainen? Plussaa siitä että sivu toimii myös Lynxillä. Tietojen tallennus evästeeseen ei vain toiminut.
Tämä on tosiaan hieno uutinen, ja aivan mahdollisesti lopullinen ratkaisu kommenttispammiin: myös MSN (http://blogs.msdn.com/msnsearch/archive/2005/01/18/nofollow_tags.aspx) ja Yahoo! (http://www.ysearchblog.com/archives/000069.html) ovat ottamassa tuon käyttöön.
rel on ihan laillinen linkin attribuutti XHTML:ssa, en tiedä speksin määräämistä sallituista arvoista, mutta rel=”nofollow” menee ainakin sekä xhtml:n strict- ja transitional-dokumenttityyppimäärityksillä läpi w3:n validaattorista.
Periaatteessa on:
http://www.w3.org/TR/html4/struct/links.html#adef-rel
http://www.w3.org/TR/html4/types.html#type-links
Tossa jälkimmäisessa kohdassa todetaan: “Authors may wish to define additional link types not described in this specification. If they do so, they should use a profile to cite the conventions used to define the link types. Please see the profile attribute of the HEAD element for more details.”
Eli jos mennään ihan standardin mukaan pitäisi lisätä toi profile-attribuutti headiin, mutta käytännössä moinen on turhaa, kun kyseessä on kuitenkin de-facto standardi.
Lisäksi rel=”nofollow” arvo ei riko mitään vanhaa, joten se on vain semanttisesti merkityksetöntä dataa sellaisille user agenteille jotka eivät sitä ymmärrä.
Toi nyt ei vielä ole minkään virallisen standardin mukainen käytäntö, mutta standardit luodaan yleensä käytäntöjen pohjalta, joten tulevaisuudessa tulee varmaankin olemaan tämäkin käytäntö osa standardeja.
Pieni lisähuomio: Tiedän, että viittasin HTML4 standardiin, eikä XHTML:ään.
XHTML pohjautuu kuitenkin miltei täysin HTML:ään (pieniä muutoksia lukuun ottamatta), joten siksi näin :)
Nofollow nyt myös Pivotissa: http://www.pivotlog.net/index.php
oikea linkki wordpressiin on
http://phaedo.cx/archives/2005/01/18/wp-nofollow/