Spørsmål? Ring tlf 94 30 21 81
Scraper-sider er websider som henter innhold fra andre nettsteder og som utelukkende eksisterer for å få de besøkende til å klikke på annonser. Ofte er disse sidene fulle av lenker innenfor et tema, og i mange tilfeller har de tekst som er hentet fra andre nettsteder. En webmaster som produserer scraper-sider har gjerne hundretusenvis av sider som er automatisk genererte. Merk at det ikke er gitt at scraper-sidene alltid er ubrukelige spamsider.
Hva er spam ifølge Google selv? Ifølge Googles spam-rapporteringsside er dette sider som benytter "hidden text, deceptive cloaking or doorway pages". Altså sider med skjult tekst, sider som viser noe annet til søkemotorene enn til brukerne, eller dummy-sider som kun eksisterer for å bringe trafikk til andre sider ("doorway"). Scraper-sider nevnes ikke. Dette kan skyldes at det finnes både gode og dårlige scraper-sider.
Det finnes selvfølgelig både gode og dårlige eksempler på hvordan et nettsted kan skrape sammen innhold fra andre steder. Google News er et eksempel på et slikt nettsted av relativt høy kvalitet. Kvaliteten skyldes hovedsaklig at innholdet er superaktuelt og søkbart. Mange tilsvarende nyhetssider har en høy verdi for brukeren, og kan derfor ikke betegnes som søppel.
Nisje-sider kan strukturere informasjon på en slik måte at brukeren lettere finner fram i det informasjonskaoset som nettet noen ganger oppleves som. Mattew Reynolds' .NET 247 er et nettsted som mange .Net-systemutviklere setter pris på, og som utelukkende henter innholdet fra andre kilder (nyhetsgrupper og nettsteder). Dette nettstedet har 328 000 indekserte sider i Google, og eksisterer sannsynligvis utelukkende for å generere annonseinntekter fra Google Adsense.
Vi ser altså at verken selve skrapingen eller motivet om fortjeneste trenger å innebære at scraper-sidene er ubrukelige. Hva er så en dårlig scraper-side? Dette er et vanskelig spørsmål, og er ofte preget av øyet som ser. Mange vil mene at automatisk genererte kataloger er ubrukelige. "Slike irriterende sider som dukker opp av og til". Dette skyldes gjerne at når man kommer fra en søkemotor er man innstilt på å komme direkte til innholdssider, og ikke til en ny side med søkeresultater. Veien til tilbakeknappen er kort, noe som tyder på at folk oppfatter siden som søppel.
Dette spørsmålet er komplekst. Spam-epost er mye enklere å definere (feks "uoppfordret massesendt epost"). Den typiske folkelige definisjonen på en spam-side er totalt ubrukelig, og lyder som følger: "Du vet det er en spamside når du ser en".
Det er flere egenskaper som gjør at folk oppfatter en side eller et nettsted som spam.
1. Oppramsing av lenker: Hvorfor er folk kritiske til oppramsing av lenker når det samme finnes i en søkemotor (Google) eller i en katalog (Open Directory)? Den viktigste forklaringen er at dette skjer i en kontekst der man ikke ønsker å finne lenker: Når man kommer fra en søkemotor ønsker man å lande rett på en innholdsside. Her blir altså siden en spamside på grunn av konteksten og ikke på grunn av eganskaper ved siden.
2. Lite tekstlig innhold: Her gjelder samme forklaringen som over. Man ønsker innhold, ikke nye lenker.
3. Uprofesjonelt design: Når utseendet på en nettside gir inntrykk av at det er laget i hastverk er dette en egenskap som gjør at brukeren lettere kan oppfatte siden som spam, spesielt når de andre nevnte egenskapene er tilstede.
4. Dersom en nettside har mye reklame, samtidig som noen av de andre egenskapene er tilstede, vil brukeren ofte oppfatte siden som spam.
5. Oppramsing av nøkkelord ser man stadig sjeldnere i søkeresultatene ettersom det har en stadig mindre effekt på rangeringene i søkemotorene. Dette er imidlertid en svært viktig spam-faktor for en nettside.
6. Irrelevante lenker: Idèt lenkene på en side oppfattes som irrelevante forsterkes spam-inntrykket betraktelig.
Det mest typiske argumentet mot scraper-sider fokuserer på motivet til bakmennene, altså det etiske aspektet, og ikke på innholdet på eller funksjonen til sidene:
"I personally don't like scraper sites because the webmasters are making a living off of other people's work."
-birdstuff, Webmasterworld [kilde]
Proargumenter varierer en del. Enkelte hevder at det er både juridisk og etisk legitimt å lage slike sider.
Andre mener at de tilbyr sider av verdi for publikum:
"[Searchers] get a scraper site as the #1 result, going to that site, they do not find content, but they do find links and doorways to sites rich in the content they were in deed looking for"
-shafaki, Webmasterworld
Videre hevder noen at det i utgangspunktet ikke er noen vesentlig forskjell mellom en søkemotor og et scraper-nettsted, ettersom begge laster ned og lagrer innholdet fra ditt nettsted for å presentere det for andre brukere.
Spørsmålet om opphavsrett er komplekst og preget av gråsoner. En norsk jurist (jeg har glemt navnet) har nylig skrevet en rapport der han påpeker at å bruke små utdrag fra andres verker ikke er et brudd på opphavsretten - bruddet skjer først når man strukturerer andres strukturerte informasjon.
Mange scraper-nettsteder henter sitt innhold fra sider som tillater at andre benytter innholdet derfra. Her er noen eksempler på slike legitime kilder:
I tillegg henter mange nettsteder informasjonen fra søkemotorer som ikke har eksplisitte bruksvilkår som forhindrer kloning av resultatene. Dette gjelder blant annet MSN og Yahoo.
Spiller det en rolle for annonsørene hvorvidt trafikken kommer fra en kvalitetsside eller fra en spamside? Vi kan tenke oss at veien via en spamside gjør at brukeren får et mer positivt inntrykk av annonsørens side ("endelig en skikkelig side"). Det viktige for annonsøren er å konvertere kunden (legge igjen epostadressen eller handle) - ikke hvordan brukeren kom til nettstedet.
På den annen side kan det tenkes at det har en negativ effekt når brukeren kommer fra en scraper-side. Brukere som kommer fra en søkemotor er ute etter noe bestemt, og er derfor mye mer likandes til å gjennomføre en handel. En bruker som kommer fra en spamside er bare en tilfeldig forbispaserende som klikket på annonsen fordi spamsiden ikke hadde noe særlig annet interessant. Slike brukere ønsker ikke annonsørene å betale AdSense-dollar for i lengden, og Google er derfor pent nødt til å slutte legge AdSense-annonser på spamsidene.
I denne diskusjonen på Webmasterworld vil man finne webmastere som hevder at de har positive erfaringer med konvertering av brukere som kommer fra scraper-sider, og webmastere som hevder det motsatte. Hypotesen er imidlertid testbar, slik at ethvert nettsted som benytter referer-logging og konverteringssporing kan teste den.
Hvorfor tillater Google scraper-sider i sine søkeresultater? Intuitivt vil man anta at Google ser på disse nettstedene som et problem som forsøpler søkeresultatene, og at de kjemper hardt for å fjerne alle disse spam-sidene, slik at søkeresultatene inneholder lenker til innholdsrike sider av høy kvalitet.
Sannheten er kanskje en annen. Svært ofte er annonsene på scraper-sidene Google-annonser (Adsense). Google lar spammerne plassere Adsense-annonser på sidene, vel vitende om at mange ikke har noe skikkelig innhold. Og hver eneste gang noen klikker på en Adsense-annonse på en slik søppelside, tjener Google penger. Summen av disse klikkene utgjør millioner av dollar. Det er derfor ikke selvsagt at det er i Googles interesse å fjerne alle disse sidene fra søkeresultatene. Hvordan skal Google forholde seg til dette?
GOOG må først og fremst opprettholde en balanse der de ikke mister brukere på grunn av en overvekt av spamsider i søkeresultatene. Fjerner de spamsidene innebærer det millioner av tapte annonseinntekter. Blir det for mye spam, slutter folk å bruke Google. Det optimale er derfor en balanse der spamsidene er delvis tilstede i resultatene. Google kan justere sin algoritme for hvor høye forekomster det skal være av spam i resultatene. It doesn't make sense, but it makes AdSense..
"Of course it's money-related! Google are a business, and large-scale directory sites make plenty of money for both Google and the publisher for little effort. Google's only dilemma is balancing the revenue gain from such sites with the negative effect on the search results."
-marcussent, Webmasterworld [Kilde]
"Google's mantra is "do no evil" and MONEY is the root of all evil, draw your own conclusions.
"
-incrediBILL, Webmasterworld [Kilde]
Dersom man rapporterer et scraper-nettsted til Google vil de i mange tilfeller fjerne nettstedet. Gjenspeiler dette Googles strategi for spamsider? Neppe. Disse rapporteringene har sannsynligvis bare en ørliten effekt i den store sammenhengen. De verste sidene på nettet blir fjernet fra søkeresultatene - dette er i Googles interesse, samtidig som at det gis signaler om at Google setter kvalitet i høysetet. Adsense-dollarne fra scraper-sidene fortsetter å rulle inn.
La oss nå ta helomvending, og angripe problemet med utgangspunkt i Googles "Do no evil"-motto.
Google fortsetter kampen mot spamsider i søkeresultatene. Ingeniørene arbeider stadig med å forbedre algoritmen, målet er at nettsteder med høy kvalitet skal ligge i toppresultatene. Men det er ekstremt vanskelig å bruke en algoritme til å skille mellom ekte innhold og stjålet innhold - mellom ekte kvalitet og pseudo-kvalitet. Dette forklarer hvorfor vi fortsatt finner spamsider i Google. Slaget mot spammerne er ennå ikke vunnet.
Jeg fikk ideen til å skrive denne artikkelen etter å ha lest en svært lang tråd i Webmasterworlds Adsense-diskusjonsforum: Why does Google AdSense sponsor "scraper" spam sites. Denne tråden har rundt 360 innlegg, og det tok meg en halv dag å lese gjennom alle innleggene.
Det er ikke tvil om at dette er et viktig tema, ettersom Googles holdninger til spamsidene påvirker folks tilgjengelighet til informasjon. For Google handler dette om fortjeneste versus kvalitet, og det er en klar konflikt her. Fjerner Google spamsidene vil de uten tvil tape penger, og fortsetter de på samme måte som nå vil de uten tvil miste brukere.