Lankomumo statistikos falsifikavimas robotais

Lankytojais apsimetę robotai iškreipia svetainių statistiką

Problema

Interneto svetainių statistikoje didelę dalį lankytojų sudaro robotai, kurie iškreipia lankomumo rodiklius ir klaidina svetainių savininkus.

Kodėl taip yra?

Svetainių savininkai falsifikuoja kitų svetainių lankytojus savo pavadinimu, siekdami reklamuoti save tarp svetainių administratorių.

Kaip spręsti?

Blokuokite robotų priėjimą prie savo svetainės su Apache serverio nustatymais ir statistikos sistemų filtrais.

Per pastaruosius porą mėnesių visos lietuviškos interneto svetainės matė augantį lankytojų srautą. Pasitikrinę savo svetainės lankomumo statistiką, pamatysite, kad sulaukiate dešimčių lankytojų iš Semalt.com, Buttons-for-website.com, Ilovevitaly.com, Darodar.com ir kitų svetainių, apie kurias niekada anksčiau negirdėjote.

Deja, per anksti džiaugtis kylančiu populiarumu. Iš tikrųjų niekas jokių lankytojų į jūsų svetainę nesiunčia.

Lankytojų srauto falsifikavimas

Įvairūs serveriai prieš keletą mėnesių ėmė lankytis jūsų svetainėse apsimetę eiliniais lankytojais. Lietuvoje tai ypač suaktyvėjo 2014 m. gruodį, kai visos svetainės per mėnesį sulaukė po 100–200 falsifkuotų lankytojų. Didelėms svetainėms tai mažai ką keičia, bet mažoms tai pastebimai iškreipia rodiklius: iš kur ateina jūsų lankytojai, kiek laiko jie išbūna svetainėje ir kokie yra populiariausi svetainės puslapiai.

Kol kas falsifikuoti „lankytojai“ jūsų serveriui nurodydavo, kad jie ateina iš anksčiau minėtų svetainių. Tai angliškai vadinamas Referer spam, kurį 2013 metais komentavo Matt Cutts iš Google:

 

Per porą savaičių minėtos svetainės tapo gerai žinomos tinklalapių administratorių bendruomenėje ir pritraukė milijoninį lankytojų srautą į savo reklamos prigrūstus puslapius. Jų išpopuliarėjimą pernakt atskleidžia Google Trend duomenys. Susidomėjimo mastui suprasti, palyginimui įtraukiau terminą „hostingas“, kuris yra stabiliai ieškomas po 2 tūkst. kartų per mėnesį.

Apgavikai falsifikuoja jūsų lankytojų srautą vien tam, kad tai patrauktų jūsų dėmesį ir jūs taptumėte tikru jų svetainės lankytoju.

Robotų blokavimas ir apsaugos filtrai

Praeitą savaitę R. Golco tinklaraštyje rašiau, kaip apsisaugoti nuo Referer spamKaip pašalinti netikrus lankytojus iš Google Analytics? Trumpai, užblokuokite tokius lankytojus savo Apache serveryje su HTTP_REFERER filtru arba tik pašalinkite juos iš Google Analytics su Exclude Referral filtru.

Deja, visa ši traffic spam istorija nesibaigia. Šią savaitę kai kuriose svetainėse pasipylė lankytojų srautas iš Google, kur nurodoma falsifikuota paieškos frazė. Pavyzdžiui, pernakt mano administruojamos interneto svetainės tapo populiarios pagal tokias paieškos frazes: google officially -recommends ilovevitaly.com search shellResellerClub SCAM ir t.t.

Žinoma, kad apie tai šiose svetainėse nieko nėra. Ir tuos lankytojus atsiuntė tikrai ne Google. Tai lygiai toks pat traffic spam, tik niekaip neužblokuojamas per Apache serverį ir nukreiptas konkrečiai prieš Google Analytics.

Paieškų terminai skirti sudominti svetainių administratorius, kad šie ir vėl apsilankytų tose svetainėse. Kadangi į keyword laukelį galima sufalsifikuoti bet ką, tai jau ne tik traukia administratorius į kažkokią svetainę, bet perduoda jiems pilno sakinio žinutę ir formuoja jų nuomonę. Toks traffic spam iš reklamos peraugo į juodus viešuosius ryšius.

Norėdami blokuoti tokius robotus, kurie tik apkrauna jūsų serverį ir iškreipia statistiką, turite nuolat stebėti savo lankytojų srautą ir blokuoti viską, kas akivaizdžiai netikra. Gerai, kad Google Analytics filtrai leidžia lankytojus blokuoti pagal bet kokius duomenis. Kol robotai mums kažką siunčia bet kokia forma (Referral, Keyword ir t.t.), turime kaip juos atfiltruoti.

Duomenys nebebus tokie patikimi kaip anksčiau

Praeitą savaitę iš kitų svetainių administratorių teko girdėti, kaip pradėjo augti tiesioginis srautas be jokių HTTP_REFERER ir keyword duomenų. Vienintelis išskirtinis bruožas – visi tie lankytojai yra iš Samara Oblast. Jei tuo tikrai niekas nepopuliarina jokios svetainės, tai bent jau gūdus Rusijos regionas tapo tikrai žinomesniu.

Mums kaip svetainių administratoriams problema ta, kad nėra kaip blokuoti tokių lankytojų. Jei turime realių lankytojų iš Rusijos, lankytojų blokavimas pagal šalį visą statistiką iškreiptų dar labiau.

Straipsnyje 5 dažniausios IT sistemų saugumo spragos Lietuvoje visiems siūliau blokuoti didiesiems duomenų centrams priklausančius IP ruožus, nes iš jų jokių lankytojų neateis. Tačiau šioje situacijoje tai problemos neišsprendžia. Pavyzdžiui, Buttons-for-website.com falsifikuoti lankytojai ateina iš šimtų skirtingų IP adresų iš visų Brazilijos provincijų. Tai virusais apkrėsti asmeniniai kompiuteriai, kurie veikia tarsi mažos DDoS atakos principu.

Kol kas galime didžiąją dalį netikrų lankytojų patikimai užblokuoti arba paslėpti su Apache ir Google Analytics filtrais. Bet vis didėja ta robotų dalis, kurios šie filtrai nepastebės. Kol statistikos sistemos neišspręs šios problemos ir kol srauto falsifikuotojai iš jo turės naudos, statistikos rodiklių iškreipimas dėl netikrų lankytojų tik didės.

Praktiniai statistikos rodikliai

Jei dirbate su populiariomis svetainėmis, kurios per dieną sulaukia daugiau kaip 1000 lankytojų, tokias statistikos šiukšles galite ignoruoti. Kol kas šių robotų srautas per mažas, kad jie iškreiptų jūsų svetainių rodiklius.

Tačiau jei jūsų įmonės svetainėje apsilanko vos keliasdešimt lankytojų per dieną, dėl šių robotų jau porą mėnesių matote iškreiptus savo svetainių lankomumo rodiklius. Todėl išvadas apie srauto pokyčius reikia daryti tik atidžiai išanalizavus, iš kokių šaltinių ir kokiose šalyse iš tikrųjų auga arba krenta jūsų svetainių lankomumas.

Autoriaus interesų atskleidimas

Mano vadovaujama UAB „Virtuali erdvė“ kuria interneto svetaines ir padeda įsidiegti papildomas Google Analytics funkcijas.

Autorių teisės

Creative Commons licencija Straipsnis „Lankytojais apsimetę robotai iškreipia svetainių statistiką“, kurio autorius Pakamore pasilieka ir saugo visas savo autoriaus teises, yra licencijuotas publikavimui pagal Creative Commons Priskyrimas + Jokių išvestinių darbų (BY-ND) 4.0 tarptautinę licenciją.