TrustRank czyli walka z spamem internetowym

Kategoria:Wyszukiwarki |
Istnieją różne spamerskie techniki, aby strony internetowe osiągnęły wyższe niż zasłużone rankingi w wynikach wyszukiwania. Choć osoby zajmujące się tą problematyką mogą rozpoznać spam, zbyt kosztownym jest ręczne sprawdzanie dużej liczby witryn internetowych.

Zamiast tego powstał algorytm, który półautomatycznie oddziela renomowane, dobre strony od spamu. Jak to się wszystko odbywa? Zoltan Gyongyi Hector i Garcia-Molina z Stanford Universit oraz Jan Pedersen z firmy Yahoo opisują to w swojej publikacji pt.:"Combating Web Spam with TrustRank". Oto co możemy przeczytać w tym opracowaniu:

„Najpierw wybieramy mały zestaw stron-nasion, które mają zostać ocenione przez eksperta. Używamy struktury linków w internecie do ręcznej identyfikacji renomowanych stron, materiału siewnego, aby odkryć inne strony, które mogą być dobre.”

Autorzy artykułu przedstawiają sposoby dopasowania selekcji materiału siewnego i odkrywania dobrych stron. Prezentują wyniki eksperymentów prowadzonych w sieci World Wide Web indeksowanych przez AltaVista. Ich wyniki pokazują, że można skutecznie wyeliminować spam ze znacznej części sieci w oparciu o dobry zestaw „nasion” mniejszy niż 200 stron.

W publikacji czytamy, że...

...określenie "spam internetowy" oznacza hiperlinkowane strony w sieci WWW (World Wide Web), które tworzone są z zamiarem wprowadzania w błąd wyszukiwarki. Na przykład witryna pornograficzna może spamować sieć, dodając tysiące słów kluczowych do swojej strony głównej, często czyniąc tekst niewidzialny dla ludzi dzięki pomysłowym użyciu schematów kolorów. Wyszukiwarka będzie indeksować dodatkowe słowa kluczowe i zwróci stronę pornograficzną jako odpowiedź na zapytania, które zawierają słowa kluczowe nie związane z tematyką strony. Ponieważ upchane na stronie pornograficznej słowa kluczowe są często przeznaczone nie tylko dla dorosłych internautów, osoby, które szukają innych tematów, zostaną przeniesione na stronę.

Kolejną techniką spamowania internetu jest stworzenie dużej liczby fałszywych stron internetowych, które wskazują na jedną stronę docelową. Ponieważ wiele wyszukiwarek uwzględnia liczbę linków przychodzących w swoim rankingu, poziom strony docelowej prawdopodobnie zwiększy się i wyświetli wyżej stronę w wynikach wyszukiwania.

Podobnie jak w przypadku poczty elektronicznej, określenie, czy strona lub grupa stron to spam, jest subiektywna. Na przykład należy wziąć pod uwagę grupę witryn internetowych, które łączą się nawzajem ze sobą. Te linki mogą przedstawiać przydatne relacje między witrynami ale mogły też zostać utworzone z wyraźnym zamiarem zwiększenia rangi innych stron. Ogólnie trudno jest rozróżnić te dwa scenariusze. Jednak podobnie jak w przypadku spamerskiej poczty elektronicznej większość osób może z łatwością zidentyfikować rażące i bezczelne przypadki spamu internetowego. Na przykład większość zgodzi się, że jeśli znaczna część tekstu na stronie jest niewidoczna dla ludzi (jak wspomniano powyżej) i nie ma związku z głównym tematem strony, to dodano go z zamiarem wprowadzenia w błąd wyszukiwarki.

Choć większość ludzi zwróci uwagę na rażące przypadki internetowego spamu, nie oznacza to, że komputer jest w stanie wykryć takie przypadki. Firmy dostarczające wyszukiwarki zazwyczaj zatrudniają pracowników, którzy specjalizują się w wykrywaniu internetowego spamu.

Zatrudnieni w nich eksperci nieustannie szukają w sieci stron spamerskich. Gdy strona zostanie zidentyfikowana jako spam, wyszukiwarka przestaje ją indeksować. Ten proces wykrywania spamu jest bardzo kosztowny i powolny, ale jest konieczny dla wyszukiwarek: bez usunięcia jawnych „przestępców” jakość wyników wyszukiwania znacznie by się pogorszyła.

Ponieważ algorytmiczne identyfikowanie spamu jest bardzo trudne, systemy te nie działają całkowicie bez pomocy człowieka. Proponowany przez autorów publikacji główny algorytm otrzymuje pomoc ludzką w taki sposób, że najpierw wybierany jest mały zestaw początkowy stron, których "status spamu" musi zostać określony. Ekspert następnie bada strony źródłowe i mówi algorytmowi, czy są one spamem (złe strony) czy nie (dobre strony). Wreszcie algorytm identyfikuje inne strony, które mogą być dobre na podstawie ich łączności z dobrymi stronami nasionami.

Warto zgłębić temat

Publikacja "Combating Web Spam with TrustRank" jest dostępna w sieci niestety w języku angielski, co może sprawić nieco trudności. Jest jednak bardzo ciekawa i osobom interesującym się tematyką SEO może dać sporo do myślenia. Autorzy krok po kroku omówili działanie algorytmu TrustRank. Jego poznanie pozwala spojrzeć na tematykę pozycjonowania stron internetowych z trochę innej perspektywy...