15.05 2006
Pomóżcie dokarmić biednego Harvey'a!
Kategorie: Koncepcje | 22.08:56 |
Jak niektórzy wiedzą od dawna, a inni dowiedzieli się z mojego wcześniejszego wpisu, spamerzy dużą część adresów zbierają za pomocą programów zwanych harvesterami (czyli „kombajnami”), które chodzą od strony do strony i wyszukują w nich wszystko, co wygląda jak adres e-mailowy. Powstało już kilka witryn, których jedynym zadaniem jest „dokarmianie” takich programów fałszywymi adresami (np. AntySpam.pl czy Spam Poison). Wszystkie jednak mają poważną wadę. Są pod stałymi adresami, a więc spamerzy mogą bez większych problemów wykluczyć ich skanowanie w swoich programach. W mojej głowie zrodził się więc pomysł, którego realizację niniejszym przedstawiam.
Żarty na bok. Poniżej przedstawiam prosty program napisany w PHP, który umożliwi każdemu, kto tylko może uruchamiać skrypty PHP na serwerze, dołączyć do akcji i stworzyć podstronę podobną do AntySpam.pl i Spam Poison. Zaletą tej strony będzie jednak to, że będą istniały potencjalnie setki czy tysiące jej kopii, każda pod innym adresem, każda na innym serwerze, a sama strona nie będzie miała zbyt wielu cech charakterystycznych, na podstawie których spamerzy będą mogli ją zablokować. Tak więc wrednym spamerom nie uda się zabronić Harvey'owi zżerania bezużytecznych adresów, przez co spamerzy będą ponosić większe koszty przy rozsyłaniu niechcianej korespondencji, a przez to ich mętny biznes stanie się mniej opłacalny. Nie będę się rozpisywał na temat możliwości i konfiguracji skryptu, bo wszystko zostało napisane w komentarzach w pliku index.php (czyli głównym pliku skryptu). Tam też można zmienić opcje jego działania. Jeśli nie znacie się na PHP, po prostu utwórzcie oddzielny katalog na swojej stronie i umieśćcie w nim całą zawartość archiwum (wraz z odpowiednią strukturą katalogów). Program może działać przy ustawieniach domyślnych (tak jak na mojej stronie podanej powyżej).
Jeśli jednak dysponujecie wiedzą i czasem, spróbujcie zrobić przynajmniej co następuje:
Niniejszym chciałbym też podziękować Riddlowi za wsparcie „designerskie”, on bowiem jest autorem szablonu HTML, który znajdziecie w archiwum z programem.
Tomasz Andrzej Nidecki, 15.05 2006
Poznajcie Harvey'a
Harvey jest małym, głupim harvesterkiem napisanym przez spamerów. Harvey jest bardzo głodny i ciągle zżera nasze adresy, by potem zanieczyszczać je spamem. Postanowiłem zlitować się nad biednym Harvey'em i rozpocząć akcję dokarmiania. Zachęcam więc wszystkich, którzy mogą, dołączcie do akcji „Feed Harvey”!Żarty na bok. Poniżej przedstawiam prosty program napisany w PHP, który umożliwi każdemu, kto tylko może uruchamiać skrypty PHP na serwerze, dołączyć do akcji i stworzyć podstronę podobną do AntySpam.pl i Spam Poison. Zaletą tej strony będzie jednak to, że będą istniały potencjalnie setki czy tysiące jej kopii, każda pod innym adresem, każda na innym serwerze, a sama strona nie będzie miała zbyt wielu cech charakterystycznych, na podstawie których spamerzy będą mogli ją zablokować. Tak więc wrednym spamerom nie uda się zabronić Harvey'owi zżerania bezużytecznych adresów, przez co spamerzy będą ponosić większe koszty przy rozsyłaniu niechcianej korespondencji, a przez to ich mętny biznes stanie się mniej opłacalny. Nie będę się rozpisywał na temat możliwości i konfiguracji skryptu, bo wszystko zostało napisane w komentarzach w pliku index.php (czyli głównym pliku skryptu). Tam też można zmienić opcje jego działania. Jeśli nie znacie się na PHP, po prostu utwórzcie oddzielny katalog na swojej stronie i umieśćcie w nim całą zawartość archiwum (wraz z odpowiednią strukturą katalogów). Program może działać przy ustawieniach domyślnych (tak jak na mojej stronie podanej powyżej).
Jeśli jednak dysponujecie wiedzą i czasem, spróbujcie zrobić przynajmniej co następuje:
- W pliku files/titles.txt umieśćcie teksty (w kodowaniu UTF-8), które mają być wyświetlane losowo jako tytuł strony.
- Pobierzcie słownik ENABLE i wybierzcie z niego losowo kilkaset słów, a następnie zastąpcie plik files/dictionary.txt (lub znajdźcie w sieci dowolny inny słownik, możecie też utworzyć własny).
- Dopiszcie do pliku files/domains.txt domeny należące do Waszych ulubionych spamerów (ich stron WWW, nie sfałszowanych adresów mailowych!) lub firm, które wg Was wspierają spamerów. Albo najlepiej całkowicie zastąpcie ten plik własnoręcznie wybranymi domenami.
- Jeśli znacie HTML i CSS, zróbcie inne szablony wyglądu stron.
- A najlepiej, modyfikujcie ile wlezie i podzielcie się (np. w komentarzach do tego wpisu) swoimi rozwiązaniami. I poinformujcie o programie swoich znajomych (tylko nie spamujcie).
Niniejszym chciałbym też podziękować Riddlowi za wsparcie „designerskie”, on bowiem jest autorem szablonu HTML, który znajdziecie w archiwum z programem.
Tomasz Andrzej Nidecki, 15.05 2006

15.05 2006 o 22.15:34
Hmm, a sens używania tego generatora? Tak naprawdę powoduje on jedynie to, że zwiększają się bazy adresów spammerów. Spammerzy i tak nie dbają o to, ile maili wyślą - nie reagują na odbicia.
Nie widze również większej wartości biznesowej dla tego pomysłu - wiarygodności spammerów i tak nie da się bardziej obniżyć.
Oczywiście mogę nie dostrzegać jakieś oczywistości, ale wybaczcie, po dwóch dniach w Krakowie ledwo stoje.
15.05 2006 o 22.18:25
I nie zapomnijmy o właściwym wpisie w robots.txt. Biedny google i bez tego ledwie zipie...
Carstein: Co do logiki. Napychając śmieciami, zmniejszasz prawdopodobieństwo trafienia, a tym samym opłacalność ślepego strzelania.
15.05 2006 o 22.19:22
@Carstein:
Załóżmy co następuje (liczby wzięte z sufitu):
1. Do zebrania 100 adresów harvester potrzebuje średnio jednej minuty. Jeśli wszystkie adresy są prawidłowe (normalne adresy na stronach), spamer w godzinę otrzymuje 6000 adresów. Jeśli harvestery chodzą po stronach takich jak ta generowana skryptem, spamer w godzinę otrzymuje maksimum kilka prawdziwych adresów.
2. Do wysłania 100 spamów spamer potrzebuje jednej minuty. Jeśli wszystkie adresy w jego bazie są prawdziwe, w godzinę 6000 osób otrzyma spam. Jeśli są fałszywe (jak z tej strony), spam otrzyma maksymalnie kilka osób (których prawidłowe adresy znalazły się w tej sekcji bazy).
Wniosek: zaburzając bazy spamerów powodujemy, że przy użyciu tych samych zasobów mniej osób otrzyma spam. Ponieważ często zasoby się po jakimś czasie "kończą" (bo ktoś wykrywa open proxy, infekcję, czy też blokuje host), efektywność spamowania drastycznie spada.
15.05 2006 o 22.20:03
@wodzu: a googlowi odpowiednie META nie wystarczy? Bo w kodzie HTML takowe jest (norobots, nofollow).
15.05 2006 o 22.24:04
W kod nie spojrzałem. Zwracam honor. Googlebot uwzględnia meta nofollow, oczywiście. A przynajmniej tak jest w jego instrukcji ,,obsługi''.
15.05 2006 o 22.27:18
Chociaż... Informacja w robots.txt spowoduje niepobranie pliku w ogóle. Info w nagłówku jest widoczne dopiero po pobraniu... I googlebot nofollow traktuje jako zakaz wędrowania po linkach z _tej_ strony. Czyli jedną stronę śmieci jednak chyba zaciągnie.
http://www.google.pl/intl/pl/webmasters/bot.html#noindextags
15.05 2006 o 22.29:49
Te adresy wyglądają coś za dobrze :/
Ja lepiej bym się czuł wystawiając na swojej stronie adresy w stylu z AntySpam.pl , czyli kaszanę cyfrowo-literową .
15.05 2006 o 22.29:50
http://www.tomwys.info/feedharvey/
Na razie bezmyślnie wrzucony. Potem zgodnie z obietnicą, będzie własny napisany w Perlu.
15.05 2006 o 22.32:51
Zajrzałem w kod. ;) Dodałeś również ,,noindex'', więc zignoruje również i zawartość tej strony. Ale jednak ją zaciągnie. Wpis w robots.txt można dodać, żeby niepotrzebnie nie mamić googla (ale niech meta zostają na wszelki wypadek) i oszczędzić ćwierć mipsa własnej maszyny... ;)
15.05 2006 o 22.32:56
@wodzu: no cóż, to robots.txt już musi zrobić sam właściciel sajtu, bo może być przecież tylko jedno per sajt... W paczte tego nie umieszczę.
@lenrock: ściągnij skrypt i przeczytaj komentarze w pliku. Masz tam taką opcję o jakiej mówisz. To jest tylko jedna z opcji generowania adresów (domyślna), w której nazwa lokalna pobierana jest losowo ze słownika słów angielskich (losowe 500 słów), a nazwa domenowa z listy domen należących do spamerów.
15.05 2006 o 22.34:23
no właśnie tak dzisiaj, dodając sobie bannerek spam poison, pomyślałam czy on wogóle jeszcze jest aktualny dla pola szperania harvesta, czy jak to tam nazwać. Tonid - świetna robota, naprawdę, z dnia na dzień coraz bardziej Cię podziwiam! W Tobie więcej energii niż w niejednej fretce ;)
Po 24 czerwca będę mieć możliwość wstawienia tego o czym oczywiście nie zapomnę Cię poinformować :) Akurat będzie czas gdy się znajdzie odpowiedni, pewny sposób oszczędzenia mego przyjaciela googla itp.
15.05 2006 o 22.42:09
Istnieje jeszcze druga strona medalu. Używając do generowania mail adresów wziętych z otrzymanego spamu, obciążamy serwery spamerów. Jak wiadomo transfer jest dość drogi, więc zwyczajnie może przestać się opłacać spamowanie.
(chodzi mi oczywiście o adresy na których są hostowane strony)
15.05 2006 o 22.50:20
@tomywys
Oczywiście pod warunkiem, że do rozsyłania spamu nie wykorzystuje się serwerów open relay (open proxy) albo botnetu - w tym wypadku koszty są przerzucane na użytkowników.
@tonid:
Oczywiście masz rację, że spowoduje to spadek częstotliwości wysyłania spamu - drobne luki w logice obliczeń, ale nie o to chodzi. Summa summarum i tak ci ludzie spam otrzymają.
Muszę jednak przyznać że faktycznie utrudnia to życia spammerom - mimo, że w stosunkowo niewielkim stopniu.
Keep up that way :)
15.05 2006 o 22.59:52
@Carstein:
Przeczytaj jeszcze raz, to co napisałem w nawiasie. Jeśli spamer coś reklamuje (a większość przypadków robi to), musi podać jakiś kontakt. Przeważnie jest to email lub adres strony internetowej. Email możemy sobie odpóścić, bo prawdopodobnie jest w darmowym serwisie. W przypadku strony mamy domene, bardzo często globalną. Domeny takiej chyba nie ma zbytnio możliwości założenia za free (poza .tk i jeszcze pewnie kilku). Domena taka prowadzi do serwera spamera, konta wirtualnego, a w najgorszym przypadku do serwera darmowego. Niezależnie do czego, obciążenie działa bardziej lub mniej na niekorzyść spamera (ale działa).
15.05 2006 o 23.00:50
@tomwys: jedno "ale". Spamer niekoniecznie musi mieć serwer pocztowy w tej domenie. Ale może...
15.05 2006 o 23.09:26
Swoją drogą wpadł mi do głowy pomysł na pewno strasznie trudny do zrealizowanie, ale za to jaki skuteczny. Gdyby udało się wymyślić sposób, aby wykreować takie “karmniki” jako coś trendy, coś bez czego nie może obyć się żaden blog. Gdyby na każdym blogu “leet dziewczynki”, każdego “dziecka neostrady” i wszystkich innych stanął taki “karmnik”, to był by dopiero sukces. Jeżeli tylko osoby “doinformowane” będą popierać akcję, to nie odniesiemy oczekiwanego skutku, jeśli zaś stanie się to blogowy standard, powinno nieźle utrzeć nosa spamerom (a przynajmniej sprawić, że odczują). Tylko jak sprawić aby to się stało trendy..?
15.05 2006 o 23.09:40
Przy ustawieniu
$domainpolicy = "randomtext";
nazwa domeny jest tworzona z losowych znaków, ale nie jest dodawanie rozszerzenie domeny :(
15.05 2006 o 23.20:09
@Witia: oups... Faktycznie bug. Poprawiona wersja już na serwerze (ale teraz nie "randomtext" tylko "randomdomain" trzeba będzie używać). Dodatkowa poprawka: w przypadku random długość ciągu nie jest stała, lecz równa od X/2 do X.
15.05 2006 o 23.20:58
@tomwys: musiałbyś przekonać najpierw dostawców blogów, żeby to umożliwili, bo przecież silniki blogowe nie umożliwiają wrzucenia własnego kodu PHP.
15.05 2006 o 23.31:55
@tonid:
Powiedz mi, którego dostawcę przekonałeś do czegoś takiego, a jutro będę tam miał konto administratora :)
@tomwys:
Strona, którą spammer reklamuje, a sposób rozsyłania spamu to dwie różne rzeczy.
15.05 2006 o 23.33:08
@Carstein: chodziło o to, by dostawców przekonać do instalacji na ich serwerach Feed Harveya tak, by użytkownicy mogli go "podpinać" do swoich blogów (albo by był w domyślnym szablonie, pod poddomeną użytkownika 8>).
15.05 2006 o 23.35:22
@tonid:
Szkoda, bo już myślałem, że chcesz przyczynić się do mass exploitingu ;)
15.05 2006 o 23.48:47
Po założeniu na serwerze katalogu dla Feed Harveya warto byłoby dać skądś linki, żeby nie pozostał naszą słodką tajemnicą i trafiły na niego spamerskie kombajny.
15.05 2006 o 23.49:36
@Witia: ależ to oczywiste i nawet napisane w komentarzach w index.php 8D.
15.05 2006 o 23.53:27
Faktycznie, sorki.
16.05 2006 o 00.14:07
Zainstalowałem FH na jednym serwerze, ale adresu na razie nie podam. Póki co poobserwuję sobie jak działa.
16.05 2006 o 00.33:14
Już działa u mnie.
Tylko tak się astanawiam, jak niechcący wygeneruje się poprawny email jakiejś niewinnej osoby?
16.05 2006 o 00.34:02
W spamerskiej domenie?
16.05 2006 o 06.08:27
Jak tak teraz patrzę, to nie potrzeba floatować przycisku "Next page" i nie trzeba dodawać div class="cl" pod nim. :] Założenie miało być takie, że jest Prev / Next… jak mamy tylko Next nie potrzeba nic więcej. :P Także class="next".
16.05 2006 o 07.04:55
A jeśli chodzi o "Next page" to zamiast href="index.php": href="index.php?[randomText]" lub href="index.php/[randomText]" (w drugim przypadku trzeba by jeszcze podrasować skrypt, bo się szablony nie wyświetlą). W takiej sytuacji część botów może się zapętlać, do osiągnięcia limitu i dzięki temu jeszcze więcej adresów zbierać.
@Carstein: Zgadza się, ale obciążenie na serwerze sprzedawcy/usługodawcy który jest reklamowany, zwiększa jego koszty, co w finalnym efekcie odbija się też na spamerze (nie musisz strzelać do spamera, wystarczy, że podetniesz mu gałąź). Z drugiej strony, jeśli reklamowanej firmie (zakładając, że nie należy do spamera) padnie raz czy drugi serwer z przeciążenia zapytaniami STMP. Może ten czy inny zrozumie co robi i się opamięta (w większości przypadków pewnie błogie życzenia).
16.05 2006 o 07.29:19
No dobrze.
TODO:
- link do następnej strony w formie "index.php?[randomText]" i w związku z tym także zmiana formatów szablonów,
- drobne poprawki szablonów,
- wydzielenie pliku głównego engine i pliku konfiguracyjnego [żeby przy aktualizacji nie trzeba było ciągle podmieniać zmiennych],
- możliwość wcześniejszego wygenerowania domen, które na pewno nie istnieją [dla ostrożnych jak ajuć] - ale do tego konieczny będzie Python [aczkolwiek dodam listę tak wygenerowanych domen].
Zmiany postaram się wprowadzić dziś, ale to już zależy od ilości wolnego czasu...
16.05 2006 o 09.39:13
Tak sobie pomyślałem jeszcze... A może by taki globalny rejestr spamerskich domen gdzieś umieścić? Skrypcik niech odpytuje (raz na jakiś czas, żeby nie zajeździć maszyny z rejestrem), jakie domeny są wrogie i tam osadza generowane e-maile...
Rozgłaszanie może w jakiejś specjalnej strefie DNS? To świetny mechanizm, dobrze keszowany przez całą sieć, więc mało wymagający od głównego hosta. Strefa krótka, takie TOP-100, co jakiś czas losowo zmieniane z pełnej, duuuużej bazy. Zmiana z crona co np. godzinę, ale TTL strefy dużo dłuższy - np. całą dobę. W ten sposób różne skrypty ,,atakowałyby'' różne domeny, co ładnie rozłożyłoby miny po całej okolicy.
W ten sposób pół Internetu by zawsze doskonale wiedziało, kogo kopać, bez potrzeby ręcznego aktualizowania skryptów...
16.05 2006 o 13.24:43
@wodzu: jak sie spamerzy podłączą do takiej listy to generowanie fałszywych adresów będzie raczej bez sensu :)
16.05 2006 o 14.19:38
Sobie nawzajem, to niech tych spamów ślą, ile tylko dadzą radę. Chętnie im w tym pomogę... ;D
16.05 2006 o 14.21:29
@wodzu: mam na myśli to, że jak będą mieli taką listę to będą mogli filtrować takie adresy.
16.05 2006 o 14.25:40
Tak też w pierwszym momencie zrozumiałem Twoją wypowiedź. Ale to nie jest problem. Jeżeli w strefie będzie naraz widoczne tylko TOP-100, a baza będzie zawierała tysiące domen, to ciężko będzie im skompletować pełną listę. Poza tym wątpię, by tego używali - to nie problem. Spamer swój adres odfiltruje (i tak go zna), ale na pozostałe spróbuje wysłać. Za duża pokusa, że jednak zadziała...
16.05 2006 o 15.20:40
Zapomniałem o jednej rzeczy (tak to jest gdy się dobrze nie przemyśli tego co się napisało). Dla zwykłego usera dodawany losowy ciąg znaków nie ma żadnego znaczenia, ale jeśli taki user odpali kombajn w dobrej wierze, np. takiego wget aby pobrać całą stronę, program może zignorować parametry, które miał by go "odstraszyć" i zapętlić się. Co prawda, będą to jednostkowe sytuacje, w których osoba, robiąca to, będzie często na tyle uświadomiona by "odhaczyć" ten plik. Jednak trzeba to rozważyć przy wprowadzaniu tej funkcji. Moim zdaniem funkcja powinna się znaleźć w skrypcie, ale rozważał bym domyślne wyłączenie jej.
16.05 2006 o 21.11:29
Zgodnie z obietnicą, zrobiłem dość znaczny update, wg TODO pare komentarzy powyżej. Będę bardzo wdzięczny za przetestowanie, szczególnie skryptu pythonowego.
Istotna uwaga: skrypt używa funkcji gethostbyname, a więc nie sprawdza, czy dla danej domeny istnieje rekord MX. Teoretycznie może się zdarzyć sytuacja, że domena nie będzie miała rekordu IN A, ale będzie miała rekord IN MX, a więc domena będzie faktycznie istnieć. Prawdopodobieństwo jest jednak bardzo małe.
16.05 2006 o 21.12:54
@tomwys: muszę przemyśleć, jak to zrobić, ewentualnie w następnym update. Przede wszystkim warto byłoby sprawdzić, czy najpopularniejsze "ściągarki stron" defaultowo honorują tagi dla robotów.
18.05 2006 o 14.17:37
Odpalilem narazie tylko tutaj, dla testu.
Liste domen mam z ... baz snorta odnosnie spyware itp.
Jesli ktos chetny do pobrania bazy:
http://amon.eu.org/email/files/domains.txt
pozdrawiam
18.05 2006 o 22.48:53
mikom.no-ip.org - dodaję się do listy :)
19.05 2006 o 11.33:33
dodane
19.05 2006 o 11.36:33
http://szpital-zabrze.eu
http://szpital.zabrze.pl
http://sk1.zabrze.pl
http://niusia.pl
gra i buczy
19.05 2006 o 12.04:22
http://laziska.eu.org
http://elgrom.eu.org/
http://fara.elgrom.eu.org/
19.05 2006 o 12.16:48
http://debacom.pl
http://pomoc.debacom.pl
19.05 2006 o 12.20:49
http://msvista.ovh.org/zwierze/
19.05 2006 o 13.57:31
Tylko jak nabić jak najwięcej wejśc botów na własną stronę?
Rozgłaszanie na googlach czasami nic nie daje, bo nie wszystkie strony indeksują.
21.05 2006 o 11.04:43
http://akson.sgh.waw.pl/~kg23187/baza_adresow/
21.05 2006 o 14.08:56
http://www.lo3.wroc.pl/~d04/karmie/
I żeby poszło dalej, to jeszcze na joggu napiszę :)
21.05 2006 o 14.09:12
Zglaszam:
http://www.psk.info.pl/feedharvey/
http://anecia.homelinux.net/food/
http://www.lpr.com.pl/meat/
;)
kilem ol!
21.05 2006 o 15.38:29
Aha, lecę robić własny karmnik! Genialny pomysł ;-)
21.05 2006 o 18.42:54
http://mouser.pl/surprise/ - pasza przygotowana, teraz czekam na głodne zwierzątka ;)
21.05 2006 o 20.38:16
macie na serwerach jakieś skrypty coby patrzeć, czy coś się złapało na karmnik?
22.05 2006 o 11.28:28
ostatnie 24h:
173.169.134.213.in-addr.arpa domain name pointer hell.net.autocom.pl.
179.216.10.83.in-addr.arpa domain name pointer acpk179.neoplus.adsl.tpnet.pl.
219.226.9.83.in-addr.arpa domain name pointer acfy219.neoplus.adsl.tpnet.pl.
145.28.24.83.in-addr.arpa domain name pointer dky145.neoplus.adsl.tpnet.pl.
36.234.10.83.in-addr.arpa domain name pointer acqc36.neoplus.adsl.tpnet.pl.
Host 226.234.117.195.in-addr.arpa not found: 3(NXDOMAIN)
22.05 2006 o 14.28:13
Jedna z nich jest moja :>
22.05 2006 o 19.33:10
moj malutki wklad w akcje ;)
http://maddox.selfip.net/karmnik
22.05 2006 o 21.20:24
<zgroza>
ktoś tutaj używa IE, widze to w logach
przyznać się :P
22.05 2006 o 23.56:43
wrzucilem,
http://apaulo.hopto.org/demon/karmienie/index.php
nic nie zmienialem bo nie umie
sprobuje linkowac u i tam
23.05 2006 o 10.11:19
wrzucilem feedharveya tutaj: http://rzeznia.eu.org/~mefiu/lala tylko troche przerobionego, slownik wzialem stad: http://www.gajdaw.pl/pracI/1-zadania/przyklady/slowa-z-liter_0_2_dane.zip
zmniejszylem do ok. 100 kB (ale zdaje sie trzeba go jeszcze zmniejszyc?)
strona moze sie troche ladowac, niestety nie mam innego serwera z php, pozdrawiam!
23.05 2006 o 16.47:29
http://macie3k.info/napohybel/
ciut zmodyfikowane kolorki i przebudowany słownik
24.05 2006 o 13.43:02
robots.txt wpisac takie cos :
User-agent: *
Disallow: /
24.05 2006 o 16.27:20
Ciekawy pomysł. Ja też dokarmiam Harwusia:
http://letwist.net/harv
24.05 2006 o 17.34:26
Odpalone www.piw.org.pl ;)
25.05 2006 o 22.55:34
Ja trochę zmodyfikowałem skrypt. Teraz działa na dowolnym katalogu np:
http://www.szmergiel.com/spamer/jest_durny.html
http://www.szmergiel.com/spamerzy_to_szuje
http://www.szmergiel.com/bumtarara/staragitara.html
;)
Milej zabawy spamerzy :)
26.05 2006 o 14.34:44
Włączam się w dokarmianie
http://www.srebropib.pl/karmik/
27.05 2006 o 19.33:39
/pasnik/ na ostatniej stronie w linkach na moim joggerze. Podłączony w stopce tamtej strony do losowego tekstu o czasie generowania strony.
Tytuły stron wziąłem z listy top blogów na dwóch serwisach
Jaką zawartość ma mieć ten plik robots.txt?
I czy ma być w root-cie tamtej strony?
Pytam bo do tej pory nie korzystałem z tego i mógłbym napsuć.
Taki wystarczy?
User-agent: *
Disallow: /pasnik/
30.05 2006 o 10.17:32
http://metal.eu.org/redir/
Moja mini sieć pułapek (na w/w stronie są linki do wszystkich moich instalacji harvey'a - razem ponad 30 domen)
31.05 2006 o 22.33:08
tez sie dolacze :)
http://www.czara.pl/nakarm
02.06 2006 o 05.51:56
Ciekawość mnie zżerała jak sobie poczynają harwusie w letwistowym karmniku, więc zmodyfikowałem lekko szablon i dodałem na stałe adres, specjalnie do tego celu założonej, skrzynki na Gmail. Będę się jej przyglądał :) .
03.06 2006 o 20.23:33
http://probit.net/eatit
może teraz jakaś specjalna akcja rozpropagowująca adresy pokarmów? jakiś wabik :)
a co z ikonkami do podlinkowania? ja szybko zrobiłem http://img506.imageshack.us/img506/5802/buttonphp1dc.png
ale może ktoś coś ładniejszego spłodzi?
http://www.kalsey.com/tools/buttonmaker/
06.06 2006 o 01.36:55
O!
Super. Teraz tylko troche zmian i będzie sie działo. (06.06.06) ;)
07.06 2006 o 12.42:34
Jak dałem taki robots.txt:
User-agent: *
Disallow: /pasnik/
to nikt nie wchodzi na paśnik, chyba tylko ja bo są dwa wejścia tylko...
http://www.sp5pip.waw.pl/pasnik/
10.06 2006 o 20.13:26
Rozszerzyłem swoją sieć karmników o kilka kolejnych adresów i podlinkowałem ją do swojego bloga. Przydałoby się jakieś narzędzie do statystyk bo nie mam bezpośredniego dostępu do logów Apacza.
22.06 2006 o 01.32:03
Biedny Harvey jest glodny! Dajcie mu jeść :D :P
http://rysh.openttd.be/feedharvey/
Dolaczam się...
25.06 2006 o 12.17:12
Dołączam się.
http://free.of.pl/s/soadfan/maillist/
03.07 2006 o 22.00:40
Witam!
Pomysł bardzo dobry, ale mnie zastanowił jeden fakt. Strona dokarmiająca zawiera bardzo dużo adresów w stosunku do pozostałej treści.
Jeśli robot średnio znajduje 20 adresów na stronę, które stanowią 10% treści, to dość łatwo da się wykryć stronę, na której znajduje nagle ponad 100 adresów stanowiących 95% treści.
Przejrzałem uruchomione strony dokarmiające i wszystkie wyglądają tak samo: mnóstwo adresów i mało treści.
Pozdrawiam!
03.07 2006 o 22.31:52
Zerknałem na stronę Antyspamu (http://www.antyspam.pl/) i widzę, że tam jest podobnie.
Wystarczy teraz, by robot zbierał stytstyki np. strony w największą ilością adresów i dawał do oceny spamerowi, by ten mógł tworzyć listę fałszywych adresów, które robot powinien omijać.
Według mnie strony powinny zawierać oprócz adresów losowo rozrzucone słowa np. języka polskiego, które imitowałyby treść. Na początku myślałem o treści w stylu Lorem ipsum, ale robot mógłby dokonywać analizy częstości występowania liter (o ile nie zabierałoby mu to za dużo czasu).
03.07 2006 o 22.36:25
Przy okazji: nie działa permalink do komentarza.
<li class="comment2" id="c550963">
(...) <small class="commentmetadata"><a href="#550963"
Trzeba albo dodać c do href albo usunąć z id. :-)
04.07 2006 o 12.04:38
Rzeczywiście, potrzeba więcej treści na karmnikach bo inaczej harvestery mogą się skapnąć że to lipa.
Dobry generator tekstu jest na http://www.lipsum.com/
"Na początku myślałem o treści w stylu Lorem ipsum, ale robot mógłby dokonywać analizy częstości występowania liter (o ile nie zabierałoby mu to za dużo czasu)."
I co by mu ta analiza dała?
04.07 2006 o 12.18:14
Chyba zlikwiduję plik robots.txt blokujący wchodzenie na paśnik, bo w ogóle nie jest odwiedzany.
14.07 2006 o 00.16:06
Azrael Nightwalker: analizując częstość występowania liter można stwierdzić w jakim języku dany tekst został napisany. Gdyby wyszła łacina (a teksty typu lorem ipsum ją udają), to Harvey mógłby uznać, że nie warto takich adresów zbierać.
16.07 2006 o 19.23:13
Słuchajcie, przecież jest genialnie prosta metoda na wsadzenie harveya na stronę tak, żeby ani nie zabijał wgeta ani nie dał się łatwo wykryć (choć pewnie i tak jakoś się da...). Otóż można umieścić u spodu każdej strony strony (np. dodając skrypt w szablonie robionym z użyciem PHP) linijkę zawierającą powiedzmy 20 adresów. Dla użytkownika byłoby to bez znaczenia (można dodatkowo dać tekst w obrazku, z informacją co to), bo treść byłaby powyżej. A robot by zjadł tyle razy ile mamy stron w serwisie. Tylko żeby nie zrobiło się z tego kilka linijek trzebaby wsadzić to w tag <marquee> i sformatować CSSem tak żeby nie rzucało się specjalnie w oczy (ale nie color:#fff;background:#fff, bo to za łatwe do wykrycia - generalnie stosują się tu te same zasady ktorych spamerzy używają aby ominąć filtry antyspamowe).
20.08 2006 o 13.54:51
No, może z małym opóźnieniem, ale też zrobiłem pożywkę :)
http://symek.x12.pl/harvey/
23.10 2006 o 23.42:08
Zapraszam kombajny na http://hwds.olewaczers.eu.org
03.05 2007 o 11.39:39
Witam
Chcialem pobrac skrypt ale nie moge....prosze o pomoc chcialem umiescic ja na swojej stronie www.spam-killer.xt.pl
04.05 2007 o 09.35:15
http://tonid.internetdsl.pl/jog/feedharvey.zip
04.05 2007 o 11.09:58
skrypt wykożystany na www.spam-killer.xt.pl
31.05 2007 o 11.45:24
http://pasnik.dpkg.pl/
28.06 2007 o 11.07:52
Klikam na link do pobrania i wyskakuje... 404.
28.06 2007 o 11.08:54
CiMan: to popatrz cztery komentarze wyżej.
24.12 2007 o 16.58:43
Świetny pomysł, włączam się:
http://volumen.kalamat.cba.pl
10.10 2010 o 21.15:43
Tomek,
Twój artykuł ma co prawda już nieco archiwalną datę ale temat jest w dalszym ciągu IN...
Zrobienie pułapki dla spambota jest łatwe ale dokarmianie takiej paskudy jest raczej dziecinadą!(Bez obrazy...).
Ponieważ: problem nie stanowią spamerskie roboty ale My zostawiający gdzie popadnie swoje mailowe adresy...
Mam GSA Email Spider (tylko 69$) i właśnie skanuję polskojęzyczne wyszukiwarki na hasło: "moja e mail to", wynik?
2100 adresików dostępnych dla robota! Woła to o pomstę do nieba!
Z ciekawości zeskanuję wkrótce domenę jooger...
Zaznaczam, że nie jestem spamerem a skanowanie odbywa się w ramach projektu zwalczania spamu.
Jeszcze małostka zakończenie, skrypcik generujący losowe e-maile, to zaledwie kilkadziesiąt lini kodu PHP a moje badania wykazały 35% trafności generowanych adresów!
A wiecie dlaczego tak jest?
Odpowiedź jest prosta: anula73@..., mirek12@..., tak proste bywają mailowe nicki...
Zresztą z hasłami jest podobnie!
10.10 2010 o 21.21:14
Jeszcze raz ja...
Oto strona z pożywką dla spamerów: http://mp3.com.pl/nowosci/najwieksi_komentatorzy.pl
Jak nie będzie takiej bezmyślności, to wtedy jest szansa na życie wolne od niechcianej poczty...