Jak zbudować bota

       

Podstrony


telcocafe

Jak zbudować bota indeksuj±cego strony?



Ehh a chcesz go zrobic w ?? php? asp? cgi?
Ogolnie - cos co parsuje strony tak by wylowic wszystkie odnosniki, zapisac je do jakiejs zmiennej(?) odwiedzic te wszystkie strony, je tak samo zindeksowac itd itp.. po drodze zbieraj slowa kluczowe, description, rozne informacje o stronie.. wszystko to trzeba zapisac do bazy danych. Potem przy wyszukiwaniu wyswietlac wyniki (trzeba zrobic np usuwanie podwojnych spacji, interpunkcji) sortujac wg tego ile razy ten odnosnik byl spotkany na innych zindeksowanych stronach ... to ciezki kawalek chleba. Probowalem to zrobic ale ten ostatni punkt mi nie wyszedl :)

php.
Ale jak zbudować żeby przegł±dał stronę bez podania adresu?

czek dis aut
$url = $_GET['uri']; $uchwyt = fopen($url, "rb"); $tresc = ''; while (!feof($uchwyt)) {  $tresc .= fread($uchwyt, 8192); } fclose($uchwyt); $tresc = nl2br($tresc); $tresc = preg_replace("#\<script(.*?)>(.*?)</script>#si", '', $tresc); //usuwamy wszelkie wstawki <script costam>costam</script> $tresc = preg_replace("#\<style(.*?)>(.*?)</style>#si", '', $tresc); //j. w. tylko ze dla styli $tresc = preg_replace_callback("#\<a href=\"(.*?)\">(.*?)</a>#si", "ParseLink", $tresc); $tresc = preg_replace("#\<(.*?)>#si", '', $tresc); //usuwamy wszelkie znaczniki echo $tresc; //chcesz to zobacz jak to teraz wyglada :) function ParseLink($str) { $zmienna = $str[1]; //robta co chceta z ta zmienna, tu jest adres odnosnika. //$str[2] przechowuje nazwe pod jaka byl odnosnik }
Nie jest to idealne rozwiazanie ale jako tako dziala. Pisalem z pamieci.
Btw wywoluje sie w sposob http://jakis.adres.s....sprawdzenia.pl

dopisane:
php.net -> szukajka ->
fopen
fread
preg_replace
preg_replace_callback
Użytkownik Einzeinbleth edytował ten post 28 styczeń 2006, 16:40
  • zanotowane.pl
  • doc.pisz.pl
  • pdf.pisz.pl
  • nvm.keep.pl

  • Sitedesign by AltusUmbrae.