Chciałbym mieć listę plików, które powinny istnieć na każdej stronie internetowej. Chodzi o to, aby zadowolić większość przeglądarek i botów i uzyskać liczbę 404 wiadomości w dziennikach. Do tej pory mam następujące
Robots.txt to plik tekstowy używany przez właścicieli witryn do przekazywania instrukcji dotyczących ich witryny robotom internetowym. Zasadniczo informuje roboty, które części witryny są otwarte, a które zamknięte. Nazywa się to protokołem wykluczania robotów.
Chciałbym mieć listę plików, które powinny istnieć na każdej stronie internetowej. Chodzi o to, aby zadowolić większość przeglądarek i botów i uzyskać liczbę 404 wiadomości w dziennikach. Do tej pory mam następujące
Jeśli nie chcę ustawiać żadnego specjalnego zachowania, czy jest w porządku, jeśli nie przejmuję się plikiem robots.txt? A może brak jednego może być
Na serwerze muszę teraz przyznać, że zauważyłem, że plik robots.txt jest pusty. Zastanawiałem się, czy istnieje różnica między pustym plikiem robots.txt a żadnym plikiem. Czy roboty indeksujące zachowują się inaczej w tych dwóch przypadkach? Czy bezpieczne jest zatem usunięcie pustego pliku...
Mam kilka dynamicznie generowanych adresów URL. Czy mogę użyć wyrażenia regularnego, aby zablokować te adresy URL w pliku
Mam dwie witryny, nad którymi obecnie pracuję, a mianowicie koszyk na zakupy i inny klient. Oba są pod tą samą nazwą domeny, na przykład http://example.com/first_url http://example.com/second_url Oba te adresy URL mają pod sobą mnóstwo stron
Mam w swojej witrynie kilka stron, od których chcę trzymać wyszukiwarki z daleka, dlatego nie zezwalam na to w moim robots.txtpliku w następujący sposób: User-Agent: * Disallow: /email Jednak ostatnio zauważyłem, że Google nadal czasami zwraca linki do tych stron w wynikach wyszukiwania....
Dodałem plik robots.txt do jednej z moich witryn tydzień temu, co powinno uniemożliwić Googlebotowi próby pobrania niektórych adresów URL. Jednak w ten weekend widzę, że Googlebot ładuje te dokładne adresy URL. Czy Google buforuje plik robots.txt, a jeśli tak, to
Mam podkatalog, który chciałbym ukryć przed robotami indeksującymi wyszukiwarki. Jednym ze sposobów jest skorzystanie robots.txtz katalogu głównego serwera (standardowy sposób). Jednak każdy, kto zna adres URL witryny i ma podstawową wiedzę o sieci, może uzyskać dostęp do zawartości pliku...
Czy możesz dać mi znać, jak zablokować takie adresy URL, robots.txtaby Googleboty przestały indeksować? http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q Moja witryna została zaatakowana przez hakerów, co zostało odzyskane, ale haker zaindeksował 5000 adresów URL w Google i teraz pojawia...
Nie podoba mi się to, że widzę dużo błędów 404 w access.log mojego serwera. Otrzymuję te błędy, ponieważ roboty indeksujące próbują otworzyć plik robots.txt , ale nie mogą go znaleźć. Chcę więc umieścić prosty plik robots.txt , który zapobiegnie pojawieniu się błędów 404 w moim pliku...
W mojej witrynie jest kilka stron, które chcę, aby użytkownik mógł odwiedzać tylko wtedy, gdy podam mu adres URL. Jeśli nie zezwalam na pojedyncze strony robots.txt, będą one widoczne dla każdego, kto je przegląda. Moje pytanie brzmi: jeśli nie połączę ich z nigdzie, a przynajmniej z...
Czy CSS i szablony są dozwolone w pliku robots.txt ? Czy powinno to powodować problemy? W Joomla CSS i szablony są niedozwolone w pliku robots.txt . Pomóż mi znaleźć rozwiązanie, czy umieścić niedozwolone w robotach dla CSS, szablonów itp. Dla moich nadchodzących
Mam poddomenę, której nie chcę umieszczać w wynikach wyszukiwania. Powiedzmy, że mam: http://www.example.com http://child.example.com Jak mogę ukryć wszystkie adresy URL child.example.comdomeny, które są obecnie wyświetlane w wynikach
To jest mój plik robots.txt : User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz Ale Narzędzia Google dla webmasterów mówią mi, że roboty blokują dostęp do mapy witryny: Podczas próby uzyskania dostępu do mapy witryny wystąpił błąd....
Czytam odpowiedzi na to pytanie, ale nadal pozostawiają moje pytanie otwarte: Czy Google cache robots.txt? W Narzędziach Google dla webmasterów nie znalazłem sposobu na ponowne pobranie mojego pliku robots.txt . Przez jakiś błąd mój plik robots.txt został zastąpiony przez: User-agent:...
Czy programy klienckie mogą być wymienione razem, a ich wspólne reguły, takie jak w pliku robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask...
Po napisaniu wielu botów i zobaczeniu ogromnej liczby losowych botów, które zdołały zaindeksować witrynę, zastanawiam się, jako webmaster, jakie boty naprawdę warto wpuścić na witrynę? Moją pierwszą myślą jest to, że zezwalanie botom na witrynę może potencjalnie przynieść prawdziwy ruch. Czy...
Mam dwujęzyczną stronę internetową z indeksem map witryn dla każdego języka, który prowadzi do kilku różnych map witryn (jedna dla filmów, jedna dla treści statycznych i jedna dla artykułów). Chciałbym wprowadzić kolejną mapę witryny, która łączy indeksy map witryn, aby móc połączyć tę mapę witryny...
Ponieważ na pewno wygląda tak. W przypadku moich witryn nie zezwalamy na katalog obrazów, a w podglądzie brakuje zdjęć, co sprawia, że strona wygląda na nieprzyjemną. Czy tak jest w przypadku i czy istnieje sposób, aby tylko bot podglądu miał dostęp do obrazów przy użyciu pliku...
Dzisiaj natknąłem się na ten artykuł w moich wiadomościach SEO. Wydaje się to sugerować, że możesz używać Noindex:dyrektyw oprócz standardowych Disallow:dyrektyw w pliku robots.txt . Disallow: /page-one.html Noindex: /page-two.html Wygląda na to, że uniemożliwiłoby to wyszukiwarkom indeksowanie...