Robots.txt - CSS zezwala lub zabrania

12

Czy CSS i szablony są dozwolone w pliku robots.txt ?

Czy powinno to powodować problemy?

W Joomla CSS i szablony są niedozwolone w pliku robots.txt . Pomóż mi znaleźć rozwiązanie, czy umieścić niedozwolone w robotach dla CSS, szablonów itp. Dla moich nadchodzących stron.

Manju George
źródło
Nie sądzę, że Joomla domyślnie blokuje te pliki - jeśli to sugerujesz?
MrWhite

Odpowiedzi:

23

Firma Google niedawno zaktualizowała swoje wytyczne, aby oficjalnie stwierdzić, że nie należy blokować dostępu do plików CSS lub JS w pliku robots.txt . Zapewnia to, że gdy Google zaindeksuje witrynę, może ją renderować dokładnie tak, jak przeglądarka.

Jeśli zablokujesz pliki CSS lub JS, może to zaszkodzić wydajności witryny w rankingu.

Więcej informacji tutaj: aktualizacja naszych technicznych wskazówek dla webmasterów i tutaj: wskazówek dla webmasterów

Ponieważ jest to ostatnia rekomendacja, wiele stron internetowych i systemów CMS (takich jak Joomla) często blokuje takie pliki w pliku robots.txt . Powodem tego było zwykle to, że wyszukiwarki nie musiały indeksować ani indeksować tych plików, więc aby zatrzymać indeksowanie niepotrzebnych plików i katalogów oraz aby zaoszczędzić „budżet przeszukiwania”, pliki te często były blokowane w pliku robots.txt .

Max
źródło
2
Google już od dłuższego czasu mówi, że nie należy blokować JS i CSS (wideo Matt Cutts z marca 2012 r.), Ponieważ mogłoby to zaszkodzić zdolności G do indeksowania Twojej witryny, po prostu sprawiły, że ostatnio stała się „bardziej oficjalna”.
MrWhite
2
Od ponad dekady zaleca się, aby nie blokować CSS i JS. Wiem, że renderowanie przez wyszukiwarki wydaje się nowe, ale tak nie jest, a niektóre formy renderowania, w tym proste JS, istnieją już od bardzo dawna.
closetnoc
1
Dodatkowa uwaga (nieco powiązana, ponieważ jest często używana z JS) - W odniesieniu do wszystkich kontrolerów udostępniających trasę za pomocą theme / view / JSON / URi - powinieneś zablokować te lub możesz napotkać indeksowane obszary nie tematyczne zamiast strony używając aspekt danych. Jest to obszar „widoku”, który można blokować, zwłaszcza rzeczy, których JS używa, jak JSON. Często G uruchamia JS, widzi łącze JSON i odwiedza go. Powoduje błędy lub jeśli się rozchodzi, indeks w połowie zbudowany. To zupełnie nowe robaki, ale miej świadomość.
dhaupin
1
Czułem się zmuszony do wyrażenia mojego silnego sprzeciwu wobec kultowej postawy ładunku, którą cokolwiek Google mówi, musimy zrobić. Google twierdzi również, że Twoja witryna uzyska wyższą pozycję w rankingu, jeśli pozwolisz im na indeksowanie obrazów, korzystanie z HTTPS itp. Przestrzegając wszystkiego, co mówi Google, po prostu dajesz im więcej mocy, by stawić większe wymagania. Czy na koniec dnia budujesz swoją witrynę dla ludzi lub robotów?
Przepełnienie pytania
1
Zgadnij, zależy to od tego, na ile polegasz na dobrych rankingach w Google? Chociaż jak większość rzeczy, jest to tylko niewielki wskaźnik w dużej liczbie czynników, które mają. Jak wspomniałeś, ostatnio powiedzieli, że HTTPs to mały czynnik rankingowy, ale nie zmieniłem żadnej ze 100 witryn, nad którymi pracuję, na HTTPs, a ich rankingi są w porządku.
Maks.
3

Na strategię pliku robots.txt zawsze powinno odpowiedzieć pytanie: które sekcje mojej sieci nie mogą być indeksowane przez robota, a które sekcje może indeksować robot.

Roboty implementują własną logikę i mają wiele celów (nie tylko Google ma robota ...), więc jeśli zakładasz, że robot jest w jakiś sposób „rozproszony” przez twoje pliki CSS i JS, otwierasz czarną skrzynkę robota i zakładasz, co prąd realizacja i prąd intencją robota jest. To nie jest przydatna długoterminowa strategia.

Zamiast myśleć w domenie robota, spróbuj myśleć w domenie treści w sieci.

Chcę zauważyć, że plik robots.txt nie jest mechanizmem bezpieczeństwa.

saintedlama
źródło
1

Szablony są używane przez aplikację do blogowania lub zarządzania treścią (CMS) i nie powinny być dostępne zewnętrznie, gdy CSS jest odczytywany przez przeglądarkę i wyszukiwarkę i powinien być czytany. Powiedziawszy to, nie zablokowałbym żadnego z nich, ale nie zmieniłbym również tych, które są przez CMS. Wyszukiwarki i boty nie dbają o twoje szablony. Po prostu zablokuj dostęp do swojej witryny za pomocą adresu URL / URI, którego nie chcesz indeksować ani czytać, ale nie traktuj robots.txt jako narzędzia bezpieczeństwa. Nie jest do tego przeznaczony.

closetnoc
źródło