Robots.txt - CSS zezwala lub zabrania

Czy CSS i szablony są dozwolone w pliku robots.txt ?

Czy powinno to powodować problemy?

W Joomla CSS i szablony są niedozwolone w pliku robots.txt . Pomóż mi znaleźć rozwiązanie, czy umieścić niedozwolone w robotach dla CSS, szablonów itp. Dla moich nadchodzących stron.

css robots.txt Manju George
źródło

Nie sądzę, że Joomla domyślnie blokuje te pliki - jeśli to sugerujesz?

MrWhite

Odpowiedzi:

Firma Google niedawno zaktualizowała swoje wytyczne, aby oficjalnie stwierdzić, że nie należy blokować dostępu do plików CSS lub JS w pliku robots.txt . Zapewnia to, że gdy Google zaindeksuje witrynę, może ją renderować dokładnie tak, jak przeglądarka.

Jeśli zablokujesz pliki CSS lub JS, może to zaszkodzić wydajności witryny w rankingu.

Więcej informacji tutaj: aktualizacja naszych technicznych wskazówek dla webmasterów i tutaj: wskazówek dla webmasterów

Ponieważ jest to ostatnia rekomendacja, wiele stron internetowych i systemów CMS (takich jak Joomla) często blokuje takie pliki w pliku robots.txt . Powodem tego było zwykle to, że wyszukiwarki nie musiały indeksować ani indeksować tych plików, więc aby zatrzymać indeksowanie niepotrzebnych plików i katalogów oraz aby zaoszczędzić „budżet przeszukiwania”, pliki te często były blokowane w pliku robots.txt .

Max
źródło

Google już od dłuższego czasu mówi, że nie należy blokować JS i CSS (wideo Matt Cutts z marca 2012 r.), Ponieważ mogłoby to zaszkodzić zdolności G do indeksowania Twojej witryny, po prostu sprawiły, że ostatnio stała się „bardziej oficjalna”.

MrWhite

Od ponad dekady zaleca się, aby nie blokować CSS i JS. Wiem, że renderowanie przez wyszukiwarki wydaje się nowe, ale tak nie jest, a niektóre formy renderowania, w tym proste JS, istnieją już od bardzo dawna.

closetnoc

Dodatkowa uwaga (nieco powiązana, ponieważ jest często używana z JS) - W odniesieniu do wszystkich kontrolerów udostępniających trasę za pomocą theme / view / JSON / URi - powinieneś zablokować te lub możesz napotkać indeksowane obszary nie tematyczne zamiast strony używając aspekt danych. Jest to obszar „widoku”, który można blokować, zwłaszcza rzeczy, których JS używa, jak JSON. Często G uruchamia JS, widzi łącze JSON i odwiedza go. Powoduje błędy lub jeśli się rozchodzi, indeks w połowie zbudowany. To zupełnie nowe robaki, ale miej świadomość.

dhaupin

Czułem się zmuszony do wyrażenia mojego silnego sprzeciwu wobec kultowej postawy ładunku, którą cokolwiek Google mówi, musimy zrobić. Google twierdzi również, że Twoja witryna uzyska wyższą pozycję w rankingu, jeśli pozwolisz im na indeksowanie obrazów, korzystanie z HTTPS itp. Przestrzegając wszystkiego, co mówi Google, po prostu dajesz im więcej mocy, by stawić większe wymagania. Czy na koniec dnia budujesz swoją witrynę dla ludzi lub robotów?

Przepełnienie pytania

Zgadnij, zależy to od tego, na ile polegasz na dobrych rankingach w Google? Chociaż jak większość rzeczy, jest to tylko niewielki wskaźnik w dużej liczbie czynników, które mają. Jak wspomniałeś, ostatnio powiedzieli, że HTTPs to mały czynnik rankingowy, ale nie zmieniłem żadnej ze 100 witryn, nad którymi pracuję, na HTTPs, a ich rankingi są w porządku.

Maks.

Na strategię pliku robots.txt zawsze powinno odpowiedzieć pytanie: które sekcje mojej sieci nie mogą być indeksowane przez robota, a które sekcje może indeksować robot.

Roboty implementują własną logikę i mają wiele celów (nie tylko Google ma robota ...), więc jeśli zakładasz, że robot jest w jakiś sposób „rozproszony” przez twoje pliki CSS i JS, otwierasz czarną skrzynkę robota i zakładasz, co prąd realizacja i prąd intencją robota jest. To nie jest przydatna długoterminowa strategia.

Zamiast myśleć w domenie robota, spróbuj myśleć w domenie treści w sieci.

Chcę zauważyć, że plik robots.txt nie jest mechanizmem bezpieczeństwa.

saintedlama
źródło

Szablony są używane przez aplikację do blogowania lub zarządzania treścią (CMS) i nie powinny być dostępne zewnętrznie, gdy CSS jest odczytywany przez przeglądarkę i wyszukiwarkę i powinien być czytany. Powiedziawszy to, nie zablokowałbym żadnego z nich, ale nie zmieniłbym również tych, które są przez CMS. Wyszukiwarki i boty nie dbają o twoje szablony. Po prostu zablokuj dostęp do swojej witryny za pomocą adresu URL / URI, którego nie chcesz indeksować ani czytać, ale nie traktuj robots.txt jako narzędzia bezpieczeństwa. Nie jest do tego przeznaczony.

closetnoc
źródło