Robots.txt: czy muszę zabronić strony, która nie jest nigdzie linkowana?

12

W mojej witrynie jest kilka stron, które chcę, aby użytkownik mógł odwiedzać tylko wtedy, gdy podam mu adres URL.

Jeśli nie zezwalam na pojedyncze strony robots.txt, będą one widoczne dla każdego, kto je przegląda.

Moje pytanie brzmi: jeśli nie połączę ich z nigdzie, a przynajmniej z jakiejkolwiek zaindeksowanej strony, czy nadal będą w jakiś sposób dostępne dla robotów?

martjno
źródło

Odpowiedzi:

11

W ogóle nie chcesz, aby strona pojawiała się w SERP ...

Nie zabraniaj w pliku robots.txt. Zamiast tego dodaj do stron metatag noindex (lub nagłówek HTTP X-Robots-Tag).

Jak sugeruje j0k, twoje strony można jakoś znaleźć. Raporty statystyk, katalogi itp.

Niedozwolone w pliku robots.txt zapobiega indeksowaniu strony, ale nadal może być indeksowane i może pojawiać się jako łącze tylko do adresu URL w serwerach SERP. Coś jak:

Łącze URL tylko w SERP Google

Metatag noindex zapobiega pojawianiu się strony w SERP - ale Google musi być w stanie zaindeksować stronę, aby zobaczyć metatag noindex - więc nie można go zabronić w pliku robots.txt!

Jeśli na stronie znajduje się coś, co nie musi być publicznie dostępne, strony muszą być objęte pewnym uwierzytelnieniem.

MrWhite
źródło
Należy pamiętać, że jeśli jest to naprawdę coś poufnego, wówczas „ukrywanie” go za pomocą adresu URL jest złym postępowaniem, niezależnie od wybranej metody. Korzystanie z właściwego uwierzytelniania jest bardzo ważne w takich przypadkach.
John Mueller
1
Ponadto przyciski mediów społecznościowych (takie jak / Udostępnij / + 1 / różne zakładki) również pobierają zawartość i mogą wyświetlać adres URL, tytuł i fragment w sposób publiczny, nawet jeśli adres URL zawiera noindex (lub jest niedozwolony przez roboty .tekst). Jedynym sposobem, aby temu zapobiec, jest uwierzytelnianie.
John Mueller
2

Myślę, że masz dobrego robota, który czyta plik robots.txt i postępuje zgodnie z dyrektywą. I inny, który nie jest zgodny z dyrektywą.

A jak zamierzasz podać ten adres URL? E-mailem, używając Facebooka lub Twittera? Wszystkie te usługi indeksują przesłane informacje. Gmail przetwarza otrzymany e-mail, aby wyświetlać reklamy. Twój adres URL zostanie jakoś zaindeksowany.

Niektóre osoby używają paska narzędzi Google Toolbar (lub dowolnego innego paska narzędzi wyszukiwarki). Istnieje opcja (domyślnie zaznaczona, jeśli dobrze pamiętam), która pozwala paskowi narzędzi na wysyłanie wszystkich odwiedzanych adresów URL do Google. Jest to inny sposób, aby Google zobaczył ukrytą sieć. Więc nawet jeśli powiedziałeś tej osobie, aby nie udostępniała adresu URL, domyślnie zrobi to (dzięki paskowi narzędzi).

Myślę, że możemy znaleźć wiele innych możliwości.

Możesz więc dodać go do pliku robots.txt, ale także zapewnić dodatkowe meta, takie jak noindex, nofollow itp.

edytować:

Sugestia w3d dotycząca pliku robots.txt wydaje mi się dobra. Nie dodawaj go więc do pliku robots.txt i podaj metatag propre.

j0k
źródło
Łączę je przez e-mail. Tak, planowałem zapewnić odpowiednią meta. Więc sugerujesz, aby dodać je do robotów, czy nie? Dzięki
martjno,
Polecam dodać go do pliku robots.txt. Ale sugestia w3d zmieniła zdanie. Nie dodawaj go, ale podaj odpowiedni metatag.
j0k
0

Oprócz powyższych komentarzy chciałbym również polecić uwierzytelnianie HTACCESS jako minimum - w ten sposób możesz nadać osobom indywidualnym kombinację nazwy użytkownika i hasła na czas trwania ich uprawnień do przeglądania stron

Jeśli są jakieś problemy z prywatnością, musisz rozważyć odpowiedni skrypt sterujący logowania.

Niechroniona strona (bez względu na to, jak dobrze ukryta może być), przeniesie ją na wolność.

Andrzej
źródło