Jak mogę zaindeksować moją Github Wiki przez wyszukiwarki? robots.txt wydaje się tego zabraniać

9

Podczas korzystania z narzędzia do sprawdzania linków W3C dowiedziałem się, że nie można indeksować mojej Wiki Github:

https://github.com/aegif/CmisSync/wiki/Getting-started-with-CmisSync-development
Status: (nie dotyczy) zabronione przez robots.txt

To niefortunne, ponieważ chciałbym, aby ludzie mogli łatwo znaleźć tę Wiki w wyszukiwarkach.

PYTANIE: Jak mogę zaindeksować moją Github Wiki przez wyszukiwarki?
A może się mylę i plik robith.txt Githuba jest w porządku?

nic
źródło
1
Podejrzewam, że odpowiedź jest mniej więcej taka sama jak w tym podobnym pytaniu .
John C,

Odpowiedzi:

9

Plik robots.txt w GitHub wyraźnie zabrania indeksowania stron wiki, na przykład w sekcji Googlebot:

User-agent: Googlebot
Allow: /*/*/tree/master
Allow: /*/*/blob/master
...
Disallow: /*/*/wiki/*/*

Ponieważ jest to plik robotów dla całej witryny, nie można go obejść.

Jest to interesujący wybór, ponieważ GitHub opisuje wiki jako miejsce do „dzielenia się długimi treściami na temat twojego projektu”. Ponieważ domyślnie publiczne wiki są edytowalne przez dowolnego użytkownika, być może jest to ciężka ochrona przed spamerami.

John C.
źródło
0

Strony wiki GitHub są wyszukiwane przez wyszukiwarki, które je obsługują. Zobacz dwie pierwsze linie https://github.com/robots.txt :

# If you would like to crawl GitHub contact us at [email protected].
# We also provide an extensive API: https://developer.github.com/

To prawdopodobnie do analizowania różnych formatów wiki itp.

Na przykład wyszukaj w Google „protokół brokera openrefine”, a pierwszym hitem jest strona pod wiki projektu Github.

Peter Kehl
źródło
Hmm, więc dlaczego Google indeksuje wiki Broker-Protocol , a nie wiki OP?
Vidar S. Ramdal,