Jak stwierdzić, ile lat ma strona?

15

Myślałem, że Google mniej więcej dokładnie określił, kto opublikował tekst jako pierwszy, a kto skopiował. Jednak gdy korzystam z „narzędzia wyszukiwania: niestandardowy interwał”, wyniki są dość dziwne. Znalazłem strony z 2002 r. Dla strony internetowej, którą miałem tylko kilka lat.

Dlatego Google nie jest dokładny, aby dowiedzieć się, kto skopiował i kto napisał oryginał. Co jest?

wprowadź opis zdjęcia tutaj

Jeśli stackexchange.compowstał w 2009 roku, to jak to możliwe? hermeneutics.sejest starszy niż Stack Overflow!

Renan
źródło
Czy ktoś był właścicielem nazwy domeny przed tobą? Jakie strony porównujesz w Google?
closetnoc
Zaktualizowałem pytanie danymi SE. Znaczniki czasu nie mogą być dokładne.
Renan,
2
Łał. Nie jestem pewien. Rozumiem mechanikę tego normalnie, ale to, co robi Google, wciąż pozostaje tajemnicą. W sieci jest bardzo mało informacji o tym, jak Google określa daty. Niedawno mieliśmy pytanie dotyczące tego, jak Google określa zmodyfikowane daty. Zrobiłem trochę badań i prawie nic nie ma. Mimo to spojrzę jeszcze raz. Ale może to potrwać kilka dni. Należy pamiętać, że oprogramowanie CMS i prawdopodobnie kod SE nie zwraca dat tworzenia i modyfikacji, tak jak Apache dla stron HTML. I to może być odpowiedź.
closetnoc
To nie musi być Google, ale naprawdę chcę wiedzieć, czy moi użytkownicy plagiatują lub plagiatują. = /
Renan
Jak dotąd wygląda na to, że Google nie rozumie formatu daty w kodzie HTML, ale nie jest to rozstrzygające. Kod źródłowy pierwszej przykładowej strony nie zapewnia Google jasnych wskazówek dotyczących daty. Google (przynajmniej) wygląda lub datę w tej kolejności: URL, tytuł, treść (treść), metatagi, data ostatniej modyfikacji z odpowiedzi HTTP. Żądanie HEAD zwraca datę utworzenia i datę ostatniej modyfikacji. Również GET z if-zmodyfikowanym-ponieważ albo zwraca zasób z 200 Ok lub zwraca 304 Niezmodyfikowany. Kod SE może nie zwracać tych i dostępny jest tylko adres URL, tytuł, treść i metatagi.
closetnoc

Odpowiedzi:

12

Odpowiedzi na to pytanie szukałem w ten sposób: używając Google, ponieważ jest to mój przykład, w jaki sposób Google pobiera daty utworzenia i daty modyfikacji oraz daty, które rozpoznaje Google. Proszę zrozumieć, że ta informacja nie istnieje na zaledwie kilku stronach i musiałem wyłapać dane z bardzo wielu źródeł, z których niektóre nie wydają się bezpośrednio stosować i poskładać je razem. W niektórych przypadkach informacje pochodzą z kilku źródeł i nie zawsze są cytowane.

Google szuka dat stron w tej kolejności; Adres URL, tag tytułu, treść (treść), metatagi, nagłówek odpowiedzi HTTP przynajmniej w przypadku modułu wyszukiwania Google. W innych akapitach innych dokumentów nie udokumentowano żadnego zamówienia, ale lista została omówiona i wydawała się potwierdzać listę. Jeśli się nad tym zastanowić, odzwierciedla to kolejność wyszukiwarek; jeden - odkryj swoją stronę (link), a drugi - przeczytaj stronę od góry do dołu (tytuł, treść i metatag), z wyjątkiem meta-tagu (małe szczegóły) i nagłówka odpowiedzi HTTP. Oto lista, jeśli chodzi o urządzenie:https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule

Uwaga: data początkowa to data, o którą strona poprosiła po raz pierwszy przez Google. W przypadku braku daty utworzenia używana jest data początkowa.

1] Każda wyszukiwarka może zażądać zasobu za pośrednictwem żądania HTTP GET, a serwer WWW zwraca datę ostatniej modyfikacji w nagłówku odpowiedzi z zasobem w pakiecie danych.

2] Każda wyszukiwarka może żądać informacji o nagłówku zasobu za pośrednictwem żądania HEAD HTTP, a serwer WWW zwraca zmodyfikowaną datę w nagłówku odpowiedzi bez zasobu w pakiecie danych.

3] Każda wyszukiwarka może zapytać, czy zasób został zmodyfikowany od określonej daty, żądając zasobu za pomocą HTTP GET z if-zmodyfikowanym-od ustawionym na datę. Jeśli zasób został zmodyfikowany od ustawionej daty, serwer WWW odpowiada odpowiedzią 200 Ok i zwraca zasób lub jeśli zasób nie został zmodyfikowany od ustawionej daty, serwer internetowy odpowiada 304 Niezmodyfikowana bez zwrotu zasobu .

Google wysyła wiele żądań, używając metody nr 3, aby zaoszczędzić na przepustowości. Zobaczysz je w plikach dziennika serwera WWW.

Uwaga: Możliwe jest, że system zarządzania treścią (CMS) lub inne oprogramowanie nie może odpowiednio podać daty w nagłówku odpowiedzi.

Te przykłady dat pochodzą również z dokumentacji urządzenia Google, ale istnieją również w innych miejscach dotyczących wyszukiwania ogólnego. Wziąłem te szczegóły z dokumentacji urządzenia po prostu dlatego, że można je wyciąć i wkleić jako listę, gdzie w innych miejscach nie było tak schludnie.

4] Google szuka daty w adresie URL. Szuka następujących formatów; RRRMMDDHH - RRRR - RRRRMM.

5] Google szuka daty w tagu tytułu. Szuka następujących formatów; RRRMMDDHH - RRRR - RRRRMM, ale podejrzewam, że można rozpoznać inne formaty. Patrz poniżej.

6] Google szuka daty w tagu body (treść). Szuka następujących formatów; RRRRMDDHH - RRRRMMDD - RRRRMM - RRRR - DDMMRRRR - RRRMMDD - MMDDRRRR - RRRMDD - DDMMRR - MMDDRR, choć podejrzewam, że można rozpoznać inne formaty. Patrz poniżej.

Uwaga: wiadomo, że Google szuka konkretnej daty tuż pod pierwszą H1 tagiem. Wynika to z faktu, że blogi często umieszczają daty w tej lokalizacji.

7] Google szuka takiego metatagu. <meta http-equiv="last-modified" content="YYYY-MM-DD@hh:mm:ss TMZ" />

Mówi się także, że Google rozpoznaje następujące formaty dat.

RRRR-MD - RRRR.MD - RRRR / M / D - MD-RRRR - MDRRRR - M / D / RRRR - RRRR-MM - RRRR.MDD - RR / MM / DD - WK, D PON, RR - WK, MON D, YR - D MON, YR - PON RRRR - PON D, YR - PON YY - RRRR-DM - ​​RRRR.DM - RRRR / D / M - DM-RRRR - DMRRR - D / M / RRRR - DD-MM-RR - MM-DD-RR - DD / MM / RR - MM / DD / RR - RRRRMMDDHH - RRRRMMDD - RRRRMM - RRRR - DDMMRRR - MMDDRRRR - RRRMDD - DDMMRR - MMDD

Znalezione przeze mnie badania nie odpowiedziały na pytanie o czas.

W przypadku przytoczonych przykładów strony nie zawierają wskazówek dotyczących daty poza znacznikiem zakresu, który można zignorować. Możliwe jest, że oprogramowanie / serwer WWW SE nie może zwrócić dat utworzenia i modyfikacji w żadnym nagłówku odpowiedzi.

Dlaczego i jak Google wyprowadził te daty, to dobre pytanie, które może nigdy nie zostać rozwiązane. Będę jednak nadal szukał.

closetnoc
źródło
3
Czy masz jakieś odniesienia do „Google wyszukuje daty stron w tej kolejności: URL, tag tytułu, treść (treść), metatagi, nagłówek odpowiedzi HTTP”.? Czy masz jakieś dane lub statystyki do tych badań ?. Gdybyś mógł zamieścić referencje do tego, co tu zamieściłeś, byłoby znacznie lepiej dla nas wszystkich.
PatomaS
Doceniam twoje pytanie. Wiele z tego, co znalazłem, było w kawałkach. Lista została znaleziona w kilku miejscach, ale kolejność została znaleziona w dokumentacji modułu wyszukiwania Google i wydawało się, że została wykonana w paragrafach w innych miejscach. Dosłownie spojrzałem na kilkadziesiąt dokumentów, których znalezienie zajęło sporo czasu. Starałem się uważać, mówiąc, że muszę zebrać dane z różnych źródeł, ponieważ nie wydaje się, aby były na to jakieś bezpośrednie informacje. Zmienię to oświadczenie, aby było bardziej przejrzyste.
closetnoc
Mogę również potwierdzić, że następujący ciąg formatu daty zawarty na pewnym article.post > div.post-content > h2 > ppoziomie został niedawno pobrany przez Google i użyty do wyświetlenia daty: „Ostatnia aktualizacja: 7 października 2018 r.”
Matt
-2

Jeśli chcesz zobaczyć, ile lat ma domena, wyszukaj w Google maszynę do powrotu . Ta strona jest tym, czego szukasz: http://archive.org/web/ .

Jeśli chcesz wykryć plagiat, ten link pomoże ci: http://copyscape.com/signup.php?pro=0&o=f

Wyszukaj też w Google „narzędzie do sprawdzania plagiatu”.

Mam nadzieję, że pomogłem.

Pascut
źródło
3
Z szacunkiem musisz ponownie przeczytać pytanie.
closetnoc
Pytanie brzmi: „Jak określić, ile lat ma strona?” Proszę kliknąć mój link, a zobaczysz, że odpowiedź jest dobra. Dziękuję za przeczytanie tego.
Pascut
3
Nie czytasz pytania. Czytasz tytuł. Maszyna powrotna nie odpowiada na pytanie.
closetnoc
Masz rację, zredagowałem moje pytanie ..
Pascut
1
Maszyna Wayback śledzi stronę w domenie. Porównywanie dat między określonymi stronami nie jest przydatne. Szukam dokładnych środków, aby powiedzieć, który został opublikowany jako pierwszy.
Renan