Myślałem, że Google mniej więcej dokładnie określił, kto opublikował tekst jako pierwszy, a kto skopiował. Jednak gdy korzystam z „narzędzia wyszukiwania: niestandardowy interwał”, wyniki są dość dziwne. Znalazłem strony z 2002 r. Dla strony internetowej, którą miałem tylko kilka lat.
Dlatego Google nie jest dokładny, aby dowiedzieć się, kto skopiował i kto napisał oryginał. Co jest?
Jeśli stackexchange.com
powstał w 2009 roku, to jak to możliwe? hermeneutics.se
jest starszy niż Stack Overflow!
google-search
google-index
tools
Renan
źródło
źródło
Odpowiedzi:
Odpowiedzi na to pytanie szukałem w ten sposób: używając Google, ponieważ jest to mój przykład, w jaki sposób Google pobiera daty utworzenia i daty modyfikacji oraz daty, które rozpoznaje Google. Proszę zrozumieć, że ta informacja nie istnieje na zaledwie kilku stronach i musiałem wyłapać dane z bardzo wielu źródeł, z których niektóre nie wydają się bezpośrednio stosować i poskładać je razem. W niektórych przypadkach informacje pochodzą z kilku źródeł i nie zawsze są cytowane.
Google szuka dat stron w tej kolejności; Adres URL, tag tytułu, treść (treść), metatagi, nagłówek odpowiedzi HTTP przynajmniej w przypadku modułu wyszukiwania Google. W innych akapitach innych dokumentów nie udokumentowano żadnego zamówienia, ale lista została omówiona i wydawała się potwierdzać listę. Jeśli się nad tym zastanowić, odzwierciedla to kolejność wyszukiwarek; jeden - odkryj swoją stronę (link), a drugi - przeczytaj stronę od góry do dołu (tytuł, treść i metatag), z wyjątkiem meta-tagu (małe szczegóły) i nagłówka odpowiedzi HTTP. Oto lista, jeśli chodzi o urządzenie:
https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule
Uwaga: data początkowa to data, o którą strona poprosiła po raz pierwszy przez Google. W przypadku braku daty utworzenia używana jest data początkowa.
1] Każda wyszukiwarka może zażądać zasobu za pośrednictwem żądania HTTP GET, a serwer WWW zwraca datę ostatniej modyfikacji w nagłówku odpowiedzi z zasobem w pakiecie danych.
2] Każda wyszukiwarka może żądać informacji o nagłówku zasobu za pośrednictwem żądania HEAD HTTP, a serwer WWW zwraca zmodyfikowaną datę w nagłówku odpowiedzi bez zasobu w pakiecie danych.
3] Każda wyszukiwarka może zapytać, czy zasób został zmodyfikowany od określonej daty, żądając zasobu za pomocą HTTP GET z if-zmodyfikowanym-od ustawionym na datę. Jeśli zasób został zmodyfikowany od ustawionej daty, serwer WWW odpowiada odpowiedzią 200 Ok i zwraca zasób lub jeśli zasób nie został zmodyfikowany od ustawionej daty, serwer internetowy odpowiada 304 Niezmodyfikowana bez zwrotu zasobu .
Google wysyła wiele żądań, używając metody nr 3, aby zaoszczędzić na przepustowości. Zobaczysz je w plikach dziennika serwera WWW.
Uwaga: Możliwe jest, że system zarządzania treścią (CMS) lub inne oprogramowanie nie może odpowiednio podać daty w nagłówku odpowiedzi.
Te przykłady dat pochodzą również z dokumentacji urządzenia Google, ale istnieją również w innych miejscach dotyczących wyszukiwania ogólnego. Wziąłem te szczegóły z dokumentacji urządzenia po prostu dlatego, że można je wyciąć i wkleić jako listę, gdzie w innych miejscach nie było tak schludnie.
4] Google szuka daty w adresie URL. Szuka następujących formatów; RRRMMDDHH - RRRR - RRRRMM.
5] Google szuka daty w tagu tytułu. Szuka następujących formatów; RRRMMDDHH - RRRR - RRRRMM, ale podejrzewam, że można rozpoznać inne formaty. Patrz poniżej.
6] Google szuka daty w tagu body (treść). Szuka następujących formatów; RRRRMDDHH - RRRRMMDD - RRRRMM - RRRR - DDMMRRRR - RRRMMDD - MMDDRRRR - RRRMDD - DDMMRR - MMDDRR, choć podejrzewam, że można rozpoznać inne formaty. Patrz poniżej.
Uwaga: wiadomo, że Google szuka konkretnej daty tuż pod pierwszą
H1
tagiem. Wynika to z faktu, że blogi często umieszczają daty w tej lokalizacji.7] Google szuka takiego metatagu.
<meta http-equiv="last-modified" content="YYYY-MM-DD@hh:mm:ss TMZ" />
Mówi się także, że Google rozpoznaje następujące formaty dat.
RRRR-MD - RRRR.MD - RRRR / M / D - MD-RRRR - MDRRRR - M / D / RRRR - RRRR-MM - RRRR.MDD - RR / MM / DD - WK, D PON, RR - WK, MON D, YR - D MON, YR - PON RRRR - PON D, YR - PON YY - RRRR-DM - RRRR.DM - RRRR / D / M - DM-RRRR - DMRRR - D / M / RRRR - DD-MM-RR - MM-DD-RR - DD / MM / RR - MM / DD / RR - RRRRMMDDHH - RRRRMMDD - RRRRMM - RRRR - DDMMRRR - MMDDRRRR - RRRMDD - DDMMRR - MMDD
Znalezione przeze mnie badania nie odpowiedziały na pytanie o czas.
W przypadku przytoczonych przykładów strony nie zawierają wskazówek dotyczących daty poza znacznikiem zakresu, który można zignorować. Możliwe jest, że oprogramowanie / serwer WWW SE nie może zwrócić dat utworzenia i modyfikacji w żadnym nagłówku odpowiedzi.
Dlaczego i jak Google wyprowadził te daty, to dobre pytanie, które może nigdy nie zostać rozwiązane. Będę jednak nadal szukał.
źródło
article.post > div.post-content > h2 > p
poziomie został niedawno pobrany przez Google i użyty do wyświetlenia daty: „Ostatnia aktualizacja: 7 października 2018 r.”Jeśli chcesz zobaczyć, ile lat ma domena, wyszukaj w Google maszynę do powrotu . Ta strona jest tym, czego szukasz: http://archive.org/web/ .
Jeśli chcesz wykryć plagiat, ten link pomoże ci: http://copyscape.com/signup.php?pro=0&o=f
Wyszukaj też w Google „narzędzie do sprawdzania plagiatu”.
Mam nadzieję, że pomogłem.
źródło