Kiedy szukam czegoś w Google, czasami widzę datę publikacji posta / artykułu poniżej. Szukałem również własnego artykułu, który mam na mojej stronie opartej na Wordpress, a Google rozpoznaje również datę jego opublikowania.
Kiedy otwieram źródło mojej witryny, nie widzę żadnych specjalnych tagów ani niczego, co wskazywałoby na datę publikacji. Jest napisany tylko zwykłym divem, bez specjalnego znacznika, który powiedziałby SE, że jest to data publikacji (mógłbym mieć także inne daty innych rzeczy na stronie).
Czy to jest zapisane w Google dokładne miejsce daty publikacji Wordpress w drzewie DOM, czy coś mi brakuje?
Tworzę nową stronę internetową z własnym CMS i próbuję dowiedzieć się, jak wdrożyć rozpoznawanie według daty.
google-search
Can Poyrazoğlu
źródło
źródło
Odpowiedzi:
powinieneś przejść przez mapę witryny XML lub wersję kanału RSS, aby zindeksować swoje dane publikowane w głównych wyszukiwarkach, takich jak Google, Yahoo i MSN. Wygeneruj mapę witryny XML dla swojej witryny i prześlij ją w narzędziach wzorcowych do indeksowania.
źródło
Właśnie miałem problem z tym, że wszystkie moje główne strony zostały zaktualizowane ponad 4 lata temu, mimo że Google wie , że to nieprawda, ponieważ strony były indeksowane przez tak długi czas i zmieniały się znacząco z miesiąca na miesiąc. Po tym, jak byłem naprawdę zdziwiony, a potem naprawdę zirytowany, a potem ponownie zaintrygowany, w końcu znalazłem problem. Nasze warunki prawne były obsługiwane w ukrytym div z komunikatem „Ostatnia aktualizacja: 30 października 2007 r.”, A div był ładowany na prawie wszystkich naszych stronach. (Ponieważ pojawia się przy rejestracji) Usunąłem go i teraz zakładam, że data albo zniknie, albo zostanie poprawiona na coś bardziej sensownego.
Przestroga i jeszcze jeden dowód, że sprawdzają semantykę witryny bardziej niż szczegóły techniczne lub własną historię indeksowania.
źródło
Bardzo wątpię, aby data opublikowania postu lub artykułu była oparta na
<lastmod>
wpisie w mapie witryny XML (jak sugerują inni) lub nagłówku HTTP Last-Modified. Mapa witryny XML ma jedynie charakter doradczy, a nie wiarygodny. Data ostatniej modyfikacji dokumentu prawdopodobnie nie jest taka sama jak (oryginalna) data publikacji artykułu. I, jak wspomniałem w moim komentarzu na górze strony, data ostatniej modyfikacji dokumentu jest prawdopodobnie ważniejsza dla buforowania i być może określania szybkości indeksowania. Ostatnio zmodyfikowany nagłówek HTTP dynamicznie generowanych stron jest często bardzo zbliżony do faktycznej daty / godziny (tak jak w przypadku blogów WordPress).Z drugiej strony kanał RSS / Atom zawiera ten konkretny samorodek informacji. I rzeczywiście, w witrynach Wordpress, które nie zawierają daty publikacji w treści, data publikacji nadal pojawia się w wynikach wyszukiwania Google. I o ile mi wiadomo, odpowiada to dacie w kanale RSS.
EDYCJA 1: Jednak kanał RSS niekoniecznie zawiera wszystkie strony. W większości przypadków powinien on zawierać tylko najnowsze lub ostatnio zaktualizowane strony. Ale nie ma powodu, aby Google zapomniał o tym, co już przeczytał, a pod warunkiem, że treść tej strony nie uległa zmianie, data ostatniej modyfikacji również nie powinna.
Jeśli nie ma kanału RSS, myślę, że Google jest wystarczająco sprytny, aby analizować zawartość strony. Zwłaszcza jeśli daty są oznaczane „semantycznie” za pomocą mikroformatów . Jest całkowicie wykonalne, że Google zobaczy następujące informacje jako wiarygodną datę opublikowania artykułu, który jest zawarty w:
Google z pewnością odczytuje mikroformaty - hCard, hReview itp.
Dodajmy, że nie sądzę, aby Google podał datę publikacji, chyba że byłby w stanie znaleźć coś wiarygodnego, co by to sugerowało. Nie będzie wyznaczać „daty publikacji” na podstawie danych spekulacyjnych, ponieważ niepoprawna „data publikacji” nikomu się nie przyda, a Google będzie się za nią trzymać!I tylko dla zapisu (jeśli @Tom sugeruje inaczej :) Myślę, że posty / artykuły powinny mieć widoczną datę publikacji. Wielu tego nie robi, co może być frustrujące dla czytelnika, szczególnie podczas badania problemów technologicznych, a po przeczytaniu artykułu w połowie jest on nieaktualny!
EDYCJA 2: Od tego czasu doświadczyłem podobnego rozdrażnienia, które @mmdanziger szczegółowo opisuje w swojej odpowiedzi. Na jednej ze starych stron mam tekst w formie „Witryna Ostatnia aktualizacja nie 17 czerwca 2012” (nie oznaczony w żaden specjalny sposób) u góry każdej strony (zapisanej na stronie za pomocą JavaScript !!). Ta sama data została wybrana przez Google i teraz pojawia się obok kilku (ale nie wszystkich) stron, które pojawiają się w SERPS - z pewnością nie jest to data publikacji strony. Wygląda na to, że Google po prostu usuwa ze strony ciąg znaków w postaci „ostatniej aktualizacji ( datestring )” (po przetworzeniu JavaScript !!). Ta konkretna strona nie ma kanału RSS. Witryna ma plik Sitemap.xml, ale daty są różne.
Zauważyłem również podobne zachowanie na innych stronach.
źródło
<div class="footer"> <div class="links"> April 24, 2011 | <a href=...
To jest jedyne miejsce, które odnosi się do opublikowanej daty mojego wpisu, a Google ją znajduje i wyświetla poprawnie w wynikach wyszukiwaniaMyślę, że Google używa mapy witryny i kanału RSS do rozpoznania opublikowanej daty. Możesz zastosować tę funkcję w swoim CMS, tworząc mapę witryny xml zgodnie ze standardami .
źródło
Według Jonha Muellera z Google:
Jednak najbardziej prawdopodobne jest, że Google szuka dat na stronach internetowych w następujących miejscach:
źródło
Myślę, że inteligentnie wyszukuje wszelkie daty na stronie, a gdy ma pewność, że jest to odpowiednia data, używa go.
Czasami jest to trochę trudne, ponieważ myślę, że może mieć negatywny wpływ na zdolność klikania SERP, przypuszczam, że może mieć tymczasowy pozytywny wpływ, jeśli jest to najnowszy artykuł / post, ale jestem całkiem pewien, że moje strony byłyby lepsze bez tego (Jednak bez wyszukiwarki Google nie byłoby lepiej!)
Nie ma opcji kontrolowania go za pośrednictwem Google, tylko własnymi metodami. Możesz albo:
Z tych powodów po prostu zignorowałbym to.
źródło