Poniżej widzę takie komunikaty o błędach:
Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: AER: Multiple
Corrected error received: id=0018 Nov 15 15:49:52 x99 kernel: pcieport
0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer,
id=0018(Receiver ID) Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0:
device [8086:6f08] error status/mask=00000040/00002000 Nov 15 15:49:52
x99 kernel: pcieport 0000:00:03.0: [ 6] Bad TLP
Spowoduje to pogorszenie wydajności, nawet jeśli (jak dotąd) zostało poprawione. Oczywiście ten problem musi zostać rozwiązany. Nie mogę jednak znaleźć dużo na ten temat w Internecie. (Może szukam w niewłaściwych miejscach.) Znalazłem tylko kilka linków, które opublikuję poniżej.
Czy ktoś wie więcej o tych błędach?
Czy jest to płyta główna, Samsung 950 Pro, czy GPU (lub ich kombinacja)?
Sprzęt to: Asus X99 Deluxe II Samsung 950 Pro NVMe w M2. slot na mb (który dzieli port PCIe 3). Nic innego nie jest podłączone do portu PCIe 3. GeForce GTX 1070 w gnieździe PCIe 1 Core i7 6850K CPU
Kilka linków, które znalazłem, wspomina ten sam sprzęt (X99 Deluxe II mb i Samsung950 Pro). Używam Arch Linux.
Nie znalazłem ciągu „8086: 6f08” w dzienniku ani nigdzie indziej, o którym dotąd szukałem.
dziwny komunikat o błędzie z nvme ssd (Bad TLP): linuxquestions https://www.reddit.com/r/linuxquestions/comments/4walnu/odd_error_message_with_nvme_ssd_bad_tlp/
PCIe: Czy twoja karta po cichu walczy z retransmitami TLP? http://billauer.co.il/blog/2011/07/pcie-tlp-dllp-retransmit-data-link-layer-error/
GTX 1080 Zgłaszanie błędnych błędów magistrali PCIe PCIP - Fora GeForce https://forums.geforce.com/default/topic/957456/gtx-1080-throwing-bad-tlp-pcie-bus-errors/
sterowniki - błąd PCIe w dzienniku dmesg - Zapytaj Ubuntu /ubuntu/643952/pcie-error-in-dmesg-log
Twarda blokada 780Ti X99 - błędy PCIE - Fora programistów NVIDIA https://devtalk.nvidia.com/default/topic/779994/linux/780ti-x99-hard-lock-pcie-errors/
Odpowiedzi:
Mogę podać co najmniej kilka szczegółów, mimo że nie potrafię w pełni wyjaśnić, co się stanie.
Jak opisano na przykład tutaj , CPU komunikuje się z kontrolerem magistrali PCIe przez pakiety warstwy transakcji (TLP). Sprzęt wykrywa, kiedy są wadliwe, a jądro Linuksa zgłasza to jako wiadomości.
Opcja jądra
pci=nommconf
wyłącza przestrzeń konfiguracji PCI zmapowaną w pamięci, która jest dostępna w systemie Linux od jądra 2.6. Z grubsza, wszystkie urządzenia PCI mają obszar opisujący to urządzenie (co widaćlspci -vv
), a pierwotna metoda dostępu do tego obszaru wymaga przejścia przez porty I / O, podczas gdy PCIe pozwala na mapowanie tego miejsca do pamięci w celu łatwiejszego dostępu.Oznacza to, że w tym konkretnym przypadku coś idzie nie tak, gdy kontroler PCIe korzysta z tej metody w celu uzyskania dostępu do przestrzeni konfiguracyjnej określonego urządzenia. Może to być błąd sprzętowy w urządzeniu, w kontrolerze głównym PCIe na płycie głównej, w specyficznej interakcji tych dwóch lub coś innego.
Korzystając z niego
pci=nommconf
, przestrzeń konfiguracyjna wszystkich urządzeń będzie dostępna w oryginalny sposób, a zmiana metod dostępu obejdzie ten problem. Więc jeśli chcesz, rozwiązuje to i tłumi.źródło
Dodanie opcji wiersza polecenia jądra
pci=nommconf
rozwiązało problem. Dlatego zakładam, że problem dotyczy płyty głównej. Zdarza się to na wszystkich moich komputerach wyposażonych w płytę główną X99. Nie dzieje się tak w systemach Z170 ani na żadnym innym sprzęcie, który posiadam.źródło
Spróbuj wykonać następujące czynności:
cp /etc/default/grub ~/Desktop
Edytuj grub. Dodaj
pci=noaer
na końcuGRUB_CMDLINE_LINUX_DEFAULT
. Linia będzie taka:sudo cp ~/Desktop/grub /etc/default/
sudo update-grub
źródło
pci=noaer
użyłempci=nommconf
zgodnie z sugestią @dirktsudoedit
do bezpiecznej edycji? -1 dla tych kopii tu i tam są kompletne bzdurypci=noaer
po prostu wyłącza Zaawansowane raportowanie błędów. Więc nadal masz te błędy, po prostu ich nie widzisz ...Otrzymuję te same błędy (Zła TLP skojarzona z urządzeniem 8086: 6f08). Mam X99 Deluxe II, Samsung 960 pro, Nvidia 1080 ti. Problemy te wydają się być związane z mikroukładem X99 i urządzeniem M.2, takim jak Samsung Pro.
Płyta główna X99 Deluxe II dzieli szerokość pasma między gniazdem PCIE16_3 a M.2 / U.2. Po komentarzu @Nic w BIOSie zmieniłem konfigurację urządzeń pokładowych | U.2_2 Przepustowość od Auto do U.2_2. To rozwiązało problem.
źródło
Zmieniłem konfigurację gniazda PCIE16_3 w Biosie na moim x99-E, aby być statycznym ustawionym na tryb x8 zamiast auto, który jest domyślny dla obsługi urządzeń M.2. Działa teraz dobrze bez błędów TLP na obu moich kartach 1070GTX podłączonych przez karty rozszerzeń PCIe 1x do 16x.
Najpierw nie użyłem portu 16_3, przeniosłem się do tego gniazda, aby przetestować, ale nadal miałem problemy przed zmianą bios. Zmieniono również ustawienie snu dla wszystkich kart na 30 w konfiguracji górnika.
Przed zmianą miałem dziennik jądra spamowany błędami. Próbowałem także uruchomić system przed i po zmianie. Wydaje się być dość wytrwały.
źródło
Wyszukaj w instrukcji płyty głównej „AER”. Możesz zabić źródło problemu, poprawiając konkretną niezgodność lub całkowicie wyłączając AER. Używaj tego tylko wtedy, gdy cały spam spam dotyczy poprawionych błędów, w przeciwnym razie możesz ukryć rzeczywisty problem.
źródło