Staram się więc utworzyć skrypt w języku Python, który pobierze webcomiki i umieści je w folderze na pulpicie. Znalazłem tutaj kilka podobnych programów, które robią coś podobnego, ale nic podobnego do tego, czego potrzebuję. Ten, który najbardziej podobał mi się, znajduje się tutaj ( http://bytes.com/topic/python/answers/850927-problem-using-urllib-download-images ). Próbowałem użyć tego kodu:
>>> import urllib
>>> image = urllib.URLopener()
>>> image.retrieve("http://www.gunnerkrigg.com//comics/00000001.jpg","00000001.jpg")
('00000001.jpg', <httplib.HTTPMessage instance at 0x1457a80>)
Następnie przeszukałem komputer w poszukiwaniu pliku „00000001.jpg”, ale wszystko, co znalazłem, to jego buforowane zdjęcie. Nie jestem nawet pewien, czy zapisał plik na moim komputerze. Gdy zrozumiem, jak pobrać plik, myślę, że wiem, jak sobie z tym poradzić. Zasadniczo wystarczy użyć pętli for i podzielić ciąg na „00000000”. „Jpg” i zwiększyć „00000000” do największej liczby, którą musiałbym jakoś określić. Wszelkie zalecenia dotyczące najlepszego sposobu wykonania tego zadania lub prawidłowego pobrania pliku?
Dzięki!
EDYCJA 6/15/10
Oto gotowy skrypt, który zapisuje pliki w dowolnym wybranym katalogu. Z jakiegoś dziwnego powodu pliki nie były pobierane i właśnie to zrobiły. Wszelkie sugestie dotyczące tego, jak to wyczyścić, byłyby bardzo mile widziane. Obecnie pracuję nad tym, jak dowiedzieć się, że na stronie istnieje wiele komiksów, dzięki czemu mogę uzyskać najnowszą, zamiast wyłączania programu po wystąpieniu pewnej liczby wyjątków.
import urllib
import os
comicCounter=len(os.listdir('/file'))+1 # reads the number of files in the folder to start downloading at the next comic
errorCount=0
def download_comic(url,comicName):
"""
download a comic in the form of
url = http://www.example.com
comicName = '00000000.jpg'
"""
image=urllib.URLopener()
image.retrieve(url,comicName) # download comicName at URL
while comicCounter <= 1000: # not the most elegant solution
os.chdir('/file') # set where files download to
try:
if comicCounter < 10: # needed to break into 10^n segments because comic names are a set of zeros followed by a number
comicNumber=str('0000000'+str(comicCounter)) # string containing the eight digit comic number
comicName=str(comicNumber+".jpg") # string containing the file name
url=str("http://www.gunnerkrigg.com//comics/"+comicName) # creates the URL for the comic
comicCounter+=1 # increments the comic counter to go to the next comic, must be before the download in case the download raises an exception
download_comic(url,comicName) # uses the function defined above to download the comic
print url
if 10 <= comicCounter < 100:
comicNumber=str('000000'+str(comicCounter))
comicName=str(comicNumber+".jpg")
url=str("http://www.gunnerkrigg.com//comics/"+comicName)
comicCounter+=1
download_comic(url,comicName)
print url
if 100 <= comicCounter < 1000:
comicNumber=str('00000'+str(comicCounter))
comicName=str(comicNumber+".jpg")
url=str("http://www.gunnerkrigg.com//comics/"+comicName)
comicCounter+=1
download_comic(url,comicName)
print url
else: # quit the program if any number outside this range shows up
quit
except IOError: # urllib raises an IOError for a 404 error, when the comic doesn't exist
errorCount+=1 # add one to the error count
if errorCount>3: # if more than three errors occur during downloading, quit the program
break
else:
print str("comic"+ ' ' + str(comicCounter) + ' ' + "does not exist") # otherwise say that the certain comic number doesn't exist
print "all comics are up to date" # prints if all comics are downloaded
beautifulsoup
? Ten post pojawia się na liście najważniejszychbeautifulsoup
pytańOdpowiedzi:
Python 2
Korzystanie z urllib.urlretrieve
Python 3
Korzystanie z urllib.request.urlretrieve (część starszego interfejsu Python 3 działa dokładnie tak samo)
źródło
import urllib.request urllib.request.retrieve("http://...")
import urllib.request urllib.request.urlretrieve("http://...jpg", "1.jpg")
. Jesturlretrieve
teraz od 3.x.źródło
Dla przypomnienia, używając biblioteki żądań.
Chociaż powinien sprawdzić, czy nie występuje błąd requests.get ().
źródło
W przypadku Python 3 musisz zaimportować
import urllib.request
:po więcej informacji sprawdź link
źródło
Wersja @ DiGMi w wersji Python 3:
źródło
Znalazłem tę odpowiedź i edytuję ją w bardziej niezawodny sposób
Dzięki temu nigdy nie otrzymujesz żadnych innych zasobów ani wyjątków podczas pobierania.
źródło
Jeśli wiesz, że pliki znajdują się w tym samym katalogu
dir
witrynysite
i mają następujący format: nazwa_pliku_01.jpg, ..., nazwa_pliku10.jpg, a następnie pobierz je wszystkie:źródło
Najłatwiej jest po prostu użyć
.read()
do odczytania częściowej lub całkowitej odpowiedzi, a następnie zapisać ją w pliku otwartym w znanej dobrej lokalizacji.źródło
Może potrzebujesz „User-Agent”:
źródło
Oprócz sugerowania
retrieve()
uważnego przeczytania dokumentacji ( http://docs.python.org/library/urllib.html#urllib.URLopener.retrieve ), sugerowałbym faktycznie przywołanieread()
treści odpowiedzi, a następnie zapisanie jej w wybrany plik zamiast pozostawiać go w utworzonym pliku tymczasowym.źródło
Wszystkie powyższe kody nie pozwalają zachować oryginalnej nazwy obrazu, która czasem jest wymagana. Pomoże to w zapisaniu obrazów na dysku lokalnym, zachowując oryginalną nazwę obrazu
Spróbuj tego, aby uzyskać więcej informacji.
źródło
To działało dla mnie przy użyciu Pythona 3.
Pobiera listę adresów URL z pliku csv i rozpoczyna pobieranie ich do folderu. Jeśli treść lub obraz nie istnieje, bierze ten wyjątek i kontynuuje swoją magię.
źródło
Prostszym rozwiązaniem może być (python 3):
źródło
A co z tym:
źródło
Jeśli potrzebujesz wsparcia proxy, możesz to zrobić:
źródło
Innym sposobem jest skorzystanie z biblioteki fastai. To działało dla mnie jak urok. Stawałem czoła
SSL: CERTIFICATE_VERIFY_FAILED Error
używaniu,urlretrieve
więc spróbowałem.źródło
Korzystanie z wniosków
źródło
Za pomocą urllib możesz to zrobić natychmiast.
źródło