Still working to recover. Please don't edit quite yet.
User:A★G/risorse esterne
Si é posto il problema della disponibilitá delle risorse esterne ad Anarchopedia. Alcuni siti possono scomparire, o diventare indisponibili e con essi le risorse collegate da qui. Quindi ho messo a punto una linea di comando che scarica le pagine da anarchopedia e tutte le risorse esterne collegate (di solito immagini, testi HTML). I link rotti vengono annotati nel file broken.log
- Ricetta per salvare link esterni
-
webxurl --timeout 60 --redir 2 --brokenlog broken.log --dig 0 "." "-e wikimedia.org -e youtube.com -e ita.anarchopedia.org/" --dig 5 "ita.anarchopedia.org" "\\?" --redir 1 --links http://ita.anarchopedia.org/
- Ricetta per trovare i link esterni rotti senza scaricarli
-
webxurl --timeout 60 --redir 2 --brokenlog broken.log --checklinks --grep "-v -e wikimedia.org -e youtube.com -e anarchopedia" --dig 5 "ita.anarchopedia.org" "\\?" --redir 1 --links http://ita.anarchopedia.org/
Per far funzionare lo script occorre un sistema GNU/Linux o Unix ordinario con i seguenti programmi installati:
- netcat
- webxurl (script ottenibile qui: http://gitorious.org/webxurl/webxurl/blobs/raw/master/webxurl)
Per scaricare i video da youtube occorre invece una versione modificata dello script, probabilmente utilizzando youtube-dl
.
--A★G 05:53, 12 mag 2010 (UTC)
Ho appena sistemato un problema nello script webxurl
(mancava una funzione urltopathname
). --A★G 19:16, 12 mag 2010 (UTC)
Breve spiegazione di alcune componenti della linea di comando:
--timeout 60
- imposta un limite massimo di 60 secondi per le connessioni e il trasferimento dati.
--redir 2
- imposta un massimo di 2 redirezioni da seguire per ogni link.
--dig 0 "." "-e wikimedia.org -e youtube.com -e ita.anarchopedia.org/"
- salva i link, escludendo wikimedia.org, youtube.com e ita.anarchopedia.org.
--dig 5 "ita.anarchopedia.org" "\\?"
- salva i link di ita.anarchopedia.org, fino a 5 livelli di profonditá.