Still working to recover. Please don't edit quite yet.

User:A★G/risorse esterne

From Anarchopedia
Jump to: navigation, search

Si é posto il problema della disponibilitá delle risorse esterne ad Anarchopedia. Alcuni siti possono scomparire, o diventare indisponibili e con essi le risorse collegate da qui. Quindi ho messo a punto una linea di comando che scarica le pagine da anarchopedia e tutte le risorse esterne collegate (di solito immagini, testi HTML). I link rotti vengono annotati nel file broken.log

Ricetta per salvare link esterni
webxurl --timeout 60 --redir 2 --brokenlog broken.log --dig 0 "." "-e wikimedia.org -e youtube.com -e ita.anarchopedia.org/" --dig 5 "ita.anarchopedia.org" "\\?" --redir 1 --links http://ita.anarchopedia.org/
Ricetta per trovare i link esterni rotti senza scaricarli
webxurl --timeout 60 --redir 2 --brokenlog broken.log --checklinks --grep "-v -e wikimedia.org -e youtube.com -e anarchopedia" --dig 5 "ita.anarchopedia.org" "\\?" --redir 1 --links http://ita.anarchopedia.org/

Per far funzionare lo script occorre un sistema GNU/Linux o Unix ordinario con i seguenti programmi installati:

Per scaricare i video da youtube occorre invece una versione modificata dello script, probabilmente utilizzando youtube-dl. --A★G 05:53, 12 mag 2010 (UTC)

Ho appena sistemato un problema nello script webxurl (mancava una funzione urltopathname). --A★G 19:16, 12 mag 2010 (UTC)

Breve spiegazione di alcune componenti della linea di comando:

--timeout 60
imposta un limite massimo di 60 secondi per le connessioni e il trasferimento dati.
--redir 2
imposta un massimo di 2 redirezioni da seguire per ogni link.
--dig 0 "." "-e wikimedia.org -e youtube.com -e ita.anarchopedia.org/"
salva i link, escludendo wikimedia.org, youtube.com e ita.anarchopedia.org.
--dig 5 "ita.anarchopedia.org" "\\?"
salva i link di ita.anarchopedia.org, fino a 5 livelli di profonditá.