Still working to recover. Please don't edit quite yet.
Difference between revisions of "User:A★G/risorse esterne"
(Nuova pagina: Si é posto il problema della disponibilitá delle risorse esterne ad Anarchopedia. Alcuni siti possono scomparire, o diventare indisponibili e con essi le risorse collegate da qui. ...) |
m |
||
(8 intermediate revisions by the same user not shown) | |||
Line 1: | Line 1: | ||
− | Si é posto il problema della disponibilitá delle risorse esterne ad Anarchopedia. Alcuni siti possono scomparire, o diventare indisponibili e con essi le risorse collegate da qui. Quindi ho messo a punto una linea di comando che scarica le pagine da anarchopedia e tutte le risorse collegate (di solito immagini, testi HTML). I link rotti vengono annotati nel file <code>broken.log</code> | + | Si é posto il problema della disponibilitá delle risorse esterne ad Anarchopedia. Alcuni siti possono scomparire, o diventare indisponibili e con essi le risorse collegate da qui. Quindi ho messo a punto una linea di comando che scarica le pagine da anarchopedia e tutte le risorse esterne collegate (di solito immagini, testi HTML). I link rotti vengono annotati nel file <code>broken.log</code> |
− | <code>webxurl --redir 2 --brokenlog broken.log --dig | + | ;Ricetta per salvare link esterni: <code>webxurl --timeout 60 --redir 2 --brokenlog broken.log --dig 0 "." "-e wikimedia.org -e youtube.com -e ita.anarchopedia.org/" --dig 5 "ita.anarchopedia.org" "\\?" --redir 1 --links http://ita.anarchopedia.org/</code> |
− | Per far funzionare lo script occorre un sistema | + | ;Ricetta per trovare i link esterni rotti senza scaricarli: <code>webxurl --timeout 60 --redir 2 --brokenlog broken.log --checklinks --grep "-v -e wikimedia.org -e youtube.com -e anarchopedia" --dig 5 "ita.anarchopedia.org" "\\?" --redir 1 --links http://ita.anarchopedia.org/</code> |
+ | |||
+ | Per far funzionare lo script occorre un sistema [[GNU/Linux]] o Unix ordinario con i seguenti programmi installati: | ||
* netcat | * netcat | ||
− | |||
* webxurl (script ottenibile qui: http://gitorious.org/webxurl/webxurl/blobs/raw/master/webxurl) | * webxurl (script ottenibile qui: http://gitorious.org/webxurl/webxurl/blobs/raw/master/webxurl) | ||
− | --[[Utente:A★G|A★G]] | + | Per scaricare i video da youtube occorre invece una versione modificata dello script, probabilmente utilizzando <code>youtube-dl</code>. |
+ | --[[Utente:A★G|A★G]] 05:53, 12 mag 2010 (UTC) | ||
+ | |||
+ | Ho appena sistemato un problema nello script <code>webxurl</code> (mancava una funzione <code>urltopathname</code>). --[[Utente:A★G|A★G]] 19:16, 12 mag 2010 (UTC) | ||
+ | |||
+ | Breve spiegazione di alcune componenti della linea di comando: | ||
+ | |||
+ | ;<code>--timeout 60</code>: imposta un limite massimo di 60 secondi per le connessioni e il trasferimento dati. | ||
+ | ;<code>--redir 2</code>: imposta un massimo di 2 redirezioni da seguire per ogni link. | ||
+ | ;<code>--dig 0 "." "-e wikimedia.org -e youtube.com -e ita.anarchopedia.org/"</code>: salva i link, escludendo wikimedia.org, youtube.com e ita.anarchopedia.org. | ||
+ | ;<code>--dig 5 "ita.anarchopedia.org" "\\?"</code>: salva i link di ita.anarchopedia.org, fino a 5 livelli di profonditá. |
Latest revision as of 01:05, 13 May 2010
Si é posto il problema della disponibilitá delle risorse esterne ad Anarchopedia. Alcuni siti possono scomparire, o diventare indisponibili e con essi le risorse collegate da qui. Quindi ho messo a punto una linea di comando che scarica le pagine da anarchopedia e tutte le risorse esterne collegate (di solito immagini, testi HTML). I link rotti vengono annotati nel file broken.log
- Ricetta per salvare link esterni
-
webxurl --timeout 60 --redir 2 --brokenlog broken.log --dig 0 "." "-e wikimedia.org -e youtube.com -e ita.anarchopedia.org/" --dig 5 "ita.anarchopedia.org" "\\?" --redir 1 --links http://ita.anarchopedia.org/
- Ricetta per trovare i link esterni rotti senza scaricarli
-
webxurl --timeout 60 --redir 2 --brokenlog broken.log --checklinks --grep "-v -e wikimedia.org -e youtube.com -e anarchopedia" --dig 5 "ita.anarchopedia.org" "\\?" --redir 1 --links http://ita.anarchopedia.org/
Per far funzionare lo script occorre un sistema GNU/Linux o Unix ordinario con i seguenti programmi installati:
- netcat
- webxurl (script ottenibile qui: http://gitorious.org/webxurl/webxurl/blobs/raw/master/webxurl)
Per scaricare i video da youtube occorre invece una versione modificata dello script, probabilmente utilizzando youtube-dl
.
--A★G 05:53, 12 mag 2010 (UTC)
Ho appena sistemato un problema nello script webxurl
(mancava una funzione urltopathname
). --A★G 19:16, 12 mag 2010 (UTC)
Breve spiegazione di alcune componenti della linea di comando:
--timeout 60
- imposta un limite massimo di 60 secondi per le connessioni e il trasferimento dati.
--redir 2
- imposta un massimo di 2 redirezioni da seguire per ogni link.
--dig 0 "." "-e wikimedia.org -e youtube.com -e ita.anarchopedia.org/"
- salva i link, escludendo wikimedia.org, youtube.com e ita.anarchopedia.org.
--dig 5 "ita.anarchopedia.org" "\\?"
- salva i link di ita.anarchopedia.org, fino a 5 livelli di profonditá.