Понадобилось мне выкачать все полноразмерные фотографии из некоего альбома, опубликованого в Picasaweb. Около 80 фоток. Кликать на каждое preview и делать "save image as ..." - долго и моторошно. Из подручных средств сложилось вот такое решение:
1)В правом нижнем углу страницы picasaweb есть ссылка на RSS feed. Делаем ей "save trarget as" в какой-то файл, например "album.xml"
2)Теперь надо выгрести из этого файла ссылки на картинки. Они там идут в таких вот тэгах:
"<media:content url='http://xyz.google.com/......../img00001.jpg' .../>"
Берем утилиту для извлечения кусок из xml и html-файлов по XPath-подобным выражениям под названием Xtract и делаем вот так:
Xtract '//media:content/@url' album.xml > IMAGES
Соответственно, в файл "IMAGES" попадают все значения атрибута "url" из всех тэгов "media:content".
3)Дальше на этот файл натравливается любая качалка (например, "wget -i IMAGES") и все, дело в шляпе.
Написать этот пост заняло где-то в десять раза больше времени, чем собственно провести все манипуляции :)
Наверняка я изобрел велосипед. Ну и фиг с ним :)
Рецепт пусть остается мне для истории, а вам, возможно, пригодится ссылочка на Xtract.
1)В правом нижнем углу страницы picasaweb есть ссылка на RSS feed. Делаем ей "save trarget as" в какой-то файл, например "album.xml"
2)Теперь надо выгрести из этого файла ссылки на картинки. Они там идут в таких вот тэгах:
"<media:content url='http://xyz.google.com/......../img00001.jpg' .../>"
Берем утилиту для извлечения кусок из xml и html-файлов по XPath-подобным выражениям под названием Xtract и делаем вот так:
Xtract '//media:content/@url' album.xml > IMAGES
Соответственно, в файл "IMAGES" попадают все значения атрибута "url" из всех тэгов "media:content".
3)Дальше на этот файл натравливается любая качалка (например, "wget -i IMAGES") и все, дело в шляпе.
Написать этот пост заняло где-то в десять раза больше времени, чем собственно провести все манипуляции :)
Наверняка я изобрел велосипед. Ну и фиг с ним :)
Рецепт пусть остается мне для истории, а вам, возможно, пригодится ссылочка на Xtract.
(no subject)
Date: 2007-09-28 08:55 am (UTC)(no subject)
Date: 2007-09-28 08:57 am (UTC)(no subject)
Date: 2007-09-28 09:06 am (UTC)(no subject)
Date: 2007-09-28 09:55 am (UTC)Но вообще она рулит. Действительно скачивает альбом.
(no subject)
Date: 2007-09-28 10:02 am (UTC)(no subject)
Date: 2007-09-28 11:01 am (UTC)(no subject)
Date: 2007-09-28 11:13 am (UTC)(no subject)
Date: 2007-09-28 08:42 pm (UTC)(no subject)
Date: 2007-09-28 08:57 am (UTC)(no subject)
Date: 2007-09-28 10:35 am (UTC)Да, интересно темы когда-нибудь переверстают на ксс?
(no subject)
Date: 2007-09-28 11:04 am (UTC)Это надо что-то вроде SAX или TagSoup использовать.
(no subject)
Date: 2007-09-28 03:54 pm (UTC)(no subject)
Date: 2007-09-28 08:44 pm (UTC)Закрывать тэги наугад - это путь в никуда. А вдруг этот тэг закрывается "правильно" 10 байтами далее?
Тогда уже лучше документ целиком рандомно генерить.
(no subject)
Date: 2007-09-29 03:24 am (UTC)Но я не только закрытие тегов имел ввиду - еще есть нарушения вложенности, атрибуты без кавычек, compact-атрибуты (ака имя без значения) и незаэскейпленные энтитис (ака амперсанды в урл). Все эти штуки мешают парсить файл парсеру, соответствующему стандартам. Соответственно надо или писать свой парсер хитрый, либо столь же хитро препроцессить такие штуки.
(no subject)
Date: 2007-09-28 11:02 am (UTC)(no subject)
Date: 2007-09-28 09:34 am (UTC)и на нем можно даже ездить по шпалам
главное выполнить задачу
а пиказа вроде и в линупсе работает
(no subject)
Date: 2007-09-28 11:02 am (UTC)(no subject)
Date: 2007-09-28 11:14 am (UTC)(no subject)
Date: 2007-09-28 11:17 am (UTC)не то портировали, не то через вайн стала работать
в пиказе веб есть кнопка для скачивания альбома всего
при нажатии ее пиказа на компе подхватывает линк и качает весь альбом
(no subject)
Date: 2007-09-28 08:45 pm (UTC)(no subject)
Date: 2007-09-28 09:44 am (UTC)(no subject)
Date: 2007-09-28 11:03 am (UTC)(no subject)
Date: 2007-09-28 11:14 am (UTC)(no subject)
Date: 2007-09-29 05:54 pm (UTC)У меня правый sidebar тупо набит разнообразными картинками и ссылками. На все - про все всего два html-тэга - <a href="...">zzz</a> и <img src="...">
Стиль (wizard-smoothsailing) специально взял такой, который позволяет просто указывать текст с html-разметкой, не диктуя мне, что и в каком порядке показывать.
(no subject)
Date: 2007-09-30 01:32 am (UTC)mass-upload to picasaweb from Linux
http://uucode.com/blog/2007/09/28/mass-upload-to-picasaweb-from-linux/
(no subject)
Date: 2007-10-13 07:32 pm (UTC)вопрос, простите
Date: 2007-10-01 11:39 am (UTC)Xtract '//media:content/(@pavad + @url)' album.xml > IMAGES
с xml тэгами - работает
Xtract '//media:content/(tpavad + turl)' album.xml > IMAGES
, а с атрибутами - нет...
можно ли вытащить несколько атрибутов из хмл файла?
А-ля:
картинка1 http://www.zz.com/bubu.jpg
картинка2 http://www.zz.com/bubu2.jpg
Re: вопрос, простите
Date: 2007-10-04 01:38 pm (UTC)Попробовал извлечь несколько аттрибутов ... Да, похоже, что это баг. Если дойдут руки - накатаю багрепорт, но рекомендую вам сделать это самостоятельно. По моему опыту - автор реагирует очень оперативно.
(no subject)
Date: 2007-10-03 01:51 am (UTC)(no subject)
Date: 2007-10-07 05:51 pm (UTC)?
(no subject)
Date: 2007-10-13 07:28 pm (UTC)(no subject)
Date: 2008-03-21 10:42 am (UTC)скачал эту прогу, в командной строке все это записал, прога создает файл имиджы но туда ничего не выдергивается. что делать?
(no subject)
Date: 2008-03-22 03:24 pm (UTC)(no subject)
Date: 2008-03-24 07:19 am (UTC)(no subject)
Date: 2008-03-27 11:29 pm (UTC)(no subject)
Date: 2008-03-28 07:38 am (UTC)(no subject)
Date: 2008-12-13 09:03 pm (UTC)(no subject)
Date: 2008-12-17 10:49 pm (UTC)