dastapov | Как скачать фотоальбом из Picasaweb целиком?

Понадобилось мне выкачать все полноразмерные фотографии из некоего альбома, опубликованого в Picasaweb. Около 80 фоток. Кликать на каждое preview и делать "save image as ..." - долго и моторошно. Из подручных средств сложилось вот такое решение:

1)В правом нижнем углу страницы picasaweb есть ссылка на RSS feed. Делаем ей "save trarget as" в какой-то файл, например "album.xml"

2)Теперь надо выгрести из этого файла ссылки на картинки. Они там идут в таких вот тэгах:
"<media:content url='http://xyz.google.com/......../img00001.jpg' .../>"

Берем утилиту для извлечения кусок из xml и html-файлов по XPath-подобным выражениям под названием Xtract и делаем вот так:
Xtract '//media:content/@url' album.xml > IMAGES

Соответственно, в файл "IMAGES" попадают все значения атрибута "url" из всех тэгов "media:content".

3)Дальше на этот файл натравливается любая качалка (например, "wget -i IMAGES") и все, дело в шляпе.

Написать этот пост заняло где-то в десять раза больше времени, чем собственно провести все манипуляции :)

Наверняка я изобрел велосипед. Ну и фиг с ним :)
Рецепт пусть остается мне для истории, а вам, возможно, пригодится ссылочка на Xtract.

Flat | Top-Level Comments Only

From:

http://users.livejournal.com/_adept_/

На не-well-formed - скорее не работает, чем работает. Ему ж аналог DOM-а надо построить, чтобы запросы выполнять, а если документ не well-formed - то как же его построить?

Это надо что-то вроде SAX или TagSoup использовать.

nponeccop.livejournal.com

Ну, браузер теоретически тоже не должон корявые документы рендерить - но он рендерит. Соответственно, можно было б сделать в инструменте какой quirks mode который бы теги наугад дорисовывал

Корявые, как правило != не-well-formed

Закрывать тэги наугад - это путь в никуда. А вдруг этот тэг закрывается "правильно" 10 байтами далее?

Тогда уже лучше документ целиком рандомно генерить.

та ладно! пара неправильно дорисованных тегов ещё никому не вредила. Ну и хрен с ним с этим тегом - корявостей-то не так много обычно по сравнению с общей массой, если они испортятся - это вряд ли помешает тебе извлечь то что нужно.

Но я не только закрытие тегов имел ввиду - еще есть нарушения вложенности, атрибуты без кавычек, compact-атрибуты (ака имя без значения) и незаэскейпленные энтитис (ака амперсанды в урл). Все эти штуки мешают парсить файл парсеру, соответствующему стандартам. Соответственно надо или писать свой парсер хитрый, либо столь же хитро препроцессить такие штуки.

M	T	W	T	F	S	S
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

dump -0f - /dev/mind

Я знаю Haskell, OCaml, GSM, эндофункторы и много других страшных слов

Как скачать фотоальбом из Picasaweb целиком?

(no subject)

(no subject)

(no subject)

(no subject)

Profile

May 2022

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags