Как скачать фотоальбом из Picasaweb целиком?

Понадобилось мне выкачать все полноразмерные фотографии из некоего альбома, опубликованого в Picasaweb. Около 80 фоток. Кликать на каждое preview и делать "save image as ..." - долго и моторошно. Из подручных средств сложилось вот такое решение:

1)В правом нижнем углу страницы picasaweb есть ссылка на RSS feed. Делаем ей "save trarget as" в какой-то файл, например "album.xml"

2)Теперь надо выгрести из этого файла ссылки на картинки. Они там идут в таких вот тэгах:
"<media:content url='http://xyz.google.com/......../img00001.jpg' .../>"

Берем утилиту для извлечения кусок из xml и html-файлов по XPath-подобным выражениям под названием Xtract и делаем вот так:
Xtract '//media:content/@url' album.xml > IMAGES

Соответственно, в файл "IMAGES" попадают все значения атрибута "url" из всех тэгов "media:content".

3)Дальше на этот файл натравливается любая качалка (например, "wget -i IMAGES") и все, дело в шляпе.

Написать этот пост заняло где-то в десять раза больше времени, чем собственно провести все манипуляции :)

Наверняка я изобрел велосипед. Ну и фиг с ним :)
Рецепт пусть остается мне для истории, а вам, возможно, пригодится ссылочка на Xtract.

Flat | Top-Level Comments Only

From:

feb-13.livejournal.com

А что делает кнопка "скачать альбом"? Я её не нажимал никогда, но думаю, что ты её видел

From:

chew.livejournal.com

Присоединяюсь к вопросу.

From:

payalnik.livejournal.com

позволяет скачать альбом целиком :) в установленную программу пиказа. чего и автору поста желаю, хотя за нутро галерей - спасибо!

From:

basanov.livejournal.com

Есть подозрение, что для этого надо подружиться с автором альбома или что-то подобное. =)

Но вообще она рулит. Действительно скачивает альбом.

From:

feb-13.livejournal.com

если альбом скрытый, feed ты тоже не достанешь без правильной ссылки

From:

http://users.livejournal.com/_adept_/

А где эта кнопка?

From:

feb-13.livejournal.com

Слева, с эмблемой пикасы. Требование - установленный клиент

From:

http://users.livejournal.com/_adept_/

Я ее не видел, т.к. у меня в браузере нет поддержки протокола picasaweb. Ну, не добавил ее туда инсталлятор picasa - что делать.

From:

fenikso.livejournal.com

in simple cases, grep+sed works as poor man's Xtract :)

From:

nponeccop.livejournal.com

я использую perl -n. Интересно, xtract работает на не well-formed документах? РСС в большинстве случаев конечно well-formed, чего не скажешь про обычные страницы в духе жж

Да, интересно темы когда-нибудь переверстают на ксс?

From:

http://users.livejournal.com/_adept_/

На не-well-formed - скорее не работает, чем работает. Ему ж аналог DOM-а надо построить, чтобы запросы выполнять, а если документ не well-formed - то как же его построить?

Это надо что-то вроде SAX или TagSoup использовать.

From:

nponeccop.livejournal.com

Ну, браузер теоретически тоже не должон корявые документы рендерить - но он рендерит. Соответственно, можно было б сделать в инструменте какой quirks mode который бы теги наугад дорисовывал

From:

http://users.livejournal.com/_adept_/

Корявые, как правило != не-well-formed

Закрывать тэги наугад - это путь в никуда. А вдруг этот тэг закрывается "правильно" 10 байтами далее?

Тогда уже лучше документ целиком рандомно генерить.

From:

nponeccop.livejournal.com

та ладно! пара неправильно дорисованных тегов ещё никому не вредила. Ну и хрен с ним с этим тегом - корявостей-то не так много обычно по сравнению с общей массой, если они испортятся - это вряд ли помешает тебе извлечь то что нужно.

Но я не только закрытие тегов имел ввиду - еще есть нарушения вложенности, атрибуты без кавычек, compact-атрибуты (ака имя без значения) и незаэскейпленные энтитис (ака амперсанды в урл). Все эти штуки мешают парсить файл парсеру, соответствующему стандартам. Соответственно надо или писать свой парсер хитрый, либо столь же хитро препроцессить такие штуки.

From:

http://users.livejournal.com/_adept_/

Это да. Кстати, и тут случай простой достаточно. У меня вероятно просто реакция сработала - раз XML, значит, надо грепать по XPath :)

From:

kalobyte.livejournal.com

у тебя вышел отличный велосипед с квадратными колесами
и на нем можно даже ездить по шпалам
главное выполнить задачу

а пиказа вроде и в линупсе работает

From:

http://users.livejournal.com/_adept_/

А вот последнюю фразу я не понял :(

From:

feb-13.livejournal.com

последняя фраза к тому, что имеется клиент для линукса :)

From:

kalobyte.livejournal.com

ну по крайней мере на лоре говорили
не то портировали, не то через вайн стала работать

в пиказе веб есть кнопка для скачивания альбома всего
при нажатии ее пиказа на компе подхватывает линк и качает весь альбом

From:

http://users.livejournal.com/_adept_/

Уже нашел. У меня инсталлер пикасы не сделал нужные настройки в pref.js у Firefox. Ну, и фиг с ним :)

From:

pufpuf.livejournal.com

https://addons.mozilla.org/en-US/firefox/addon/201

From:

http://users.livejournal.com/_adept_/

А не спасает, имхо. Т.к. ссылки на целевые картинки - не с оглавления альбома, а со "следующих" страниц, которые открываются при нажатии на thumbnail.

From:

feb-13.livejournal.com

+1. аддон с пикасой не поможет

(deleted comment)

From:

http://users.livejournal.com/_adept_/

В смысле?

У меня правый sidebar тупо набит разнообразными картинками и ссылками. На все - про все всего два html-тэга - <a href="...">zzz</a> и <img src="...">

Стиль (wizard-smoothsailing) специально взял такой, который позволяет просто указывать текст с html-разметкой, не диктуя мне, что и в каком порядке показывать.

From:

olpa.livejournal.com

А вот так картинки загружаются пачкой:

mass-upload to picasaweb from Linux
http://uucode.com/blog/2007/09/28/mass-upload-to-picasaweb-from-linux/

From:

http://users.livejournal.com/_adept_/

Спасибо, тоже заначу на будущее - вдруг когда-нибудь захочется фотографии на пикассу перенести.

From:

vdas.livejournal.com

так и непонял, как сделать вот такое:
Xtract '//media:content/(@pavad + @url)' album.xml > IMAGES

с xml тэгами - работает
Xtract '//media:content/(tpavad + turl)' album.xml > IMAGES
, а с атрибутами - нет...

можно ли вытащить несколько атрибутов из хмл файла?
А-ля:
картинка1 http://www.zz.com/bubu.jpg
картинка2 http://www.zz.com/bubu2.jpg

From:

http://users.livejournal.com/_adept_/

Картинки уже за-expire-лись, похоже :(

Попробовал извлечь несколько аттрибутов ... Да, похоже, что это баг. Если дойдут руки - накатаю багрепорт, но рекомендую вам сделать это самостоятельно. По моему опыту - автор реагирует очень оперативно.

From:

alogic.livejournal.com

Оказывается в Debian есть, пакет haxml. А я промучался несколько часов, пытаясь скомпилировать сам, потому что бинарник из ссылки не работает. Зато узнал много про haskell.

From: (Anonymous)

www.picasa2html.com
?

From:

http://users.livejournal.com/_adept_/

О, спасибо. Заначу на будущее.

From:

cyxymu.livejournal.com

простите, но я видимо не правильно что то сделал.
скачал эту прогу, в командной строке все это записал, прога создает файл имиджы но туда ничего не выдергивается. что делать?

From:

http://users.livejournal.com/_adept_/

Похоже, версия на сайте (0.7) имеет-таки какой-то баг по сравнению с версией, которую можно собрать из исходников (1.19) :(

From:

cyxymu.livejournal.com

да уж, собрать мне точно не удастся

From:

http://users.livejournal.com/_adept_/

Бинарниками под linux могу поделиться, под другие платформы - увы. Но на Xtract свет клином не сошелся - есть другие утилиты с похожей функциональность.

From:

cyxymu.livejournal.com

не, спасибо, мне вот это помогло http://www.picasa2html.com/

From:

jankkhvej.blogspot.com (from livejournal.com)

Гм. Я открываю этот фид в фаерфоксе, у меня установлен менеджер закачек, я вызываю на страничке открытого фида "закачать всё", выбираю нужные файлы, и скачиваю. хотя конечно если на хосте нет иксов, то шелл-скрипт самое оно :)

From:

http://users.livejournal.com/_adept_/

Это чит :)

Flat | Top-Level Comments Only

M	T	W	T	F	S	S
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Я знаю Haskell, OCaml, GSM, эндофункторы и много других страшных слов

Page Summary

Style Credit

Expand Cut Tags