dastapov: (Default)
[personal profile] dastapov
Понадобилось мне выкачать все полноразмерные фотографии из некоего альбома, опубликованого в Picasaweb. Около 80 фоток. Кликать на каждое preview и делать "save image as ..." - долго и моторошно. Из подручных средств сложилось вот такое решение:

1)В правом нижнем углу страницы picasaweb есть ссылка на RSS feed. Делаем ей "save trarget as" в какой-то файл, например "album.xml"

2)Теперь надо выгрести из этого файла ссылки на картинки. Они там идут в таких вот тэгах:
"<media:content url='http://xyz.google.com/......../img00001.jpg' .../>"

Берем утилиту для извлечения кусок из xml и html-файлов по XPath-подобным выражениям под названием Xtract и делаем вот так:

Xtract '//media:content/@url' album.xml > IMAGES


Соответственно, в файл "IMAGES" попадают все значения атрибута "url" из всех тэгов "media:content".

3)Дальше на этот файл натравливается любая качалка (например, "wget -i IMAGES") и все, дело в шляпе.

Написать этот пост заняло где-то в десять раза больше времени, чем собственно провести все манипуляции :)

Наверняка я изобрел велосипед. Ну и фиг с ним :)
Рецепт пусть остается мне для истории, а вам, возможно, пригодится ссылочка на Xtract.

(no subject)

Date: 2007-09-28 08:55 am (UTC)
From: [identity profile] feb-13.livejournal.com
А что делает кнопка "скачать альбом"? Я её не нажимал никогда, но думаю, что ты её видел

(no subject)

Date: 2007-09-28 08:57 am (UTC)
From: [identity profile] chew.livejournal.com
Присоединяюсь к вопросу.

(no subject)

Date: 2007-09-28 09:06 am (UTC)
From: [identity profile] payalnik.livejournal.com
позволяет скачать альбом целиком :) в установленную программу пиказа. чего и автору поста желаю, хотя за нутро галерей - спасибо!

(no subject)

Date: 2007-09-28 09:55 am (UTC)
From: [identity profile] basanov.livejournal.com
Есть подозрение, что для этого надо подружиться с автором альбома или что-то подобное. =)

Но вообще она рулит. Действительно скачивает альбом.

(no subject)

Date: 2007-09-28 10:02 am (UTC)
From: [identity profile] feb-13.livejournal.com
если альбом скрытый, feed ты тоже не достанешь без правильной ссылки

(no subject)

Date: 2007-09-28 11:01 am (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
А где эта кнопка?

(no subject)

Date: 2007-09-28 11:13 am (UTC)
From: [identity profile] feb-13.livejournal.com
Слева, с эмблемой пикасы. Требование - установленный клиент

(no subject)

Date: 2007-09-28 08:42 pm (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
Я ее не видел, т.к. у меня в браузере нет поддержки протокола picasaweb. Ну, не добавил ее туда инсталлятор picasa - что делать.

(no subject)

Date: 2007-09-28 08:57 am (UTC)
From: [identity profile] fenikso.livejournal.com
in simple cases, grep+sed works as poor man's Xtract :)

(no subject)

Date: 2007-09-28 10:35 am (UTC)
From: [identity profile] nponeccop.livejournal.com
я использую perl -n. Интересно, xtract работает на не well-formed документах? РСС в большинстве случаев конечно well-formed, чего не скажешь про обычные страницы в духе жж

Да, интересно темы когда-нибудь переверстают на ксс?

(no subject)

Date: 2007-09-28 11:04 am (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
На не-well-formed - скорее не работает, чем работает. Ему ж аналог DOM-а надо построить, чтобы запросы выполнять, а если документ не well-formed - то как же его построить?

Это надо что-то вроде SAX или TagSoup использовать.

(no subject)

Date: 2007-09-28 03:54 pm (UTC)
From: [identity profile] nponeccop.livejournal.com
Ну, браузер теоретически тоже не должон корявые документы рендерить - но он рендерит. Соответственно, можно было б сделать в инструменте какой quirks mode который бы теги наугад дорисовывал

(no subject)

Date: 2007-09-28 08:44 pm (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
Корявые, как правило != не-well-formed

Закрывать тэги наугад - это путь в никуда. А вдруг этот тэг закрывается "правильно" 10 байтами далее?

Тогда уже лучше документ целиком рандомно генерить.

(no subject)

Date: 2007-09-29 03:24 am (UTC)
From: [identity profile] nponeccop.livejournal.com
та ладно! пара неправильно дорисованных тегов ещё никому не вредила. Ну и хрен с ним с этим тегом - корявостей-то не так много обычно по сравнению с общей массой, если они испортятся - это вряд ли помешает тебе извлечь то что нужно.

Но я не только закрытие тегов имел ввиду - еще есть нарушения вложенности, атрибуты без кавычек, compact-атрибуты (ака имя без значения) и незаэскейпленные энтитис (ака амперсанды в урл). Все эти штуки мешают парсить файл парсеру, соответствующему стандартам. Соответственно надо или писать свой парсер хитрый, либо столь же хитро препроцессить такие штуки.

(no subject)

Date: 2007-09-28 11:02 am (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
Это да. Кстати, и тут случай простой достаточно. У меня вероятно просто реакция сработала - раз XML, значит, надо грепать по XPath :)

(no subject)

Date: 2007-09-28 09:34 am (UTC)
From: [identity profile] kalobyte.livejournal.com
у тебя вышел отличный велосипед с квадратными колесами
и на нем можно даже ездить по шпалам
главное выполнить задачу

а пиказа вроде и в линупсе работает

(no subject)

Date: 2007-09-28 11:02 am (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
А вот последнюю фразу я не понял :(

(no subject)

Date: 2007-09-28 11:14 am (UTC)
From: [identity profile] feb-13.livejournal.com
последняя фраза к тому, что имеется клиент для линукса :)

(no subject)

Date: 2007-09-28 11:17 am (UTC)
From: [identity profile] kalobyte.livejournal.com
ну по крайней мере на лоре говорили
не то портировали, не то через вайн стала работать

в пиказе веб есть кнопка для скачивания альбома всего
при нажатии ее пиказа на компе подхватывает линк и качает весь альбом

(no subject)

Date: 2007-09-28 08:45 pm (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
Уже нашел. У меня инсталлер пикасы не сделал нужные настройки в pref.js у Firefox. Ну, и фиг с ним :)

(no subject)

Date: 2007-09-28 09:44 am (UTC)
From: [identity profile] pufpuf.livejournal.com
https://addons.mozilla.org/en-US/firefox/addon/201

(no subject)

Date: 2007-09-28 11:03 am (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
А не спасает, имхо. Т.к. ссылки на целевые картинки - не с оглавления альбома, а со "следующих" страниц, которые открываются при нажатии на thumbnail.

(no subject)

Date: 2007-09-28 11:14 am (UTC)
From: [identity profile] feb-13.livejournal.com
+1. аддон с пикасой не поможет
(deleted comment)

(no subject)

Date: 2007-09-29 05:54 pm (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
В смысле?

У меня правый sidebar тупо набит разнообразными картинками и ссылками. На все - про все всего два html-тэга - <a href="...">zzz</a> и <img src="...">

Стиль (wizard-smoothsailing) специально взял такой, который позволяет просто указывать текст с html-разметкой, не диктуя мне, что и в каком порядке показывать.

(no subject)

Date: 2007-09-30 01:32 am (UTC)
From: [identity profile] olpa.livejournal.com
А вот так картинки загружаются пачкой:

mass-upload to picasaweb from Linux
http://uucode.com/blog/2007/09/28/mass-upload-to-picasaweb-from-linux/

(no subject)

Date: 2007-10-13 07:32 pm (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
Спасибо, тоже заначу на будущее - вдруг когда-нибудь захочется фотографии на пикассу перенести.

вопрос, простите

Date: 2007-10-01 11:39 am (UTC)
From: [identity profile] vdas.livejournal.com
так и непонял, как сделать вот такое:
Xtract '//media:content/(@pavad + @url)' album.xml > IMAGES

с xml тэгами - работает
Xtract '//media:content/(tpavad + turl)' album.xml > IMAGES
, а с атрибутами - нет...

можно ли вытащить несколько атрибутов из хмл файла?
А-ля:
картинка1 http://www.zz.com/bubu.jpg
картинка2 http://www.zz.com/bubu2.jpg

Re: вопрос, простите

Date: 2007-10-04 01:38 pm (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
Картинки уже за-expire-лись, похоже :(

Попробовал извлечь несколько аттрибутов ... Да, похоже, что это баг. Если дойдут руки - накатаю багрепорт, но рекомендую вам сделать это самостоятельно. По моему опыту - автор реагирует очень оперативно.

(no subject)

Date: 2007-10-03 01:51 am (UTC)
From: [identity profile] alogic.livejournal.com
Оказывается в Debian есть, пакет haxml. А я промучался несколько часов, пытаясь скомпилировать сам, потому что бинарник из ссылки не работает. Зато узнал много про haskell.

(no subject)

Date: 2007-10-07 05:51 pm (UTC)
From: (Anonymous)
www.picasa2html.com
?

(no subject)

Date: 2007-10-13 07:28 pm (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
О, спасибо. Заначу на будущее.

(no subject)

Date: 2008-03-21 10:42 am (UTC)
From: [identity profile] cyxymu.livejournal.com
простите, но я видимо не правильно что то сделал.
скачал эту прогу, в командной строке все это записал, прога создает файл имиджы но туда ничего не выдергивается. что делать?

(no subject)

Date: 2008-03-22 03:24 pm (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
Похоже, версия на сайте (0.7) имеет-таки какой-то баг по сравнению с версией, которую можно собрать из исходников (1.19) :(

(no subject)

Date: 2008-03-24 07:19 am (UTC)
From: [identity profile] cyxymu.livejournal.com
да уж, собрать мне точно не удастся

(no subject)

Date: 2008-03-27 11:29 pm (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
Бинарниками под linux могу поделиться, под другие платформы - увы. Но на Xtract свет клином не сошелся - есть другие утилиты с похожей функциональность.

(no subject)

Date: 2008-03-28 07:38 am (UTC)
From: [identity profile] cyxymu.livejournal.com
не, спасибо, мне вот это помогло http://www.picasa2html.com/

(no subject)

Date: 2008-12-13 09:03 pm (UTC)
From: [identity profile] jankkhvej.blogspot.com (from livejournal.com)
Гм. Я открываю этот фид в фаерфоксе, у меня установлен менеджер закачек, я вызываю на страничке открытого фида "закачать всё", выбираю нужные файлы, и скачиваю. хотя конечно если на хосте нет иксов, то шелл-скрипт самое оно :)

(no subject)

Date: 2008-12-17 10:49 pm (UTC)

Profile

dastapov: (Default)
Dmitry Astapov

May 2022

M T W T F S S
       1
2345678
9101112131415
161718 19202122
23242526272829
3031     

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags