Сегодня я с некоторым офигением обнаружил, что можно вбить в Google поисковый запрос "Кто вы, мистер Брукс? site:imdb.com" и получить первым результатом ссылку на страницу этого фильма на imdb.com.
Не выходя из состояния офигения, я достал из загашников старый полу-работающий скриптик для извлечения основных данных о фильме с imdb.com и довел его до работоспособного состояния.
Кому интересно, скрипт и пример его использования - под катом.
Вот скрипт:
Запустив скрипт (пусть он лежит в файле imdb-search.sh) вот так: "imdb-search.sh Кто вы, мистер Брукс", вы получите на экране такой вот результат:
Все эти данные будут продублированы в файле movies.csv, в текущей директории. Можно сделать несколько запросов, загрузить movies.csv в oocal или excel и там их покрутить.
PS
Это в связи с вновь доступным "безлимитным" интернетом мы разгребаем список "а вот это, возможно, хотелось посмотреть" :)
Не выходя из состояния офигения, я достал из загашников старый полу-работающий скриптик для извлечения основных данных о фильме с imdb.com и довел его до работоспособного состояния.
Кому интересно, скрипт и пример его использования - под катом.
Вот скрипт:
#!/bin/bash
request="$@"
file="imdb_dump.html"
wget -U Firefox "http://www.google.com/search?q=$request site:imdb.com&btnI=I\`m Feeling Lucky" -O "$file"
title=$(grep "<title>" "$file" | sed -e 's/<[^ ]*>//g')
rating=$(grep -A1 "<b>User Rating:</b>" "$file" | grep -o '[0-9][0-9./]*')
votes=$(grep -o '[0-9,]* votes' "$file")
genre=$(grep -A1 "<h5>Genre:</h5>" "$file" | grep -o ">[A-Z][a-zA-Z]*<" \
| sed -e 's/[<>]//g' | paste - - - - - - - - - | sed -e 's/[ \t]*$//' -e 's/\t/,/g')
url=http://www.imdb.com/$(grep -o 'title/tt[0-9]*' "$file" | head -1)
echo "$request|$title|$url|$genre|$rating|$votes" | tee -a movies.csv
Запустив скрипт (пусть он лежит в файле imdb-search.sh) вот так: "imdb-search.sh Кто вы, мистер Брукс", вы получите на экране такой вот результат:
Кто вы, мистер Брукс?|Mr. Brooks (2007)|http://www.imdb.com/title/tt0780571|Crime,Drama,Mystery,Thriller|7.6/10|27,269 votes
Все эти данные будут продублированы в файле movies.csv, в текущей директории. Можно сделать несколько запросов, загрузить movies.csv в oocal или excel и там их покрутить.
PS
Это в связи с вновь доступным "безлимитным" интернетом мы разгребаем список "а вот это, возможно, хотелось посмотреть" :)
поделитесь пожалуйста списком
Date: 2008-03-17 04:48 pm (UTC)(no subject)
Date: 2008-03-17 04:55 pm (UTC)(no subject)
Date: 2008-03-17 09:49 pm (UTC)приколись, вот так тоже работает
Date: 2008-03-17 05:56 pm (UTC)и это куда правильнее, чем "поиск по сайту", заданный через site:imdb.com
Re: приколись, вот так тоже работает
Date: 2008-03-17 06:30 pm (UTC)Re: приколись, вот так тоже работает
Date: 2008-03-17 07:19 pm (UTC)1)Криминальное чтиво site:imdb.com
2)imdb:"Криминальное чтиво"
И мне пофиг, что из них правильнее. Главное - чтобы работало. Первое - работает. Второе - очевидно, не всегда.
Re: приколись, вот так тоже работает
Date: 2008-03-18 11:28 pm (UTC)вобще "imdb: терминатор" == "imdb терминатор"
в вашем случае (что бы сразу рэнк выдирать без участия человека) лучше с site:
Без него будут часто в топе появляться русские сайты со сылкой на imdb. В случае поиска самому в гугле иногда удобщее без site, так больше шансов найти малоизвестные фильмы.
(no subject)
Date: 2008-03-17 06:40 pm (UTC)(no subject)
Date: 2008-03-17 09:52 pm (UTC)Imdb score в этом деле - хорошее первое приближение. А дальше уже можно идти по выдернутой ссылке и смотреть актеров-режисеров и прочее краткое изложение сюжета.
(no subject)
Date: 2008-03-18 05:05 am (UTC)(no subject)
Date: 2008-03-18 07:02 pm (UTC)Нет, не только не знаю, но и даже придумать подходящего повода не могу.
(no subject)
Date: 2008-03-18 06:43 am (UTC)(no subject)
Date: 2008-03-18 11:30 pm (UTC)(no subject)
Date: 2008-03-19 05:55 am (UTC)(no subject)
Date: 2008-03-19 08:57 am (UTC)Я считаю что фильм у которых рейтинг высокий на IMDB, вероятно понравится и мне. За последние 7 лет не часто мой мнение о фильме сильно расходилось с общественным (imdb).
И что то не понял, как преимущества в этом имеет wiki? Как правило она хороша там, где нет специализированных ресурсов, или пока не знаешь как их найти.
PS. А мне этот фильм понравился :-).
(no subject)
Date: 2008-03-19 09:00 am (UTC)(no subject)
Date: 2008-03-19 09:14 am (UTC)(no subject)
Date: 2008-03-17 07:41 pm (UTC)Кстати, выдержка из копирайтов имдб:
Но несмотря на то, что именно туда идёт ссылка с сайта выкачки их полной базы данных, я сходу не обнаружил в тексте лицензии про ограничения на БД. Странные они.
(no subject)
Date: 2008-03-17 07:42 pm (UTC)(no subject)
Date: 2008-03-18 07:05 pm (UTC)PS
А "grep-отдельно, sed - отдельно" происходит, скорее всего, потому, что сначала ты несколько раз запускаешь grep, "подгоняя" регулярное выражение, а потом уже задаешься вопросом "а как бы теперь отрезать лишнее?".
Соответственно, изжить эту привычку можно только отказавшись от grep-а вообще в пользу sed -n, чего никто, естественно, делать не будет.
(no subject)
Date: 2008-03-18 07:20 pm (UTC)(no subject)
Date: 2008-03-17 09:07 pm (UTC)(no subject)
Date: 2008-03-18 08:34 pm (UTC)(no subject)
Date: 2008-03-19 12:46 pm (UTC)(no subject)
Date: 2008-03-27 11:40 pm (UTC)Да и что тут можно существенно выиграть, написав код на питоне или руби? (я не говорю про случай наличия какой-нибудь libruby-imdb-complete-parser)
Я мог втиснуться в такое же примерно кол-во кода с Haskell и HaXml, но - зачем? Плюс, вместо regexp-ов было бы правильнее присать XPath queries, и пошло-поехало - кто помнит синтаксис XPath на память, а? Потом бац - и обнаруживаешь, что уже час пишешь то, что на shell-utils делается за пять минут. Зато у тебя оно уже с GUI, кроссплатформенное, многотредовое и сохраняет результаты в базе :)
(no subject)
Date: 2008-03-19 12:45 pm (UTC)(no subject)
Date: 2008-03-19 06:56 pm (UTC)(no subject)
Date: 2008-03-20 12:55 am (UTC)(no subject)
Date: 2008-03-27 11:31 pm (UTC)(no subject)
Date: 2008-04-13 11:41 pm (UTC)Еще одна поправочка
Date: 2008-06-26 06:04 am (UTC)grep -o ">[A-Z][a-zA-Z]*<"
заменить на
grep -o ">[A-Z][a-zA-Z-]*<"
P.S. Спасибо за скрипт, сам недавно хотел написать на перле, а оказалось, уже есть Ваш на баше :)