dastapov: (Default)
[personal profile] dastapov
Когда-то давно, когда я регулярно читал news-ы, мне сильно помогала функциональность adaptive scoring, встроенная в Gnus. На основании того, какие сообщения я прочитал, какие - убил, а какие - пометил как интересные или скопировал в архив, она выстраивала правила оценки новых сообщений, принимая во внимание содержимое subject-а и тела сообщения, адреса авторов и комментаторов и многое, многое другое.

В результате можно было за десять минут разделаться с newsgroup-ой с парой тысяч непрочитанных сообщений: примерно треть сразу отправлялась оценщиком "в утиль", до десятка тредов помечались как "интересные" -- их-то я и читал -- а если было время, то я читал и все остальные сообщения, отсортированные по степени "потенциальной интересности".

Сейчас я больше читаю всякие RSS-фиды, и с ними можно поступать таким же образом, при помощи rss2email. Решение работает, но у него есть очевидные минусы - нету тесной интеграции с браузеров, да и оценивание по нынешним временам можно сделать более модным способом.

Мне почему-то кажется, что изобретать свой велосипед в этой области бесполезно - все уже должно быть придумано до нас.

Итак, ищется читалка RSS, которая:
1)работает под Linux или кросс-платформенная/server-side
2)умеет оценивать item-ы из feed-ов. Наверное, на основании байесовского классификатора, по отдельным словам, парам слов, .... Ну, или чтобы к ней можно было прикрутить crm114 :)
3)ее можно учить, разделяя item-ы на интересные/неинтересные (ну, или разделяя более чем на две категории)
4)она умеет импортировать список фидов в OPML (это, наверное, все умеют, но лучше перестраховаться)
5)она умеет сама отрисовывать HTML, или имеет веб-морду.

Что посоветуете?

(no subject)

Date: 2008-08-21 11:38 am (UTC)
From: [identity profile] alexott.livejournal.com
такие идеи давно бродят, я даже с кем-то это обсуждал, но так дело и не пошло
P.S. может начать опять пользоваться nnrss в гнусе? :-) Правда сервер-сайд более удобной получается

(no subject)

Date: 2008-08-21 11:41 am (UTC)
From: [identity profile] payalnik.livejournal.com
да, и я об этом думал и даже начинал писать для веб такую читалку, но в итоге просто почистил подписки

(no subject)

Date: 2008-08-21 11:51 am (UTC)
From: [identity profile] alexott.livejournal.com
такая читалка будет удобна при чтении всяких planet ...

(no subject)

Date: 2008-08-21 12:03 pm (UTC)
From: [identity profile] http://users.livejournal.com/_nik_/
Читаю ленты через google reader, поэтому standalone решения не рассматриваю (да и тогда уж чего действительно через почтовый клиент умеющий скоринг не читать).
Чесно говоря не очень представляю, как можно было бы аутентично вписать в greader подобную функциональность. Он ведь попросту не умеет извлекать теги из сообщений, только накладывать свои ориентируясь по источнику ленты.
Другими словами, универсальным решением было бы вместо подписки на одну ленту, подписываться на три (the good, the bad and the usual) ленты исходящие из сортирующего feed-proxy. Что не выглядит удобным.
Да и не вполне ясно, как удобно оценивать сообщения, ибо javascript`ы ридерами обычно вырезаются, соответственно остаётся только дописывать к каждому сообщению ссылки (good/bad), на которые, скажем, сервер отвечает HTTP 204м статусом.

А изобретать велосипеды в работе с лентами ещё долго будет можно. Не так уж и много сей технологии лет.

(no subject)

Date: 2008-08-21 12:09 pm (UTC)
From: [identity profile] bormotov.livejournal.com
если продолжать тему serverside, то конечно сервер должен делать оценки самостоятельно. На такой сервер нужно будет либо ходить по http, тогда нет пробелм оперативно менять правила, либо свою читалку, которая обеспечит feedback на сервер.

p.s. сорри за правки, думал о другом совсем ;(
Edited Date: 2008-08-21 12:10 pm (UTC)

(no subject)

Date: 2008-08-21 12:11 pm (UTC)
From: [identity profile] bormotov.livejournal.com
у serverside получается другой минус - ты ведь захочешь пометить статью как "не интересную" в читалке, да? Это просто, если читалка - броузер. А если, например, у меня на N800 вытаскиваются ленты в родную читалку, то еще и её патчить.

(no subject)

Date: 2008-08-21 12:23 pm (UTC)
From: [identity profile] dottedmag.livejournal.com
IMAP-профиль для хранения RSS и соответствующие фетчер и поддержка в почтовом клиенте - way to go.

(no subject)

Date: 2008-08-21 12:24 pm (UTC)
From: [identity profile] http://users.livejournal.com/_nik_/
Так в том и проблема, что если сделать свой greader, то никаких проблем, за исключением того, что интерфейс и инфраструктуру greader`а так вот с ходу у себя не воплотишь. Скоринговый feed-proxy (то есть отдельный сервис, типа моего feedex) был бы более универсален, но надо проверить, правильно ли гугл себя ведет, если ему для подписки не rss-ленты адрес давать, а OPML…

(no subject)

Date: 2008-08-21 12:41 pm (UTC)
From: [identity profile] kirill a. korinskiy (from livejournal.com)
Фетчер который нормально умеет rss и русский дай, а?

Re: Reply to your comment...

Date: 2008-08-21 12:42 pm (UTC)
From: [identity profile] dottedmag.livejournal.com
Ээээ. Гм. Я не интерфейс к freshmeat.net

(no subject)

Date: 2008-08-21 01:07 pm (UTC)

(no subject)

Date: 2008-08-21 02:01 pm (UTC)
From: [identity profile] wom.livejournal.com
server-side

aiderss.com
feedly

(no subject)

Date: 2008-08-21 03:30 pm (UTC)
From: [identity profile] hostmaster.blogspot.com (from livejournal.com)
можно, стандартная функция преобразования regex-ом

(no subject)

Date: 2008-08-21 03:33 pm (UTC)
From: [identity profile] alexander-mikh.livejournal.com
попробовал aiderss.com и в сочетании с newsgator и c rss reader. Не нашел кнопки голосовать за новость/rss. Или я не там ищу?
В таком виде теряется смысл - зачем мне рейтинг новостей которые кто то посчитал популярными (для этого есть dig и delicious).
Я не туда посмотрел или так и планировалось?

(no subject)

Date: 2008-08-21 04:44 pm (UTC)
From: [identity profile] dion.inhex.net (from livejournal.com)
А что с rss2email не то (в плане русского и/или нормального умения rss)?

(no subject)

Date: 2008-08-21 04:50 pm (UTC)
From: [identity profile] darkk.livejournal.com
Если поставить последние библиотеки, а не ставить rss2email из репозитария общесистемного - особых проблем нет.

/me еще rss2email немного патчил - http://github.com/darkk/rss2email - может будет полезным

(no subject)

Date: 2008-08-21 05:32 pm (UTC)
From: [identity profile] dion.inhex.net (from livejournal.com)
Я тоже чуть патчил. Добавлял пару заголовоков, вроде title всего feed-а, плюс еще что-то.

(no subject)

Date: 2008-08-21 07:12 pm (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
А где и в одном, и во втором возможность отмечать "понравилось"/"не понравилось"?

(no subject)

Date: 2008-08-21 08:30 pm (UTC)
From: [identity profile] hostmaster.blogspot.com (from livejournal.com)
лень потратить 2-3 минуты чтобы самому найти ? http://farm4.static.flickr.com/3144/2670751788_f753a664ba_o_d.png

(no subject)

Date: 2008-08-22 01:44 am (UTC)
From: [identity profile] alogic.livejournal.com
http://pagemon.net/

Делает фиды со страниц, у которых их нет.

http://users.livejournal.com/_nik_/12906.html

(no subject)

Date: 2008-08-22 08:02 am (UTC)
From: [identity profile] http://users.livejournal.com/_nik_/
Это пока альфа. В статус беты думаю за эту, максимум за следующую неделю перевести.

(no subject)

Date: 2008-08-22 08:11 am (UTC)
From: [identity profile] http://users.livejournal.com/_nik_/
А у меня как раз ничего автоматического и нет. Вы собственноручно, мышкой выбираете интересный вам элемент на странице, подтверждаете выбор нажатием Enter и дальше именно этот элемент на странице и будет отслеживаться (пока на сайте не поменяется дизайн). Никакого автоматического распознавания.

(no subject)

Date: 2008-08-22 10:49 am (UTC)
From: [identity profile] http://users.livejournal.com/_nik_/
> Вот если бы была у вас возможность задавать шаблон не мышкой, а регекспом
> — о! это было бы то, что нужно

А чем регэксп лучше мышки? Какое use case представляется?

(no subject)

Date: 2008-08-22 01:26 pm (UTC)
From: [identity profile] alexander-mikh.livejournal.com
я тоже не нашел :-)

Гугля reactions

Date: 2008-08-22 01:27 pm (UTC)
From: [identity profile] alexander-mikh.livejournal.com
Похоже идея так и витает в воздухе.
Гугл вот добавил фичу к блоггеру
http://bloggerindraft.blogspot.com/2008/08/new-feature-reactions.html

(no subject)

Date: 2008-08-22 01:55 pm (UTC)
From: [identity profile] http://users.livejournal.com/_nik_/
> 1) Вот есть сайт http://uncensored.km.ru/uncensored/archive.htm
> Видно, что первые 5 новостей идут в одном виде, остальные — в другом.
> Соответственно, хотелось бы иметь возможность задать 2 (или N) вида
> регекспа, которые вырезали бы новости разного вида и сливали их в один
> общий rss. Другой пример, http://www.newsru.com — их стандартная rss
> перегружена и читать нет никакой возможности, но на главной странице
> вверху есть 4 самые важные новости. Самая важная — в одном формате, и
> еще 3 — в другом. Хотелось бы вырезать именно их и сливать в rss.
> 2) feed43.com позволяет не просто вырезать новости, но и указывать
> для каждой из них некие части — заголовок, текст, картинку, время
> и т.п. А потом из них формировать уже результирующую rss — очень
> удобно и гибко! Например, можно в выходном rss не показывать картинки
> к новости, что есть на исходной страничке.

Я подумаю, для чего бы подобное было бы полезно мне. Если придумаю, то как-нибудь реализую.

> 3) Персональный кабинет, что бы была возможность создавать приватные
> фиды и вести каталог своих фидов.

Возможно когда-нибудь сделаю и регистрацию с кабинетом. Пока же стараюсь иметь настолько простой сервис, на сколько это возможно.

> 4) Ну, до кучи — для простых юзеров — то, что у вас уже есть, но с
> возможностью указывать на страничке более одного блока новостей.

Более одного блока одной лентой это любопытно, да.
Вполне вероятно, что я это реализую, когда придумаю, как это наилучшим образом организовать.

> 5) Нотифицировать создателя фида, в случае смены дизайна исходной странички.

На данный момент если по указанному адресу ничего не найдено, сервис пытается найти элемент одним DOM уровнем выше. И так далее максимум до BODY. В принципе, пользователь вполне заметит изменение дизайна исходной странички по изменению выдачи.

Page2RSS

Date: 2008-08-22 06:00 pm (UTC)
From: [identity profile] 1a1.livejournal.com

Пока в закрытом тестировании - сервис извлечения новостной ленты из любой веб страницы.
http://ivbeg.livejournal.com/139065.html#cutid1

(no subject)

Date: 2008-08-22 06:33 pm (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
Ну, теоретически можно RSS (а луче - Atom) разбирать на части и собирать обратно, снабдив каждый item аккуратным заголовком с кнопочками like/dislike. Хоть это и будет по-уродски перегружать каждый раз страницу.

А jscript/ajax туда, имхо, никак не сунешь :(

(no subject)

Date: 2008-08-22 06:34 pm (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
Вот именно за этим она мне и нужна. Есть фиды, где набираются сотни (если не тысячи) нечитаных записей, из которых большаяя половина - "порожняк". Который хотелось бы сразу фильтровать, чтобы он не замыливал глаза.

(no subject)

Date: 2008-08-22 06:35 pm (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
Три ленты - это тоже не выход. Хочется еще уметь сортировать сообщения внутри каждого класса по степени "хорошести". Так что однозначно потребуется поддержка со стороны читалки.

(no subject)

Date: 2008-08-22 06:37 pm (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
А есть уже клиенты, которые позволяют не просто делить письма на "спам" / "не спам", но и делать более гибкую классификацию?

Впрочем, это я подтормаживаю. Никто не мешает взять любой general purpose классификатор (crm114, rainbow, dbacl) и с его помощью добавлять заголовки, по которым и будет сортироваться почта.

Re: Гугля reactions

Date: 2008-08-22 06:39 pm (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
Ну, это не совсем оно - мне оценки других для этой задачи по барабану

(no subject)

Date: 2008-08-22 06:40 pm (UTC)
From: [identity profile] bormotov.livejournal.com
Без JS можно внутрь RSS вставлять URL'и для правки рейтингов, чтоб тыкая в который читалка запустит по этому URL'ю нечто, что дёрнет там голосовалку?

В общем, если читалки не трогаем, в случае serverside таки нужен online.

(no subject)

Date: 2008-08-22 06:44 pm (UTC)
From: [identity profile] http://users.livejournal.com/_adept_/
Ну, если есть возможность распарсить RSS - то почему нет?

(no subject)

Date: 2008-08-22 06:52 pm (UTC)
From: [identity profile] bormotov.livejournal.com
естьлюди котоыре читают RSS без сети - у них читалка всё это качает пока сеть доступна, а потом в дороге они читают.

хотя реально пока проблемы пролистать всякую хрень у меня нет, но иногда ностальгия про Gnus накатывает :)
Интересно чем твои поиски закончатся :)

(no subject)

Date: 2008-08-25 06:18 pm (UTC)
From: (Anonymous)
Пользуюсь gnus+nnrss+conkeror, сами rss тяну wget-ом. Скоринг вроде бы работает, правда я практически все читаю из вытягиваемого, так что отсеивается довольно мало. Что не устраивает:
  • только rss, а надо бы и atom

  • разные глюки с русскими названиями фидов. каждый раз вспоминаю как бороть, заборю и забуду (довольно редко новые интересные фиды встречаются).


  • Подумываю таки запихивать всю эту радость в IMAP, пока не делал и готовых решений не встречал

    Статывка Дмитрий

    (no subject)

    Date: 2008-09-06 11:40 am (UTC)
    ext_653744: (Default)
    From: [identity profile] amavlyanov.livejournal.com
    tt-rss.org попробуй

    offtop: SMS с подменой номера

    Date: 2008-09-13 08:40 pm (UTC)
    From: (Anonymous)
    Извините за оффтоп, хочу спросить:

    Что Вы думаете о недавнем скандале "помошник депутата против МТС" (см., например, тут http://ain.com.ua/archives/7806)? Можно ли определить подлинность сообщения по номеру SMS-центра, или его тоже можно подделать? Есть ли у операторов возможность фильтровать сообщения от "левых" центров?

    (no subject)

    Date: 2008-09-27 09:43 am (UTC)
    From: [identity profile] aaa111.livejournal.com
    Как вариант - google reader + ipod + GRiS (написан на питоне), к которому прикрутить любой скорринг.

    (no subject)

    Date: 2008-10-30 08:59 am (UTC)
    From: [identity profile] wanenhalf.livejournal.com
    а какие читалки почты, ньзов (и пусть рсс) есть для винды, с такими же возможностями как у Gnus - на основе оценок сообщений (выставленных пользователем) выделение самых интересных?

    (no subject)

    Date: 2008-11-01 12:37 pm (UTC)
    From: [identity profile] wanenhalf.livejournal.com
    или подскажите ключевые слова для гугления, ибо знаю только article scoring а по ним гугл и яндекс находят только упоминавшийся tt-rss.org

    (no subject)

    Date: 2008-12-17 11:06 pm (UTC)
    From: [identity profile] http://users.livejournal.com/_adept_/
    Хм. Например, Gnus под windows? :)

    Я, увы, не подскажу, т.к. windows пользуюсь редко.

    Profile

    dastapov: (Default)
    Dmitry Astapov

    May 2022

    M T W T F S S
           1
    2345678
    9101112131415
    161718 19202122
    23242526272829
    3031     

    Most Popular Tags

    Page Summary

    Style Credit

    Expand Cut Tags

    No cut tags