dastapov: (Default)
Dmitry Astapov ([personal profile] dastapov) wrote2012-05-18 08:25 pm
Entry tags:

Еще раз про запись всех разговоров

В комментариях к соседней записи опять стала муссироваться тема записи всех звонков без разбора, и мне захотелось сделать короткое резюме.

Для начала текущее положение вещей

Все известные мне законы (я в курсе про Россию-Украину, Евросоюз, UK, страны Балтии) обязывают операторов делать ровно две вещи:

* Хранить (много лет) и предоставлять метаданные о разговорах (кто кому когда звонил)
* По решению суда/прокуратуры записывать разговоры конкретного абонента или предоставлять техническую возможность вести такую запись с момента поступления к ним такого предписания. Список тех, кого слушают, "не резиновый" - нельзя взять и, грубо говоря, запихнуть туда все номера всех абонентов.

Записи разговоров и тексты СМС операторы сохранять не обязаны.

А если все же обяжут?

Если вдруг эти требования ужесточатся, оператору будет:
(1) Достаточно легко начать хранить тексты СМС. Так как SMS-центров мало, они расположены централизовано, SMS мелкий - возможно даже меньше, чем объем метаданных о том, кто кому и как его послал)
(2) Не очень легко начать хранить записи всех разговоров. Так как объемы солидные, коммутаторов много, они могут быть территориально разнесены, потребуется их апгрейд, плюс возможно понадобится пост-процессинг - в процессе разговоров звонки могут "кочевать" по узлам сети, и каждый отдельно взятый коммутатор может "слышать" только часть разговора. Плюс, если вдуматься, у оператора существующая базовая сеть рассчитана на определенную нагрузку. Если начать, грубо говоря, передавать тот же объем данных дважды (пусть и без жестких realtime-требований), то потребуется либо доп. каналы связи (чтобы сразу передавать куда-то в центр и там обрабатывать), либо процессорные мощности и каналы связи (жмем в mp3, а уже потом передаем), или какие-то другие инженерные решения. Естественно, это все решаемые проблемы. Все, что я хочу сказать - задача не сводится к "поставили винт побольше, и всего делов", как это многим кажется на первый взгляд.

А вдруг оператор сам ...?

А вдруг оператор сам хранит эти данные для каких-то своих нужд, и это делается для всех абонентов без разбора?

(3) Это справедливо в отношении метаданных - по ним производится биллинг, то есть определяется объем потребленных услуг и выставляются счета.
(4) Это может быть справедливо для СМС: они могут попадать в какие-то логи на SMS-центре, быть частью бэкапов, и т.п.
* Хранить записи всех разговоров оператору никакой необходимости нет
(5) При этом я вполне допускаю, что в процессе разбирательств с какой-то проблемой оператор вполне может выборочно сохранять как СМС-ы, так и звонки - но, скорее всего, критерием выборки будет не "для вот этих абонентов", а "для вот этого оборудования".

А вдруг все-таки оператор это делает?

Пофантазируем. Может ли все-таки получится, что оператор сохраняет все записи всех звонков? Может, он из этого извлекает какую-то выгоду? Честно говоря, как я ни старался, я не смог придумать подходящего сценария кроме "группа сотрудников вступила в сговор и продает данные криминальным элементам".

Ок, насколько это реально? Проблема в том, что сначала надо эти звонки где-то сохранять. Сделать это "на вот этом сервере вот тут в закутке" - не выйдет, не те объемы (если сохранять всё). Купить для этого отдельно железо - не выйдет, по понятным причинам. Да и потом, технически проще "торговать налево" чем-то, что имеет альтернативное легитимное применение - помогать спаммерам рассылать SMS, занижать суммы счетов, торговать распечатками метаданных или кодами пополнений баланса. И то, для этого, по моим прикидкам, потребуется соучастие не двух, и не пяти и даже не десяти человек в самых разных подразделениях, и подобная затея имеет очень большие шансы на провал даже при том, что можно попытаться сделать хорошую мину при плохой игре ("да мы тут просто ... это ... тестируем ...."). А большой склад записей звонков - это чистый криминал, никаких альтернативных объяснений ему быть не может, и любой безопасник с радостью съест всех замешанных без соли и перца.

А вот моего друга кума говорила, что ей показывали распечатки или записи звонков за 2006 год ...

У меня есть два гораздо более простых (по сравнению с "оператор пишет все") объяснения этому факту. Куму прослушивали в рамках оперативных мероприятий (см. выше), или же ее собеседника прослушивали точно таким же образом.

Для удобства восприятия информация сведена в табличку

Метаданные о звонке (кто, кому, когда, как долго, в какой соте, ...)Тексты СМСЗапись разговоров
Обязывает ли закон операторов хранить и предоставлять эти данные для всех абонентов?ДаНетНет
Если оператора обяжут, легко ли ему будет хранить эти данные в полном объеме?--Да(1)Нет(2)
Обязывает ли закон осуществлять выборочную запись этих данных (по предписанию прокуратуры, ...)--ДаДа
Хранит ли оператор такие данные для всех абонентов независимо от требований закона?Да(3)Возможно(4)Нет
Хранит ли оператор такие данные выборочно?--Возможно(5)Возможно(5)



[identity profile] bogdan iusukhno (from livejournal.com) 2012-05-19 09:28 am (UTC)(link)
А я занимался подобным всего 2 года, но тексты смс отлично так писались. Правда смс в Unicode не писались - вроде запятыми текст заменялся, но вендор предлагал оформить CR (ес-но платный) чтобы все смс писались.
И никакой проблемы с обьёмами я тут не вижу - доставка любой смс сгенерирует как минимум 3 строки в CDR на SMSC (а если были попытки передоставки, то намного больше), где сам текст сообщения вставить совсем не проблема и обьём он значительно не увеличит (в CDR уже будут timestamp, куча Global Titles, 2 MSISDN, номер HLR и прочая "радость").
Стоит таким вендору заниматься или нет - решает оператор, который заказывает сервис с определёнными характеристиками.
Нам тогда текст смс нужен был исключительно для реагирования на жалобы по одному доп.сервису - сама система не хранила текст у себя в логах, поэтому только CDR с SMSC и выручали.
А вот недавно делал апгрейд системы рассылки смс, где основной причиной апгрейда была как раз необходимость хранить текст отправленного сособщения в логах. И для европейских операторов, где абонент может засудить за недоставленное смс с тарифами, это очень важно.

[identity profile] bogdan iusukhno (from livejournal.com) 2012-05-19 09:37 am (UTC)(link)
Думаю, что самым правильным ответом будет такой: вы у себя дома, на современном оборудовании (гигагерцы тактовой частоты, гигабайты оперативной памяти, терабайты дискового пространства) попробуйте сделать такую систему, а потом подумайте - могли ли такое сделать N лет тому на "магнитофонах". И нам заодно всем расскажите, насколько это просто сделать. Делов-то - распознавать голос, выделять ключевые слова и всё это для сотен (а то и тысяч) одновременных разговоров.
И не надо думать, что у операторов стоят волшебные компьютеры, которые считают в 100 раз быстрее и правильнее ))) Мало кто из производителей рискует и ставит самые новые и мощные сервера. Обычно ставится то, что уже проверено и обкатано. А потом же оно ещё и стоит годами. Так что ваш ноутбук/компьютер вполне сгодится для "секретной" системы - будем ждать от вас подробностей и деталей как дома замутить такую же.

[identity profile] nponeccop.livejournal.com 2012-05-19 09:43 am (UTC)(link)
Я не специалист, так что здесь только общие соображения.

1) Распознавать слово "бомба" у произвольных людей не могут мейнстримные технологии 2010-х, что говорит о том, что в 80-х (когда я тоже слышал эту легенду) выполнять те же задачи военные технологии, тем более без использования датацентров, никак не могли.

2) Могла быть аппаратура, избирательно записывающая наиболее подозрительные раговоры, но подозрительность определялась по совершенно иным критериям, нежели "произнесение ключевого слова".

3)Могла быть аппаратура, пишущая вообще все разговоры на ведомственных АТС закрытых объектов или пишущая подозрительных абонентов из фиксированного списка

4) Даже сейчас более реалистичным выглядит определение подозрительности по статистическим критериям - например, путем анализа количества абонентов, звонящих данному абоненту,периодичности регистрации телефона в сети и т.п. И если будет внедрена законом система массовой электронной разведки - то она все равно не будет записывать все разговоры, это экономически нереально и бессмысленно с точки зрения спецслужб. Скорее, на базовых станциях (или в иных местах, где перехват выполнять легче всего) будут установлены недорогие анализаторы, собирающие метаданные о разговоре (вроде количества и длины пауз в разговоре), которые будут передаваться в датацентр КГБ СССР для дальнейшей фильтрации.

[identity profile] nponeccop.livejournal.com 2012-05-19 09:50 am (UTC)(link)
Если бы можно было бы обучить настольную систему распознавать слово "бомба", это было бы в XBox. А распознание голоса, закодированного жсм, в условиях шумов - совершенно нереально. Вокодер - он же не буквы пишет, а всего лишь строит линейную модель, которую шумы сильно портят, от вокодеров до букв за 50 лет всё никак не доберутся.

[identity profile] kray-zemli.livejournal.com 2012-05-19 09:52 am (UTC)(link)
Количество соединений между абонентами в пределах АТС ограничено. Что касается связи с внешней АТС, то каналов там было так мало, что днём хрен прозвонишься вообще. Как я слышал, всё было проще некуда. Сидели натасканные девки и слушали разговоры ушами. И, либо включали магнитофон, если услышали что-то подозрительное, либо магнитофон работал всё время, по кругу, а они только останавливали его в конце полозрительного разговора. Причём, девки могли и не понимать суть беседы (ибо НПО "Вектор"), но реагировали на особый набор "секретных" ключевых фраз. Ну а потом, подозрительные разговоры прослушивались ещё раз, уже специалистами.

[identity profile] kray-zemli.livejournal.com 2012-05-19 09:53 am (UTC)(link)
Телефонов было мало, слушали специально обученные девки ушами.

[identity profile] nponeccop.livejournal.com 2012-05-19 09:54 am (UTC)(link)
См. также http://www.narus.com/index.php/industries/government-intelligence

Собственно, для голоса это не будет ничем отличаться

[identity profile] nponeccop.livejournal.com 2012-05-19 09:55 am (UTC)(link)
Вы же говорили "по ключевым словам", а теперь "девки". В вашей комнате были магнитофоны, а девок не было.

[identity profile] kray-zemli.livejournal.com 2012-05-19 09:56 am (UTC)(link)
Насчёт ключевых фраз, слышал ещё такую байку. На любом совещании НПО "Вектор" обязаны были присутствовать агенты КГБ. Часто это были безмозглые хронические алкоголики. Они просто тихо сидели в углу, и, услышав определенные ключевые фразы, осматривались, у всех ли в помещении есть допуск к этой теме. Если у кого то его нет, то он настоятельно требовал прекратить обсуждение данной темы.

[identity profile] kray-zemli.livejournal.com 2012-05-19 09:57 am (UTC)(link)
Девки могли сидеть в соседней.

[identity profile] bogdan iusukhno (from livejournal.com) 2012-05-19 10:03 am (UTC)(link)
Иными словами - никакого отношения к теме статьи ваш пример не имеет )))
А вот если вернуться к теме автоматической записи разговоров по ключевым фразам, то моё предложение в силе. Забацайте такую систему на своём домашнем компьютере, а потом уже решайте - могут операторы такое сделать или нет. Предлагаю каждому, кто всё ещё сомневается, такое сделать.

[identity profile] kray-zemli.livejournal.com 2012-05-19 10:06 am (UTC)(link)
Кто-то мне хвалился, что сделал нечто подобное (правда, для понтов), в решении для IP-телефонии. Как же он называл используемую программу... сфинкс, кажется.

[identity profile] kray-zemli.livejournal.com 2012-05-19 10:07 am (UTC)(link)
Ну и, если есть вполне массовый Tunatic для музыки, то почему нельзя сделать подобное для ключевых слов? Нам же не разговор в текст в промышленных масштабах переводить, а так -- подозрительные сообщения вычленять.

[identity profile] kray-zemli.livejournal.com 2012-05-19 10:09 am (UTC)(link)
Заладили тоже: компьютер. Щас есть всякие DSP, FPGA и прочие страшные слова.

[identity profile] bogdan iusukhno (from livejournal.com) 2012-05-19 12:40 pm (UTC)(link)
Раз нет никакой проблемы - сделайте и покажите всем. Денег кучу заработаете, слава, лимузины и блекджек с прочими. Деньги не интересуют? - отдадите детским домам или на прочую благотворительность.
Хотя бы для одного разговора, на домашнем компьютере - не надо инвестиций вообще (это я как ремарка в сторону FPGA). Всё ж есть, а почему-то никто не делает...

[identity profile] stilyaha-shed.livejournal.com 2012-05-19 12:46 pm (UTC)(link)
GSM FR - 13 Kbps, GSM HR - 5.6 Kbps

[identity profile] kray-zemli.livejournal.com 2012-05-19 12:50 pm (UTC)(link)
Таки получить адекватные деньги за имеющийся ништяк (например, изобретение) -- самое сложное в капиталистической системе. Ибо, прибыль притягивается к тому, кто уже богат, а убытки -- к тому, кто и так беден.

[identity profile] easyjohn.livejournal.com 2012-05-19 01:19 pm (UTC)(link)
Никаких больших проблем писать каналы между станциями нет.
Мы пишем входящий в контору e1 (30 линий) (у нас работа с финансовыми данными клиентов в т.ч. по телефону, так что мы должны иметь архив).
Висит коробочка в разрыв канала и от нее езернетом/usb скидывает на старую машину уровня пентиум3. Когда набивается 4 гига оно само режет на болванку. Болванки приходится ставить не чаще раза в месяц.
Т.е. технически писать потоки от базовых станций (а они так или иначе всеравно связаны, или прямо каналом или релейкой) больших затрат проца/ диска не требует.

[identity profile] stilyaha-shed.livejournal.com 2012-05-19 01:33 pm (UTC)(link)
Вполне себе возможно писать абсолютно все разговоры и хранить сколь угодно долго. Битрейт GSM кодека 13 Кбит/с или 780 Кбит/мин. Поделим на 8, 97,5 Кбайт/с. То есть, в 1 Tb можно хранить чуть более, чем 10 млн минут разговора. Возьмем 10 минут разговора в день на человека, тогда одного терабайта хватит для обслуживания миллиона абонентов, 365 терабайт в год. Современные SAN системы могут вмещать петабайт в стойке 48U. То есть, одной такой стойки хватит почти на три года обслуживания миллиона абонентов. Давайте обеспечим надежность, вместо одной стойки использовать три и рейд массив, где фактическая емкость уменьшается в 4 раза. Уже 12 стоек + пара-тройка шкафов с коммутационным оборудованием и батареями резервного питания.
Дорого?
Вряд ли это даже 1% от стоимости 10^10 минут разговора.

[identity profile] proforg.livejournal.com 2012-05-19 03:01 pm (UTC)(link)
это всё так просто только пока у вас короткие разговоры, и иx мало (как потоков так и активныx транков в ниx)
а потом - начинается ад

[identity profile] zwstl.livejournal.com 2012-05-19 06:15 pm (UTC)(link)
А потом передать это в центральное хранилище.

[identity profile] zwstl.livejournal.com 2012-05-19 06:28 pm (UTC)(link)
То есть базовая еще должна это отдавать на хранилище. Фактически вкладываем в развитие сети двойнную сумму.
Хотя, даже без решения проблемы передать это в хранилище, только 12 стоек вам обойдутся в миллионы при внедрении и сотни тысяч в эксплуатации. И это не считая модификации софта.
PS. хотя про батареи резервного питания для такой системы - было немного смешно.

[identity profile] stilyaha-shed.livejournal.com 2012-05-19 09:19 pm (UTC)(link)
Image
Вот примерно такие стойки с батареями я имел ввиду. Эти миллионы - капля в море по сравнению с доходом от продажи голоса в таких объемах.

[identity profile] zwstl.livejournal.com 2012-05-19 11:54 pm (UTC)(link)
Обожаю экспертов. Посчитайте, сколько будет потреблять стойка с таким количеством винтов.
PS. И если вы не понимаете сколько стоят SAN сети, коробки storage (стоимость 600гб винта начинается от 60 000 руб), коробки архивных решений - не несите чушь.
PPS. и у вас на картинке дешёвая(при сборке требует молотка и кувалды) , телекоммуникационная стойка. Она не подходит для таких коробок.
PPPS. Кстати, изображённое решение на подобии ИБП - тоже не подходит.

[identity profile] zwstl.livejournal.com 2012-05-20 12:02 am (UTC)(link)
ППКС:)

Page 2 of 4