Скриншот CU-SeeMe — одной из первых Интернет-систем для видеоконференций, появившейся ещё в 1992 году. В бизнес-среде и «оборонке» примеры использования технологий видеоконференций возникли ещё 1980-х.
Несмотря на четыре десятка лет эволюции технологий, видеоконференции на низком уровне по сути остаются магией, которая в половине случаев не срабатывает. В этой статье я расскажу, почему так происходит.
В мире, напуганном распространением смертельно опасного заболевания, работодатели рано или поздно неизбежно бы попросили сотрудников оставаться дома… и работать оттуда. Этим преимуществом чаще всего не обладали работники прошлого, оно стало возможным благодаря Интернету. Но для такого способа применения Интернет далеко не идеален, и он доказывает это почти каждый раз, когда вы начинаете видеоконференцию. Небольшие задержки заставляют людей перебивать друг друга. Время тратится впустую, потому что собеседникам приходится повторять сказанное. И всегда найдётся один коллега, решивший поработать в кафе со всем окружающим его шумом. Лично я уже почти четыре года работаю удалённо, поэтому мне часто предоставлялась возможность совершения конференц-звонков; я осознал, что с ними связаны проблемы — технические, культурные и практические. И многие трудности, вызываемые этой технологией, сводятся к множеству мелких особенностей Интернета. Сегодня мы поговорим о сложности системы видеоконференций.
«Многие видеоконференции — ужасная трата денег; они не обеспечивают никаких преимуществ перед голосовыми конференциями, потому что пользователи не знаю, как использовать потенциал визуального компонента». — Это цитата из авторской колонки 1992 года в Network World Джеймса Кобелуса, заметившего, что многие компании инвестировали большие средства в технологию межофисных видеоконференций, но не смогли сделать их более эффективными, чем простое общение по телефону. В то время у них не было буквально никаких преимуществ современных технологий. Вот как, согласно статье, выглядела в ту эпоху стандартная система для видеоконференций: «Обычно для видеоконференций могут использоваться параллельная дистанционная передача звука, стационарные и мобильные внутренние микрофоны, несколько поворачиваемых настенных камер, стенды для неподвижной и анимированной графики (на которых камера находится в руке докладчика, пока он рисует), проекторы 35-миллиметровых слайдов, видеомагнитофоны, факсимильные аппараты, электронные интерактивные доски и персональные компьютеры».
Чтобы получить широкую популярность, технологиям видеоконференций потребовалось множество инноваций
Да, технология конференц-звонков даже в 2020 году немного расстраивает, но стоит сказать, что за эти годы мы совершили довольно долгий путь. Даже несмотря на то, что технология видеоконференций остаётся раздражающе несовершенной, она всё равно отражает наши попытки устранения проблем, совершавшиеся в течение четырёх десятков лет.
С момента появления на рабочих местах в 1980-х оборудование для видеоконференций проделало долгий путь. Для многих компаний его приобретение оборачивалось затратой сумм с пятью нулями, а почасовая стоимость каждого вызова была гораздо выше (вплоть до 1 000 долларов/ч) по сравнению с зарплатами того времени.
(Возможно, это отразилось в том, что во многих первых системах трансляции видео применялся подход «один передатчик, несколько приёмников», при котором использовались те же технологии, что и в кабельном или спутниковом телевидении. Они не были интерактивными, зато работали.)
С другой стороны, всего за несколько лет технологии видеоконференций значительно усовершенствовались, а их цена снизилась в десятки раз. В 1982 году, когда Compression Labs выпустила свою первую систему для видеоконференций, она стоила 250 тысяч долларов, однако цены быстро падали — к 1990 году можно уже было купить готовую систему всего за 30 тысяч, а к 1993 году — меньше чем за 8 тысяч.
Но для реализации видеоконференций приходилось идти на множество компромиссов. Линии T1 могли передавать примерно 1,5 мегабита потоковых данных в секунду. Такой полосы пропускания примерно хватило бы для просмотра одного видео на YouTube с разрешением 480p, а 1980-х для её приобретения нужно было потратить тысячи долларов. (Из-за свой многоканальной структуры, которая должна была стать эквивалентом 24 отдельных телефонных линий, линии T1 и сегодня остаются очень дорогими, несмотря на то, что их сильно обогнало по скорости оптоволокно.)
Чертёж из заявки на патент 1987 года, выданный Compression Labs. В нём описывается одна из первых технологий двусторонних видеоконференций. (Google Patents)
Со временем это привело к созданию вариантов систем, использующих для видеоконференций менее мощные сети, например, Compression Labs Rembrandt 56, которая использовала линии ISDN, в то время достигавшие максимальной скорости 56 килобит/с. Эти системы стоимостью 68 тысяч долларов, в которых использовались инновации Compression Labs в области сжатия видео, позволили потребителям снизить затраты примерно до 50 долларов/ч. (Примечание: в 1980-х и 1990-х удалённые работники чаще всего использовали ISDN.)
Как вы можете понять, поначалу видеоконференции в основном процветали в государственных учреждениях, и многие из первых исследовательских работ по применимости таких технологий обычно проводились военными.
«Сжатие видео связано с неизбежным компромиссом между разрешением картинки и возможностью обработки движения», — говорится в диссертации 1990 года студента Школы повышения квалификации офицерских кадров ВМС США, в которой излагаются рекомендации по организации видеоконференций для ВМС Китайской Республики (Тайваня). «Качество изображения зависит от ширины полосы пропускания. При снижении полосы пропускания требуется больше кодирования, что приводит к ухудшению изображения».
Стоит также отметить, что видеоконференции стали важным элементом совершенствования технологий сжатия изображений на протяжении 1980-х. На самом деле, Compression Labs, ответственная за множество этих инноваций стала в 2000-х источником споров — её приобрёл новый владелец, который попытался воспользоваться патентом на алгоритм сжатия, применяемый в формате JPEG, чтобы подать в суд на крупные корпорации. Патентный тролль уладил спор со многими крупными технологическими компаниями в 2006 году, после того, как суд выяснил, что патент распространяется на применение только в видеосигнале.
Технология видеоконференций потребительского уровня (то есть веб-камеры) появилась в 1994 году благодаря выпуску Connectix Quickcam — устройства, с которым я тесно знаком. Это устройство стоимостью около 100 долларов плохо работало на старых PC из-за ограниченной полосы пропускания, обеспечиваемой параллельными портами и другими старыми гаджетами; тем не менее, оно привело к дальнейшим инновациям, продолжавшимся несколько десятилетий. (Порты USB и Firewire — последний использовался в камере iSight, которую Apple продавала в начале 2000-х — обеспечивали полосу пропускания, достаточную для записи видео, а то и передачи его через Интернет.)
В корпоративном секторе тоже возникали важнейшие инновации. В 1992 году компания Polycom выпустила свой первый конференц-телефон — устройство, позволявшее разговаривать в одном кабинете нескольким людям; в таком формате конференции продолжали проводиться ещё следующие три десятка лет. А спустя несколько лет компания WebEx, которую позже приобрела Cisco, разработала одну из первых технологий видеоконференций для Интернета, основные принципы которой мы используем и сегодня.
Программные технологии передачи видео были значительно усовершенствованы в начале 2000-х приложением Skype, способность которого обеспечивать высококачественные видео- и голосовые разговоры по сети из узлов peer-to-peer стала важнейшей инновацией в технологиях конференций. Однако после приобретения компанией Microsoft Skype перешёл от схемы peer-to-peer к системе «супернодов».
К середине 2000-х веб-камеры стали стандартными компонентами ноутбуков и настольных компьютеров. Сама идея была предложена ещё в 2001 году в Hewlett Packard Concept PC, а первыми компьютерами со встроенными веб-камерами стали iMac G5 и первое поколение MacBook Pro с процессорами Intel.
Итак, у нас есть весь этот набор гаджетов, позволяющий связываться друг с другом почти без малейших проблем. Но почему же мы этим недовольны? На то есть несколько причин.
1,5 Мбит/с — такова рекомендуемая полоса пропускания, необходимая для совершения видеозвонка в Skype с высоким разрешением. (Эта величина равна максимальной полосе пропускания линии T1.) Для эффективного выполнения телефонных звонков в этом VoIP-сервисе компании Microsoft необходимо около 100 кбит/с, но этому часто мешают другие аспекты в вашей машине или сети. Если у вас загружаются торренты, то может возникнуть проблема.
Конференц-телефон Polycom совершил переворот в области офисных конференц-вызовов.
В чём проблема конференц-вызовов в офисе
Чтобы ответить на вопрос о том, почему офисные видеоконференции по-прежнему, несмотря на все инновации, сталкиваются со множеством проблем, нам нужно сделать шаг назад и учесть, что мы стремимся выполнить множество задач на очень ненадёжном фундаменте.
У нас есть все эти инновации, но они конкурируют с гораздо большим количеством ресурсов.
Если вы сидите дома перед ноутбуком, к которому подключён оптоволоконный канал на 100 мегабит, то есть вероятность того, что вы стримите в соседнюю комнату видеоигру, одновременно скачивая 15 торрентов, но всё равно не испытаете особых проблем.
Но если вы находитесь в офисе ещё с сотней людей и этот офис ежедневно проводит несколько видеоконференций, то это очень оказывает очень высокую нагрузку на офисный Интернет.
Вот пример ситуации, которая может возникнуть сегодня: допустим, после обеда проводится общее совещание, но у вас близится дедлайн, поэтому вместо того, чтобы пройти пятнадцать метров до конференц-зала, вы решаете подключиться к совещанию онлайн. Допустим, десятеро ваших коллег тоже решили поступить так же. Несмотря на то, что все вы находитесь в одном большом помещении, ни одно из этих соединений не выполняется локально. Вы подключаетесь к совещанию в локальной сети через Интернет, то есть эта локальная сеть не просто должна закачивать кучу дополнительных данных в Интернет, но и скачивать их обратно.
Если вы, допустим, работаете в Google, где построена масштабная сетевая инфраструктура, то это может и не быть серьёзной проблемой. Но в компаниях поменьше корпоративная сеть может быть чрезвычайно дорогой и стоить сотни или тысячи долларов в месяц, не считая затрат на монтаж. В результате вы на каком-то этапе можете упереться в потолок своих возможностей.
Внезапно видеоконференция, которая должна обслуживать удалённых пользователей, начинает тормозить и заикаться. (Это может быть одной из причин, по которым ребята из ИТ-отдела рекомендуют вам не загружать Dropbox на рабочий PC.)
Но даже небольшие моменты задержек могут создавать серьёзные проблемы. У вас когда-нибудь было так, что ваши слова накладываются на речь другого человека? Такое происходит, когда в сигнал вкрадывается небольшая задержка. А поскольку видео и звук часто передаются разными способами (иногда даже разными устройствами), эти задержки могут вызывать проблемы синхронизации — допустим, ситуации, при которых звук движется быстрее, чем собеседник. Как утверждает компания 8x8, занимающаяся видеоконференциями, для видеозвонка приемлемой задержкой является 300 миллисекунд, но такой задержки вполне достаточно для того, чтобы два человека начинали говорить одновременно. (Возможно, нужна система как в рациях?)
Многие современные веб-камеры просто не очень хороши, особенно если они встроены в экран ноутбука.
Почему конференц-звонки плохо работают вне офиса
Но даже если вы дома или в дороге, скорее всего, всё равно возникнут проблемы, не позволяющие обеспечить качественные звук и видео; и не всегда они связаны с шириной Интернет-канала.
Часть проблем будет связана с шумом, другая — с качеством камеры, а некоторые — с настройками звука.
Что касается качества камер, то в последние годы возник интересный феномен: по сути, мы заинтересованы в улучшении качества камер, но в то же время стремимся к уменьшению размеров объектива, а это оставляет не так много возможностей для совершенствования. По сути, камерам некуда деваться — нужно или миниатюризировать технологии, или пытаться реализовать элементы, которые оказываются скорее спорными, чем полезными. Самым печально известным примером стал Huawei Matebook Pro — дизайнеры решили разместить камеру под поднимаемую клавишу, и это оказалось самым спорным аспектом в остальном хорошего ноутбука.
Всё это происходит в то время, когда важность чёткости камеры постоянно повышается, а значит, веб-камеры ноутбуков оказываются значительно хуже своих мобильных аналогов — например, в 16-дюймовом MacBook Pro используется веб-камера на 720p. И это сегодня, когда многие современные смартфоны способны снимать видео с фронтальных камер в разрешении 4K. Даже если потоковое воспроизведение не справится с полным разрешением, есть вероятность того, что при снижении уровня сжатия повысится качество.
Кстати об уровне сжатия: новая мода на избавление от разъёмов для наушников создала довольно серьёзную проблему для конференц-вызовов. Если говорить просто, то большинство версий Bluetooth традиционно имеет достаточно посредственное качество звука при использовании микрофона. Это вызвано особой проблемой спецификации Bluetooth, преследующей технологию на протяжении почти всей её истории: по спецификации невозможно получить высококачественный звук микрофона из-за нехватки пропускной способности; ситуация усугубляется, если устройство подключено к 2,4-гигагерцовой сети WiFi, имеющей ту же частоту, что и Bluetooth.
На самом деле, при использовании Bluetooth-гарнитуры качество звука микрофона значительно падает. И хотя Bluetooth 5.0 потенциально может обеспечить полосу пропускания для улучшения звука микрофона гарнитуры, этот стандарт в основном поддерживается только самыми современными PC и смартфонами. Факт заключается в том, что если вы хотите подключиться к видеоконференции, то нужно просто подключить проводные наушники, пусть даже через USB. Я выяснил, что даже навороченные беспроводные наушники с подавлением шума, например, Sennheiser PXC 550, проблемно использовать в качестве микрофона в видеоконференциях. (Сегодня я пользуюсь гораздо более раскрученными Sony WH-1000XM3, но несмотря на все усилия, вложенные в разработку их микрофона, когда мне нужно сделать звонок, я подключаю кабель наушников со встроенным микрофоном.)
Стоит также заметить, что подобное влияние на качество вызова могут оказывать и обычные телефонные звонки на номер, потому что голосовые линии обычно подвергаются сильному сжатию. (Именно по этой причине музыка при удержании вызова звучит особенно ужасно.) Если у вас есть выбор между набором номера и звонком через приложение, то лучше выберите приложение.
Что касается звука, то стоит учитывать и окружение. Комнаты с сильным эхом не особо подходят для конференц-вызовов. И хотя работа в кофейне может подстегнуть вашу креативность, вам не удастся найти в ней тихое пространство для беседы (как и достаточно быстрого Интернет-соединения).
Но на фронте борьбы с фоновым шумом есть и хорошие новости — существует технология, позволяющая микрофону справляться со звуками блендеров для фраппучино. Приложение Krisp для MacOS, Windows и iOS при помощи искусственного интеллекта позволяет избавиться от многих фоновых шумов. Хоть оно и не бесплатно, зато позволяет улучшить качество звука. Для пользователей Linux тоже существует довольно эффективный вариант — в приложении pulseaudio можно включить опцию, в реальном времени удаляющую из записей фоновый шум. (Оно не такое качественное, как Krisp, зато бесплатное!)
Похожая инновация на фронте видеосигнала — размытие фона — появилась и в главных инструментах для видеочатов Microsoft, Teams и Skype.
Скоро мы сможем принимать участие в видеоконференциях из Starbucks с тем же качеством, что и дома.
Но даже если вы выбрали подходящие наушники, избавились от всего окружающего шума, нашли идеальную комнату и сделали всё правильно, вам не удастся избавиться от того, что всем остальным участникам конференции нужно самим создать комфортную среду. И если один из собеседников решит участвовать в конференции с открытым на шумящую автостраду окном или подключившись через худшую в мире беспроводную сеть, не знает о существовании кнопки отключения звука или решит общаться в пижаме (а может и хуже того), то весь процесс общения непременно пойдёт под откос. А в наше время, когда люди вынуждены работать из дома, у них может и не быть плана Б.
Во многих смыслах это больше культурная, чем техническая проблема, но её можно объяснить при помощи понятия, более тесно связанного с кибербезопасностью, чем с видеосовещаниями: поверхность атаки. Чем больше людей участвует в конференции, тем больше поверхность атаки и тем выше вероятность того, что одно слабое звено испортит всю беседу.
Давайте будем честны: хоть ПО для видеоконференции неидеально, оно проделало долгий путь и теперь, в принципе, достаточно хорошо для того, чтобы позволить регулярно работать из дома, почти не влияя на качество этой работы.
Отличным примером этого может служить электронное обучение — образовательная версия видеоконференций, которая считается настолько эффективной, что по сути стала распространённой практикой на случай снегопадов в некоторых районах.
Учитывая всё то, что мы способны делать с Интернетом, и огромный объём передаваемых данных, можно только подивиться тому, насколько хорошо видеоконференции выполняют свою задачу. А чтобы она была выполнена, часто требуется сильное сжатие и снижение качества. Именно из-за этого нам слишком часто приходится повторять свои слова. Возможно, нам стоит наоборот удивляться тому, что наши коллеги почти всегда нас слышат.