Гибридные хранилища для больших данных

Гибридные хранилища для больших данных

Речь идет о возможности размещения в облаке данных для работы с программными системами, запускаемыми на локальной инфраструктуре. До недавнего времени такие решения считались неэффективными.

Пока в российском ИТ-сообществе все еще не определились до конца в отношении целесообразности использования облачных хранилищ данных – их безопасности и надежности в сравнении с традиционными on-premise-решениями, выстроенными на собственной инфраструктуре компаний, во многих странах мира вопрос выбора облаков для вычислений и хранения данных можно считать практически решенным.

Но развитие облачных систем не остановилось. В настоящее время активно обсуждается одно из новых направлений – гибридное хранение данных. Речь идет о возможности размещения в облаке данных для работы с программными системами, запускаемыми на локальной инфраструктуре. До недавнего времени такие решения считались неэффективными из-за значительных задержек при доступе к данным и как следствие пониженной производительности программ. Но ситуация, похоже, меняется.

История гибридных форм хранения данных

Локальное хранение данных позволяет получить высокую производительность, гибкость, управляемость и безопасность. Среди типов такого хранения есть и свои рекордсмены, главные из них – RAM-диски, которые осуществляют хранение на модулях памяти: по сравнению с традиционными жесткими дисками скорость чтения получает прирост в 50–1000 раз, скорость записи в 60–660 раз.

Гибридные хранилища для больших данных

Сравнение скорости чтения/записи для обычного HD и RAM-диска

Однако у высокой производительности RAM-дисков есть и обратная сторона – высокая цена хранения. Причина – эти диски выстроены на базе энергозависимой памяти. Кроме того, если компьютер или сервер, где они установлены, теряет питание, то все содержимое RAM-дисков будет потеряно. Хранить данные на них можно только временно при условии постоянного резервирования на энергонезависимом носителе.

Какое это имеет отношение к гибридным формам хранения данных? Самое прямое. Гибридные технологии пришли в традиционные системы хранения через внедрение алгоритмов искусственного интеллекта. Одним из новаторов таких систем стала компания Seagate. Еще в конце 2017 года она выпустила линейку жестких дисков Seagate SkyHawk AI на базе новой технологии ИИ. Они предназначались для систем видеонаблюдения и предусматривали оптимизацию с элементами глубокого и машинного обучения. Благодаря им автоматически ведется подготовка данные для аналитических систем распознавание лиц и анализа отклонений в их поведении. В результате, в сохраняемом видеопотоке выделяются отдельные снимки, отражающие изменения сцен и объектов на них. Эти данные востребованы в системах аналитики, требуют более быстрого доступа и поэтому размещаются в разделах с быстрой памятью. Остальная часть видеопотока передается в раздел обычного доступа.

Гибридное хранилище: взгляд с облаков

Слово «гибридный» уже давно получило популярность в сфере облаков. Оно означает гибридное применение как облачных, так и локальных вычислительных средств, либо как одновременное использование облачных инструментов от разных поставщиков. Но в нашем повествовании речь пойдет о гибридных хранилищах данных.

Рассмотрим для примера облачные возможности службы Amazon S3. Там предоставлен набор хранилищ нескольких типов, что позволяет выбрать наиболее подходящий для себя вариант, исходя из требований к рабочей нагрузке, типу доступа, отказоустойчивости и стоимости хранения данных.

Amazon S3 выделяет следующие классы хранилищ:

  • S3 Standard для данных, требующих постоянного или многократного доступа;

  • S3 Standard-Infrequent Access (S3 Standard-IA) и S3 One Zone-Infrequent Access (S3 One Zone-IA) для данных с периодическим доступом;

  • S3 Intelligent-Tiering для данных с изменяемым шаблоном доступа, что означает применение автоматической перенастройки точек хранения для достижения экономии затрат;

  • S3 Glacier Instant Retrieval и S3 Glacier Flexible Retrieval для архивных хранилищ. Версия Instant подойдет для случаев, когда данные перемещаются в архив, но к ним иногда требуется предоставить быстрый доступ;

  • Amazon S3 Glacier Deep Archive для полноценных архивов, к скорости доступа к которым нет строгих требований.

  • Новый выбор: SAN vs NAS vs Hybrid

    С появления в середине 1990-х выделенных файловых сетевых систем NAS (network-attached storage) корпоративного уровня они стали широко использоваться для обмена файлами. Их главными признаками стали емкость хранилища, производительность, безопасность и надежность. Дополнительных функций, таких как проверка подлинности или управление файлами, не предоставлялось.

    Это обеспечило NAS высокую свободу при выборе конфигурации решений. Для них не было обязательным размещение в составе отдельного сервера, их можно было разместить в любом месте локальной сети, собрав в единой целое из нескольких сетевых устройств.

    Несмотря на достоинства SAN и NAS, обе системы имели один общий недостаток: трудности при создании большого логического пула – состоящего из сотен или тысяч физических дисков. Для поддержки абстракции файловой системы, совместимой с POSIX, требовалась дополнительная вычислительная мощность, что делало такое решение относительно сложной задачей на практике.

    Новые решения – программно определяемые хранилища данных (software-defined storage, SDS) позволили обойти трудности. Они могут охватывать десятки двухпоточных процессорных систем, гигабайты системной памяти, поддержку мультигигабитных сетей, широкий набор высокопроизводительных SSD-дисков и HDD большой емкости. Это обеспечивает высокую линейную масштабируемость вычислительных ресурсов и емкости хранения, объединяя воедино матрицу процессоров, DRAM-память, SSD- и HHD-накопители.Это открывает новые возможности для работы с метаданными и неструктурированной информацией, позволяет предоставить пользователям гибридное облако большой емкости с комбинированной файлово-объектной моделью доступа.

    Испытание гибридных облачных хранилищ

    Еще в середине 2020 года британский консультант Марк Литвинчик (Mark Litwintschik) опубликовал в своем блоге пост о проведенной им проверке на производительность облачного хранилища размером около 500 Гбайт. В качестве испытательной базы он выбрал массив данных с информацией об 1,1 млрд поездок на такси в Нью-Йорке за период 2009–2015 гг. Эти данные размещались в 56 CSV-таблицах, сжатых с помощью GZIP. Общий объем данных в архиве составлял около 104 Гбайт, а после его раскрытия увеличивался до ~500 Гбайт.

    Экспериментальные данные размещались в инстансе AWS общего назначения, который охватывал 32 процессорных ядра, 128 Гбайт ОЗУ и 512 Гбайт хранилища. Для управления базами данных использовался движок ClickHouse v.22.8 облачного провайдера DoubleCloud. Месячная аренда такого инстанса составляет $2516,35.

    Гибридные хранилища для больших данных

    Конфигурация испытательного стенда

    Выбор для эксперимента данного датасета объяснялся просто: эти же данные применялись для бенчмарка многих источников: Amazon Athena, BigQuery, BrytlytDB, Elasticsearch, EMR, Hydrolix, kdb+/q, OmniSci, PostgreSQL, Redshift и Vertica. Проведя анализ гибридной модели хранения, можно было расширить сравнительные оценки. Бенчмарки более ранних испытаний приведены в следующей таблице (Query 1..4 – различные тестовые запросы к БД).

    Гибридные хранилища для больших данных

    Результаты тестов экспериментального датасета на различных конфигурациях

    Новый эксперимент с гибридным хранилищем потребовал сначала загрузить 56 таблиц в облако Amazon. Время импорта выборочных данных объемом 144,88 Гбайт составило 29 минут 25 секунд. Последующая конвертация данных в облаке заняла 50 минут 43 секунды. После этого был проведен тест с эталонными запросами (Query 1..4). Время выполнения каждой операции приведены в таблице.

    Гибридные хранилища для больших данных

    Результаты тестов локального, облачного и гибридного хранения данных

    Меткой Local отмечены результаты теста при размещении данных в локальном хранилище, Hybrid Cold – в гибридном облаке, Hybrid Сached – там же, но при повторном выполнении запроса.

    Как видно из результатов, ответная реакция при размещении данных в облаке S3 значительно выше, чем при локальном размещении. Этот результат интуитивно предсказуем. Но более значимы результаты о времени ответной реакции при повторном запросе, что соответствует реальным условиям работы с данными: задержка по сравнению с локальным размещением выросла, но значительно меньше, чем при первом обращении. Эффект достигнут благодаря кэшированию на стороне ClickHouse.

    Эксперимент показал, что с переходом на гибридную форму хранения потеря производительности не настолько заметна. Эта модель хранилища становится привлекательной при работе с большими данными, размещать которые локально неэффективно. Гибридная модель обеспечивает высокую производительность при низких затратах за использование данных.

    Придут ли гибридные облачные хранилища в Россию?

    Если два года назад это были только эксперименты, то сегодня обращает на себя внимание пресс-релиз, выпущенный в начале октября компанией IBM, ушедшей из России. Она объявила о добавлении в дорожную карту своего бизнес-подразделения IBM Storage продуктов хранения Red Hat для создания собственных продуктов и использования гибридных хранилищ данных в локальной инфраструктуре (on-premise) и облаке.

    Новая технология хранения Red Hat OpenShift Data Foundation (ODF) станет основой для решения IBM Spectrum Fusion. Оно объединит технологии хранения контейнеров IBM под управлением инструментов Red Hat с созданием сервисов гибридных хранилищ. В планах IBM выпуск Ceph – унифицированной программно определяемой платформы хранения, которая позволит устранить архитектурные различия между ЦОДами и облаками.

    Вопрос о появлении аналогичных облачных разработок в России можно переадресовать Минцифры, где поддерживают отечественных производителей и ведут список решений для импортозамещения.

    Источник

    Маркетмейкер Auros привлек $17 млн для стабилизации финансов после краха FTX

    Маркетмейкер Auros привлек $17 млн для стабилизации финансов после краха FTX

    Проект Auros привлек $17 млн, чтобы завершить процесс реструктуризации и закрыть дыру в балансе, вызванную крахом FTX.

    1/ For the past 4 months, Auros has been working tirelessly to strengthen our core operations and continue supporting our partners.

    We’re thrilled to announce that we’ve just completed a US$17m funding round, led by VivCourt, along with participation from @BitDigital_BTBT 👇🧵

    — Auros (@Auros_global) March 21, 2023

    Среди инвесторов — Vivienne Court, Bit Digital, Trovio, Epoch Capital, Primal Capital и партнеры венчурного гиганта Optiver.

    В совет директоров компании войдут соучредитель Vivienne Court Марсель Клосси и глава Bit Digital Хьюз Чинг.

    В конце 2022 года компания столкнулась с финансовыми проблемами и пропустила несколько выплат по обязательствам после того, как $20 млн застряли на рухнувшей бирже FTX. Auros пришлось подать заявление о реструктуризации в суд по делам о банкротстве Британских Виргинских островов.

    «Мы не платили сразу, потому что собирались вернуть все средства разом. Наша компания прибыльная, поэтому нужно было просто выиграть время, чтобы обеспечить справедливое и равное отношение ко всем кредиторам», — пояснил сооснователь Auros Бенджамин Рот.

    Глава маркетмейкера отметил, что на протяжении всего судебного процесса бизнес компании продолжал функционировать в штатном режиме.

    В заявлении Auros говорится, что инвестиции также будут использованы для развития сервисов деривативов и высокочастотной торговли.

    Ранее FTX в третий раз перенесла дату аукциона по продаже биржи LedgerX. В этот раз торги назначены на 4 апреля.

    Напомним, в марте 2023 года Alameda Research Ventures — инвестиционное подразделение рухнувшей биржи — заключило соглашение о продаже за $45 млн доли в венчурной фирме Sequoia Capital суверенному фонду благосостояния Абу-Даби.

    До этого действующий глава FTX Джон Рэй заявил о «существенном дефиците» капитала платформы.

    Источник: cryptonews.net

    Котировки криптовалюты XDC прибавили 20% за сутки

    Котировки криптовалюты XDC прибавили 20% за сутки

    По данным на 11:45 по московскому времени 21 марта 2023 года, лучшей криптовалютой дня по прибыльности для собственных ходлеров стала XDC Network (XDC). Ранее данный проект назывался XinFin. Котировки токена взлетели на 20,73% за минувшие 24 часа, что стало лучшим результатом среди всех цифровых активов из топ-100.

    Приобрести XDC на биржах можно было по средней стоимости в размере $0,042. Рыночная капитализация токена составляла $592,21 млн. Это позволило забраться на 76-ю строчку в списке лучших. Всего за прошедшие 24 часа были оформлены сделки на $11,71 млн.

    Изначально разработчики позиционировали XinFin как публичный блокчейн, совместимый с EVM (Ethereum Virtual Machine). Данная сеть предлагала пользователям минимальные транзакционные комиссии, короткое время подтверждения переводов, функцию двойной проверки, а также уровень безопасности.

    Что касается других криптовалют, то следовало отметить возвращение в список ста лучших проекта Nexo (NEXO). На фоне падения капитализации криптовалютного рынка на 2,7% за прошедшие сутки, курс NEXO, наоборот, вырос на 5,72%. Это дало возможность подняться на 98-ю строчку в рейтинге с показателем $385,9 млн.

    Котировки виртуального токена зафиксировались на значении $0,69. Участники рынка оформили сделки с криптовалютой на сумму $29,62 млн за отчетный временной отрезок.

    Flare (FLR) также оказалась в топ-100 после небольшого перерыва. Ее курс прибавил 2,55% за последние 24 часа. Криптоактив можно было приобрести на торговых платформах по средней цене в размере $0,031. Суммарное предложение токенов, циркулирующих в обращении, составило $374,96 млн. Таким образом, цифровой актив расположился на 99-й позиции в списке лучших. Торговые объемы за минувший день равнялись $22,97 млн.

    Источник: cryptonews.net