В этом году другой опыт. Чат с моими товарищами по команде представляет собой смесь обсуждения новых функций и фотографий хорошего времяпрепровождения в Вегасе с предыдущих конференций re:Invent.

Энди Ясси закончил первое выступление 2020 года, и я не был разочарован. Множество замечательных новых функций, для которых у нас есть варианты использования.

Вот мои любимые функции, связанные с данными, о которых было объявлено во время выступления Энди Джасси re:Invent.

Склеивание эластичных видов

Большинство групп данных и клиентов, с которыми я работаю, хранят данные в нескольких местах. У вас может быть CRM-система, система учетных записей, управление документами и т. д. Объединение всех этих данных и поддержание их в актуальном состоянии в «едином представлении клиента» для аналитических рабочих нагрузок — это то, о чем инженеры данных тратят много времени на размышления.

В прошлом я активно использовал материализованные представления для преобразования моделей транзакционных данных в представления, более подходящие для отчетов по запросам.

Представления Glue Elastic — это отличная функция, когда у вас есть данные в нескольких типах баз данных и вы хотите применить функции захвата измененных данных (CDC) и материализованного типа представления.

Я не могу дождаться, чтобы получить предварительный просмотр. Вы можете зарегистрироваться сегодня на https://aws.amazon.com/glue/features/elastic-views/

Зрение Q

Я уже был поклонником QuickSight из-за оплаты за сеанс. Это работает очень хорошо, если учесть минимальную пользовательскую лицензию для некоторых других инструментов визуализации данных.

Мне также нравятся функции для встраивания информационных панелей QuickSight в ваши приложения.

С недавно анонсированной функцией использования естественного языка для вопросов о ваших данных конечным пользователям ваших приложений будет еще проще получать выгоду от аналитики гораздо более последовательным и интегрированным способом.

Функция Q находится в предварительной версии, и вы можете зарегистрироваться на https://aws.amazon.com/quicksight/q/?nc=sn&loc=4.

Ознакомьтесь с блогом QuickSight Q здесь https://aws.amazon.com/blogs/aws/amazon-quicksight-q-to-answer-ad-hoc-business-questions/

Новые тома gp3 EBS

Теперь вы можете масштабировать производительность тома хранилища независимо от емкости хранилища. Да, и это до 20% дешевле, чем gp2.

https://aws.amazon.com/about-aws/whats-new/2020/12/introduction-new-amazon-ebs-general-purpose-volumes-gp3/

Аврора без сервера v2

v2 теперь утверждает, что может мгновенно масштабироваться за доли секунды. Масштабирование настраивается поэтапно, чтобы предоставить именно то количество ресурсов базы данных, которое необходимо приложению.

В настоящее время предварительная версия будет MySQL и будет иметь такие функции Aurora, как глобальная база данных, развертывание в нескольких зонах доступности и реплики чтения.

Подпишитесь на предварительный просмотр на https://aws.amazon.com/rds/aurora/serverless/

Babelfish для PostgreSQL

Я видел довольно много миграций рабочей нагрузки базы данных в облако. Часто они также включают переход от коммерческого движка базы данных к движку с открытым исходным кодом, такому как PostgreSQL. Существуют такие инструменты, как AWS DMS и Qlik Replicate, которые хорошо справляются с переносом данных и преобразованием типов данных. Что часто требует больше времени, так это миграция кода базы данных, такого как PL/SQL, в эквивалент с открытым исходным кодом.

Babelfish пытается решить проблему миграции кода базы данных для миграции MS SQL на PostgreSQL.

Babelfish добавляет конечную точку в PostgreSQL, которая понимает проводной протокол SQL Server Tabular Data Stream (TDS), а также часто используемые команды T-SQL, используемые SQL Server.

С включенным Babelfish вам не нужно заменять драйверы базы данных или предпринимать значительные усилия по переписыванию и проверке всех запросов к базе данных ваших приложений.

Посетите блог AWS Open Source на Babelfish здесь https://aws.amazon.com/blogs/opensource/want-more-postgresql-you-just-might-like-babelfish/

AWS собирается открыть исходный код Babelfish в первом квартале 2021 года, пока вы не сможете подписаться на предварительную версию Amazon Aurora. Вы также можете ознакомиться с сообществом Babelfish здесь https://babelfish-for-postgresql.github.io/babelfish-for-postgresql/

Обработчик данных SageMaker

В некоторых отраслях до 92 % времени аналитического проекта тратится на обработку данных (поиск, ETL, очистка и т. д.), чтобы подготовиться к реальным рабочим нагрузкам машинного обучения и аналитики.

Amazon SageMaker Data Wrangler утверждает, что сокращает время, необходимое для агрегирования и подготовки данных для машинного обучения, упрощает процесс подготовки данных и разработки функций, а также выполняет каждый этап рабочего процесса подготовки данных, включая выбор данных, очистку, исследование и визуализацию. из единого визуального интерфейса.

https://aws.amazon.com/sagemaker/data-wrangler/

Магазин функций SageMaker

Подобно обработке данных, разработка функций может занимать много времени. После завершения имеет смысл поделиться результатами с другими людьми, которые могут разрабатывать рабочие нагрузки машинного обучения на основе тех же наборов данных.

Точно так же, как каталог данных позволяет организации обнаруживать активы данных, новое хранилище функций в Sagemaker предоставляет репозиторий, в котором вы можете хранить функции и получать к ним доступ, поэтому их намного проще называть, организовывать и повторно использовать в разных командах.

Подробности смотрите здесь https://aws.amazon.com/sagemaker/feature-store/

Конвейеры SageMaker

Привнесение CI/CD в рабочие нагрузки машинного обучения SageMaker Pipelines был запущен, чтобы помочь вам автоматизировать различные этапы рабочего процесса машинного обучения, включая загрузку данных, преобразование данных, обучение и настройку, а также развертывание.

Подробности смотрите здесь https://aws.amazon.com/sagemaker/pipelines/

Что дальше?

Это было отличное начало для re:Invent. Мне не терпится увидеть, что еще они приготовили для нас.