Публикации по теме 'data-engineering'


Контракты данных: будущее интеграции данных
Что такое контракт данных? Контракты данных — это мощный инструмент для определения и применения схем данных. Они могут помочь обеспечить надежность данных и функциональную совместимость, и они необходимы для успешной архитектуры данных. Они помогают обеспечить согласованный и предсказуемый обмен данными. Это помогает повысить надежность, эффективность и безопасность обмена данными. В прошлом контракты данных часто использовались в разрозненной среде. Однако по мере того, как..

DuckDB — о чем шумиха?
Это был пост в блоге, который я планировал написать еще весной, когда увидел, что шумиха вокруг DuckDB начала набирать новые высоты. С тех пор обсуждение DuckDB только усилилось в сообществе разработчиков и специалистов по обработке данных. В настоящее время я вижу две тенденции в сообществе данных с высоким уровнем вовлеченности: DuckDB и Rust берет на себя разработку данных . Но в чем на самом деле шумиха вокруг DuckDB? Давайте немного поцарапаем поверхность. Сегодняшнее..

Исследовательский анализ данных с помощью одной строки кода
полная и полностью реагирующая визуализация данных с Lux Вы когда-нибудь сталкивались с ситуацией, когда вам приходилось писать несколько строк кода только для построения и визуализации ваших данных? Как насчет того времени, когда вам нужно написать несколько строк кода, чтобы построить несколько графиков (линия, столбец, круговая диаграмма, и c)? Если да, как и я, то у меня для вас отличная новость! С помощью всего одной строки кода вы можете построить не один, а полный набор..

Parameter-Efficient Fine-Tuning (PEFT): новый подход к тонкой настройке LLM
Parameter-Efficient Fine-Tuning (PEFT) — это новый подход к точной настройке больших языковых моделей (LLM), который эффективно снижает требования к вычислительным ресурсам и памяти по сравнению с традиционными методами. PEFT использует тонкую настройку только для небольшого подмножества параметров модели, при этом замораживая большую часть предварительно обученной сети. Эта тактика снижает риск катастрофического забывания и значительно снижает затраты на вычисления и хранение. О..

Создать локальный проект dbt
Как создать локальный проект dbt с фиктивными данными для целей тестирования с помощью Docker dbt (инструмент построения данных) — одна из самых горячих технологий в области инженерии данных и аналитики . Недавно я работал над задачей, которая выполняет некоторую постобработку артефактов dbt, и хотел написать несколько тестов. Для этого мне пришлось создать пример проекта, который можно было бы запускать локально (или в док-контейнере), чтобы мне не приходилось взаимодействовать с..

Обзор жизненного цикла машинного обучения
млн операций в секунду Обзор жизненного цикла машинного обучения Эволюция жизненного цикла ML от пакетного анализа данных с ограниченными ресурсами до MLOps в облачном масштабе Все говорят о MLOps уже больше года. Я посмотрел вокруг, как развивались жизненный цикл и процессы. Дисциплина поиска информации из данных существует уже 25 лет. Тогда это было известно как интеллектуальный анализ данных. В этой статье я представляю обзор процесса жизненного цикла машинного обучения и..

10 лучших способов найти работу в области науки о данных
В науке о данных спрос на специалистов по данным часто превышает предложение. Поэтому неудивительно, что многие люди хотят заняться наукой о данных и присоединиться к этой растущей отрасли. Во время проекта по науке о данных данные собираются из базы данных или API, преобразуются в наборы данных, а затем анализируются с использованием статистических методов. Бизнесу нужны специалисты по данным, потому что они могут помочь…