Публикации по теме 'data-engineering'
Контракты данных: будущее интеграции данных
Что такое контракт данных?
Контракты данных — это мощный инструмент для определения и применения схем данных. Они могут помочь обеспечить надежность данных и функциональную совместимость, и они необходимы для успешной архитектуры данных. Они помогают обеспечить согласованный и предсказуемый обмен данными. Это помогает повысить надежность, эффективность и безопасность обмена данными.
В прошлом контракты данных часто использовались в разрозненной среде. Однако по мере того, как..
DuckDB — о чем шумиха?
Это был пост в блоге, который я планировал написать еще весной, когда увидел, что шумиха вокруг DuckDB начала набирать новые высоты. С тех пор обсуждение DuckDB только усилилось в сообществе разработчиков и специалистов по обработке данных. В настоящее время я вижу две тенденции в сообществе данных с высоким уровнем вовлеченности: DuckDB и Rust берет на себя разработку данных . Но в чем на самом деле шумиха вокруг DuckDB? Давайте немного поцарапаем поверхность.
Сегодняшнее..
Исследовательский анализ данных с помощью одной строки кода
полная и полностью реагирующая визуализация данных с Lux
Вы когда-нибудь сталкивались с ситуацией, когда вам приходилось писать несколько строк кода только для построения и визуализации ваших данных? Как насчет того времени, когда вам нужно написать несколько строк кода, чтобы построить несколько графиков (линия, столбец, круговая диаграмма, и c)? Если да, как и я, то у меня для вас отличная новость!
С помощью всего одной строки кода вы можете построить не один, а полный набор..
Parameter-Efficient Fine-Tuning (PEFT): новый подход к тонкой настройке LLM
Parameter-Efficient Fine-Tuning (PEFT) — это новый подход к точной настройке больших языковых моделей (LLM), который эффективно снижает требования к вычислительным ресурсам и памяти по сравнению с традиционными методами.
PEFT использует тонкую настройку только для небольшого подмножества параметров модели, при этом замораживая большую часть предварительно обученной сети. Эта тактика снижает риск катастрофического забывания и значительно снижает затраты на вычисления и хранение. О..
Создать локальный проект dbt
Как создать локальный проект dbt с фиктивными данными для целей тестирования с помощью Docker
dbt (инструмент построения данных) — одна из самых горячих технологий в области инженерии данных и аналитики . Недавно я работал над задачей, которая выполняет некоторую постобработку артефактов dbt, и хотел написать несколько тестов. Для этого мне пришлось создать пример проекта, который можно было бы запускать локально (или в док-контейнере), чтобы мне не приходилось взаимодействовать с..
Обзор жизненного цикла машинного обучения
млн операций в секунду
Обзор жизненного цикла машинного обучения
Эволюция жизненного цикла ML от пакетного анализа данных с ограниченными ресурсами до MLOps в облачном масштабе
Все говорят о MLOps уже больше года. Я посмотрел вокруг, как развивались жизненный цикл и процессы.
Дисциплина поиска информации из данных существует уже 25 лет. Тогда это было известно как интеллектуальный анализ данных. В этой статье я представляю обзор процесса жизненного цикла машинного обучения и..
10 лучших способов найти работу в области науки о данных
В науке о данных спрос на специалистов по данным часто превышает предложение. Поэтому неудивительно, что многие люди хотят заняться наукой о данных и присоединиться к этой растущей отрасли.
Во время проекта по науке о данных данные собираются из базы данных или API, преобразуются в наборы данных, а затем анализируются с использованием статистических методов. Бизнесу нужны специалисты по данным, потому что они могут помочь…