Вопросы по теме 'hive'

Основное о Hadoop и Hive
Недавно начал работать с Hadoop. Есть таблица Checkout, к которой я обращаюсь через Hive. А ниже путь, по которому данные идут в HDFS и прочая информация. Итак, какую информацию я могу получить, если мне нужно прочитать три строчки ниже?...
766 просмотров
schedule 19.11.2023

Group By в Hive в секционированной таблице дает повторяющиеся строки результатов
Использование версии 0.11.0. Я получаю неправильные результаты при попытке выполнить этот запрос select t1.symbol, max(t1.maxts - t1.orderts) as diff from (select catid, symbol, max(cast(timestamp as double)*1000) as maxts,...
2401 просмотров
schedule 19.12.2023

Не удается создать внешнюю таблицу в улье, чтобы указать hbase
Я студент, пытающийся понять, как работают все вещи Hadoop. Итак, я запускаю cloudera на 15 машинах. Конфигурация в порядке, все сервисы зеленые. Я импортировал 12 тыс. строк mysql под hbase, и все тоже прошло нормально. Я хотел делать запросы к...
1450 просмотров
schedule 12.01.2024

Обработка сложного XML в Hadoop для извлечения данных
Я хочу обработать отформатированный XML в Hadoop, который довольно сложен и огромен, а также содержит циклы. Я пробовал следующие варианты: Загружать XML-файлы в Hive в виде одного столбца и использовать запросы XPATH. Создайте таблицу Hive...
795 просмотров
schedule 01.01.2024

Hive — проверка, содержит ли массив в каждой строке таблицы какие-либо совпадающие данные в столбце другой таблицы.
У меня есть две таблицы со столбцами, как показано ниже. Posts: user STRING, tag_list ARRAY<STRING> Tags: tag STRING Вот некоторые примеры данных в этих таблицах. Posts: user1 help, pig user2 bigdata, hadoop, query, hiveql...
6309 просмотров
schedule 15.11.2023

Оптимизирован запрос Hive с помощью JOIN с миллионом записей.
У меня есть 2 таблицы- bpm_agent_data - 40 Million records , 5 Columns bpm_loan_data - 20 Million records, 5 Columns Теперь я выполнил запрос в Hive- select count(bpm_agent_data.AgentID), count(bpm_loan_data.LoanNumber) from...
277 просмотров
schedule 17.01.2024

Выбор столбца в улье
У меня есть таблица Customer с 200 столбцами. Я хочу создать еще одну таблицу из таблицы Customer, в которой должно быть только 190 столбцов. Как я могу пропустить несколько столбцов в улье из базовой таблицы?
62 просмотров
schedule 30.11.2023

дата и время улья из unix_timestamp()
Мне нужно вставить два столбца с текущей датой (sysdate) и отметкой времени. Я создал таблицу и вставил данные, используя unix_timestamp. Я не могу преобразовать в формат даты и времени улья. ############ Hive create table ############# create...
5067 просмотров
schedule 13.11.2023

Hive и Hadoop работают только локально
Я настроил 3-узловой кластер Hadoop. Я пытался использовать Hive поверх него. Кажется, что Hive всегда работает только в локальном режиме. Я слышал, что Hive принимает значения кластера от Hadoop. Итак, я выполнил задание в Hadoop, и, похоже, он...
1314 просмотров
schedule 03.01.2024

Позволяет ли авросердце в улье обновлять или удалять записи?
У меня есть таблица в улье, созданная с использованием ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe' . Пытаюсь обновить запись, но получаю следующее сообщение об ошибке: FAILED: SemanticException [Error 10294]: Attempt to do...
553 просмотров
schedule 28.10.2023

Как использовать системные таблицы Sqoop CDC с сервера sql
Я могу вытащить таблицы с сервера sql с помощью команды sqoop: База данных Sql: таблица MyDB sql: dbo.TestTable sqoop import -connect 'jdbc:sqlserver://xx.xxx.xxx.xxx;database=MyDB' --username Cread -P --table TestTable...
627 просмотров
schedule 18.01.2024

Hive: агрегатная функция для столбца массива
Мне было интересно, можно ли запустить агрегатную функцию для столбца с массивом типов данных. Таблица создается следующим образом: CREATE EXTERNAL TABLE tmp_table ( start_date array<string>, customer_id string ) ROW FORMAT DELIMITED...
1040 просмотров
schedule 16.12.2023

Импорт sqoop не идентифицирует таблицы mysql, показывая ошибку ClassNotFountException
У меня есть таблица mysql «клиенты», и я попытался импортировать данные из mysql в местоположение hdfs, используя импорт sqoop. Ниже приведены версии, которые я установил на свой компьютер: версия sqoop: 1.4.6 версия hive: 2.3.0 версия Hadoop: 2.8.1...
411 просмотров
schedule 06.12.2023

Как объединить несколько файлов ORC (принадлежащих каждому разделу) в таблице ORC многораздельного Hive в один большой файл ORC
У меня есть многораздельная таблица ORC в Hive. После загрузки таблицы со всеми возможными разделами я попадаю на HDFS - несколько файлов ORC, то есть в каждом каталоге разделов на HDFS есть файл ORC. Мне нужно объединить все эти файлы ORC в каждом...
1331 просмотров
schedule 11.12.2023

Как я могу подключиться к улью с помощью pyspark?
Я пытаюсь создать таблицу в HIVE. Но он создает папку, например testdb.db, внутри папки spark-warehouse. Как я могу напрямую хранить в HIVE, как мы храним в базах данных MySQL/MongoDB. conf = SparkConf().setAppName("data_import") sc =...
1699 просмотров
schedule 22.11.2023

Предоставление метаданных Hive в самом Hive
Я как бы ожидал, что это будет там на месте, но очевидно нет. Hive не предоставляет свои собственные метаданные в своей среде. Например, как и Oracle, он позволяет вам использовать «user_tables» для созданных вами таблиц. Я понимаю и ценю тот...
93 просмотров
schedule 23.12.2023

Группа процентилей улья по двум переменным
У меня есть таблица Hive, в которой я хочу найти 10-й процентиль, медиану и 90-й процентиль значения в зависимости от местоположения/дня недели. Макет таблицы ниже. Как я могу написать запрос, чтобы в столбцах выходной таблицы были местоположение,...
1762 просмотров
schedule 18.11.2023

Файлы каталогов не копируются в HDFS с помощью команды «hadoop fs -put ‹мой локальный путь› ‹путь hdfs›
Я копирую обработанный файл свиньи в локальной системе в путь HDFS (который связан с таблицей HIVE), указав команду ниже, но это не копирование. Шаг 1: данные находятся на моем локальном пути [root@quickstart plantoutput]# ll total 4...
346 просмотров
schedule 27.12.2023

Как получить доступ к таблице из кластера Hive, расположенного в HDInsight, с локального сервера Spark, построенного на Intellij
Я не могу получить доступ и прочитать данные из таблицы Hive, расположенной в HDInsight, из моего локального экземпляра, где приложение построено на Intellij и Maven. Может кто-нибудь помочь мне, каковы предварительные условия для сценария, когда...
68 просмотров
schedule 13.11.2023

TSocket прочитал 0 байт (код THRIFTTRANSPORT): TTransportException('TSocket прочитал 0 байт',)
[введите описание изображения]][1]Когда я интегрировал HIVE в свой HUE, я сообщил об ошибке. Я пытался в течение многих дней, но я не мог решить это. Может кто-нибудь помочь мне? Я ищу в Google, но безуспешно. TSocket read 0 bytes × TSocket...
3292 просмотров
schedule 08.11.2023