Публикации по тегам hive [hadoop, hive, group-by, hiveql, cloudera]

Вопросы по теме 'hive'

Недавно начал работать с Hadoop. Есть таблица Checkout, к которой я обращаюсь через Hive. А ниже путь, по которому данные идут в HDFS и прочая информация. Итак, какую информацию я могу получить, если мне нужно прочитать три строчки ниже?...

766 просмотров

hadoop hive

19.11.2023

Group By в Hive в секционированной таблице дает повторяющиеся строки результатов

Использование версии 0.11.0. Я получаю неправильные результаты при попытке выполнить этот запрос select t1.symbol, max(t1.maxts - t1.orderts) as diff from (select catid, symbol, max(cast(timestamp as double)*1000) as maxts,...

2401 просмотров

hadoop hive group-by hiveql

19.12.2023

Не удается создать внешнюю таблицу в улье, чтобы указать hbase

Я студент, пытающийся понять, как работают все вещи Hadoop. Итак, я запускаю cloudera на 15 машинах. Конфигурация в порядке, все сервисы зеленые. Я импортировал 12 тыс. строк mysql под hbase, и все тоже прошло нормально. Я хотел делать запросы к...

1450 просмотров

hadoop hive cloudera hbase hue

12.01.2024

Обработка сложного XML в Hadoop для извлечения данных

Я хочу обработать отформатированный XML в Hadoop, который довольно сложен и огромен, а также содержит циклы. Я пробовал следующие варианты: Загружать XML-файлы в Hive в виде одного столбца и использовать запросы XPATH. Создайте таблицу Hive...

795 просмотров

xml hadoop hive xpath apache-pig

01.01.2024

Hive — проверка, содержит ли массив в каждой строке таблицы какие-либо совпадающие данные в столбце другой таблицы.

У меня есть две таблицы со столбцами, как показано ниже. Posts: user STRING, tag_list ARRAY<STRING> Tags: tag STRING Вот некоторые примеры данных в этих таблицах. Posts: user1 help, pig user2 bigdata, hadoop, query, hiveql...

6309 просмотров

sql hadoop hive bigdata hiveql

15.11.2023

Оптимизирован запрос Hive с помощью JOIN с миллионом записей.

У меня есть 2 таблицы- bpm_agent_data - 40 Million records , 5 Columns bpm_loan_data - 20 Million records, 5 Columns Теперь я выполнил запрос в Hive- select count(bpm_agent_data.AgentID), count(bpm_loan_data.LoanNumber) from...

277 просмотров

hadoop hive

17.01.2024

Выбор столбца в улье

У меня есть таблица Customer с 200 столбцами. Я хочу создать еще одну таблицу из таблицы Customer, в которой должно быть только 190 столбцов. Как я могу пропустить несколько столбцов в улье из базовой таблицы?

62 просмотров

hadoop hive

30.11.2023

дата и время улья из unix_timestamp()

Мне нужно вставить два столбца с текущей датой (sysdate) и отметкой времени. Я создал таблицу и вставил данные, используя unix_timestamp. Я не могу преобразовать в формат даты и времени улья. ############ Hive create table ############# create...

5067 просмотров

hadoop hive

13.11.2023

Hive и Hadoop работают только локально

Я настроил 3-узловой кластер Hadoop. Я пытался использовать Hive поверх него. Кажется, что Hive всегда работает только в локальном режиме. Я слышал, что Hive принимает значения кластера от Hadoop. Итак, я выполнил задание в Hadoop, и, похоже, он...

1314 просмотров

hadoop hive

03.01.2024

Позволяет ли авросердце в улье обновлять или удалять записи?

У меня есть таблица в улье, созданная с использованием ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe' . Пытаюсь обновить запись, но получаю следующее сообщение об ошибке: FAILED: SemanticException [Error 10294]: Attempt to do...

553 просмотров

hadoop hive avro

28.10.2023

Как использовать системные таблицы Sqoop CDC с сервера sql

Я могу вытащить таблицы с сервера sql с помощью команды sqoop: База данных Sql: таблица MyDB sql: dbo.TestTable sqoop import -connect 'jdbc:sqlserver://xx.xxx.xxx.xxx;database=MyDB' --username Cread -P --table TestTable...

627 просмотров

sql-server hive sqoop

18.01.2024

Hive: агрегатная функция для столбца массива

Мне было интересно, можно ли запустить агрегатную функцию для столбца с массивом типов данных. Таблица создается следующим образом: CREATE EXTERNAL TABLE tmp_table ( start_date array<string>, customer_id string ) ROW FORMAT DELIMITED...

1040 просмотров

arrays hadoop hive aggregate-functions

16.12.2023

Импорт sqoop не идентифицирует таблицы mysql, показывая ошибку ClassNotFountException

У меня есть таблица mysql «клиенты», и я попытался импортировать данные из mysql в местоположение hdfs, используя импорт sqoop. Ниже приведены версии, которые я установил на свой компьютер: версия sqoop: 1.4.6 версия hive: 2.3.0 версия Hadoop: 2.8.1...

411 просмотров

hadoop hdfs hive sqoop

06.12.2023

Как объединить несколько файлов ORC (принадлежащих каждому разделу) в таблице ORC многораздельного Hive в один большой файл ORC

У меня есть многораздельная таблица ORC в Hive. После загрузки таблицы со всеми возможными разделами я попадаю на HDFS - несколько файлов ORC, то есть в каждом каталоге разделов на HDFS есть файл ORC. Мне нужно объединить все эти файлы ORC в каждом...

1331 просмотров

hadoop hive partitioning orc

11.12.2023

Как я могу подключиться к улью с помощью pyspark?

Я пытаюсь создать таблицу в HIVE. Но он создает папку, например testdb.db, внутри папки spark-warehouse. Как я могу напрямую хранить в HIVE, как мы храним в базах данных MySQL/MongoDB. conf = SparkConf().setAppName("data_import") sc =...

1699 просмотров

pyspark hive pyspark-sql

22.11.2023

Предоставление метаданных Hive в самом Hive

Я как бы ожидал, что это будет там на месте, но очевидно нет. Hive не предоставляет свои собственные метаданные в своей среде. Например, как и Oracle, он позволяет вам использовать «user_tables» для созданных вами таблиц. Я понимаю и ценю тот...

93 просмотров

metadata hive hive-metastore

23.12.2023

Группа процентилей улья по двум переменным

У меня есть таблица Hive, в которой я хочу найти 10-й процентиль, медиану и 90-й процентиль значения в зависимости от местоположения/дня недели. Макет таблицы ниже. Как я могу написать запрос, чтобы в столбцах выходной таблицы были местоположение,...

1762 просмотров

hive hiveql

18.11.2023

Файлы каталогов не копируются в HDFS с помощью команды «hadoop fs -put ‹мой локальный путь› ‹путь hdfs›

Я копирую обработанный файл свиньи в локальной системе в путь HDFS (который связан с таблицей HIVE), указав команду ниже, но это не копирование. Шаг 1: данные находятся на моем локальном пути [root@quickstart plantoutput]# ll total 4...

346 просмотров

hadoop hdfs hive

27.12.2023

Как получить доступ к таблице из кластера Hive, расположенного в HDInsight, с локального сервера Spark, построенного на Intellij

Я не могу получить доступ и прочитать данные из таблицы Hive, расположенной в HDInsight, из моего локального экземпляра, где приложение построено на Intellij и Maven. Может кто-нибудь помочь мне, каковы предварительные условия для сценария, когда...

68 просмотров

azure apache-spark hive azure-hdinsight

13.11.2023

TSocket прочитал 0 байт (код THRIFTTRANSPORT): TTransportException('TSocket прочитал 0 байт',)

[введите описание изображения]][1]Когда я интегрировал HIVE в свой HUE, я сообщил об ошибке. Я пытался в течение многих дней, но я не мог решить это. Может кто-нибудь помочь мне? Я ищу в Google, но безуспешно. TSocket read 0 bytes × TSocket...

3292 просмотров

hive hue

08.11.2023