Вопросы по теме 'hive'
Основное о Hadoop и Hive
Недавно начал работать с Hadoop. Есть таблица Checkout, к которой я обращаюсь через Hive. А ниже путь, по которому данные идут в HDFS и прочая информация. Итак, какую информацию я могу получить, если мне нужно прочитать три строчки ниже?...
766 просмотров
schedule
19.11.2023
Group By в Hive в секционированной таблице дает повторяющиеся строки результатов
Использование версии 0.11.0. Я получаю неправильные результаты при попытке выполнить этот запрос
select t1.symbol, max(t1.maxts - t1.orderts) as diff from
(select catid, symbol, max(cast(timestamp as double)*1000) as maxts,...
2401 просмотров
schedule
19.12.2023
Не удается создать внешнюю таблицу в улье, чтобы указать hbase
Я студент, пытающийся понять, как работают все вещи Hadoop. Итак, я запускаю cloudera на 15 машинах. Конфигурация в порядке, все сервисы зеленые. Я импортировал 12 тыс. строк mysql под hbase, и все тоже прошло нормально. Я хотел делать запросы к...
1450 просмотров
schedule
12.01.2024
Обработка сложного XML в Hadoop для извлечения данных
Я хочу обработать отформатированный XML в Hadoop, который довольно сложен и огромен, а также содержит циклы.
Я пробовал следующие варианты:
Загружать XML-файлы в Hive в виде одного столбца и использовать запросы XPATH.
Создайте таблицу Hive...
795 просмотров
schedule
01.01.2024
Hive — проверка, содержит ли массив в каждой строке таблицы какие-либо совпадающие данные в столбце другой таблицы.
У меня есть две таблицы со столбцами, как показано ниже.
Posts:
user STRING,
tag_list ARRAY<STRING>
Tags:
tag STRING
Вот некоторые примеры данных в этих таблицах.
Posts:
user1 help, pig
user2 bigdata, hadoop, query, hiveql...
6309 просмотров
schedule
15.11.2023
Оптимизирован запрос Hive с помощью JOIN с миллионом записей.
У меня есть 2 таблицы-
bpm_agent_data - 40 Million records , 5 Columns
bpm_loan_data - 20 Million records, 5 Columns
Теперь я выполнил запрос в Hive-
select count(bpm_agent_data.AgentID), count(bpm_loan_data.LoanNumber) from...
277 просмотров
schedule
17.01.2024
Выбор столбца в улье
У меня есть таблица Customer с 200 столбцами. Я хочу создать еще одну таблицу из таблицы Customer, в которой должно быть только 190 столбцов. Как я могу пропустить несколько столбцов в улье из базовой таблицы?
62 просмотров
schedule
30.11.2023
дата и время улья из unix_timestamp()
Мне нужно вставить два столбца с текущей датой (sysdate) и отметкой времени. Я создал таблицу и вставил данные, используя unix_timestamp. Я не могу преобразовать в формат даты и времени улья.
############ Hive create table #############
create...
5067 просмотров
schedule
13.11.2023
Hive и Hadoop работают только локально
Я настроил 3-узловой кластер Hadoop. Я пытался использовать Hive поверх него. Кажется, что Hive всегда работает только в локальном режиме. Я слышал, что Hive принимает значения кластера от Hadoop. Итак, я выполнил задание в Hadoop, и, похоже, он...
1314 просмотров
schedule
03.01.2024
Позволяет ли авросердце в улье обновлять или удалять записи?
У меня есть таблица в улье, созданная с использованием ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe' .
Пытаюсь обновить запись, но получаю следующее сообщение об ошибке:
FAILED: SemanticException [Error 10294]: Attempt to do...
553 просмотров
schedule
28.10.2023
Как использовать системные таблицы Sqoop CDC с сервера sql
Я могу вытащить таблицы с сервера sql с помощью команды sqoop:
База данных Sql: таблица MyDB sql: dbo.TestTable
sqoop import
-connect 'jdbc:sqlserver://xx.xxx.xxx.xxx;database=MyDB'
--username Cread -P
--table TestTable...
627 просмотров
schedule
18.01.2024
Hive: агрегатная функция для столбца массива
Мне было интересно, можно ли запустить агрегатную функцию для столбца с массивом типов данных.
Таблица создается следующим образом:
CREATE EXTERNAL TABLE tmp_table (
start_date array<string>,
customer_id string
) ROW FORMAT DELIMITED...
1040 просмотров
schedule
16.12.2023
Импорт sqoop не идентифицирует таблицы mysql, показывая ошибку ClassNotFountException
У меня есть таблица mysql «клиенты», и я попытался импортировать данные из mysql в местоположение hdfs, используя импорт sqoop. Ниже приведены версии, которые я установил на свой компьютер: версия sqoop: 1.4.6 версия hive: 2.3.0 версия Hadoop: 2.8.1...
411 просмотров
schedule
06.12.2023
Как объединить несколько файлов ORC (принадлежащих каждому разделу) в таблице ORC многораздельного Hive в один большой файл ORC
У меня есть многораздельная таблица ORC в Hive. После загрузки таблицы со всеми возможными разделами я попадаю на HDFS - несколько файлов ORC, то есть в каждом каталоге разделов на HDFS есть файл ORC. Мне нужно объединить все эти файлы ORC в каждом...
1331 просмотров
schedule
11.12.2023
Как я могу подключиться к улью с помощью pyspark?
Я пытаюсь создать таблицу в HIVE. Но он создает папку, например testdb.db, внутри папки spark-warehouse. Как я могу напрямую хранить в HIVE, как мы храним в базах данных MySQL/MongoDB.
conf = SparkConf().setAppName("data_import")
sc =...
1699 просмотров
schedule
22.11.2023
Предоставление метаданных Hive в самом Hive
Я как бы ожидал, что это будет там на месте, но очевидно нет. Hive не предоставляет свои собственные метаданные в своей среде. Например, как и Oracle, он позволяет вам использовать «user_tables» для созданных вами таблиц.
Я понимаю и ценю тот...
93 просмотров
schedule
23.12.2023
Группа процентилей улья по двум переменным
У меня есть таблица Hive, в которой я хочу найти 10-й процентиль, медиану и 90-й процентиль значения в зависимости от местоположения/дня недели. Макет таблицы ниже. Как я могу написать запрос, чтобы в столбцах выходной таблицы были местоположение,...
1762 просмотров
schedule
18.11.2023
Файлы каталогов не копируются в HDFS с помощью команды «hadoop fs -put ‹мой локальный путь› ‹путь hdfs›
Я копирую обработанный файл свиньи в локальной системе в путь HDFS (который связан с таблицей HIVE), указав команду ниже, но это не копирование.
Шаг 1: данные находятся на моем локальном пути
[root@quickstart plantoutput]# ll
total 4...
346 просмотров
schedule
27.12.2023
Как получить доступ к таблице из кластера Hive, расположенного в HDInsight, с локального сервера Spark, построенного на Intellij
Я не могу получить доступ и прочитать данные из таблицы Hive, расположенной в HDInsight, из моего локального экземпляра, где приложение построено на Intellij и Maven.
Может кто-нибудь помочь мне, каковы предварительные условия для сценария, когда...
68 просмотров
schedule
13.11.2023
TSocket прочитал 0 байт (код THRIFTTRANSPORT): TTransportException('TSocket прочитал 0 байт',)
[введите описание изображения]][1]Когда я интегрировал HIVE в свой HUE, я сообщил об ошибке.
Я пытался в течение многих дней, но я не мог решить это. Может кто-нибудь помочь мне?
Я ищу в Google, но безуспешно.
TSocket read 0 bytes
×
TSocket...
3292 просмотров
schedule
08.11.2023