Вопросы по теме 'bigdata'

Каков наиболее эффективный способ изменить регистр имен столбцов в таблице данных?
Иногда перед слиянием полезно изменить регистр имен столбцов для согласованности. При работе с data.frame это довольно просто (как описано здесь ); хотя то же самое решение работает с ``data.table`, оно выдает предупреждение. Например, ran...
1381 просмотров
schedule 06.12.2023

Матрица HDF5 добавляется в python
Например, у нас есть матрица (например, мы хотим сохранить массив numpy), и мы сохраняем ее в файле HDF5, но затем мы хотим расширить матрицу, добавив несколько строк в конец исходной матрицы (учтите, что исходная матрица может быть очень большие...
2149 просмотров
schedule 28.11.2023

Hive — проверка, содержит ли массив в каждой строке таблицы какие-либо совпадающие данные в столбце другой таблицы.
У меня есть две таблицы со столбцами, как показано ниже. Posts: user STRING, tag_list ARRAY<STRING> Tags: tag STRING Вот некоторые примеры данных в этих таблицах. Posts: user1 help, pig user2 bigdata, hadoop, query, hiveql...
6309 просмотров
schedule 15.11.2023

В чем разница между Foreman и Hue для Hadoop?
При исследовании различных платформ администрирования я хотел бы знать разницу между тем, когда использовать Foreman и Hue для Hadoop/HDFS? Спасибо.
157 просмотров
schedule 26.11.2023

Тайм-аут задания SparkR 100 минут
Я написал немного сложный скрипт sparkR и запустил его с помощью spark-submit. Сценарий в основном читает строку за строкой большой таблицы на основе паркета hive/impala и создает новый файл паркета с таким же количеством строк. Но кажется, что...
1517 просмотров
schedule 11.11.2023

Ошибка при потоковой передаче данных Twitter
Я использую CDH 4.7 и пытаюсь загрузить потоковые данные Twitter в Hadoop с помощью Flume. Я выполняю следующую команду. Но он показывает некоторую проблему с отказом в разрешении в пути /user/flume. Как решить эту проблему?...
167 просмотров

Чтение файла asciif без разделителей Apache Pig Latin
Я пытаюсь прочитать текстовый файл на Apache Pig Latin, в котором каждая строка содержит ascii без разделителей. То есть каждый столбец в этой строке начинается и заканчивается в определенной позиции в строке. Образец определения:...
47 просмотров
schedule 23.12.2023

Сканирование HBase — фильтры RowKey
Итак, давайте посмотрим, смогу ли я кратко объяснить мою проблему. Представьте, что у нас есть таблица HBase, содержащая информацию о каждом посещении дискотеки: каждая дискотека регистрирует свое имя , имя посетителя и день он посетил его. (...
2104 просмотров
schedule 31.10.2023

Мини-пакетное обучение классификатора scikit-learn, где я предоставляю мини-пакеты
У меня очень большой набор данных, который не может быть загружен в память. Я хочу использовать этот набор данных в качестве обучающего набора классификатора scikit-learn - например, LogisticRegression . Есть ли возможность выполнить...
8475 просмотров
schedule 24.12.2023

Как загрузить файлы Hadoop (на HDFS) через FTP?
Я хотел бы реализовать задание SSIS, которое может загружать большие файлы CSV, расположенные в удаленном кластере Hadoop. Конечно, наличие обычного FTP-сервера в системе Hadoop не раскрывает файлы HDFS, поскольку он использует локальную файловую...
710 просмотров
schedule 26.11.2023

максимальное значение ключа в операции на основе rdd в pyspark
Я новичок в работе на основе rdd. Я пытаюсь понять максимальное значение ключа. У меня есть такой rdd: RDD = sc.parallelize([("A", 2, 1), ("C", 8, 5), ("B", 3, 4), ("A", 7, 5), ("C", 5, 8), ("C", 6, 10), ("B", 10, 6)]) Мне нужно найти...
21 просмотров
schedule 08.12.2023