Публикации по тегам bigdata

Вопросы по теме 'bigdata'

Каков наиболее эффективный способ изменить регистр имен столбцов в таблице данных?

Иногда перед слиянием полезно изменить регистр имен столбцов для согласованности. При работе с data.frame это довольно просто (как описано здесь ); хотя то же самое решение работает с ``data.table`, оно выдает предупреждение. Например, ran...

1381 просмотров

r data.table bigdata

06.12.2023

Матрица HDF5 добавляется в python

Например, у нас есть матрица (например, мы хотим сохранить массив numpy), и мы сохраняем ее в файле HDF5, но затем мы хотим расширить матрицу, добавив несколько строк в конец исходной матрицы (учтите, что исходная матрица может быть очень большие...

2149 просмотров

python bigdata hdf5 large-data

28.11.2023

Hive — проверка, содержит ли массив в каждой строке таблицы какие-либо совпадающие данные в столбце другой таблицы.

У меня есть две таблицы со столбцами, как показано ниже. Posts: user STRING, tag_list ARRAY<STRING> Tags: tag STRING Вот некоторые примеры данных в этих таблицах. Posts: user1 help, pig user2 bigdata, hadoop, query, hiveql...

6309 просмотров

sql hadoop hive bigdata hiveql

15.11.2023

В чем разница между Foreman и Hue для Hadoop?

При исследовании различных платформ администрирования я хотел бы знать разницу между тем, когда использовать Foreman и Hue для Hadoop/HDFS? Спасибо.

157 просмотров

hadoop hdfs bigdata foreman hue

26.11.2023

Тайм-аут задания SparkR 100 минут

Я написал немного сложный скрипт sparkR и запустил его с помощью spark-submit. Сценарий в основном читает строку за строкой большой таблицы на основе паркета hive/impala и создает новый файл паркета с таким же количеством строк. Но кажется, что...

1517 просмотров

apache-spark hadoop sparkr bigdata

11.11.2023

Ошибка при потоковой передаче данных Twitter

Я использую CDH 4.7 и пытаюсь загрузить потоковые данные Twitter в Hadoop с помощью Flume. Я выполняю следующую команду. Но он показывает некоторую проблему с отказом в разрешении в пути /user/flume. Как решить эту проблему?...

167 просмотров

hadoop bigdata cloudera-cdh flume-twitter flume-ng

05.01.2024

Чтение файла asciif без разделителей Apache Pig Latin

Я пытаюсь прочитать текстовый файл на Apache Pig Latin, в котором каждая строка содержит ascii без разделителей. То есть каждый столбец в этой строке начинается и заканчивается в определенной позиции в строке. Образец определения:...

47 просмотров

parsing bigdata hadoop2 apache-pig

23.12.2023

Сканирование HBase — фильтры RowKey

Итак, давайте посмотрим, смогу ли я кратко объяснить мою проблему. Представьте, что у нас есть таблица HBase, содержащая информацию о каждом посещении дискотеки: каждая дискотека регистрирует свое имя , имя посетителя и день он посетил его. (...

2104 просмотров

database bigdata hbase hbase-filter

31.10.2023

Мини-пакетное обучение классификатора scikit-learn, где я предоставляю мини-пакеты

У меня очень большой набор данных, который не может быть загружен в память. Я хочу использовать этот набор данных в качестве обучающего набора классификатора scikit-learn - например, LogisticRegression . Есть ли возможность выполнить...

8475 просмотров

python bigdata scikit-learn

24.12.2023

Как загрузить файлы Hadoop (на HDFS) через FTP?

Я хотел бы реализовать задание SSIS, которое может загружать большие файлы CSV, расположенные в удаленном кластере Hadoop. Конечно, наличие обычного FTP-сервера в системе Hadoop не раскрывает файлы HDFS, поскольку он использует локальную файловую...

710 просмотров

ssis hadoop hdfs bigdata

26.11.2023

максимальное значение ключа в операции на основе rdd в pyspark

Я новичок в работе на основе rdd. Я пытаюсь понять максимальное значение ключа. У меня есть такой rdd: RDD = sc.parallelize([("A", 2, 1), ("C", 8, 5), ("B", 3, 4), ("A", 7, 5), ("C", 5, 8), ("C", 6, 10), ("B", 10, 6)]) Мне нужно найти...

21 просмотров

python-3.x pyspark bigdata rdd

08.12.2023