Вопросы по теме 'rdd'

Уменьшить список слов, подсчитать кортежи до совокупного ключа
Я пытаюсь взять пример количества слов Spark и агрегировать количество слов по какому-либо другому значению (например, слова и количество слов по человеку, где человек "VI" или "MO" в приведенном ниже случае) У меня есть rdd, который представляет...
1473 просмотров
schedule 15.01.2024

Когда создаются и уничтожаются / удаляются блоки Spark RDD?
В пользовательском интерфейсе Spark на вкладке исполнителей есть столбец с названием RDD блоки. Было сделано одно наблюдение: количество блоков RDD продолжает увеличиваться для конкретного задания потоковой передачи, когда сообщения передаются из...
1680 просмотров
schedule 03.12.2023

Извлечение года из даты в фрейме данных Pyspark
У меня есть фрейм данных Pyspark, который содержит столбец даты «Сообщенная дата» (тип: строка). Я хотел бы получить счет другого столбца после извлечения года из даты. Я могу получить счет, если использую строковый столбец даты....
8155 просмотров
schedule 16.12.2023

максимальное значение ключа в операции на основе rdd в pyspark
Я новичок в работе на основе rdd. Я пытаюсь понять максимальное значение ключа. У меня есть такой rdd: RDD = sc.parallelize([("A", 2, 1), ("C", 8, 5), ("B", 3, 4), ("A", 7, 5), ("C", 5, 8), ("C", 6, 10), ("B", 10, 6)]) Мне нужно найти...
21 просмотров
schedule 08.12.2023