Вопросы по теме 'rdd'
Уменьшить список слов, подсчитать кортежи до совокупного ключа
Я пытаюсь взять пример количества слов Spark и агрегировать количество слов по какому-либо другому значению (например, слова и количество слов по человеку, где человек "VI" или "MO" в приведенном ниже случае)
У меня есть rdd, который представляет...
1473 просмотров
schedule
15.01.2024
Когда создаются и уничтожаются / удаляются блоки Spark RDD?
В пользовательском интерфейсе Spark на вкладке исполнителей есть столбец с названием RDD блоки. Было сделано одно наблюдение: количество блоков RDD продолжает увеличиваться для конкретного задания потоковой передачи, когда сообщения передаются из...
1680 просмотров
schedule
03.12.2023
Извлечение года из даты в фрейме данных Pyspark
У меня есть фрейм данных Pyspark, который содержит столбец даты «Сообщенная дата» (тип: строка). Я хотел бы получить счет другого столбца после извлечения года из даты.
Я могу получить счет, если использую строковый столбец даты....
8155 просмотров
schedule
16.12.2023
максимальное значение ключа в операции на основе rdd в pyspark
Я новичок в работе на основе rdd. Я пытаюсь понять максимальное значение ключа. У меня есть такой rdd:
RDD = sc.parallelize([("A", 2, 1), ("C", 8, 5), ("B", 3, 4), ("A", 7, 5), ("C", 5, 8), ("C", 6, 10), ("B", 10, 6)])
Мне нужно найти...
21 просмотров
schedule
08.12.2023