Pertanyaan tentang topik tersebut 'bigdata'

Apa cara paling efisien untuk mengubah kapitalisasi nama kolom di data.tabel?
Terkadang sebelum menggabungkan ada gunanya mengubah huruf besar/kecil nama kolom untuk konsistensi. Saat bekerja dengan data.frame , hal ini cukup mudah (seperti diuraikan di sini ); meskipun solusi yang sama berfungsi pada ``data.table`, solusi...
1381 dilihat
schedule 06.12.2023

Matriks HDF5 ditambahkan dengan python
Misalnya kita memiliki matriks (misalnya kita ingin menyimpan array numpy) dan kita menyimpannya dalam file HDF5, tapi kemudian kita ingin memperluas matriks dengan menambahkan beberapa baris ke akhir matriks asli (perhatikan bahwa matriks asli bisa...
2149 dilihat
schedule 28.11.2023

Hive - Memeriksa apakah array di setiap baris tabel berisi data yang cocok di kolom di tabel lain
Saya memiliki dua tabel dengan kolom seperti yang ditunjukkan di bawah ini. Posts: user STRING, tag_list ARRAY<STRING> Tags: tag STRING Berikut beberapa contoh data pada tabel tersebut. Posts: user1 help, pig user2 bigdata,...
6309 dilihat
schedule 15.11.2023

Apa perbedaan antara Foreman dan Hue untuk Hadoop?
Dalam meneliti berbagai platform administrasi saya ingin mengetahui perbedaan antara, kapan/tidak menggunakan Foreman dan Hue untuk Hadoop/HDFS? Terima kasih.
157 dilihat
schedule 26.11.2023

Batas Waktu Pekerjaan SparkR 100 Menit
Saya telah menulis skrip sparkR yang agak rumit dan menjalankannya menggunakan spark-submit. Apa yang pada dasarnya dilakukan skrip adalah membaca tabel berbasis sarang lebah/impala besar baris demi baris dan menghasilkan file parket baru yang...
1517 dilihat
schedule 11.11.2023

Kesalahan saat streaming data Twitter
Saya menggunakan CDH 4.7 dan mencoba mengunduh data streaming twitter ke hadoop menggunakan flume. Saya menjalankan perintah berikut. Tapi itu menunjukkan beberapa masalah izin ditolak di jalur/pengguna/flume. Bagaimana cara mengatasi masalah...
167 dilihat

Baca file asciif yang tidak dibatasi Apache Pig Latin
Saya mencoba membaca file teks dalam Apache Pig Latin yang memiliki ascii tidak terbatas yang terdiri dari setiap baris. Artinya, setiap kolom dalam baris tersebut dimulai dan diakhiri pada posisi tertentu dalam baris tersebut. Definisi sampel:...
47 dilihat
schedule 23.12.2023

Pemindaian HBase - Filter RowKey
Jadi, mari kita lihat apakah saya bisa menjelaskan secara singkat masalah saya. Bayangkan kita mendapatkan tabel HBase yang berisi informasi setiap kunjungan ke disko: Setiap disko mendaftarkan nama , nama pengunjung , dan hari dia...
2104 dilihat
schedule 31.10.2023

Pelatihan batch mini dari pengklasifikasi scikit-learn tempat saya menyediakan batch mini
Saya memiliki kumpulan data yang sangat besar yang tidak dapat dimuat ke dalam memori. Saya ingin menggunakan kumpulan data ini sebagai kumpulan pelatihan pengklasifikasi scikit-learn - misalnya LogisticRegression . Apakah ada kemungkinan untuk...
8475 dilihat
schedule 24.12.2023

Bagaimana cara mengunduh file Hadoop (di HDFS) melalui FTP?
Saya ingin menerapkan pekerjaan SSIS yang mampu mengunduh file CSV besar yang terletak di cluster Hadoop jarak jauh. Tentu saja, hanya dengan memiliki server FTP biasa di sistem Hadoop tidak mengekspos file HDFS karena menggunakan sistem file lokal....
710 dilihat
schedule 26.11.2023

nilai kunci maksimum dalam operasi berbasis rdd di pyspark
Saya baru mengenal operasi berbasis rdd. Saya mencoba memahami nilai kunci maksimal. Saya memiliki rdd seperti ini: RDD = sc.parallelize([("A", 2, 1), ("C", 8, 5), ("B", 3, 4), ("A", 7, 5), ("C", 5, 8), ("C", 6, 10), ("B", 10, 6)]) Saya...
21 dilihat
schedule 08.12.2023