dataframe

¿Cómo agregar una columna constante en un DataFrame de Spark?

Quiero agregar una columna en un DataFrame con algún valor arbitrario (que es el mismo para cada fila). Obtengo un error cuan ... 1, dt=4809600.0, new_column=10)] Esto es supremamente hacky, ¿verdad? Supongo que hay una forma más legítima de hacer esto?

Convierta un marco de datos en un dato.tabla sin copia

Tengo un marco de datos grande (en el orden de varios GB) que me gustaría convertir a un data.table. Usando as.data.table cre ... (Mb) # Ncells 304519 16.3 597831 32.0 306162 16.4 # Vcells 100444242 766.4 322342905 2459.3 200933219 1533.0

Combinar marcos de datos desiguales y reemplazar filas faltantes con 0

Tengo dos datos.marcos, uno con solo caracteres y el otro con caracteres y valores. df1 = data.frame(x=c('a', 'b', 'c', 'd', ... cada fila que falta en los datos df2.frame, el 0 debe colocarse en la tabla df1, como: x y 1 a 0 2 b 1 3 c 0 4 d 0 5 e 0

Pandas ordenar por grupo agregado y columna

Dado el siguiente dataframe In [31]: rand = np.random.RandomState(1) df = pd.DataFrame({'A': ['foo', 'bar', 'baz'] ... .865408 False 3 foo -1.072969 True 0 foo 1.624345 False ¿Cómo se puede hacer esto?

Repita las filas de un dato.marco

Quiero repetir las filas de un dato.frame, cada N veces. El resultado debe ser un nuevo data.frame (con nrow(new.df) == nrow( ... es en caracteres y obtengo: A B C [1,] "j" "i" "100" [2,] "j" "i" "100" [3,] "K" "P" "101" [4,] "K" "P" "101"

Reemplazar todos los valores particulares en un marco de datos

Al tener un marco de datos, ¿cómo puedo reemplazar todos los valores particulares a lo largo de todas las filas y columnas? D ... "", 100))) A B 1 12 2 xyz 3 jkl 100 Resultado esperado: A B 1 NA 12 2 xyz NA 3 jkl 100

Cómo imprimir pandas DataFrame sin índice

Quiero imprimir todo el dataframe, pero no quiero imprimir el índice Además, una columna es tipo datetime, solo quiero impri ... Number 123 00:09:00 1411 123 00:18:00 893 123 00:49:00 1041

Indexación elegante hasta el final del vector / matriz

¿Es posible en R decir - Quiero todos los índices desde la posición i hasta el final del vector/matriz? Digamos que quiero u ... ecesito escribir ncol(A)? ¿No hay una manera elegante de decir "a partir de la 3ra columna"? Algo como A[,3:]? (o A[,3:...])?

Convertir un dataframe a un vector (por filas)

Tengo un dataframe con entradas numéricas como esta test <- data.frame(x=c(26,21,20),y=c(34,29,28)) ¿Cómo puedo obtene ... ngo que debería haber una forma mucho más elegante X <- test[1,] for (i in 2:dim(test)[1]){ X <- cbind(X,test[i,]) }

leer archivo csv y devolver dataframe

Tengo un archivo CSV, "value.txt" con el siguiente contenido: las primeras filas del archivo son: Date,"price","factor_1"," ... 26.15 1.263 1.558 7 2012-06-17 1626.15 1.264 1.572 ¿Hay una forma pitónica de obtener la misma funcionalidad?

Buscar índices de filas duplicadas [duplicar]

Esta pregunta ya tiene una respuesta aquí: Encontrar TODAS las filas duplicadas, incluyendo "elementos c ... plicada es idéntica? Podría hacer un bucle en los datos.marco, pero creo que hay una respuesta más elegante a esta pregunta.

¿Por qué plyr es tan lento?

Creo que estoy usando plyr incorrectamente. ¿Podría alguien decirme si este es un código plyr 'eficiente'? require(plyr) pl ... table_1.8.1 plyr_1.7.1 loaded via a namespace (and not attached): [1] grid_2.15.1 lattice_0.20-6 tools_2.15.1

Añadir una columna al Marco de datos en Apache Spark 1.3

¿Es posible y cuál sería el método neat más eficiente agregar una columna al Marco de datos? Más específicamente, column p ... e").toDF() val rowDF = sc.parallelize(1 to DataDF.count().toInt).toDF("ID") dataDF = dataDF.withColumn("ID", rowDF("ID"))

R: perder nombres de columna al agregar filas a un marco de datos vacío

Acabo de empezar con R y me encontré con un comportamiento extraño: al insertar la primera fila en un marco de datos vacío, l ... ro a través de mis fuentes de datos, pasando los datos.frame a cada llamada de función para ser rellenado con sus resultados.

Manera de leer las primeras líneas para pandas dataframe

¿Hay una forma integrada de usar read_csv para leer solo las primeras n líneas de un archivo sin saber la longitud de las lí ... sv(StringIO(head)) No es tan malo, pero hay un más conciso, 'pandasic' (?) manera de hacerlo con palabras clave o algo así?

mutar cada uno / resumir cada uno en dplyr: ¿cómo selecciono ciertas columnas y doy nuevos nombres a las columnas mutadas?

Estoy un poco confundido acerca del verbo dplyr mutate_each. Es bastante sencillo usar el mutate básico para transformar un ... te? ¿Cómo puedo seleccionar ciertas columnas que deseo mutar, como hice con select en el primer caso? Gracias por su ayuda.

Añadir cadena al inicio de cada valor en dicha columna de un dataframe pandas (elegantemente)

Me gustaría añadir una cadena al inicio de cada valor en dicha columna de un dataframe pandas (elegantemente). Ya descubrí có ... caso de que esto aún no esté claro, me gustaría girar: col 1 a 2 0 En: col 1 stra 2 str0

¿Cómo trazar dos columnas de un marco de datos pandas utilizando puntos?

Tengo un marco de datos pandas y me gustaría trazar valores de una columna versus los valores de otra columna. Afortunadament ... . Puedo usar líneas o barras o incluso densidad pero no puntos. ¿Hay algún trabajo que pueda ayudar a resolver este problema?

Convierta el Vector de Caracteres con nombre en datos.marco

Tengo un vector de caracteres con nombre devuelto desde xmlAttrs como este: testVect <- structure(c("11.2.0.3.0", "12.89 ... 0","elapsed_time"=12.89,"cpu_time"=12.71) head(testDF) db_version elapsed_time cpu_time 1 11.2.0.3.0 12.89 12.71

Agregar una columna a un dataframe en R

Tengo el siguiente dataframe (df) start end 1 14379 32094 2 151884 174367 3 438422 449382 4 618123 621256 ... o, la primera fila tendrá mean(vec[14379:32094]). He intentado jugar con transform pero no pude realizar esta sencilla tarea.