Unidad 5 Laboratorio 3: Transformar datos en información, Página 3

Un gráfico con una serie de puntos de datos, en el que generalmente siguen una línea recta desde la parte superior izquierda hasta la parte inferior derecha

Es posible que estés familiarizado con las tablas de las aplicaciones de hojas de cálculo (tales como Hojas de cálculo de Google, Numbers de Apple , o Microsoft Excel) que almacenan datos tabulares en diferentes formatos de archivo. Las hojas de cálculo ayudan a organizar la información de manera eficiente y pueden encontrar tendencias en los datos de manera automática (como la línea que se muestra a la derecha). CSV es un formato de hoja de cálculo abierto que funciona en cualquiera de estas aplicaciones y en Snap!.

Experimenta con diferentes entradas al elemento () del bloque 'ranura de entrada de la lista' para acceder a diferentes filas del conjunto de datos.
¿En qué se diferencia el primer elemento de tu conjunto de datos (elemento (1) de) de los demás elementos?
Localiza el bloque y determina qué hace con tus datos.
Construye los selectores:
1. que reporta solo los encabezados en una tabla
2. que reporta solo los datos (no los encabezados)

: Registros, campos y columnas

Un registro (record) es una fila de un conjunto de datos (distinta de la primera fila, que contiene los títulos de las columnas). Un registro único puede ser los datos de un estudiante de su escuela, los datos de un terremoto que ocurrió, los datos de un hospital en los EE. UU., o los datos de un contacto en tu lista de contactos. En otras palabras, un registro es un segmento horizontal del conjunto de datos.
Un campo (field) es un elemento de un registro en un conjunto de datos. Puede ser el tutor o maestro de una persona, la magnitud de un terremoto en Los Ángeles la semana pasada, el propietario de un hospital en Chicago, o el número de teléfono de una persona en tu lista de contactos.
Una columna (column) es una lista que contiene los datos de un campo para todos los registros de un conjunto de datos. Una columna podría ser el profesor de un salón de clases para cada estudiante en tu escuela, la magnitud de cada terremoto en el conjunto de datos, el propietario de cada hospital en los EE. UU. o el número de teléfono de cada persona de tu lista de contactos. En otras palabras, una columna es un segmento vertical del conjunto de datos.

Animación de tres fotogramas del reporte del conjunto de datos de automóviles presentado como una tabla con columnas y filas; en el primer fotograma, se destaca la cuarta fila de la tabla y se etiqueta como 'registro (fila)'; en el segundo fotograma, se destaca la tercera columna de la tabla y se etiqueta como 'columna'; en el tercer fotograma, se destaca la celda en la cuarta fila y tercera columna y se etiqueta como 'campo'

Construye los bloques y para facilitar pensar en la estructura de la tabla.
Construye para reportar solo una columna de tu conjunto de datos.

Registro y columna son selectores para una tabla tipo de datos del resumen. No necesitamos un constructor para este tipo de datos abstractos porque estamos importando los datos de Internet, pero los selectores serán útiles. (Campo es un selector para registro, que es, en sí mismo, un tipo de datos abstractos.)

Observa que estos nombres de bloque sugeridos incluyen la palabra "tabla" o "registro" antes de la segunda entrada. Incluir el tipo de datos de entrada esperado en el nombre del bloque puede ayudarte a evitar errores causados por el uso de un selector que no coincide con la entrada que quieres usar.

Intenta averiguar cómo reportar solo una columna, pero haz clic solo si realmente necesitas una pista.

realiza la misma función en cada elemento de una lista. Dado que una tabla es una lista de listas (donde cada lista interna es un registro), mapear realizará la misma función en cada registro de tu conjunto de datos. Tendrás que determinar qué función asignar sobre el conjunto de datos. Aprendiste acerca de mapear en Unidad 3 Laboratorio 2 Página 5: Transformar cada elemento de la lista.
Determina una pregunta que puedas responder mirando una sola columna de tu conjunto de datos y luego construye el código para responder a tu pregunta. Puede que necesites construir bloques adicionales o importarlos de otros proyectos.
Puedes ver el número de la columna manteniendo el puntero del ratón sobre la letra en la parte superior de la columna en la vista de tabla.

Es posible que necesites utilizar mapear, mantener o combinar para responder tu pregunta. Haz clic para ver dónde aprendiste sobre estas funciones de orden superior.
- Aprendiste acerca de mapear en Unidad 3 Laboratorio 2 Página 5: Transformar cada elemento de la lista.
- Aprendiste acerca de mantener en Unidad 2 Laboratorio 3 Página 5: Mantener elementos de una lista .
- Aprendiste acerca de combinar em Unidad 2 Laboratorio 4 Página 3: Más reporteros matemáticos.
Haz clic para ver ejemplo de preguntas para preguntar sobre una sola columna.
- ¿Cuál es el promedio de MPG (millas por galón) o KPL (kilómetros por litro) que los autos en esta base de datos obtienen en la ciudad? (Necesitas un bloque de promedio.)
- ¿Cuál es el año del auto más antiguo en esta base de datos? (Necesitas un bloque de mínimo.)
- ¿Cuántos autos en este conjunto de datos tienen transmisión manual?
Observa que todos estos ejemplos solo requieren datos de una columna. Si quieres hacer una pregunta que requiera mirar otra columna (por ejemplo, "¿Cuál es el modelo de carro con el mayor MPG?"), a continuación puedes hacer la actividad "Si queda tiempo".

Desafíos en la recolección de datos

Los investigadores a menudo se enfrentan a desafíos con los datos antes de comenzar el análisis. Imagina que estás combinando datos de diferentes países sobre distancias entre ciudades, y descubres que los datos de distancia de los EE. UU. se miden en millas, pero los datos de distancia de Europa se miden en kilómetros; para hacer comparaciones significativas, necesitas datos uniformes (todos en millas o todos en kilómetros). Como otro ejemplo, si utilizas una encuesta en línea para recopilar datos, la forma en que los participantes abrevian, deletrean o escriben con mayúsculas sus respuestas puede variar. Los datos también pueden estar incompletos (si algunas personas no completaron la encuesta) o no ser válidos (si algunas personas cometieron errores).

Imagina que lees en las noticias que las personas que comen mucho brócoli tienen menos probabilidades de contraer cáncer. La conclusión de que el brócoli previene el cáncer podría ser el resultado del sesgo. Podría ser que las personas que comen mucho brócoli tienden a ser las mismas personas que también hacen mucho ejercicio, y en realidad es el ejercicio lo que hace la diferencia. En la investigación, el término "sesgo" no tiene que significar prejuicio; se trata de las razones por las que los datos podrían no significar lo que parecen significar.

La gente a veces piensa que la manera de superar el sesgo es usar una muestra más grande (preguntando a más personas si comen brócoli y tienen cáncer). Pero si la muestra más grande tiene el mismo problema (las personas que hacen más ejercicio también comen más brócoli), entonces una muestra más grande no eliminará el sesgo.

DAT-2.C
Explica los posibles retos sobre los datos que podrías enfrentar si fueras a recolectar tus propios datos para responder a una pregunta como la que investigaste en el problema anterior.

Responde la pregunta "¿Cuál es el modelo de auto con mayor MPG?" construyendo un bloque .

Haz clic aquí para obtener una pista sobre cómo construir una fila con el máximo en columna () de una tabla ().

BH please review the alt text on all five images. --MF, 6/26/19

A continuación se muestra una forma de construir un máximo de función de 'ranura de entrada de lista' para una lista simple (que no es una tabla). Puedes construir un bloque que compare dos entradas y utilizarlo con combinar para encontrar el máximo de una lista entera.

Puedes utilizar un enfoque similar aquí construyendo un que compare un campo en específico (columna) para dos líneas y reporta la línea con el valor más alto en la columna específica.

Need to fix "specific field (column)" in the TIF. --MF, 6/27/19
Escribir números de campos específicos en el código es problemático por varias razones: es fácil cometer errores, genera un código difícil de leer y (esto realmente sucedió con la base de datos de automóviles entre ediciones de BJC) el diseño de una tabla podría cambiar con el tiempo.
- Escribe un bloque que busque el nombre dado en el encabezado de la tabla, busque qué número de elemento tiene en la lista del encabezado y utilice ese número de campo para extraer el registro dado.
- Escribe también , que debería tomar la tabla completa (encabezado y datos) como entrada, pero que reporte la columna deseada solo a partir de los datos de la tabla (de manera que el resultado pueda usarse directamente como entrada para los bloques como PROMEDIO DE LISTA).
- Puede que te resulte útil .

Importar y acceder a los datos

Desafíos en la recolección de datos