¿Cuál es la diferencia entre informática y ciencia de datos?


Respuesta 1:

La informática, en términos de computación estadística, es el estudio de información (de cualquier tipo) utilizando algoritmos de naturaleza matemática y estadística. Realmente no se usa como una palabra en este sentido: lo más parecido que puedo pensar es la bioinformática. El nombre más estándar para esto es la teoría del aprendizaje.

La informática, en informática, es el estudio teórico de la información, los algoritmos y la informática.

Obviamente, ambos son importantes para tener en cuenta en cualquier aplicación de la ciencia de datos, que todavía está bastante mal definida, pero generalmente se acepta que sea un híbrido de estadística, programación, conocimiento teórico y aplicado (generalmente de negocios), matemáticas y un todo Un montón de otras cosas. Una de las definiciones más adecuadas de un científico de datos que conozco sigue siendo una que conoce más estadísticas que un programador y más programación que un estadístico ... lo que, en sí mismo, como definición, es muy nebuloso.

Si podemos estar de acuerdo, al menos, en que lo que hace un científico de datos es resolver problemas con los datos, entonces la primera definición de informática cae perfectamente dentro del ámbito de la mayoría de la ciencia de datos, mientras que la segunda es importante tener en cuenta (especialmente para alguien quien es muy meticuloso).


Respuesta 2:

A continuación se encuentra mi respuesta a la pregunta: ¿Cuál es la diferencia entre informática y ciencia de datos?

¡TOP 25 CONSEJOS PARA CONVERTIRSE EN CIENTÍFICO DE DATOS PRO!

Hola amigos, he trabajado en una empresa de cazatalentos desde 2014, campo principal en ciencia de datos, inteligencia artificial, aprendizaje profundo ... Permítanme compartir consejos increíbles para convertirse en un científico profesional, como se muestra a continuación. Espero que lo ames. (Ref. de kdnuggets).

1. Aproveche las fuentes de datos externas: tweets sobre su empresa o sus competidores, o datos de sus proveedores (por ejemplo, estadísticas personalizables del boletín electrónico eBlast disponibles a través de paneles de proveedores o mediante la presentación de un ticket)

2. Los físicos nucleares, los ingenieros mecánicos y los expertos en bioinformática pueden ser excelentes científicos.

3. Exponga su problema correctamente y use métricas sólidas para medir el rendimiento (sobre la línea de base) proporcionado por las iniciativas científicas de datta.

4. Utilice los KPI (métricas clave) correctos y la información correcta desde el principio, en cualquier proyecto. Los cambios debidos a malas bases son muy costosos. Esto requiere un análisis cuidadoso de sus datos para crear bases de datos útiles.

5. Refiera este recurso: 74 secretos para convertirse en un científico de datos profesional

6. Con datos grandes, las señales fuertes (extremas) generalmente serán ruido. Aquí hay una solución.

7. Gran dato, a tiene menos valor que el dato útil, a.

8. Utilice big dat, de proveedores externos, para obtener inteligencia competitiva.

9. Puedes construir herramientas baratas, geniales, escalables y robustas bastante rápido, sin usar la ciencia estadística anticuada. Piensa en técnicas sin modelos.

10. Big dat, a es más fácil y menos costoso de lo que piensas. ¡Obtén las herramientas adecuadas! Aquí le mostramos cómo comenzar.

11. La correlación no es causalidad. Este artículo puede ayudarte con este problema. Lea también este blog y este libro.

12. No tienes que almacenar todos tus datos, de forma permanente. Utilice técnicas de compresión inteligentes y mantenga resúmenes estadísticos únicamente, para datos antiguos, a.

13. No olvide ajustar sus métricas cuando su da, ta cambie, para mantener la consistencia con fines de tendencia.

14. Se puede hacer mucho sin da, tabases, especialmente para big da, ta.

15. Siempre incluya EDA y DOE (análisis exploratorio / diseño de experimento) al principio de cualquier proyecto de ciencia de datos. Siempre crea un diccionario da, ta. Y siga el ciclo de vida tradicional de cualquier proyecto de ciencia da, ta.

16. Da, ta puede usarse para muchos propósitos:

- seguro de calidad

- para encontrar patrones procesables (comercio de acciones, detección de fraude)

- para revender a sus clientes comerciales

- para optimizar decisiones y procesos (investigación de operaciones)

- para investigación y descubrimiento (IRS, litigios, detección de fraude, análisis de causa raíz)

- comunicación de máquina a máquina (sistemas de licitación automatizados, conducción automatizada)

- predicciones (pronósticos de ventas, crecimiento y predicciones financieras, clima)

17. No volcar Excel. Adopte la analítica de la luz. Da, ta + modelos + instintos + intuición es la combinación perfecta. No elimine ninguno de estos ingredientes en su proceso de decisión.

18. Aproveche el poder de las métricas compuestas: KPI derivados de los campos da, tabase, que tienen un poder predictivo mucho mejor que las métricas d, atabase originales. Por ejemplo, su da, tabase puede incluir un solo campo de palabra clave, pero no discrimina entre la consulta del usuario y la categoría de búsqueda (a veces porque d, ata proviene de varias fuentes y se combina). Detecte el problema y cree una nueva métrica llamada tipo de palabra clave, o d, en una fuente. Otro ejemplo es la categoría de dirección IP, una métrica fundamental que debe crearse y agregarse a todos los proyectos de análisis digital.

19. ¿Cuándo necesita un verdadero procesamiento en tiempo real? Cuando la detección de fraude es crítica, o cuando se procesan transacciones sensibles d, ata (detección de fraude con tarjeta de crédito, llamadas al 911). Aparte de eso, el análisis retrasado (con una latencia de unos segundos a 24 horas) es lo suficientemente bueno.

20. Asegúrese de que su d, ata sensible esté bien protegida. Asegúrese de que sus algoritmos no puedan ser manipulados por piratas informáticos criminales o piratas informáticos comerciales (espiando su negocio y robando todo lo que puedan, legal o ilegalmente, y poniendo en peligro sus algoritmos, lo que se traduce en una grave pérdida de ingresos). Un ejemplo de piratería empresarial se puede encontrar en la sección 3 de este artículo.

21. Combina varios modelos para detectar muchos tipos de patrones. Promedio de estos modelos. Aquí hay un ejemplo simple de combinación de modelos.

22. Haga las preguntas correctas antes de comprar el software.

23. Ejecute simulaciones de Montecarlo antes de elegir entre dos escenarios.

24. Use múltiples fuentes para el mismo d, ata: su fuente interna, y d, ata de uno o dos proveedores. Comprenda las discrepancias entre estas diversas fuentes, para tener una mejor idea sobre cuáles deberían ser los números reales. A veces, se producen grandes discrepancias cuando uno de los proveedores cambia una definición de métrica o si se modifica internamente, o cuando los datos cambian (algunos campos ya no se rastrean). Un ejemplo clásico son los datos de tráfico web: use archivos de registro internos, Google Analytics y otro proveedor (digamos Accenture) para rastrear estos datos.

25. La entrega rápida es mejor que la precisión extrema. Todos los conjuntos de datos están sucios de todos modos. Encuentre el compromiso perfecto entre la perfección y el rápido retorno.