Kan man bli en vellykket Big Data-arkitekt uten å lære Data Science? Hva er forskjellen mellom Big Data-arkitekt og dataforsker?


Svar 1:

Takk for flere A2A-er! :)

Dette er hendene mine på personlig erfaring om denne saken.

Hos Miniclip har vi et data science team og et data engineering team. Datateknisk team håndterer alle big data-ting. Med arbeid kunne datavitenskapsteamet gjøre det, men vi ville gjort det verre og saktere ... det vil vi ikke! :)

Datateknikk-teamet trenger ikke egentlig å gå inn på domenekunnskapspesifikasjoner slik datavitenskapsteamet går. Imidlertid kjenner de ganske mye til maskinlæring og i større automatiserte dataprosjekter jobber vi sammen.

Så etter min mening kan du bli en vellykket big data-arkitekt / ingeniør uten datavitenskap, noe som betyr, uten domenet / algoritmisk kunnskap som selskaper er avhengige av dataforskere. Imidlertid vil du være en mye bedre dataingeniør hvis du får hendene i det.


Svar 2:

Enig med Marcin. Dataforskere kan utnytte Big data-infrastrukturen av en Big data-arkitekt. IMO, noen av de viktigste vurderingene en Big data-arkitekt bør vite er følgende, hvorav dataanalyse / vitenskap er en del (punkt 3 nedenfor):

1) Inntak av data - batch og streaming

2) Datalagring - Distribuert lagring, NoSQL

3) Processing & Analytics ** - Batchbehandling, strømbehandling, analyse. Her bør Big data-arkitekten i det minste vite om de tilgjengelige analyseverktøyene / API for å kunne anbefale og inkludere dem i Big data-infrastrukturen (basert på foretaksbruk og dataforskere også). Noen av faktorene som må tas i betraktning i et verktøy for å muliggjøre en dataforsker kan være - typer tilgjengelige algoritmer, morsmålstøtte, tilkobling med Big data-miljø, dataparsesseringsmuligheter, dataprofilering, etc.

4) Forbruk - batch eller strøm forbruk

5) Maskinvare behov for forskjellige komponenter i Big data distribuert miljø

6) Driftsmessige behov i Big data-miljøet


Svar 3:

Enig med Marcin. Dataforskere kan utnytte Big data-infrastrukturen av en Big data-arkitekt. IMO, noen av de viktigste vurderingene en Big data-arkitekt bør vite er følgende, hvorav dataanalyse / vitenskap er en del (punkt 3 nedenfor):

1) Inntak av data - batch og streaming

2) Datalagring - Distribuert lagring, NoSQL

3) Processing & Analytics ** - Batchbehandling, strømbehandling, analyse. Her bør Big data-arkitekten i det minste vite om de tilgjengelige analyseverktøyene / API for å kunne anbefale og inkludere dem i Big data-infrastrukturen (basert på foretaksbruk og dataforskere også). Noen av faktorene som må tas i betraktning i et verktøy for å muliggjøre en dataforsker kan være - typer tilgjengelige algoritmer, morsmålstøtte, tilkobling med Big data-miljø, dataparsesseringsmuligheter, dataprofilering, etc.

4) Forbruk - batch eller strøm forbruk

5) Maskinvare behov for forskjellige komponenter i Big data distribuert miljø

6) Driftsmessige behov i Big data-miljøet