[한국공공정책신문=김유리 기자]
◇ 데이터 과학의 개념
데이터 사이언스(data science)는 방대한 데이터(빅데이터)로부터 유용한 정보를 추출해, 그것을 의사결정이나 예측에 활용하는 학문 영역이다. 비즈니스, 의료, 제조업, 엔터테인먼트 등 다양한 분야에서 중요한 역할을 하고 있어 기업이나 연구자에게 필요 불가결한 존재다. 특히 인터넷과 IoT의 보급으로 인해 방대한 데이터가 매일 생성되면서 이들을 효율적으로 해석할 필요성이 높아지고 있다. 데이터 사이언티스트라고 불리는 전문가들은 이러한 데이터를 분석해, 새로운 견해나 가치를 만들어내는 역할을 담당하고 있다.
◇ 데이터 과학과 AI의 관계
AI(인공지능)에서 데이터 과학은 필수적인 역할을 한다. AI가 효과적인 의사결정을 하기 위해서는 방대한 데이터를 바탕으로 학습을 할 필요가 있으며, 그 데이터를 수집ㆍ처리ㆍ분석하는 프로세스를 뒷받침하고 있는 것이 데이터 사이언스이다. 이 과정을 통해 AI는 데이터에서 패턴과 지식을 추출하고 복잡한 작업을 수행할 수 있게 된다. 데이터 과학은 AI 모델의 성능에 크게 영향을 미친다. 특히 적절하게 설계된 데이터 파이프라인과 고도의 분석 기술은 AI 모델의 정확성과 유용성을 좌우하는 중요한 요소이다. AI의 진화에 따라 데이터 과학 또한 진화하여 보다 세련된 분석이 요구되고 있다.
◇ 데이터 과학의 융합학문
데이터 과학은 통계학, 컴퓨터 과학, 수학 등 다양한 분야가 융합된 학문이다. ① 데이터 수집이다. 센서, Web, 소셜미디어, 기업의 데이터베이스 등 다양한 소스로부터 필요한 데이터를 수집한다. ② 데이터 전처리다. 수집된 데이터에는 노이즈, 불완전한 데이터, 중복 등의 문제가 포함된 경우가 많기 때문에 데이터 클리닝이나 전처리가 필요하다. 이 프로세스에서는 데이터를 분석 가능한 상태로 성형(整形)한다. ③ 특징량 엔지니어링이다. AI 모델이 데이터에서 학습할 때 필요한 ‘특징량’을 추출한다. 특징량이란 데이터 중 특히 중요한 정보를 말하며, 이 공정이 모델의 정확도에 큰 영향을 미친다. ④ 모델 훈련과 평가다. 전처리한 데이터를 사용하여 AI 모델을 훈련한다. 훈련 후에는 모델의 성능을 평가하고 예측 정밀도나 범화 능력(새로운 데이터에 대한 적응력)을 측정한다. ⑤ 지속적인 학습과 개선이다. AI 시스템은 새로운 데이터를 통합하고 지속적으로 학습하여 모델의 성능을 향상시킨다. 이를 통해 시간이 지남에 따라 고도의 의사결정이 가능해진다.
◇ 데이터 과학의 응용사례
데이터 과학은 다양한 분야에서 널리 응용되고 있다. ① 의료 분야다. 환자 데이터를 분석하여 질병의 조기 발견 및 치료법 최적화에 활용된다. 예컨대, AI가 대량의 의료 영상을 분석해 암의 조기 발견을 돕는 기술이 진행되고 있다. ② 마케팅이다. 고객 데이터를 기반으로 타겟팅 광고나 개인화 제안을 전개한다. 고객의 구매 이력이나 웹사이트의 행동 데이터를 분석함으로써 효과적인 광고 전달이 가능하다. ③ 금융업계다. 리스크 관리 및 투자전략의 최적화에 도움이 되고 있다. AI가 시장 데이터를 실시간으로 분석해 리스크를 최소화하는 거래 전략을 도출한다. ④ 제조업이다. 센서 데이터를 해석하여 설비의 유지보수 예측 및 생산성 향상에 활용하고 있다. 생산라인 데이터를 기반으로 고장 징후를 사전에 검출하고 예방적인 유지보수를 실시한다. 이러한 응용 예로는 데이터 사이언스와 AI가 조합되는 것으로, 지금까지 해결이 어려웠던 복잡한 문제를 신속하고 고정밀도로 해결하는 것을 가능하게 하고 있다.
이 규 철 / 법학박사(상법)
∙ AI·GPT, SDGs&ESG 코치 및 강사
∙ 100세대학 크리에이터 및 칼럼니스트
∙ 생성AI와 챗GPT, SDGs·ESG경영전략,
글로벌 MBAtoCEO, 리더의 필승전략,
100세대학 행복디자인 매뉴얼 등 27권
∙ 일본(와세다대),중국(복단대·화동정법대)


















