복잡한뇌구조마냥

빅데이터 공부 [ 1 - 10 ] 본문

웹 개발 공부

빅데이터 공부 [ 1 - 10 ]

지금해냥 2022. 11. 19. 22:03

0. R & D란? 


- R&BD
  R&D 초기단계부터 사업성을 검토하고 단계별로 연구를 수행, 사업화가 가능하도록 단계마다 연구방향을 설정 조정해 나감으로 성과 극대화
- R&D (Research & Development)
  연구개발의 정의로 연구는 새로운 과학적 기술적 지식과 이해를 얻기 위하여 행해진 독창적 계획적 조사,
  개발을 상업적 생산이나 사용하기 이전에 새로운 또는 개량된 재료, 장치, 제품, 제조법, 시스템 또는 서비스 생산계획, 설계 등에  지식을 적용


1. 빅 데이터란?


- 거대한 규모(volume), 빠른속도(velocity), 높은 다양성(variety)을 특징으로 하는 데이터 - 3V
- 새로운 데이터 소스에서 나온 더 크고 더 복잡한 데이터 세트
- 데이터를 샇고 분석해서 원하는 데이터를 뽑아내기


2. 빅 데이터의 이점


- 빅 데이터를 사용하면 더 많은 정보를 확보할 수 있기 때문에 보다 완벽한 답을 얻을 수 있습니다.
- 답이 완벽하다는 것은 데이터의 신뢰성이 높아진다는 의미입니다. 
  따라서 문제 해결에 대한 완전히 다른 접근 방식이 기능


3. 빅 데이터 사용 사례


- 제품개발
  Netflix 및 Procter & Gamble 같은 회사는 빅 데이터를 사용하여 고객 수요를 예측합니다
  과거와 현재의 제품/서비스의 주요 속성을 분류하고, 
  이러한 속성과 옵션의 상업적 성공 간의 관계를 모델링하여 새로운 제품및 서비스에대한 예측모델을 구축합니다.
  시장의 데이터 및 분석 자료를 사용하여 신규제품 계획 생산 출시
- 머신런닝
  프로그래밍을 하는 대신 머신을 훈련시킬 수 있게 되었습니다.
- 예측적 유지보수
   장비 고장을 예측할 수 있는 요소는 장비 생산연도, 제조사, 장비모델과 같은 
   정형데이터, 로그, 센서 데이터, 오류 메세지 등 비정형 데이터
   문제가 발생하기 전 잠재적 문제 요인을 분석하여 유지보수를 효율적으로 배치, 장비 가동시간 최대화
- 운영 효율성, 맞춤형 고객관리, 혁신주도


4. 빅 데이터의 작동 원리


- 1. 통합
      서로 다른종류의 소스와 어블리케이션으로 데이터를 수집하여 종합
      통합하는 동안 데이터를 가져와서 처리하고 비즈니스 분석가가 분석을 시작할 수 있는 형식으로 포맷팅
- 2. 저장
      빅데이터를 관리하려면 스토리지 필요
      스토리지 솔루션은 클라우드, 온프레미스, 등 사용
- 3. 분석
      빅데이터의 가치는 데이터를 분석 처리할 때 발휘
      다양한 데이터 세트의 시각적 분석을 통해 새로운 명확성을 확보할 수 있습니다.

 

5. 빅데이터 웹개발 (추천도서 : 하둡 어플리케이션 아키텍처, 러닝 자바스크립트,Doit Vue.js 입문)


- DA, TA들이 사용하는 웹 솔루션을 개발
- 수많은 데이터들을 웹에서 처리할 수 있도록 기능을 제공
- 하둡, 하둡 에코시스템에 대해 어느정도 알고 있어야함


6. Software Architect ( AA, TA, DA, QA, BA)의 역할은?


- AA(Aplication Architect) : 공통 로직, 개발표준, 프레임워크 등 공통업무 설계자
- TA(Technical Architect) : OS, WEB, WAS, DB 설치 등 하드웨어와 네트워크 구축 담당자
- DA(Data Architect) : 데이터 표준, 구조, 품질, 마이그레이션 등 DB 설계자
- QA(Quality Assurance) : 산출물과 소스코드에 대한 품질을 보증하는 담당자
- BA(Business Architect) : 기술적 관점이 아닌 비즈니스 관점의 프로세스 설계자
- SA(Solutions Architect) : 프로젝트나 어떠한 비즈니스 요구사항에 따라, 개발환경과 같은 솔루션에 대한 설계 담당


7. 하둡이란?


- 하둡은 대용량의 데이터를 적은 비용으로 더 빠르게 분석할 수 있는 플랫폼, 빅데이터 처리와 분석을 위한 플렛폼 중 사실상 표준
- 여러대의 컴퓨터로 데이터를 분석하고 저장하는 방식으로 분석에 필요했던 많은 비용과 시간을 단축
- 여러개의 컴퓨터를 하나로 묶어 대용량 데이터를 처리하는 기술


8. 하둡의 구성


- 수천대용량 파일을 저장하는 기능 제공 분산 파일 시스템 (HDFS)과 분산된 서버의 자원을 이용하여 
   빠르게 분석하는 맵리듀스 플랫폼


9. 하둡의 장단점


- 장점
  오픈소스로 라이선스에 대한 비용 부담이 적음
  시스템을 중단하지 않고, 장비 추가 용이
  일부 장비에 장애가 발생하더라도 전체 시스템 사용성에 영향이 적음
  저렴한 구축 비용과 비용대비 빠른 데이터 처리
  오프라인 배치 프로세싱에 최적화 
- 단점
  HDFS에 저장된 데이터를 변경 불가
  실시간 데이터 분석 같이 신속하게 처리해야하는 작업에는 부적합
  너무 많은 버전과 부실한 서포트
  설정의 어려움


10. 하둡의 동작원리


- 데이터가 들어오면, 데이터를 쪼개어, 데이터를 분리하여 저장
- 데이터를 쪼갠 후에 어느 데이터 노드에 저장이 되어 있는지 기록하는 부분(메타데이터)가 필요
- 데이터를 저장하기 전에 네임노드에서 분산을 하고 저장위치를 분배
- 여러개 중 지정된 데이터 노드에 저장한다고 간단히 이해 

LIST