일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- X
- ASAC
- 새싹 AI데이터새싹 엔지니어 부트캠프
- ai 새싹 부트캠프 6일차
- ai 새싹 부트캠프 5일차
- 새싹 AI데이터새싹 엔지니어 부트캠프 1일차
- ai 새싹 부트캠프 7일차
- 통계용어 정리
- 데이터관련면접
- ai 새싹 부트캠프 4일차
- 새싹 AI데이터새싹 엔지니어 부트캠프 3일차
- 새싹 AI데이터새싹 엔지니어 부트캠프 2일차
- 데이터분석가
- T
- ㅂ.
- 취준생
- 데이터분석가면접준비
- Til
- Today
- Total
데이터 공부기록
9월 11일 - 수업내용 정리 [복습 - 서브쿼리, DB_API / 데이터 프로세스, Padas 기본내용] 본문
복습
서브쿼리의 활용
- 평균 인보이스를 변수처럼 활용 (많이 쓰임)
- 테이블 형태로
- 하나의 칼럼처럼 - 컬럼의 수가 같아야함 (많이 쓰임)
DB API
DB API란 데이터베이스 액세스를 위한 파이썬 표준 인터페이스입니다(DB 와 파이썬을 조작하게 해주는 리모컨). 이 인터페이스를 사용하면 파이썬 코드에서 데이터베이스를 쉽게 조작할 수 있습니다. DB API는 대부분의 데이터베이스 시스템에서 사용할 수 있도록 설계되었습니다. DB API는 일반적으로 SQL 데이터베이스와 함께 사용됩니다. 이 인터페이스를 사용하면 파이썬 코드에서 SQL 쿼리를 실행하고 결과를 처리할 수 있습니다.
Python DB API
Python DB API는 Python에서 다양한 데이터베이스와 상호작용하기 위한 표준 인터페이스입니다. 이를 이용하여 Python으로 다양한 데이터베이스에 쿼리를 요청하고, 데이터를 불러오고, 수정하는 등의 작업을 할 수 있습니다.
Python DB API의 대표적인 예로는 sqlite3, psycopg2, mysql-connector-python 등이 있습니다. sqlite3는 가벼운 데이터베이스로 로컬 파일 형태로 사용할 수 있으며, psycopg2는 PostgreSQL 데이터베이스와 상호작용할 때 사용됩니다. mysql-connector-python은 MySQL 데이터베이스와 상호작용할 때 사용됩니다.
이 외에도 다양한 Python DB API 라이브러리들이 존재하며, 각 데이터베이스마다 지원하는 Python DB API가 다를 수 있습니다. 따라서 사용하고자 하는 데이터베이스에 맞는 Python DB API를 선택하여 사용해야 합니다
DB API를 활용한 데이터 베이스에 저장(sqlite)
cusror - 파싱
execute - 실행
커리결과는 - fetchall , fetchone 인출 가지고 오는 것
import sqlite3
# 데이터베이스 연결
conn = sqlite3.connect('mydatabase.db')
# 커서 생성
cursor = conn.cursor()
import sqlite3
# 데이터베이스 연결
conn = sqlite3.connect('mydatabase.db')
# 커서 생성
cursor = conn.cursor()
# 테이블 생성
cursor.execute('''CREATE TABLE employees
(id INT PRIMARY KEY NOT NULL,
name TEXT NOT NULL,
age INT NOT NULL)''')
# 데이터 삽입
cursor.execute("INSERT INTO employees (id, name, age) VALUES (1, 'John Doe', 25)")
# 쿼리 실행
cursor.execute("SELECT * FROM employees")
rows = cursor.fetchall()
for row in rows:
print(row)
# 연결 종료
conn.close()
DATA - 각 ppt 순서대로 필기한 내용
정보화 시대에서 데이터 시대(DT)
메일, 출퇴근, SNS 좋아요, 카드 사용 등등 - 전부 데이터가 된다.
넷플릭스, 유튜브등 → 콘텐츠의 선택권을 유저에게! 이것의 기반은 데이터가 한다.
쿠팡, 컬리 → 고객 맞춤형으로 추천, 고객의 경험 강화, 결제 및 배송의 프로세스 개선,
물류, 재고, 매장관리 → 미리 수요를 예측해서, 배송과 물류비를 절약한다.
금융분야 → 국민은행이 파업을 멈춘 이유→ 파업을 해도 아무도 은행에 안올 정도로 금융it가 발전
자동 주행 자동차의 경우 : 미리 가상환경에서 학습 후 , 실제 데이터를 쌓는다.
분석후 : 인사이트 도출 후, 중요한건 내가 내린 결론 들을 항상 의심해야한다.
정형 - 테이블 → 머신 러닝
반정형 - 형태는 있지만 구조는 없는, 제이슨, 엑셀
비정형 - 음성,영상 같은것 → 딥러닝 (딥러닝이 조금 더 딥하기 떄문에)
→초기에는 파이썬을 알려줄려했지만, 사람들이 배우려고 하지 않는다, 따라서 배우면 충분한 경쟁력이 있다.
집중할꺼면 파이썬, 데이터 관심있으면 BI 툴도 필요하다.
데이터 분석이란
여러 데이터를 수집,정리 ,변환하여서 유용한 정보를 발견하고 결론을 내리고 의사결정을 지원하는 과정
접근 방법
생산성, 효율성 향상
의사결정
설득 - 데이터를 활용하여 주장을 뒤받침할 근거 제시
마음가짐
서로 다른 경험과 배경지식, 프로젝트를 통해 얻고자 하는 목적이 달라 같은 문제도 서로 다르게 인식할수있다.
원할한 의사소통이 필요
시각화로 표현 된 데이터를 수용하는 자세
데이터를 어디서 어떻게 활용할 것인지 정의 → 가지고 있는 역량 , 장비에 따라 달라질 수 있음
의미있는 가치 창출 → 결국 돈이 되는가?
프로세스 (이 과정을 이해하는게 굉장히 중요)
모델만드는건 누구나 가능. 개선 활용이 더 중요하다.

데이터 분석 프로세스
- 문제정의
- 데이터 수집
- 테이터 전처리
- 탐색적 데이터 분석 (EDA)
- 데이터 모델링 및 알고리즘 선택
- 모델 학습 및 평가
- 결과 해석
- 의사 결정 및 개선
데이터 분석 프로세스
1.문제 정의
데이터 기반으로 해결하고자 하느 문제가 무엇인가?
문제를 제대로 이해하기 위해서 무엇이 필요한가?
문제정의 데이터 분석의 목적과 해결해야 할 문제를 명확하게 정의한다. 이는 분석의 방향성을 제시 필요한 데이터 분석 기법을 정하는 데 도움을준다.
목표이해 -
분석계획 수립
프로젝트 일정 수립 : 인력,자원,시간을 고려하여 상세 일정을 수립
하고자 하는 분석 & 모델링에서
이 모델을 어떻게 사용할것인지 , 문제에 포커스에서 사용
딥러닝 - 내가 모델 개선을 어떻게 했는지
분석계획이란 수립에
데이터 수집 방법
요 3,4가지 안에서 사용한다.
데이터베이스
공공 데이터 ,open api
bpa
웹 스크래핑 - 웹상에 있는 데이터를 가지고 올 수 있는 방법
밀크씨슬 마그네슘 칼슘 → 비타민, 아르기닌 ,
데이터 전처리
“수집된 데이터를 분석이 가능한 현태로 구조화하고 정제화 하는 단계”
데이터 전처리를 활용하여 분석 가능한 상태로 만든다.
전처리 과정은 전체 과정의 80% 정도 시간이 들어 간다.
전처리를 할 떄 데이터는 항상 문제가 있다고 생각하고 접근하는게 좋다.
데이터 무결성 확인
데이터 타입이 일치하는가
데이터 단위가 일치하는가
중복, 누락, 이상값은 없는가?
결측치 이상치 데이터 타입 변환 중복 데이터 처리 데이터 정규화 피려 스케일링/정규롸
피쳐 인코딩
인사이트를 도출하고, Action을 하게 도와주는게 우리의 역할
탐색적 데이터 분석
어떤값에 집중, 얼마만큼 퍼져있는지
숫자에 집중하기보단, 전체적인 맥락을 파악하는게 중요하다.
데이터 시각화
분석은 기술적, 자료는 누구나 이해하기는 쉽게!
적용사례
회사는 데이터로 말하는 곳으로 가야한다.
중요하게 생각해야함
딥러닝 - 비정형 / 머신러닝 - 정형 데이터
일반화 - 모델이 잘 예측하게 끔 일반화해야한다.
그냥 모델을 만드는것에 절대로 그쳐서는 안된다.
데이터 과학 라이브러리 - 암기하면 앞으로의 교육이 편하다.
numpy: 파이썬에서 수학적 연산을 효과적으로 수행할 수 있도록 하는 라이브러리. 다차원 배열 및 행렬 연산에 유용하게 사용됩니다.
pandas: 데이터를 조작하고 분석하기 위한 라이브러리. 테이블 형태의 데이터를 쉽게 다룰 수 있습니다.(머신러닝 데이터 분석할떄 편함)
시각화 !
matplotlib: 파이썬에서 그래프 및 차트를 그리기 위한 라이브러리. 기본적인 그래프부터 복잡한 데이터 시각화까지 다양한 형태의 그래프를 그릴 수 있습니다. (근본- 시각화)
seaborn: matplotlib을 기반으로 하는 통계용 그래프 라이브러리. matplotlib보다 좀 더 간편하고 좀 더 다양한 그래프를 그릴 수 있습니다.(1이 불편해서)
plotly: 인터랙티브한 그래프를 그리기 위한 라이브러리. 웹사이트나 대쉬보드에서 사용하기 적합합니다.(2가 불편해서)
딥러닝
tensorflow: 구글에서 만든 오픈소스 머신러닝 라이브러리. 딥러닝 모델을 구현하고 학습시키는 데 사용됩니다.
pytorch: 페이스북에서 만든 오픈소스 머신러닝 라이브러리. 딥러닝 모델을 구현하고 학습시키는 데 사용됩니다.
scikit-learn (sklearn): 머신러닝을 위한 라이브러리로, 분류, 회귀, 클러스터링 등 다양한 머신러닝 알고리즘을 제공합니다.
각 라이브러리들의 어떻게 활용되고 어떻게 써야 하는지 알아야한다.
데이터 프레임(시리즈들로 구성되어 있다.) - 테이블 형태의 구조
시리즈 - 1차원 형태 / 열과 행 모든 데이터 구조
데이터 프레임은 시리즈들의 집합 (행과 열)
오늘 선생님과 같이 배운 코드
https://github.com/StandingR/Class_contents/blob/main/0911_01_pandas.ipynb