데이터 분석 언어로 python의 pandas가 주로 사용됩니다. 일반적으로
익숙한(?) SQL 쿼리를 Pandas에서 어떻게 사용되는지 확인해 보겠습니다.
1. csv 파일 로드
이번 분석을 위한 샘플 CSV 파일을 로드합니다.
sample_data.csv
sample_data_2.csv
sample_data_3.csv
import pandas as pd
sample_data_1 = pd.read_csv('sample_data.csv')
sample_data_2 = pd.read_csv('sample_data_2.csv')
2. SELECT
A, D
sample_data_1[["A", "D"]]
3. SELECT
A, D FROM table WHERE D = 1
sample_data_1[sample_data_1['D'] == 1][['A', 'D']]
4. SELECT *
FROM table LIMIT 5 OFFSET 3
sample_data_1[3:3+5]
5. UPDATE D = 5 WHERE D = 1
sample_data_1.ix[sample_data_1.ix[:,'D'] == 1, "D"] = 5
혹은
sample_data_1.ix[sample_data_1.ix[:,'D'] == 1, 3] = 5
6. INSERT
INTO table(A,B,C,D) VALUES(100, 200, 300, 3)
sample_data_1.loc[len(sample_data_1) +1 ] = [100, 200, 300, 3]
7. DELETE
WHERE D = 5
sample_data_1 = sample_data_1[sample_data_1.D != 5]
8. ORDER BY
D
sample_data_1.sort_values(["D"], ascending=[True])
sample_data_1.sort_values(["D"], ascending=[False])
sample_data_1.sort_values(["D", "C"], ascending=[True, False])
sample_data_1.sort_values(["D", "C"], ascending=[True, True])