데이터베이스 반정규화 - 개념, 사용이유, 기법 (SQLD대비)

반정규화란 무엇인가?

데이터베이스 설계에서 '반정규화'는
정규화된 데이터 모델을 성능 향상이나 운영의 단순화를 위해 다시 조정하는 과정입니다.

이는 데이터를 중복하거나 테이블을 병합, 분할하여 조회 성능을 최적화하는 기술로,

주로 조인으로 인한 성능 저하를 해결하기 위해 사용됩니다.

1. 반정규화가 필요한 이유

데이터베이스 정규화는 데이터의 무결성을 유지하고 중복을 최소화하는 데 중요한 역할을 합니다.
하지만 지나치게 정규화된 데이터 모델은 테이블 간 조인이 많아져 조회 성능이 저하될 수 있습니다.
이러한 경우, 반정규화를 통해 데이터를 중복하거나 테이블 구조를 단순화하여 성능 문제를 해결할 수 있습니다.
특히, 다음과 같은 상황에서 반정규화가 필요합니다.
- 조인 연산 성능 저하 : 조인으로 인한 디스크 I/O가 많아질 때.
- 복잡한 관계로 인한 성능 문제 : 외래 키(FK)가 여러 조인을 요구할 때.
- 조회 빈도가 높은 데이터 : 자주 사용되는 데이터를 빠르게 조회해야 할 때.

2. 반정규화 절차

대상 조사 및 검토

데이터 처리 범위, 통계성 등을 확인해서 반정규화 대상 조사

다른 방법 검토

반정규화를 수행하기 전에 다른 방법 검토
- 클러스터링, 뷰, 인덱스 튜닝, 응용 프로그램, 파티션 등을 검토

반정규화 수행

테이블, 속성, 관계 등을 반정규화

3. 반정규화 기법

1. 테이블 병합

1:1 관계 병합 : 두 테이블을 하나로 합쳐 조인을 줄입니다.
- 예시 : 고객 테이블과 고객_상세정보 테이블을 병합하여 하나의 테이블로 관리합니다.
1:N 관계 병합 : 부모 테이블과 자식 테이블을 병합하여 조회 속도를 높입니다.
- 예시 : 주문 테이블과 주문_상세 테이블을 하나로 합쳐, 자주 조회되는 데이터를 빠르게 조회할 수 있습니다.
슈퍼/서브 타입 병합 : 공통 속성과 개별 속성을 하나의 테이블로 통합합니다
.
- 예시 : 고객 엔터티를 개인고객과 법인고객으로 나누지 않고 하나의 테이블로 관리합니다.

2. 테이블 분할

수직 분할 : 속성을 기준으로 테이블을 나눠 자주 조회되는 칼럼만 분리.
- 예시: 자주 조회되는 고객_이름, 고객_주소 칼럼을 별도의 테이블로 분리합니다.
- 하나의 테이블을 두 개 이상의 테이블로 분할하는 기법
수평 분할 : 데이터를 인스턴스별로 나누어 특정 조건에 맞는 데이터를 빠르게 조회.
- 예시: 주문 테이블을 연도별로 나누어, 특정 연도의 데이터만 빠르게 조회할 수 있도록 합니다.
- 값을 기준으로 테이블을 분할하는 기법

3. 칼럼 추가

중복 칼럼 추가 : 자주 참조되는 데이터를 미리 칼럼에 저장.
- 예시 : 주문 테이블에 총 주문액을 계산하여 저장하여 매번 계산하지 않고 빠르게 조회할 수 있습니다.
파생 칼럼 추가 : 계산된 데이터를 저장하여 처리 부하 감소.
- 예시 : 주문_상세 테이블에 총판매액 칼럼을 추가하여 매번 계산하지 않도록 합니다.
통계 칼럼 추가 : SUM, AVG와 같은 집계 데이터 저장.
- 예시: 주문 테이블에 주문건수, 평균주문액 등의 통계 칼럼을 추가합니다.

4. 반정규화 적용 시 주의사항

반정규화를 적용할 때는 몇 가지 중요한 점을 고려해야 합니다.

데이터 일관성 문제

데이터 중복이 발생하면, 데이터의 일관성을 유지하기 어려울 수 있습니다.
- 예를 들어, 중복된 데이터가 수정되었을 때 모든 관련 테이블을 일관되게 업데이트해야 합니다.

추후 유지보수의 어려움

반정규화된 데이터 모델은 이후 변경이 필요할 경우 유지보수가 어려워질 수 있습니다.
- 예를 들어, 테이블이 병합되면 구조 변경 시 여러 다른 부분을 고려해야 할 수 있습니다.

성능 저하 위험

반정규화는 성능을 개선하기 위한 방법이지만, 데이터가 너무 중복되거나 비효율적으로 저장되면
오히려 성능이 저하될 수도 있습니다.
따라서 반정규화의 범위와 정도는 신중하게 결정해야 합니다.

5. 반정규화 사용을 피할 수 있는 경우

반정규화가 항상 필요한 것은 아닙니다.

성능 최적화를 위해 반정규화를 사용하기 전에,
인덱스 최적화, 쿼리 튜닝, 클러스터링 등의 다른 방법을 먼저 고려하는 것이 좋습니다.

예를 들어, 복잡한 쿼리를 단순화하거나,
인덱스를 추가하여 성능을 개선할 수 있는 경우에는 반정규화를 피할 수 있습니다.

6. 정규화와 반정규화의 장단점

정규화의 장점

데이터 무결성 유지 : 중복을 최소화하고 데이터를 일관되게 관리할 수 있습니다.
중복 최소화 : 데이터 관리가 용이해집니다.

정규화의 단점

조인 연산 증가 : 여러 테이블을 조인해야 하므로 성능이 저하될 수 있습니다.
복잡한 데이터 모델 : 데이터 모델이 복잡해져 개발과 유지보수가 어려울 수 있습니다.

반정규화의 장점

조회 성능 향상 : SELECT 쿼리 성능을 향상할 수 있습니다.
조인 연산 감소 : 조인 연산을 줄여서 데이터 조회 속도를 개선할 수 있습니다.

반정규화의 단점

데이터 중복 증가 : 데이터 중복이 발생할 수 있으며, 이는 데이터 관리에 부담을 줄 수 있습니다.

결론 : 정규화와 반정규화는 데이터베이스 설계에서 상호 보완적인 역할

정규화와 반정규화는 데이터베이스 설계에서 상호 보완적인 역할을 합니다.

정규화는 데이터의 무결성과 일관성을 유지하는 데 필수적이고, 반정규화는 성능 최적화와 운영의 편의성을 제공합니다.

데이터베이스 설계 시, 두 개념을 상황에 맞게 적절히 적용하는 것이 중요합니다.

이를 통해 성능과 데이터 품질을 모두 만족시키는 최적의 설계를 완성할 수 있습니다.