by-nc-sa     개발자, DBA가 함께 만들어가는 구루비 지식창고!

데이터 표준화




  • 표준화란 일정한 기준에 따라 통일하는 것이다. 통일시키는 것이 데이터 표준화의 핵심이다.
  • 데이터 표준화는 데이터 품질을 높이기 위해서 사용한다.

단어

  • 데이터 표준화의 출발은 단어를 정의하는 것이다.
  • 정의된 단어는 궁극적으로 속성에 사용된다.
  • 단어 정의시 이음동의어에 주의해야 한다. (예:사원과 직원이 동일할 경우 사원 -> 표준어, 직원 ->유사어 또는 금지어로 관리)
  • 이음 동의어를 사용하려면 논리적으로 사용하는 것이 좋다.
  • 이음 동의어로 묶인 단어 중에서 시스템에서 사용할 이음동의어(Dominant Synonym)를 지정해 대표로 사용하여 다른 단어들이 참조 할 수 있도록 한다.
  • 이음동의어는 컬럼명과도 관련이 있어 단어를 정의할 때는 단어의 영문명을 함께 정의하고 컬럼명에 최종적으로 사용될 단축 영문명도 정의한다.
    예) 사원 : 회사에서 근무하는 사람. 영문 : employee, 영문축약어 : EMP --> 사원번호 : EMP_NO
  • 동일한 단어를 사용하지만 의미가 다른 동음이의어도 사용하지 않는 것이 바람직 하다.
    예) 이전(Before) : 바로 전/이전(Transfer) : 옮기다
    이전일자 : BF_DT/이전일자 : TRN_DT 등으로 달라져 속성의의미에 맞는 컬럼명을 사용했는지 판단하기가 어려움
  • 표준화의 핵심은 동일한 의미의 속성명은 통일시키는 것이다.

도메인

  • 표준화 수행시 중요한 요소는 도메인은 데이터 타입과 길이, 포맷 등이 같은 값의 집합이다.
  • 하나의 속성에는 허용된 유효한 값의 형태가 같아야 하므로 도메인이 하나만 사용돼야 한다.
표준화 원칙의 예
  • 특정한 날짜를 의미할 때는 '일자'를 사용한다. 예) 입금일자
  • '시분초'까지 의미할 때는 '일시'를 사용한다. 예) 방문일시
  • 년.월.일 중 일부만을 의미할 때는 '년', '년월', '월', '월일', '일'등으로 사용한다. 예) 회계년, 기준년월, 적용월, 이체일
  • 가격.좌수.단가.잔액 등의 관행적으로 사용하는 단어를 제외하고 금전을 의미할 때는 '금액'을 사용한다. 예) 계약 금액
  • 비율을 의미할 때는 '율'을 사용한다. 예) 이율
  • 구체적인 원칙들이 빠짐없이 제시돼야 하고 모델러가 정해진 원칙에 따라 속성을 표준화해야 한다.
  • 모델러가 다수이면 표준을 일관되게 적용하기가 쉽지 않을 수 있는데 이때는 표준화 원칙을 숙지하고 있는 담당자를 두어
    속성명이 한결같이 사용될 수 있도록 제어하는 것이 좋다.
  • 최근 표준화 작업은 메타 관리 시스템과 연동돼 수행된다.
  • 표준화 시스템에서 지원하는 기능 중에 핵심은 속성을 등록해 관리하는 것이며, 엔터티에 어떤 속성이 존재하며
    특정 속성이 어떤 엔터티에서 사용됐는지를 보여주는 기능이 표준화 시스템의 핵심이다.

코드

  • 공통 코드로 등록해 관리할 코드 속성이 일반 속성과 다른 다른점은 코드값.코드명이 존재한다는 것이다.

문서정보

Enter labels to add to this page:
Please wait 
Looking for a label? Just start typing.