과목 3. 데이터 표준화
제2장 데이터 표준 수립
1. 표준 단어(Word) 사전 정의
표준 단어 사전 정의는 기존 데이터 모델 및 용어집을 통해 해당 기관에서 사용되고 있는 모든 단 어를 추출한다. 추출된 단어는 단어 종류와 유형을 분류하고 업무 정의 및 용도를 고려하여 표준 단어를 정의한다. 표준 단어 사전을 정의할 경우 이음동의어, 동음이의어 처리에 주의해야 한다. 정의된 표준 단어는 정의된 표준화 원칙을 참고하여 영문명과 영문 약어명을 정의한다.
가. 표준 단어 사전
정보 시스템에서 사용하는 표준 단어 사전이란 기업에서 업무상 사용하며 일정한 의미를 갖고 있는 최소 단위의 단어를 정의한 사전을 말한다.
표준 단어를 정의함으로써 업무상 편의나 관습에 따라 동일한 단어를 서로 다른 의미로 사용하는 경우, 혹은 하나의 단어에 다양한 의미를 부여하여 사용하는 등의 문제를 방지한다.
1) 표준 단어 관리 기준
- 표준성
- 일반성
- 대표성
2) 표준 단어 작성 형식
표준 단어는 전사적으로 관리하고 있는 엔터티와 속성을 개별 단위로 하여 추출하며, 추출된 단어는 동음이의어와 이음동의어를 정비한 후 논리명(한글명)을 기준으로 물리명(영문명, 영문약어명), 유사 용어까지 함께 정리하여 관리한다.
나. 표준 단어 정의
표준 단어는 정보시스템별로 혼재되어 사용되고 있는 모든 용어를 단어 단위로 분할하여 도출한 다.
1) 현행 용어 수집
기업 내 존재하는 모든 정보시스템에 대한 데이터 모델 또는 테이블 정의서와 칼럼 정의서를 분석하여 현행 용어에 대한 한글명 및 영문명을 수집한다. 현행 용어를 통하여 단어를 분할하고 그에 해당하는 영문 약어명을 도출하려는 것이 목적이므로 일부 상용화된 애플리케이션 패키지처럼 한글명이 존재하지 않은 데이터 모델은 수집 대상에서 제외한다.
2) 단어 분할
수집된 현행 용어에서 업무상 사용되며 일정한 의미를 갖고 있는 최소 단위의 단어로 분할한다. 단어 분할을 통하여 한글명과 그에 해당하는 영문 약어명이 도출되어야 하기 때문에 단어 분할 시 한글명을 비롯하여 영문명도 같이 분할이 되는가를 고려해야 한다. 단어 분할 시 단독으로 분할되는 숫자는 표준화 대상 단어에서 제외한다.
3) 단어 정렬
분할하여 취합된 모든 단어 중에서 의미가 동일한 단어들에 대해 하나의 대표 단어를 표준으로 선정하고 그에 대한 영문 약어명을 선택한다. 최종적으로 도출해낸 모든 단어들은 한글명과 영문 약어명 모두 유일해야 한다.
단어 정렬시 이용 가능한 기법
- 한글명이 동일한 단어와 의미가 동일한 단어(이음동의어)들을 취합한 후 활용 빈도가 가장 많은 한글명을 표준 단어로 선택한다. 이음동의어는 영문 약어명이 동일한 단어들에 대한 검색으로 찾을 수 있다.
- 한글명이 동일한 단어와 이음동의어를 모두 통틀어 가장 많이 나타나는 영문 약어명을 해당 표준 단어에 대한 영문 약어명으로 선택한다.
- 동음이의어의 경우 상대적으로 활용 빈도가 낮은 의미의 단어에 대해서는 동일한 의미를 갖는 다른 한글명을 표준 단어로 선택한다.
4) 표준 단어 사전 정의
단어 정련 작업을 통하여 표준으로 선택한 모든 단어들에 대한 한글명 및 영문명을 표준 단어 사전에 등록한다. 그리고 의미는 유사하나 각기 다른 표준으로 등록한 표준 단어들은 유사어로, 표준으로 선택되지 않은 나머지 이음동의어들에 대해서는 금칙어로 등록하여 관리하고 향후 적절한 표준 단어의 검색을 위해서 관련 표준 용어를 같이 기술한다.
다. 표준 단어 정의 시 고려사항
- 표준 단어의 단위는 최소 단위를 기준으로 하되 사용 빈도가 높은 단어의 조합 또는 단어의 조합이 하나의 고유한 의미를 가지는 경우 하나의 표준 단어로 정의하는 것이 유리할 수 있다.
예) 신용카드, 선하증권 - 대부분의 DBMS는 테이블 물리명 및 칼럼 물리 명의 첫 글자를 알파벳으로 시작하도록 제약하고 있다. 따라서 표준 단어의 영문명도 반드시 알파벳으로 시작하도록 정의하도록 한다.
예) 1순위 --> RNK1, 2개월 --> M2 - 단어는 특히 동음이의어가 많기 때문에 사용빈도가 높은 것을 표준 단어로 사용빈도가 낮은 것은 다른 단어와 조합하여 표준 단어로 정의하도록 한다.
- 접두어, 접미어와 같이 한 자리로 구성된 단어들은 가급적 표준에서 배제하는 대신 앞뒤에 나오는 단어와 조합하여 표준 단어로 정의하는 것이 바람직하다.
2. 표준 도메인(Domain) 사전 정의
표준 도메인 사전 정의는 업무적인 용도, 사용 빈도와 데이터의 물리적인 특성 등을 고려하여 도메 인을 분류하고 도메인별 데이터 타입을 부여한다. 도메인에는 코드성 도메인과 숫자 도메인, 날짜 도 메인, 문자 도메인 등이 있다.
가. 표준 도메인 사전
도메인이란 속성에 정의된 조건을 만족시키는 값의 범위를 의미한다. 표준 도메인은 전사적으로 사용되고 있는 데이터 가운데에 논리적, 물리적으로 유사한 유형의 데이터를 그룹화하여 해당 그룹에 속하는 데이터의 유형과 길이를 정의한 것을 말한다. 도메인은 여러 개의 하도메인이 여러 개의 도메인에 중복적으로 사용될 수 있다.
1) 표준 도메인 관리 기준
- 표준성
- 유일성
- 업무 지향성
2) 표준 도메인 작성 형식
전사적으로 관리하고 있는 모든 데이터 속성 혹은 대표 속성 가운데에 DBMS에 동일한 형태로 구현되는 속성들을 추출하여 그룹화한다. 모든 속성은 임의의 도메인에 할당되어야 하며, 하나 이상의 도메인에 복수로 할당되면 안 된다. 속성과 도메인은 상호 매핑하여 관리해야 하며 새로운 속성이 추가될 경우 해당 속성의 도메인을 선정, 등록할 것을 권장한다. 또한 도메인의 삭제는 해당 도메인을 사용하고 있는 속성이 없을 경우에만 가능하도록 해야 한다.
나. 표준 도메인 정의
표준 도메인은 정보시스템별로 혼재되어 사용되고 있는 칼럼의 칼럼명, 데이터 타입, 길이 등을 정리하여 표준 도메인을 정립한다.
1) 현행 용어 정보 분석
기업 내 존재하는 모든 정보시스템에 대한 데이터 모델 또는 칼럼 정의서를 이용하여 현행 용어에 대한 용어명과 데이터 타입 정보를 수집한 뒤 물리적으로 유사한 유형의 용어들을 그룹화한다. 그룹화할 때에는 다음의 기법을 이용해 정리하도록 한다.
2) 표준 도메인 정의
그룹핑된 유사 속성 용어의 의미에 따라 표준 도메인명을 정의하고 그에 따른 데이터 타입 및 길이를 정의한다. 표준 도메인은 다음의 기준에 따라 정의한다.
다. 표준 도메인 정의시 고려사항
- 현실적으로 어느 도메인에도 속하지 않는 칼럼이 있을 수 있기 때문에 모든 용어를 포괄하는 표준 도메인을 생성할 필요는 없다.
- 표준 도메인에 정의할 데이터 형식을 어떻게 정의하고 각기 다른 DBMS에 어떻게 물리적으로 적용할 것인가에 대한 방안을 고려해야 한다.
- 표준 도메인을 도출하면서 동일한 용어로 판명된 현행 용어들을 별도로 기록하여 향후 동일한 데이터 표준 용어로 통일할 때 참고
3. 표준 코드(Code) 사전 정의
표준 코드 정의는 수집된 용어로부터 코드를 선별하여 현 코드의 코드값을 조사한다. 현 코드를 바탕으로 통합 요구 사항과 통합 필요성에 따라 통합 대상을 파악하고 표준 코드를 정의하고 현 코드와 매핑 설계를 한다.
가. 표준 코드 사전
표준 코드에는 각 산업별로 법·제도적으로 부여하여 공통적으로 사용되는 코드뿐만 아니라 기업 내부에서 정의하여 사용하는 코드도 포함된다.
1) 표준 코드 관리 기준
- 재사용성
- 일관성
- 정보 분석성
2) 표준 코드 작성 형식
전사적으로 사용하고 있는 코드를 추출하여 정의하고 부여된 코드와 동일한지를 확인하고, 동일한 값을 가지는 코드에 대해서 통합 작업을 수행하여 단일화 작업을 수행한다. 코드는 도메인과 밀접하게 연관되어 관리해야 하나 도메인에 값의 범위가 명확히 정의되어 있는 경우(예를 들어 ‘여부’는‘Y/N’으로 표기)에는 특별히 코드 화하여 관리하지 않아도 된다.
나. 표준 코드 정의
표준 코드는 각 정보시스템별로 사용되고 모든 코드들을 수집하여 동일 코드를 파악하고 통합하여 표준 코드를 정의한다. 표준 코드는 다음과 같은 일련의 과정을 거쳐 정의한다.
1) 현행 코드 수집
- 단독 코드 테이블
- 통합 코드 테이블
- 애플리케이션 정의
- 코드 데이터 값 수집
- 코드성 칼럼 파악
- 수집된 코드에 대한 사용처 파악
2) 현행 코드 상세 분석
수집된 현행 코드 정보를 상세히 분석함으로써 동일하거나 통합이 가능한 코드를 식별한다. 통합 대상 코드의 식별은 다음의 방법을 고려하여 식별한다.
3) 표준 코드 정의
현행 코드 상세 분석을 통하여 식별된 통합 대상 코드의 코드 인스턴스를 정련하여 통합한다.
다. 표준 코드 활용
향후 모든 정보시스템은 표준 코드를 사용해야 한다. 그러나 일부 업무에서 특정 코드의 모든 코드 값을 사용하지 않고 범위를 한정하여 일부 코드값만 사용 할 경우에는 표준 코드로부터 파생된 코드를 정의하여 사용한다. 이 경우 파생 코드에 정의된 코드 번호, 코드값은 반드시 표준 코드에 정의되어 있어야 하며, 파생 코드에 코드 인스턴스를 추가해야 할 경우 표준 코드에 먼저 정의하도록 한다.
라. 표준 코드 정의시 고려사항
- 코드값은 향후 확장성을 고려하여 정의하여야 하며, 여러 업무에서 사용할 수 있도록 통합된 코드로서의 일관성을 유지해야 한다.
- 시스템 운영 중에 코드값이 변경되는 경우 해당 코드를 사용한 기존 데이터의 유지를 위해 기존 코드값을 삭제하는 대신 사용 중지 상태로 관리하고 새로운 코드값을 신규로 정의한다.
- 표준 코드를 도출하면서 파악한 표준 코드-현행 코드 간의 변환 매핑 정보를 별도로 기록하여 향후 신규 정보시스템으로의 데이터 이행시 참고한다.
4. 표준 용어 사전 정의
표준 용어 사전 정의는 단어, 도메인, 코드 표준이 정의되면 이를 바탕으로 표준 용어를 구성하고, 단어의 조합, 도메인 분류, 데이터 타입 길이, 코드값 등을 기준으로 해서 표준 적용이 업무적으로나 IT적으로 무리가 없는지 검토한다. 또한 검토 과정에서 누락된 단어, 도메인, 코드 등이 없는지를 확인하고 추가 보완 작업을 수행한다.
가. 표준 용어 사전
용어는 업무에서 자주 사용하는 단어의 조합을 의미하며, 표준 용어는 전사적으로 사용하는 엔터티와 속성을 대상으로 표준 단어 사전에 정의된 단어를 조합하여 정의한다. 단어는 개별적이나 용어는 업무와 조직의 성격에 따라 그 조합이 달라질 수 있다. 표준 용어를 정의함으로써 기업 내부에서 서로 상이한 업무 간에 의사소통이 필요한 경우, 용어에 대한 이해 부족으로 유발되는 문제점을 최소화할 수 있다.
1) 표준 용어 관리 기준
- 표준성
- 일반성
- 업무 지향성
2) 표준 용어 작성 형식
표준 용어는 전사적으로 보유하고 있는 엔터티와 속성을 대상으로 추출된 표준 단어를 조합하여 생성되며 용어 사전은 엔터티 용어 사전과 속성 용어 사전으로 구분하여 정의 관리한다.
나. 표준 용어 정의
표준 용어는 정보시스템별로 사용되고 있는 모든 현행 용어를 수집하고 표준 단어 사전, 표준 도메인 사전, 표준 코드 사전 등을 참조하여 현행 용어에 대한 표준 용어를 도출한다.
1) 현행 용어에 대한 표준 단어 도출 및 표준 용어 정의
현행 용어로부터 표준 용어의 도출은 단어 수준에서의 표준화를 통해 이루어진다.
2) 표준 단어에 대한 도메인/코드 정의
표준 도메인을 도출하면서 별도 관리했던 정보를 가지고 표준 단어에 대한 도메인을 정의할 수 있다.
다. 표준 용어 정의 시 고려사항
- 표준 용어 도출 시 데이터 표준 원칙에서 정의한 한글명 및 영문명의 허용 길이를 넘지 않도록 한다.
- 만약 영문명의 허용 길이가 문제가 된다면 한글명을 변경하거나 한글명을 구성하는 표준 단어들 중 일부를 조합하여 하나의 표준 단어를 등록하여 영문명의 길이를 축약한다.
- 생성된 표준 용어가 너무 길다면 두 개의 표준 용어를 복합하여 생성하는 방법도 고려한다.
'자격증 > DASP' 카테고리의 다른 글
[DAsP] 3-3-1절 데이터 표준 관리 (0) | 2022.05.24 |
---|---|
[DAsP] 3-2-3절 데이터 표준 확정 (0) | 2022.05.24 |
[DAsP] 3-2-1절 데이터 표준화 원칙 정의 (0) | 2022.05.24 |
[DASP] 3-1장 데이터 표준화 개요 요약★ (0) | 2022.05.24 |
[DAsP] 3-1-3절 데이터 표준 관리 도구 (0) | 2022.05.24 |