컨설팅 분야

컨설팅 분야

HOME > 사업실적 > 컨설팅 분야

2024년도 초거대AI 확산 생태계 조성사업(1차) - 02번 공법분야 LLM 사전학습 및 Instruction Tuning 데이터 구축-데이터가공 가이드 및 품질검증 분야
등록일
2024.07.12
조회수
130
  • 제목

    2024년도 초거대AI 확산 생태계 조성사업(1차) - 02번 공법분야 LLM 사전학습 및 Instruction Tuning 데이터 구축-데이터가공 가이드 및 품질검증 분야
  • 발주기관

    한국지능정보사회진흥원
  • 수주일자

    2024.06.01
1.사업목표
  ㅇ 공법분야 인공지능 법률 서비스 품질 개선과 법률 분야 초거대 언어모델의 실제 활용 성능 개발을 위한 Instruction tuning data 구축
  - 초거대AI 기술 발전 및 거대언어모델(LLM) 학습을 위한 대규모 법률영역(공법분야) 말뭉치 및 미세조정을 위한 Instruction tuning data 구축
  - 리걸테크 기술 발전 및 서비스 확산을 위한 LLM 기반의 파인튜닝된 데이터셋 구축 및 AI모델 학습

2.사업내용
ㅇ 행정법, 형사법 관련 텍스트 데이터 각 3,050,000문장으로 가공한 Instruction tuning data 구축
 2-1. 행정법 관련 법령, 판결문, 결정례, 해석례 등을 2가지 태스크(Q/A 필수)로 구성한 Instruction tuning data 100,000건 구축
 2-2. 형사법 관련 법령, 판결문, 결정례, 해석례 등을 2가지 태스크(Q/A 필수)로 구성한 Instruction tuning data 100,000건 구축
ㅇ 데이터 획득/수집 및 정제
  - 공법분야의 법령, 판결문, 결정례, 해석례 등 법률문서를 대상으로 3,050,000문장 수집
  - 저작권 활용이 자유로운 공공 영역의 공개자료 획득을 우선 확보
  - 자체 검증 툴을 활용하여 AI Hub에 공개된 기구축 데이터와 차별화된 데이터 구축
  - 인공지능 알고리즘 편향방지를 위해 다양성을 고려한 데이터 확보
  - 법률 문서의 특성을 고려하여 문서의 구조화 및 텍스트 정제를 통한 전처리
  - 법률데이터의 특성을 고려한 메타데이터 구축으로 자료의 연계성 확보
ㅇ 데이터 가공
  - 원천데이터를 대상으로 2가지 태스크(Q/A, 요약)으로 Instruction tuning data 구축
  - 전문영역인 법률문서 가공의 특성을 고려하여 법률 데이터 전문가가 작성한 가공 가이드
  - 판결서, 형사기록물 등 법률 관련 문서 전문 가공 작업자 참여를 통한 가공데이터 구축
  - 대상 자료별 유형별 특성 및 태스크에 적합한 데이터 가공 작업
ㅇ 품질검증
  - 품질검사 전문업체의 품질검수 수행
  - 구축 공정(준비성, 완전성, 유용성), 데이터 적합성(기준 적합성, 기술 적합성, 통계적 다양성), 데이터 정확성(의미 정확성, 구문 정확성) 등 전수 검수 작업 진행 후 피드백
  - 학습모델에 있어서 알고리즘 적정성, 유효성 품질 목표 도달 여부 테스트
  - 외부 품질 검증 기관인 TTA를 통한 데이터 항목별 품질 인증 절차 진행
ㅇ AI 모델
  - 딥러닝 기술을 활용하여 최신 인공지능 모델링 기술 적용
  - AI 모델 학습, 검증, 테스트, 학습 목표 달성 여부 검토
ㅇ 공개ㆍ활용
  - 구축에 활용된 데이터셋, 저작도구, 소스코드, 구축 매뉴얼 등 일체를 AI Hub에 공개
  - Open API 형식으로 배포하여 민간이 자유롭게 활용할 수 있도록 개방

3.결과활용계획 및 향후 파급효과
ㅇ 개발된 모델과 저작도구는 AI Hub에 소스코드를 포함하여 전체 공개
ㅇ 구축된 데이터를 기반으로 전문영역에서 활용할 수 있는 최적의 학습 방법 및 가공 방법 검증
ㅇ LLM 사전학습을 통해 향상된 리걸테크 서비스 환경
ㅇ 전문 법률 서비스를 적극적 이용이 어려운 다양한 분야의 서비스 이용 활성화 기대