AI 위험 행동 탐지 교관

3.65

Derivation Chain

Step 1 오픈AI 시스템 결함·안전 신고 체계 강화

→

Step 2 AI 서비스 안전 테스팅 도구

→

Step 3 AI 레드팀 테스트 시나리오 자동 생성·실행 교육 서비스

Problem

AI 챗봇·에이전트를 출시하는 한국 스타트업의 QA 담당자·PM(10-50인 규모)은 서비스 출시 전 안전성 테스트를 해야 하지만, 레드팀 테스팅 전문 인력이 없어 '욕설 입력해보기' 수준의 임기응변적 테스트에 그친다. 오픈AI 캐나다 사건처럼 예측 못한 위험 행동이 서비스 출시 후 발견되면 브랜드 손상, 법적 책임, 서비스 중단으로 이어지며 복구 비용이 수천만 원에 달한다.

Solution

AI 서비스 유형(챗봇/에이전트/이미지생성)과 타깃 사용자층을 선택하면 한국어 특화 레드팀 테스트 시나리오(탈옥, 유해 콘텐츠 유도, 개인정보 추출, 편향 유발 등)를 자동 생성하고, 테스트 실행 결과를 위험 등급별로 분류한 리포트를 제공한다. 비전문가도 따라할 수 있는 단계별 가이드와 영상 튜토리얼을 포함한다.

Target: AI 서비스 출시 예정 스타트업의 QA팀·PM(직원 10-50명), AI 도입 중인 중견기업 정보보호팀, AI 안전 교육이 필요한 부트캠프·대학 강좌

Revenue Model: 기본 무료(월 5회 시나리오 생성), 프로 월 4.9만원/팀(무제한 시나리오+자동 실행+리포트), 엔터프라이즈 월 19.9만원(맞춤 시나리오+컨설팅 리포트+교육 영상), 교육기관 연간 라이선스 99만원

Ecosystem Role: Education

MVP Estimate: 2_weeks

NUMR-V Scores

N Novelty

4.0/5

U Urgency

4.0/5

M Market

3.0/5

R Realizability

4.0/5

V Validation

3.0/5

NUMR-V Scoring System

N Novelty	1-5	How uncommon the service is in market context.
U Urgency	1-5	How urgently users need this problem solved now.
M Market	1-5	Market size and growth potential from proxy indicators.
R Realizability	1-5	Buildability for a small team with realistic constraints.
V Validation	1-5	Validation signal quality from competition and demand data.

N=.15 U=.20 M=.15 R=.30 V=.20

Feasibility (73%)

Tech Complexity

29.3/40

Data Availability

23.3/25

MVP Timeline

20.0/20

API Bonus

0.0/15

Feasibility Breakdown

Tech Complexity	/ 40	Difficulty of core implementation stack.
Data Availability	/ 25	Practical availability and cost of required data.
MVP Timeline	/ 20	Expected time to ship a usable MVP.
API Bonus	/ 15	Bonus for viable public API leverage.

Market Validation (56/100)

Competition

8.0/20

Market Demand

6.2/20

Timing

14.0/20

Revenue Signals

10.5/15

Pick-Axe Fit

10.5/15

Solo Buildability

7.0/10

Validation Breakdown

Competition	/ 20	Signal quality from competitor landscape.
Market Demand	/ 20	Demand proxies from search and mention patterns.
Timing	/ 20	Fit with current shifts in tech, behavior, and regulation.
Revenue Signals	/ 15	Reference evidence for monetization viability.
Pick-Axe Fit	/ 15	How well the concept serves participants in a trend.
Solo Buildability	/ 10	Practicality for lean-team implementation.

Technical Requirements

백엔드 [medium] AI/ML [medium] 프론트엔드 [low]

Dashboard