B
AI 위험 행동 탐지 교관
3.65
Derivation Chain
Step 1
오픈AI 시스템 결함·안전 신고 체계 강화
→
Step 2
AI 서비스 안전 테스팅 도구
→
Step 3
AI 레드팀 테스트 시나리오 자동 생성·실행 교육 서비스
Problem
AI 챗봇·에이전트를 출시하는 한국 스타트업의 QA 담당자·PM(10-50인 규모)은 서비스 출시 전 안전성 테스트를 해야 하지만, 레드팀 테스팅 전문 인력이 없어 '욕설 입력해보기' 수준의 임기응변적 테스트에 그친다. 오픈AI 캐나다 사건처럼 예측 못한 위험 행동이 서비스 출시 후 발견되면 브랜드 손상, 법적 책임, 서비스 중단으로 이어지며 복구 비용이 수천만 원에 달한다.
Solution
AI 서비스 유형(챗봇/에이전트/이미지생성)과 타깃 사용자층을 선택하면 한국어 특화 레드팀 테스트 시나리오(탈옥, 유해 콘텐츠 유도, 개인정보 추출, 편향 유발 등)를 자동 생성하고, 테스트 실행 결과를 위험 등급별로 분류한 리포트를 제공한다. 비전문가도 따라할 수 있는 단계별 가이드와 영상 튜토리얼을 포함한다.
NUMR-V Scores
NUMR-V Scoring System
| N Novelty | 1-5 | How uncommon the service is in market context. |
| U Urgency | 1-5 | How urgently users need this problem solved now. |
| M Market | 1-5 | Market size and growth potential from proxy indicators. |
| R Realizability | 1-5 | Buildability for a small team with realistic constraints. |
| V Validation | 1-5 | Validation signal quality from competition and demand data. |
SaaS N=.15 U=.20 M=.15 R=.30 V=.20
Senior N=.25 U=.25 M=.05 R=.30 V=.15
Feasibility (73%)
Data Availability
23.3/25
Feasibility Breakdown
| Tech Complexity | / 40 | Difficulty of core implementation stack. |
| Data Availability | / 25 | Practical availability and cost of required data. |
| MVP Timeline | / 20 | Expected time to ship a usable MVP. |
| API Bonus | / 15 | Bonus for viable public API leverage. |
Market Validation (56/100)
Validation Breakdown
| Competition | / 20 | Signal quality from competitor landscape. |
| Market Demand | / 20 | Demand proxies from search and mention patterns. |
| Timing | / 20 | Fit with current shifts in tech, behavior, and regulation. |
| Revenue Signals | / 15 | Reference evidence for monetization viability. |
| Pick-Axe Fit | / 15 | How well the concept serves participants in a trend. |
| Solo Buildability | / 10 | Practicality for lean-team implementation. |
Technical Requirements
백엔드 [medium]
AI/ML [medium]
프론트엔드 [low]