아레나 ELO 레이팅 시스템 작동 방식

새로운 AI 3D 생성기가 매달 출시됩니다. 모두 자신이 최고라고 주장합니다. 마케팅 스크린샷은 멋져 보이지만, 브랜드를 걷어내면 실제 결과물은 어떻게 비교될까요?

이것이 바로 top3d.ai가 해결하는 문제입니다. Arena는 블라인드 커뮤니티 투표와 검증된 평가 시스템을 사용하여 모든 주요 AI 3D 생성기의 순위를 매깁니다. 이 글에서는 전체 방법론을 설명합니다.

90K+

블라인드 투표

생성기

25+

참여 국가

블라인드 투표 방식

Arena에 들어가면 두 개의 3D 모델이 나란히 표시됩니다. 두 모델 모두 같은 텍스트 프롬프트로 서로 다른 AI 도구가 생성한 것입니다. 어떤 도구가 어떤 모델을 만들었는지 알 수 없습니다. 로고도, 이름도, 편견도 없습니다.

Arena 블라인드 투표 - 도구 이름이 숨겨진 채 두 개의 3D 모델이 나란히 표시됨 — 같은 프롬프트로 생성된 두 개의 3D 모델. 투표할 때까지 도구 이름은 숨겨져 있습니다.

두 모델을 검토하세요

두 3D 결과물을 회전하고, 확대하고, 자세히 살펴보세요. 뷰 모드를 전환하여 텍스처, 지오메트리, 노멀을 확인할 수 있습니다.

더 나은 모델에 투표하세요

더 낫다고 생각하는 모델 아래의 투표 버튼을 클릭하세요. 정답이나 오답은 없습니다. 여러분의 솔직한 판단만이 중요합니다.

결과를 확인하세요

투표 후 도구 이름이 공개됩니다. 승자가 강조 표시되며, 결과를 공유하거나 다음 라운드로 넘어갈 수 있습니다.

투표 후 Arena - 도구 이름이 공개되고 승자가 강조 표시됨 — 투표 후 도구 이름이 공개되고 승자가 강조 표시됩니다.

투표 후 간단한 설문 질문이 나타날 수 있습니다. 이는 커뮤니티가 AI 3D 도구를 평가할 때 가장 중시하는 요소를 파악하는 데 도움이 됩니다.

네 가지 평가 모드

Arena에는 네 가지 모드가 있으며, 각각 3D 생성의 다른 측면을 테스트합니다. 각 모드는 자체적인 별도의 ELO 리더보드를 유지하므로, 텍스처에서 뛰어난 도구가 지오메트리에서는 다른 순위를 가질 수 있습니다.

Textured

기본 모드입니다. 전체 PBR 재질과 텍스처가 적용됩니다. 전반적인 시각적 품질을 판단합니다: 텍스처가 깔끔한지, 재질이 사실적인지를 평가합니다.

Geometry

텍스처를 제거하고 회색 솔리드 뷰로 표시합니다. 메시 자체를 판단합니다: 토폴로지가 깔끔한지, 비율이 정확한지, 표면이 매끄러워야 할 곳에서 매끄러운지를 평가합니다.

Low Poly

게임 엔진에 최적화된 로우 폴리곤 결과물입니다. 리토폴로지 품질을 판단합니다: 폴리곤 수가 효율적인지, 실루엣이 유지되는지, 게임에 바로 사용 가능한지를 평가합니다.

Segmentation

AI가 감지한 부분이 서로 다른 색상으로 강조됩니다. 도구가 객체 구조를 얼마나 잘 이해하는지를 판단합니다. 리깅과 애니메이션을 위해 부분이 올바르게 분리되었는지를 평가합니다.

ELO 레이팅 시스템

우리는 ELO 레이팅 시스템을 사용합니다. 체스에서 선수 순위를 매기는 데 사용되는 동일한 방식으로, 간단하고, 검증되었으며, 자기 보정 기능을 갖추고 있습니다.

작동 방식

모든 도구는 1000 ELO에서 시작합니다
두 도구가 맞붙으면, 시스템은 현재 레이팅을 기반으로 예상 결과를 계산합니다
강한 도구를 이기면 약한 도구를 이길 때보다 더 많은 점수를 얻습니다
이변이 더 큰 영향을 줍니다. 낮은 레이팅의 도구가 상위 랭크 도구를 이기면 레이팅 변동이 상당합니다
시간이 지나면 레이팅은 실제 품질에 수렴합니다. 마케팅 비용으로 ELO 점수를 살 수 없습니다

상위 AI 3D 생성기를 보여주는 ELO 리더보드 — ELO 리더보드는 블라인드 커뮤니티 투표를 기반으로 모든 생성기의 순위를 매깁니다.

이것은 LMSYS Chatbot Arena가 LLM 순위를 매기는 데 사용하는 것과 동일한 시스템입니다. 자체 보고된 벤치마크가 아닌 직접 대결 결과에 의존하기 때문에 효과적입니다.

레이팅 변동성 (K-Factor)

새로운 도구는 빠르게 자신의 수준을 찾아야 합니다. 기존 도구는 안정적인 레이팅을 유지해야 합니다. 이를 위해 각 투표가 레이팅을 얼마나 변동시킬 수 있는지를 조절하는 슬라이딩 K-factor를 사용합니다:

도구의 총 투표 수	K-Factor	동작
10 미만	32	높은 변동성, 빠른 수준 탐색
10-29	24	수준 확립 중, 여전히 조정 중
30-99	16	확립됨, 중간 수준의 변동
100+	8	충분히 확립됨, 작고 정밀한 변동

이는 새로운 도구가 처음 십여 번의 대결에서 빠르게 상승(또는 하락)할 수 있는 반면, 500회 이상 투표를 받은 도구는 투표당 몇 점만 변동한다는 의미입니다.

매치업 선정 방식

공정성은 매우 중요합니다. 매치메이킹 알고리즘은 모든 도구가 공정한 기회를 얻도록 보장합니다:

랜덤 프롬프트 선택. 각 라운드는 테스트 세트에서 무작위로 텍스트 프롬프트를 선택하여 다양한 오브젝트를 볼 수 있습니다
가중 도구 선택. 투표 수가 적은 도구가 우선 배정되어 새로 추가된 도구가 빠르게 테스트됩니다
자기 대결 없음. 같은 도구끼리는 절대 대결하지 않습니다

이것이 의미하는 바

도구를 선택하고 계신가요?

ELO 리더보드는 마케팅 주장이 아닌 커뮤니티가 판단한 실제 결과물 품질을 반영합니다. 높은 ELO = 블라인드 비교에서 지속적으로 승리.

도구를 개발하고 계신가요?

순위는 블라인드 비교를 기반으로 합니다. 모델 개선 사항은 데이터에 반영됩니다. 마케팅에 비용을 쓸 필요 없이, 더 나은 품질을 제공하면 됩니다.

연구를 하고 계신가요?

21개 생성기에 걸친 90K+건의 블라인드 투표 데이터셋은 AI 3D 생성 분야에서 가장 큰 독립 벤치마크 중 하나입니다.

직접 체험해 보세요

모든 투표는 커뮤니티가 더 나은 결정을 내리는 데 도움이 됩니다. 한 라운드는 약 30초밖에 걸리지 않습니다.

Arena 참여하기 리더보드 보기