ACE-Step v1-3.5B

음악 생성을 위한 AI 모델

ACE Studio와 StepFun이 개발한 오픈 소스 3.5B 파라미터 텍스트-음악 변환 모델로, 인상적인 일관성과 속도로 다양한 장르의 독창적인 음악을 생성합니다.

ACE-Step 온라인 체험

ACE-Step이란 무엇인가요?

ACE-Step은 독창적이고 고품질의 음악을 만들기 위해 설계된 최첨단 AI 음악 생성 모델입니다. ACE Studio와 StepFun이 개발하고 Apache 2.0 라이선스로 배포되었으며, 기존 솔루션에 필적하는 인상적인 음악적 일관성과 생성 속도를 제공합니다.

  • 풍부한 하모니와 멜로디를 갖춘 고품질 음악 생성
  • 장르, 분위기, 악기에 대한 텍스트 프롬프트를 통한 제어 가능한 생성
  • 빠른 생성: A100에서 4분 분량 음악을 약 20초 만에 생성
  • Apache 2.0 라이선스를 사용하는 오픈 소스

주요 특징

우수한 음악 품질

ACE-Step은 복잡한 멜로디, 하모니, 리듬을 갖춘 놀랍도록 풍부하고 일관된 음악을 제작합니다. 고급 AI 모델은 독창적이고 매력적인 작곡을 만듭니다.

텍스트-음악 변환 생성

텍스트 설명을 제공하여 다양한 장르의 음악을 쉽게 생성하세요. 분위기, 악기, 템포 등을 지정하여 창의적인 과정을 안내합니다.

빠르고 효율적

최적화된 아키텍처를 활용하는 ACE-Step은 고성능 하드웨어에서 몇 분 분량의 음악을 몇 초 만에 생성할 수 있어 신속한 프로토타이핑과 창의적인 탐색에 이상적입니다.

오픈 소스

Apache 2.0 라이선스로 출시되어 개인 및 상업적 목적으로 자유롭게 사용할 수 있습니다. 전체 모델 가중치와 코드는 GitHub에서 제공됩니다.

노래 샘플

다크 일렉트로

다크 일렉트로 - ACE-Step으로 생성된 음악.

디스코

디스코 - ACE-Step으로 생성된 음악.

일렉트로닉 랩 웨이브스 온

일렉트로닉 랩 웨이브스 온 - ACE-Step으로 생성된 음악.

힙합 랩 셔츠 송

힙합 랩 셔츠 송 - ACE-Step으로 생성된 음악.

오페라 여성

오페라 여성 - ACE-Step으로 생성된 음악.

댄스 파티

댄스 파티 - ACE-Step으로 생성된 음악.

미니멀 테크노

미니멀 테크노 - ACE-Step으로 생성된 음악.

사이키델릭

사이키델릭 - ACE-Step으로 생성된 음악.

색소폰 재즈

색소폰 재즈 - ACE-Step으로 생성된 음악.

오케스트라 록

오케스트라 록 - ACE-Step으로 생성된 음악.

월드 새드

월드 새드 - ACE-Step으로 생성된 음악.

애시드 하우스

애시드 하우스 - ACE-Step으로 생성된 음악.

아카펠라

아카펠라 - ACE-Step으로 생성된 음악.

비트박스

비트박스 - ACE-Step으로 생성된 음악.

드럼 앤 베이스

드럼 앤 베이스 - ACE-Step으로 생성된 음악.

여성 나나

여성 나나 - ACE-Step으로 생성된 음악.

소나타 피아노 바이올린

소나타 피아노 바이올린 - ACE-Step으로 생성된 음악.

탱고 기타

탱고 기타 - ACE-Step으로 생성된 음악.

트랜스

트랜스 - ACE-Step으로 생성된 음악.

바이올린 솔로

바이올린 솔로 - ACE-Step으로 생성된 음악.

다크 애트모스페릭

다크 애트모스페릭 - ACE-Step으로 생성된 음악.

일렉트로 하우스

일렉트로 하우스 - ACE-Step으로 생성된 음악.

포크 R&B 여성

포크 R&B 여성 - ACE-Step으로 생성된 음악.

프렌치 팝

프렌치 팝 - ACE-Step으로 생성된 음악.

저먼 댄스

저먼 댄스 - ACE-Step으로 생성된 음악.

힙 하우스

힙 하우스 - ACE-Step으로 생성된 음악.

이탈리안 포크

이탈리안 포크 - ACE-Step으로 생성된 음악.

J팝

J팝 - ACE-Step으로 생성된 음악.

K팝

K팝 - ACE-Step으로 생성된 음악.

만도팝

만도팝 - ACE-Step으로 생성된 음악.

포르투갈 팝

포르투갈 팝 - ACE-Step으로 생성된 음악.

러시안 포크

러시안 포크 - ACE-Step으로 생성된 음악.

스페니쉬 송

스페니쉬 송 - ACE-Step으로 생성된 음악.

원본 샘플

ACE-Step의 원본 음악 샘플.

재촬영 예시: Variance1

음악 재촬영 변형: Variance1.

재촬영 예시: Variance2

음악 재촬영 변형: Variance2.

재촬영 예시: Variance3

음악 재촬영 변형: Variance3.

재촬영 예시: Variance4

음악 재촬영 변형: Variance4.

재촬영 예시: Variance5

음악 재촬영 변형: Variance5.

재촬영 예시: Variance6

음악 재촬영 변형: Variance6.

리페인트: A 원본

리페인트 A 예시용 원본 오디오.

리페인트: 여성 (0 30 Variance10)

리페인트된 세그먼트 (0 30 Variance10) 여성으로 변경.

리페인트: 장르 (0 30 Variance10)

리페인트된 세그먼트 (0 30 Variance10) 장르로 변경.

리페인트: 가사 (0 30 Variance10)

리페인트된 세그먼트 (0 30 Variance10) 가사로 변경.

리페인트: Variance 7 (0-30초)

리페인트된 세그먼트 (0-30초) variance 7 적용.

편집 예시: A 원본

오디오 편집 시연: A 원본.

편집 예시: 아이

오디오 편집 시연: 아이.

편집 예시: 노인

오디오 편집 시연: 노인.

편집 예시: 스포티파이

오디오 편집 시연: 스포티파이.

편집 예시: 울음

오디오 편집 시연: 울음.

편집 예시: 프랑스어

오디오 편집 시연: 프랑스어.

편집 예시: 독일어

오디오 편집 시연: 독일어.

편집 예시: 일본어

오디오 편집 시연: 일본어.

편집 예시: 한국어

오디오 편집 시연: 한국어.

편집 예시: 중국어

오디오 편집 시연: 중국어.

가사에서 보컬로: In You I See

가사에서 보컬 생성: In You I See.

가사에서 보컬로: 레모네이드

가사에서 보컬 생성: 레모네이드.

가사에서 보컬로: Turn Me On

가사에서 보컬 생성: Turn Me On.

가사에서 보컬로: 속삭이는 그림자

가사에서 보컬 생성: 속삭이는 그림자.

가사에서 보컬로: You Been Chosen Too

가사에서 보컬 생성: You Been Chosen Too.

텍스트에서 샘플로: 어쿠스틱 기타

생성된 샘플: 어쿠스틱 기타.

텍스트에서 샘플로: 베이스

생성된 샘플: 베이스.

텍스트에서 샘플로: 드럼

생성된 샘플: 드럼.

텍스트에서 샘플로: 드럼 그루브

생성된 샘플: 드럼 그루브.

텍스트에서 샘플로: 이드럼

생성된 샘플: 이드럼.

텍스트에서 샘플로: 일렉트릭 기타

생성된 샘플: 일렉트릭 기타.

텍스트에서 샘플로: 얼후

생성된 샘플: 얼후.

텍스트에서 샘플로: 플루트

생성된 샘플: 플루트.

텍스트에서 샘플로: 기타

생성된 샘플: 기타.

텍스트에서 샘플로: 핸드팬

생성된 샘플: 핸드팬.

텍스트에서 샘플로: 코토

생성된 샘플: 코토.

컨트리 록

컨트리 록 - ACE-Step으로 생성된 음악.

블랙 메탈

블랙 메탈 - ACE-Step으로 생성된 음악.

얼터너티브 록

얼터너티브 록 - ACE-Step으로 생성된 음악.

아프로 큐반

아프로 큐반 - ACE-Step으로 생성된 음악.

데드 록

데드 록 - ACE-Step으로 생성된 음악.

사이버펑크

사이버펑크 - ACE-Step으로 생성된 음악.

덥스텝

덥스텝 - ACE-Step으로 생성된 음악.

서프 뮤직

서프 뮤직 - ACE-Step으로 생성된 음악.

여성 팝

여성 팝 - ACE-Step으로 생성된 음악.

펑크 팝 네온 라이트

펑크 팝 네온 라이트 - ACE-Step으로 생성된 음악.

ACE-Step 테마

ACE-Step 테마 음악.

텍스트에서 샘플로: 바이올린

생성된 샘플: 바이올린.

텍스트에서 샘플로: 신스

생성된 샘플: 신스.

텍스트에서 샘플로: 색소폰

생성된 샘플: 색소폰.

텍스트에서 샘플로: 패드

생성된 샘플: 패드.

텍스트에서 샘플로: 리드 기타

생성된 샘플: 리드 기타.

참고: 최적의 결과를 얻으려면 자세한 텍스트 프롬프트를 실험해 보세요. 모델은 커뮤니티 기여를 통해 지속적으로 개선되고 있습니다.

작동 방식: 텍스트에서 표현력이 풍부한 음악까지

ACE-Step Workflow Diagram

1. 프롬프트 작성

만들고 싶은 음악에 대한 자세한 텍스트 설명을 작성합니다. 장르, 분위기, 악기, 템포 및 기타 원하는 특성을 지정합니다.

2. (선택 사항) 고급 제어

더 세밀한 제어를 위해 생성 인터페이스나 코드에서 곡 구조 또는 특정 악기 뉘앙스와 같은 고급 매개변수를 탐색합니다.

3. 음악 생성

ACE-Step 모델을 실행합니다(앱을 통해 로컬로 실행하거나 온라인 데모 사용). 모델은 프롬프트를 처리하고 독창적인 음악 작품을 생성합니다.

4. 듣고 반복하기

생성된 오디오를 재생합니다. 프롬프트를 수정하고 다시 생성하여 다양한 음악적 아이디어를 탐색합니다. 프로젝트에 사용할 오디오 파일을 다운로드합니다.

ACE-Step 설치 및 사용 방법: 빠른 안내

1. 환경 설정

  • 사전 요구 사항: Python 3.10, Conda (권장) 또는 venv, Git.
  • 환경 생성 및 활성화:
    # Conda
    conda create -n ace_step python=3.10 -y
    conda activate ace_step
    (다른 OS의 venv에 대한 전체 가이드 참조)

2. 설치

  • 리포지토리 복제: git clone https://github.com/ace-step/ACE-Step.git && cd ACE-Step
  • PyTorch 설치: 시스템별 명령어는 pytorch.org를 방문하세요.
  • 요구 사항 설치: pip install -r requirements.txt

3. ACE-Step 실행

  • 실행: python app.py
  • UI 접속: 브라우저에서 http://127.0.0.1:7865를 엽니다.
  • (포트, GPU, 공유 등을 위한 고급 명령줄 인수 사용 가능)

4. 인터페이스 사용 (주요 기능)

  • Text2Music: 텍스트 프롬프트와 가사로 오디오 생성.
  • 재촬영: 이전 생성물의 변형 생성.
  • 리페인팅: 오디오 트랙의 일부를 선택적으로 재생성.
  • 편집: 태그 또는 가사 수정 (멜로디 보존 옵션).
  • 확장: 기존 오디오 트랙 길이 늘리기.

ACE-Step 기술 하이라이트

ACE-Step Application Map Diagram

핵심 개념 및 아키텍처

  • 오픈 소스 기반 모델: "음악을 위한 스테이블 디퓨전"을 목표로 합니다.
  • 아키텍처: 확산 기반 생성, 심층 압축 오토인코더(DCAE) 및 경량 선형 트랜스포머를 통합합니다.
  • 의미론적 정렬: 향상된 학습을 위해 MERT 및 m-hubert(REPA)를 사용합니다.

주요 성능

  • 속도: NVIDIA A100에서 약 20초 만에 4분 분량의 음악 생성.
  • 품질: 뛰어난 음악적 일관성, 가사 정렬 및 세밀한 음향 디테일.

학습 없는 제어 가능성

  • 변형 생성: 다양한 출력을 위해 노이즈 믹스 조정.
  • 리페인팅: 마스크 제약 조건으로 특정 오디오 섹션 재생성.
  • 가사 편집: 플로우 편집 기술을 통해 멜로디/보컬을 보존하며 가사 수정.

LoRa 미세 조정 애플리케이션

  • Lyric2Vocal: 가사에서 직접 보컬 샘플 생성.
  • Text2Samples: 텍스트에서 악기 루프 및 SFX 생성.

알려진 한계점

  • 출력 불일치 (시드/길이 민감성).
  • 일부 스타일 특정 약점.
  • 보컬 합성 품질 및 제어 세분성은 지속적인 개선 영역입니다.