> ## Documentation Index
> Fetch the complete documentation index at: https://wb-21fd5541-run-filter-ui-updates.mintlify.site/llms.txt
> Use this file to discover all available pages before exploring further.

# Launch 큐 모니터링

> 대화형 대시보드로 Launch 큐 워크로드를 모니터링하여 비효율적인 작업을 찾아내고 리소스 사용량을 분석합니다.

대화형 **Queue monitoring dashboard**를 사용하면 Launch 큐의 사용량이 많은지 유휴 상태인지 확인하고, 실행 중인 워크로드를 시각화하며, 비효율적인 작업을 찾아낼 수 있습니다. Launch 큐 대시보드는 컴퓨팅 하드웨어나 클라우드 리소스를 효과적으로 활용하고 있는지 판단하는 데 도움이 됩니다.

더 심층적인 분석을 위해 이 페이지는 W\&B 실험 추적 Workspace와 Datadog, NVIDIA Base Command, 클라우드 콘솔 같은 외부 인프라 모니터링 제공업체로 연결되는 링크를 제공합니다.

<Note>
  Queue monitoring dashboard는 W\&B Multi-tenant Cloud 배포 옵션에서만 사용할 수 있습니다.
</Note>

<div id="dashboard-and-plots">
  ## 대시보드와 플롯
</div>

지난 7일 동안 발생한 큐 활동을 보려면 **Monitor** 탭을 사용하세요. 왼쪽 패널에서 시간 범위, 그룹화, 필터를 조정할 수 있습니다.

대시보드에는 성능과 효율성에 관한 일반적인 질문에 답하는 여러 플롯이 포함되어 있습니다. 다음 섹션에서는 큐 대시보드의 UI 요소를 설명합니다.

<div id="job-status">
  ### 작업 상태
</div>

**Job status** 플롯은 각 시간 간격에 실행 중, 보류 중, 큐에 있거나 완료된 작업 수를 보여줍니다. 큐가 유휴 상태인 기간을 파악하려면 **Job status** 플롯을 사용하세요.

<Frame>
  <img src="https://mintcdn.com/wb-21fd5541-run-filter-ui-updates/V8--44zVTVDesqa3/images/launch/launch_obs_jobstatus.png?fit=max&auto=format&n=V8--44zVTVDesqa3&q=85&s=e5c82d574693543b5db12d55974dec84" alt="작업 상태 타임라인" width="2550" height="650" data-path="images/launch/launch_obs_jobstatus.png" />
</Frame>

예를 들어, DGX BasePod와 같은 고정 리소스가 있다고 가정해 보겠습니다. 고정 리소스를 사용하는데도 큐가 유휴 상태라면, Sweeps와 같은 우선순위가 낮은 선점형 Launch 작업을 실행할 기회가 있음을 시사할 수 있습니다.

반면, 클라우드 리소스를 사용하고 있고 활동이 주기적으로 급증한다면, 특정 시간대에 리소스를 예약해 비용을 절감할 기회가 있음을 시사할 수 있습니다.

플롯 오른쪽에는 어떤 색상이 [Launch 작업의 상태](./launch-view-jobs#check-the-status-of-a-job)를 나타내는지 보여주는 키가 있습니다.

<Note>
  `Queued` 항목은 워크로드를 다른 큐로 옮길 기회가 있음을 나타낼 수 있습니다. 실패가 급증하면 Launch 작업 설정에 도움이 필요한 사용자를 파악할 수 있습니다.
</Note>

<div id="queued-time">
  ### 대기 시간
</div>

**대기 시간** 플롯은 지정한 날짜 또는 시간 범위 동안 Launch 작업이 큐에 있었던 시간(초)을 보여줍니다.

<Frame>
  <img src="https://mintcdn.com/wb-21fd5541-run-filter-ui-updates/V8--44zVTVDesqa3/images/launch/launch_obs_queuedtime.png?fit=max&auto=format&n=V8--44zVTVDesqa3&q=85&s=a49c22746461da0c391e569107e46b2b" alt="대기 시간 메트릭" width="2384" height="618" data-path="images/launch/launch_obs_queuedtime.png" />
</Frame>

x축은 지정한 시간을 보여주고, y축은 Launch 작업이 Launch 큐에서 대기한 시간(초)을 보여줍니다. 예를 들어, 특정 날짜에 Launch 작업 10개가 큐에 들어가 있다고 가정해 보겠습니다. 이 10개의 Launch 작업이 각각 평균 60초씩 대기했다면 **Queue time** 플롯에는 600초가 표시됩니다.

<Note>
  **대기 시간** 플롯을 사용하면 긴 대기 시간의 영향을 받는 Users를 파악할 수 있습니다.
</Note>

왼쪽 바의 **Grouping** 컨트롤을 사용해 각 작업의 색상을 사용자 지정하면, 큐 용량 부족의 영향을 받는 Users와 작업을 파악하는 데 도움이 됩니다.

<div id="job-runs">
  ### 작업 run
</div>

**작업 run** 플롯은 일정 기간 동안 실행된 모든 작업의 시작과 종료 시점을 보여주며, 각 run은 서로 다른 색상으로 표시됩니다. 이를 통해 특정 시점에 큐가 어떤 워크로드를 처리하고 있었는지 한눈에 확인할 수 있습니다.

<Frame>
  <img src="https://mintcdn.com/wb-21fd5541-run-filter-ui-updates/V8--44zVTVDesqa3/images/launch/launch_obs_jobruns2.png?fit=max&auto=format&n=V8--44zVTVDesqa3&q=85&s=2be7f9e30912f2e6858eb8104fca6113" alt="작업 run 타임라인" width="2390" height="720" data-path="images/launch/launch_obs_jobruns2.png" />
</Frame>

패널 오른쪽 아래의 **Select** 도구를 사용해 작업 위를 드래그하면 아래 테이블에 세부 정보가 표시됩니다.

<div id="cpu-and-gpu-usage">
  ### CPU 및 GPU 사용량
</div>

**작업별 GPU 사용량**, **작업별 CPU 사용량**, **작업별 GPU 메모리**, **작업별 시스템 메모리** 플롯을 사용해 Launch 작업의 효율성을 확인할 수 있습니다.

<Frame>
  <img src="https://mintcdn.com/wb-21fd5541-run-filter-ui-updates/V8--44zVTVDesqa3/images/launch/launch_obs_gpu.png?fit=max&auto=format&n=V8--44zVTVDesqa3&q=85&s=2964ab33fdb4d359f47d72136b990963" alt="GPU 사용량 메트릭" width="2672" height="1696" data-path="images/launch/launch_obs_gpu.png" />
</Frame>

예를 들어, **작업별 GPU 메모리** 플롯을 사용하면 W\&B run이 완료되는 데 오랜 시간이 걸렸는지, 그리고 CPU 코어 사용률이 낮았는지 확인할 수 있습니다.

각 플롯의 x축에는 Launch 작업이 생성한 W\&B run의 실행 시간이 초 단위로 표시됩니다. 데이터 포인트 위에 마우스를 올리면 run ID, 해당 run이 속한 프로젝트, W\&B run을 생성한 Launch 작업 등 W\&B run에 대한 정보를 확인할 수 있습니다.

<div id="errors">
  ### 오류
</div>

**오류** 패널은 특정 Launch 큐에서 발생한 오류를 보여줍니다. 보다 구체적으로, 오류 패널에는 오류 발생 시점의 Timestamp, 오류가 발생한 Launch 작업의 이름, 그리고 생성된 오류 메시지가 표시됩니다. 기본적으로 오류는 최신순으로 표시됩니다.

<Frame>
  <img src="https://mintcdn.com/wb-21fd5541-run-filter-ui-updates/V8--44zVTVDesqa3/images/launch/launch_obs_errors.png?fit=max&auto=format&n=V8--44zVTVDesqa3&q=85&s=a0bb8a6470bddc7d3022c2930479b805" alt="오류 로그 패널" width="2532" height="834" data-path="images/launch/launch_obs_errors.png" />
</Frame>

영향을 받는 사용자를 파악하고 차단을 해제하는 데 **오류** 패널을 사용하세요.

<div id="external-links">
  ## 외부 링크
</div>

큐 관측성 대시보드의 뷰는 모든 큐 유형에서 일관되지만, 환경별 모니터로 바로 이동할 수 있으면 흔히 유용합니다. 이렇게 하려면 콘솔에서 큐 관측성 대시보드에 직접 링크를 추가하세요.

외부 링크를 추가하려면 **Manage Links**를 클릭해 패널을 엽니다. 원하는 페이지의 전체 URL을 추가합니다. 다음으로 레이블을 추가합니다. 추가한 링크는 **외부 링크** 섹션에 표시됩니다.
