데이터 수집 및 분석 방법

이 페이지는 핫트렌드가 데이터를 어떻게 수집하고 가공하는지 투명하게 공개합니다.

1. 데이터 소스

핫트렌드는 Google Trends Daily Trending Searches 피드를 데이터 소스로 사용합니다. 이 데이터는 Google LLC가 공개적으로 제공하는 RSS/XML 형식의 급상승 검색어 목록으로, 특정 지역(현재 한국 KR, 미국 US)에서 해당 시점에 검색량이 급증하고 있는 상위 키워드를 포함합니다.

데이터 형식: RSS 2.0 (XML)
수집 URL 패턴: https://trends.google.com/trending/rss?geo=KR
각 항목: 키워드, 대략적 검색량, 관련 뉴스 기사 1~3건

⚠️ 주의: 이 피드는 Google의 비공식 엔드포인트로, 사전 예고 없이 구조가 변경되거나 중단될 수 있습니다. 서비스 운영 중 데이터 수집이 일시 중단될 가능성이 있으며, 이 경우 최근 수집된 스냅샷이 표시됩니다.

2. 수집 과정

Fetch: 서버리스 함수가 Google Trends RSS 피드에 HTTP 요청을 보냅니다.
Parse: XML 응답을 파싱해 키워드, 검색량, 관련 뉴스(제목·URL·언론사명)를 추출합니다. 파싱은 LLM 없이 순수 규칙 기반(rule-based)으로 처리됩니다.
Timestamp 부여: 수집 시각(UTC)을 기록해 시간대별 스냅샷 구분에 사용합니다.
Upsert: 파싱된 데이터를 데이터베이스(Supabase PostgreSQL)에 저장합니다. 동일 키워드·시간의 중복 행은 무시합니다.

수집은 매시간 예약 실행되며(수집기 상태에 따라 일부 회차는 지연될 수 있음), 1회 소요 시간은 통상 10초 미만입니다.

3. 순위 변동 계산 방법

각 키워드 옆에 표시되는 NEW · ▲ · ▼ · – 뱃지는 현재 스냅샷을 직전 스냅샷(약 1시간 전)과 비교하여 계산됩니다.

뱃지	의미	계산 규칙
NEW	신규 진입	직전 스냅샷에 없던 키워드
▲ N	N단계 상승	직전 순위 − 현재 순위 > 0
▼ N	N단계 하락	직전 순위 − 현재 순위 < 0
–	변동 없음	순위 동일 또는 첫 번째 수집

4. 검색량(Traffic) 수치 의미

구글 트렌드가 제공하는 검색량 수치(예: 20K+)는 대략적인 추정치입니다. 정확한 검색 횟수가 아니라 구글이 임의로 반올림한 버킷(bucket) 값이며, Google의 집계 방법론에 따라 달라질 수 있습니다.

5. 신뢰성 및 한계

수집 데이터는 Google Trends 공개 피드에 의존하며, Google의 알고리즘 변경에 영향을 받습니다.
동일 스냅샷 내 키워드는 최대 20개 내외로 제한됩니다(구글 제공량 기준).
네트워크 오류 등으로 수집이 실패한 시간대는 빈 스냅샷으로 처리됩니다.
뉴스 기사 링크는 구글 트렌드가 연결한 외부 링크로, 내용의 정확성은 각 언론사에 책임이 있습니다.