데이터 수집 및 분석 방법
이 페이지는 핫트렌드가 데이터를 어떻게 수집하고 가공하는지 투명하게 공개합니다.
1. 데이터 소스
핫트렌드는 Google Trends Daily Trending Searches 피드를 데이터 소스로 사용합니다. 이 데이터는 Google LLC가 공개적으로 제공하는 RSS/XML 형식의 급상승 검색어 목록으로, 특정 지역(현재 한국 KR, 미국 US)에서 해당 시점에 검색량이 급증하고 있는 상위 키워드를 포함합니다.
- 데이터 형식: RSS 2.0 (XML)
- 수집 URL 패턴:
https://trends.google.com/trending/rss?geo=KR - 각 항목: 키워드, 대략적 검색량, 관련 뉴스 기사 1~3건
⚠️ 주의: 이 피드는 Google의 비공식 엔드포인트로, 사전 예고 없이 구조가 변경되거나 중단될 수 있습니다. 서비스 운영 중 데이터 수집이 일시 중단될 가능성이 있으며, 이 경우 최근 수집된 스냅샷이 표시됩니다.
2. 수집 과정
- Fetch: 서버리스 함수가 Google Trends RSS 피드에 HTTP 요청을 보냅니다.
- Parse: XML 응답을 파싱해 키워드, 검색량, 관련 뉴스(제목·URL·언론사명)를 추출합니다. 파싱은 LLM 없이 순수 규칙 기반(rule-based)으로 처리됩니다.
- Timestamp 부여: 수집 시각(UTC)을 기록해 시간대별 스냅샷 구분에 사용합니다.
- Upsert: 파싱된 데이터를 데이터베이스(Supabase PostgreSQL)에 저장합니다. 동일 키워드·시간의 중복 행은 무시합니다.
수집 주기는 1시간마다 자동 실행되며, 총 소요 시간은 통상 10초 미만입니다.
3. 순위 변동 계산 방법
각 키워드 옆에 표시되는 NEW · ▲ · ▼ · – 뱃지는 현재 스냅샷을 직전 스냅샷(약 1시간 전)과 비교하여 계산됩니다.
| 뱃지 | 의미 | 계산 규칙 |
|---|---|---|
| NEW | 신규 진입 | 직전 스냅샷에 없던 키워드 |
| ▲ N | N단계 상승 | 직전 순위 − 현재 순위 > 0 |
| ▼ N | N단계 하락 | 직전 순위 − 현재 순위 < 0 |
| – | 변동 없음 | 순위 동일 또는 첫 번째 수집 |
4. 검색량(Traffic) 수치 의미
구글 트렌드가 제공하는 검색량 수치(예: 20K+)는 대략적인 추정치입니다. 정확한 검색 횟수가 아니라 구글이 임의로 반올림한 버킷(bucket) 값이며, Google의 집계 방법론에 따라 달라질 수 있습니다.
5. 신뢰성 및 한계
- 수집 데이터는 Google Trends 공개 피드에 의존하며, Google의 알고리즘 변경에 영향을 받습니다.
- 동일 스냅샷 내 키워드는 최대 20개 내외로 제한됩니다(구글 제공량 기준).
- 네트워크 오류 등으로 수집이 실패한 시간대는 빈 스냅샷으로 처리됩니다.
- 뉴스 기사 링크는 구글 트렌드가 연결한 외부 링크로, 내용의 정확성은 각 언론사에 책임이 있습니다.