유튜브 영상 정보와 자막 정보를 손쉽게 추출하는 법



유튜브 영상 정보와 자막 정보를 손쉽게 추출하는 법

유튜브 영상을 분석하며 정보를 활용하려면, 영상을 직접 다운로드하지 않고도 필요한 정보를 쉽게 얻을 수 있습니다. 아래를 읽어보시면 유튜브 영상의 정보와 자막을 추출하는 방법을 배우실 수 있습니다. 이 강력한 도구를 활용하면 영상 요약, 데이터 분석 등 다양한 분야에서 활용할 수 있을 거예요.

유튜브 영상 기본 정보 가져오기

유튜브 영상의 기본 정보는 영상 제목, 채널명, 업로드 날짜, 영상 길이 등을 포함합니다. 이 정보를 통해 여러분이 원하는 다양한 활용이 가능해지죠. 그럼 어떻게 쉽게 가져올 수 있는지 알아봅시다.

유튜브 정보 추출 라이브러리 설치

먼저, 필요한 라이브러리인 yt-dlp를 설치해야 합니다. 해당 라이브러리는 유튜브 영상을 대상으로 매우 간편하게 정보를 추출할 수 있는 도구입니다.

bash
pip install yt-dlp

영상 정보를 추출하는 함수 만들기

이제 아래와 같은 Python 코드를 통해 영상을 분석할 함수를 만들어보세요.



“`python
import yt_dlp

def get_youtube_video_info(video_url):
ydl_opts = {
‘noplaylist’: True,
‘quiet’: True,
‘no_warnings’: True,
}

with yt_dlp.YoutubeDL(ydl_opts) as ydl:
    video_info = ydl.extract_info(video_url, download=False)
    video_id = video_info['id']
    title = video_info['title']
    upload_date = video_info['upload_date']
    channel = video_info['channel']
    duration = video_info['duration_string']

return video_id, title, upload_date, channel, duration

video_url = ‘https://www.youtube.com/watch?v=CyEsljuyEW8’
video_info = get_youtube_video_info(video_url)
print(video_info)
“`

이 코드를 실행하면, 원하는 영상의 정보를 쉽게 가져올 수 있습니다. 이처럼 영상을 효율적으로 분석할 수 있는 기회를 가질 수 있겠죠!

 

👉 ✅ 상세정보 바로 확인 👈

 

유튜브 자막 정보 가져오기

영상을 분석하려면 자막 정보도 필수적입니다. 자막을 활용하면 영상 내용을 텍스트 기반으로 쉽게 요약할 수 있기 때문이죠. 자막의 정보를 어떻게 가져오는지 알아볼까요?

자막 정보 추출 라이브러리 설치

자막 정보를 가져오려면 youtube-transcript-api를 사용해야 하죠. 이 라이브러리를 설치해줍니다.

bash
pip install youtube-transcript-api

자막 정보 추출하기

다음 코드를 통해 특정 영상의 자막 정보를 가져와 텍스트 파일로 저장해보겠습니다.

“`python
from youtube_transcript_api import YouTubeTranscriptApi
from youtube_transcript_api.formatters import SRTFormatter, TextFormatter

def get_video_id(video_url):
video_id = video_url.split(‘v=’)[1][:11]
return video_id

video_url = ‘https://www.youtube.com/watch?v=CyEsljuyEW8’
video_id = get_video_id(video_url)

transcript = YouTubeTranscriptApi.get_transcript(video_id, languages=[‘ko’, ‘en’])
srt_formatter = SRTFormatter()
srt_formatted = srt_formatter.format_transcript(transcript)

download_folder = “./make_service_for_me”
srt_file = f”{download_folder}/{video_id}.srt”
with open(srt_file, ‘w’) as f:
f.write(srt_formatted)
print(“- SRT 파일경로:”, srt_file)
“`

위의 코드에서 자막을 SRT 형식으로 저장하는 걸 알 수 있습니다. 자막 정보가 다국어일 경우, 순서를 설정하여 우선적으로 희망하는 언어의 자막을 추출할 수 있습니다.

요약된 자막 정보를 LLM에 넣어 보기

이제 자막 정보를 갖췄으니, 무엇을 할 수 있을까요? 자막을 요약하고 분석을 통해 필요한 데이터를 추출하는데 활용할 수 있습니다. 이 부분은 다음 글에서 다룰 예정이므로 기대해도 좋습니다.

자주 묻는 질문 (FAQ)

유튜브 영상 정보를 추출하는 방법이 어려운가요?

아니요, yt-dlp와 같은 라이브러리를 활용하면 간단하게 정보를 추출할 수 있어요.

자막 정보를 어떻게 추출하나요?

youtube-transcript-api를 사용하면 쉽게 자막 정보를 가져올 수 있습니다.

SRT 파일과 TXT 파일의 차이는 무엇인가요?

SRT 파일은 자막 정보에 타임스탬프가 포함되어 있으며, TXT 파일은 순수 텍스트 내용만 포함됩니다.

영상 정보는 어떤 것을 포함하나요?

영상의 제목, 채널명, 업로드 날짜, 길이 등 다양한 정보를 포함하고 있어요.

이처럼 유튜브 영상의 정보 및 자막 정보를 쉽게 추출하여 대처하고 활용할 수 있는 다양한 방법들이 있습니다. 이제 필요한 정보를 손쉽게 얻어보세요!