2025-07-06 - GitHub Trend Repo
MediaCrawler MediaCrawler는 다양한 자가미디어 플랫폼(红书, 抖音, 快手, B站, 微博, 贴吧, 知乎 등)의 공개 데이터를 크롤링하는 강력한 데이터 수집 도구입니다. 이 프로젝트의 목표는 여러 플랫폼의 데이터(게시물, 댓글, 프로필 등)를 자동으로 수집하여 연구와 학습에 활용하는 것입니다. 핵심 기능으로는 키워드 검색, 특정 게시물 ID 기반 크롤링, 댓글 수집, 댓글 워드 클라우드 생성, 로그인 세션 유지, IP 프록시 관리 등의 다양한 기능을 제공하며, Playwright를 활용한 브라우저 자동화 기술을 기반으로 복잡한 역공학 또는 암호화 우회없이 데이터를 수집할 수 있습니다. 구조는 Python 기반으로, CLI 명령어를 통해 실행하며 MySQL, CSV, JSON 저장 방식을 지원합니다. 최근 버전에서는 로그인 상태 유지, 다중 계정 지원, IP 프록시 풀, 로드맵 확장(예: AI 에이전트 개발), 그리고 Playwright를 통한 로컬 브라우저 연결 방식이 포함되어 사용자 편의성과 확장성을 높였습니다. 참고로 MediaCrawlerPro 버전은 차별화된 아키텍처와 더 많은 고급 기능이 포함된 유료/프로 버전으로 개발되어 있으며, Github 페이지 및 공식 문서에서 상세 정보를 확인할 수 있습니다. 사용 기술로는 Python, Playwright, Node.js, Shell, MySQL, 그리고 다양한 웹 크롤링 및 자동화 관련 라이브러리를 활용하고 있으며, 주의사항으로는 법률 준수와 비상업적 학습 목적으로만 활용해야 함을 강조하고 있습니다. 개발자들은 활발한 커뮤니티 지원과 공식 문서, 튜토리얼, 관련 프로젝트들(예: 内网穿透기술, sms 포워더 등)과 연계하여 지속적 발전 및 지원을 하고 있습니다. ...