올해의 스크래핑 이벤트

ScrapeCon 2024

데이터 수집의 미래, 바로 오늘

ScrapeCon을 놓치셨나요? 걱정 마세요, 저희가 도와드리겠습니다!

ScrapeCon Recap: Watch Now

공공 웹 데이터 현황

웹 데이터는 어디에서나 사용됩니다. 이는 AI 혁신의 원동력이 되며 거의 모든 산업 분야의 현대 비즈니스를 형성하고 있습니다. 하지만 웹 데이터의 공개적 성격은 끊임없이 도전을 받고 있습니다. 빅테크 기업들이 이 자산을 점점 더 독점하고, 각기 다른 규제 기관들이 상반된 접근 방식을 취하는 가운데, 공공 데이터가 사적 보물이 되어버릴 위기에 처해 있는 것일까요?

브라이트 데이터(Bright Data)의 CEO인 오어 렌처너(Or Lenchner)는 2024년 및 그 이후의 웹 데이터 수집 현황을 심도 있게 분석하며 컨퍼런스의 포문을 열며, 스크래핑 사업 확장에 있어 현재의 과제와 기회를 조명합니다. 이번 세션에서는 다음 내용을 다룰 예정입니다: – 빅테크의 지배력이 웹 데이터의 접근성과 활용에 어떤 영향을 미치고 있는가? – 상충하는 규제 접근 방식이 공존하는 환경에서, 이러한 딜레마가 공공 데이터의 향방에 어떤 영향을 미치는가? – 변화하는 도전 과제 속에서 스크래핑 운영은 어떻게 적응하고 번영할 수 있는가?

간편해진 클라우드 네이티브 스크래핑

Bright Data 플랫폼의 최신 도구를 공개하는 이 독점 제품 데모를 통해 클라우드 기반 웹 스크래핑의 미래를 확인해 보세요.

자동 확장 인프라 및 차단 해제 기술과 원활하게 통합된 스크레이퍼를 구축하고 유지 관리하는 방법을 알아보세요. 복잡한 스크래핑 및 확장 작업 관리의 번거로움을 없애고, 효과적인 비즈니스 솔루션 개발에 집중하세요. 효율적이고 간소화된 스크래핑 운영을 추구하는 전문가라면 반드시 참석해야 할 세션입니다. 이 세션에서는 다음 내용을 확인하실 수 있습니다: – 하이브리드 모델이 온프레미스 및 클라우드 기반 스크래핑의 장점을 어떻게 결합하는지? – 스크래핑 API가 확장성을 향상시키고, 신뢰성과 비용 효율성의 균형을 어떻게 맞추는지? – 유지보수 부담을 최소화하는 미래 지향적인 방식으로 스크래퍼를 구축하는 방법

스크래핑 전략 해독: 직접 구축, 구매, 아니면 API?

스크래퍼를 처음부터 직접 구축할지, 기성 데이터 세트를 구매할지, 아니면 스크래핑 API를 활용할지 등 스크래핑 작업에 가장 적합한 접근 방식을 결정하십시오.

자신의 기술 스택에 최적화된 도구를 탐색하고, 특정 기술이 과도한지 판단하며, 현재 스크래핑 방법론의 현황을 파악하십시오. 이 세션은 모든 스크래핑 시나리오에 대한 명확한 의사결정 프레임워크를 제공하여, ScrapeOps를 최적화할 수 있도록 정보에 기반한 선택을 할 수 있게 해줍니다. 이 세션에서 다음 내용을 확인하실 수 있습니다: – 스크랩옵스(ScrapeOps)란 무엇이며, 이를 통해 웹 데이터 수집을 어떻게 더 효율적이고 안정적이며 위험 없이 수행할 수 있는지? – 최적의 도구를 선택하여 기술 스택에 통합함으로써 스크래핑 프로젝트의 효율성을 높이는 방법 – 스크래핑 작업을 단순화하는 것이 비즈니스에 왜 획기적인 변화를 가져올 수 있는지?

AI를 위한 데이터의 미래: 법적 및 운영상의 과제 균형 맞추기

AI를 위한 웹 데이터 수집을 다룰 때 개발자가 직면하는 법적 및 운영상의 과제를 심층적으로 살펴보세요.

개발 팀이 법적 준수 사항과 운영 효율성 사이에서 적절한 균형을 유지하며 정보에 입각한 결정을 내릴 수 있도록 지원하는 실용적인 프레임워크를 배워보세요. 경험이 풍부한 개발자이든 웹 스크래핑이 처음이든 상관없이, AI 프로젝트를 자신 있게 이끌어 나갈 수 있는 귀중한 통찰력을 얻으실 수 있습니다. 이 세션에서는 다음 내용을 알아보실 수 있습니다: – 웹 데이터 수집을 통해 데이터 내 잠재적 편향을 어떻게 해결하고 완화할 수 있을까요? – 웹에서 수집한 데이터를 사용하여 AI 모델을 훈련할 때 고려해야 할 법적 측면은 무엇일까요? – 팀은 다양한 데이터 수집 과정에서 개인정보 보호 규정을 어떻게 준수할 수 있을까요? – 운영 효율성을 유지하는 데 효과적인 것으로 입증된 도구나 프레임워크는 무엇일까요?

AI 기반 인사이트에서 LLM 훈련까지

데이터셋 생성부터 AI 기반 인사이트 도출까지, 실용적인 여정을 시작해 보세요.

AI 목표에 맞춤화된 데이터셋을 직접 선별하고, 규칙과 사용자 정의 유효성 검사를 통해 정확성을 확보하며, 데이터셋 활용의 실제 사례 연구를 살펴보는 여정에 함께해 보세요. 초보자이든 숙련자이든, 이 단계별 가이드를 통해 AI용 데이터셋 활용 능력을 한 단계 높일 수 있습니다. 이번 실습 세션에서는 다음 내용을 다룹니다: – 데이터셋 선정: AI 목표에 부합하는 데이터셋을 선택합니다. – 정확성 확보: 데이터셋 무결성을 위해 규칙, 데이터 유형 및 사용자 지정 유효성 검사를 적용합니다. – 실제 적용 사례: 데이터셋 활용에 대한 실제 사례 연구. – Snowflake와의 통합: 데이터셋을 Snowflake에 효율적으로 통합합니다. – 인사이트 도출: 특정 사용 사례에 대한 AI 기반 인사이트를 추출합니다. – LLM 훈련: 최적의 훈련을 위해 구조화된 데이터를 LLM 모델에 입력합니다.

신뢰할 수 있는 데이터셋 구축을 위한 청사진

신뢰할 수 있는 데이터셋을 구축하는 것은 단순히 데이터를 수집하는 것 이상으로, 데이터의 품질, 구조 및 활용성을 보장하는 과정입니다.

최적의 구성과 효율성을 위해 AI 기반 스키마 생성을 활용하여 데이터셋을 꼼꼼하게 큐레이션하는 고급 방법론과 전략을 알아보세요. 이번 세션에서는 다음 내용을 다룹니다: – AI 기반 스키마 생성: 데이터 구조, 설정 및 매개변수 정의. – 샘플 검토: 데이터 샘플을 검토하는 체계적인 접근 방식. – 데이터셋 갱신 및 내보내기: 데이터셋을 업데이트하는 기법과 다양한 내보내기 방법. – 데이터 검증: 데이터의 정확성과 일관성을 보장하기 위한 규칙 설정. – 변화에 대한 대응: 웹사이트 구조 변화에 적응하기 위한 전략. – 재분석 기법: 유연성을 높이기 위해 데이터를 재분석하고 조정하는 방법.

경영진 가이드북

최고 수준의 기술 임원들이 참여하는 심도 있고, 직관적이며, 유익한 토론의 최전선 자리를 확보하세요.

이들은 대규모 데이터 수집과 관련된 운영상의 과제와 해결책을 공유할 것입니다. 선도적인 기업들이 규제 변화, 윤리적 딜레마, 그리고 AI가 프로세스에 미치는 영향을 어떻게 해결하고 있는지 알아보세요. 당사의 최고 고객 책임자(CCO)가 진행하는 이 세션은 기술 임원 및 R&D 리더들에게 공개 웹 데이터 수집 운영을 강화할 수 있는 실행 가능한 통찰력과 검증된 전략을 제공합니다. 주요 패널 질문은 다음과 같습니다: – 웹 데이터가 귀사에 있어 왜 핵심적인 요소이며, 이를 어떻게 활용하여 운영 및 경쟁 우위를 확보하고 계신가요? – 귀사의 웹 데이터 수집 운영은 어떻게 이루어지며, 시간이 지남에 따라 어떻게 발전해 왔나요? 사내 구축과 아웃소싱 솔루션에 대해 어떻게 생각하시나요? – 웹 데이터 수집 리소스와 관련하여 어떤 의사결정 프레임워크를 사용하고 계신가요? (총 예산, 인프라 비용, 인력, 도구, 데이터 품질 보증(QA) 등을 고려하여) – 현재 데이터 수집 과정에서 직면하고 있는 주요 과제는 무엇입니까? – 공개 데이터를 다른 데이터 소스와 어떻게 통합하거나 병치하고 있습니까? – 웹 데이터 수집 과정에서 특별한 어려움이나 장애물을 겪은 적이 있습니까? 있다면, 어떻게 해결했습니까? – 수집한 웹 데이터의 품질과 관련성을 극대화하는 데 효과적인 모범 사례나 전략이 있습니까?

클릭에서 캡처까지: 스크래퍼를 위한 브라우저 상호작용 마스터하기

대규모 스크래핑 프로젝트를 위한 브라우저 자동화 분야의 최신 혁신 기술을 살펴보세요.

브라우저 상호작용이 필요한 스크래핑 프로젝트를 진행하는 개발자라면 이 세션을 놓치지 마세요. 이 실습 세션에서는 다음 내용을 배우게 됩니다: – 인프라 개요: 서버 설정, 브라우저 구성, 프록시 관리 등 다단계 스크래핑을 위한 구성 요소를 이해합니다. – 실시간 API 데모: Puppeteer, Playwright, Selenium 스크래퍼를 개선하고, 여러 브라우저를 다루는 방법을 배웁니다. – 실전 적용: 전자상거래용 Puppeteer 스크립트를 작성하고, Node.js를 사용하며, Cheerio로 HTML을 파싱합니다. – 디버깅 및 비용 관리: Chrome DevTools를 활용한 디버깅 방법과 운영 비용 관리 전략을 배웁니다.

IP 차단 및 CAPTCHA를 넘어

고급 봇 방지 기술이 제기하는 최신 과제와 이를 극복하기 위한 최신 기법을 심층적으로 살펴보세요.

네트워크 성능 최적화 및 고정 IP 관련 문제 해결 시연을 통해 실시간 스크레이퍼 구축 및 문제 해결 과정을 직접 확인해 보세요. 다양한 프록시 네트워크의 장단점을 평가하고, 가장 까다로운 웹사이트 차단 문제를 해결하기 위해 설계된 강력한 도구를 알아보세요. 엔지니어를 위해 맞춤 제작된 이 세션은 전략적 통찰력과 실습 코딩, 라이브 시연을 자연스럽게 결합합니다. 기본 개념부터 시작하기: 차단 유형: 다양한 차단 유형과 그 작동 방식을 이해합니다. 간단하고 흔한 차단: IP 차단 및 속도 제한을 심층적으로 살펴보고, 이를 신속하게 우회하는 방법을 배웁니다. 고급 차단: CAPTCHA, 봇 방지 소프트웨어, Cloudflare 및 기타 과제들과 그 해결책을 탐구합니다. 적합한 프록시 제품 선택: 다양한 프록시 네트워크의 장단점을 평가합니다. 라이브 코딩: 스크레이퍼 구축 및 수정 단일 크롤링 대 1,000개 배치 시연: 다양한 시나리오에서 각 네트워크의 성능을 관찰합니다. Node.js를 사용하여, 데이터 센터 및 레지덴셜 프록시를 통해 단일 요청을 전송함으로써, 두 네트워크의 성공률을 시연합니다. 또한 다음과 같은 내용을 다룹니다: 고정 IP 사용 시 직면하는 문제점과, 1,000건의 요청을 전송할 때 회전 IP조차도 어떤 문제를 겪을 수 있는지 살펴봅니다. 특이하고 까다로운 웹사이트 차단에 대응하는 도구: 까다로운 웹사이트 차단을 해결하는 도구를 알아봅니다. SERP 스크래핑. 라이브 데모: 수많은 오류에서 100% 성공률로 전환되는 과정을 직접 확인하세요. Cloudflare 테스트 데모.

초기 요청부터 최종 분석까지

업계 최고의 개발자와 데이터 전문가들이 참여하는 역동적인 라이브 패널에 참여하여, 전문가의 통찰력과 실용적인 전략, 그리고 개발자 특유의 유머가 어우러진 웹 데이터 프로젝트의 모든 측면을 심도 있게 살펴보세요.

주요 논의 주제 : – 웹 데이터 수집의 핵심: 효율적인 웹 스크래핑을 위한 최적의 언어, 프레임워크 및 도구를 심층적으로 살펴봅니다. – 웹사이트 차단 우회 마스터하기: 탄력적인 스크래핑 기법을 배우고, 과제를 이해하며, 검증된 해결 방법을 발견해 보세요. – 데이터 분석 심층 탐구: 데이터베이스 최적화, 데이터 전처리 및 설득력 있는 데이터 스토리텔링에 대한 팁을 제공합니다. – AI 기반 기법 공개: 스크래핑에 AI를 통합하고 최첨단 AI 도구를 활용해 데이터 분석의 수준을 한 단계 높여보세요.

마무리 말씀

웹 데이터는 AI 혁신을 주도하고 현대 비즈니스를 형성하는 원동력입니다. 하지만 빅테크 기업들이 이 자산을 점점 더 독점하고, 각국 규제 당국이 상반된 접근 방식을 취함에 따라, 공공 데이터가 사적 보물이 될 위기에 처해 있는 것일까요? 저희 CEO는 2023/2024년 웹 데이터 수집 현황을 심층 분석하며 컨퍼런스의 막을 올리고, 현재의 과제와 기회를 조명할 예정입니다.

이 세션에서는 다음 내용을 확인하실 수 있습니다: – 2024년에도 지금과 같은 방식으로(혹은 아예) 데이터를 스크래핑할 수 있을까요? – 관련 규제가 변화하는 가운데, 2024년 데이터 수집에 어떻게 접근해야 할까요? – 2024년에는 스크래핑 작업을 재정의할 획기적인 기술과 제품이 무엇일까요? 이번 세션에는 세계 최대의 AI 및 ML 커뮤니티인 Kaggle.com의 공동 창립자이자 전 CEO인 앤서니 골드블룸(Anthony Goldbloom)과, 노턴 로펌(The Norton Law Firm)의 파트너이자 인텔(Intel Corporation)의 전 아시아 태평양 및 일본 지역 사장 겸 총괄 법률 고문인 조 레비(Jo Levy)가 함께합니다. 두 연사는 함께 그들과 함께, 그들은 LLM의 미래를 심도 있게 탐구하고, ChatGPT와 같은 기초 AI 모델 시대의 데이터 스크래핑을 둘러싼 복잡한 법적 환경을 헤쳐 나갈 것입니다.

발언자

마이크 뒤의 주역들을 만나보세요.

Smiling man in black shirt with blue background.
또는 Lenchner

브라이트 데이터(Bright Data) CEO

Woman smiling with blue, starry background.
조 레비

노턴 로펌(The Norton Law
)의 파트너, 노턴 로펌

Man in glasses with blue background.
가네쉬 쿠마르

라쿠텐(Rakuten) 제품 및 사용자 경험(
) 디자인 총괄

Man smiling, dark shirt, abstract blue background.
아비브 베신스키


Bright Data 프록시 제품 담당 이사

Smiling woman with blonde hair, cosmic background.
마리야 샤

설립자 겸 소프트웨어
개발자, Python Simplified

Smiling man with dark shirt, blue abstract background.
옴리 오르가드

Bright Data CCO

A bearded man smiling against dark abstract background.
우펜드라 데브 싱

Ixigo,
기술 부문 수석 부사장

Person with a dark blue background, wearing a lanyard.
앤서니 골드블룸

Ixigo,
기술 부문 수석 부사장

Smiling woman against a blue, cosmic background.
Lior Levhar

Datasets Experts TL,
Bright Data

Smiling woman with long blond hair against blue background.
티프 얀젠

설립자 겸 개발자,
옹호자, TiffInTech

Man smiling with a cosmic background.
루이스 메넬로즈


기술 부사장 Coding With Lewis

Man with dark hair and beard on blue background.
이타마르 아브라모비치


의 데이터 제품 이사, Bright Data

Smiling woman in white top with blue background.
Ghita

Tech Bible 설립자 겸 CEO

Man with gray hair and beard, blue background.
이츠하크 요세프 프리드먼

브라이트 데이터(Bright Data) 연구개발(R&D) 이사

Bald man in glasses with a blue background.
알렉스 피어버그


의 설립자 겸 유튜버 Alex The Analyst

Smiling man with dark background, blue light rays.
일리아 콜커


의 판매 후 지원 전문가 Bright Data

Smiling man in front of blue abstract background.
팀 루


Bright Data 프록시 제품 담당 이사

Man in checkered shirt, futuristic background.
마이클 베이겔만

Claro Analytics 설립자

Smiling man with short hair and black shirt.
Nir Borenshtein

브라이트 데이터(Bright Data) 최고운영책임자(COO)

Smiling man with glasses and patterned shirt.
Ken Jee

켄의 가장 가까운 이웃들

Thank You for Being a Part of Our Event!

이번 행사의 하이라이트를 담은 이 영상을 즐겨보세요.

Image

ScrapeCon은 끝났지만, 대화는 계속됩니다.