MaXiaoTiao

Always like this.

爬虫

#git ¹ #随笔 ⁰ #Text2SQL ³ #Vanna ⁴ #Ollama ¹ #分布式存储 ² #k8s ⁸ #nginx ² #docker ⁴ #LInux ¹ #FastApi ¹ #日报 ⁰ #爬虫 ¹² #pandas ³ #数据处理 ³ #大模型 ²⁰ #AIGC ¹⁷ #金融 ³³ #量化交易 ⁸ #Swagger2 ¹ #Spring Boot ⁷ #LeetCode ⁹ #课程作业 ¹ #软件测试 ² #bert ¹ #计算机网络 ⁰ #操作系统 ⁴ #数据结构 ⁰ #go ⁰ #redis ⁰ #python ¹⁰ #java ³⁰ #证据理论 ¹ #多标签 ³ #机器学习 ¹⁴ #深度学习 ⁴⁰ #单纯记录 ⁰

自助验证码滑动解决方案

自助验证码滑动解决方案本项目实现了一个使用Python和Playwright自动解决滑动验证码（如滑动拼图）的方案，主要通过图像处理技术识别缺口位置，并模拟人类滑动行为完成滑动验证。项目链接：Ventaly/slider-verification: 自动解决滑动验证码（如滑动拼图）的方案项目概述

学习

2024-12-03

PlayWright——身份验证

PlayWright——身份验证简介 Playwright 在称为浏览器上下文的隔离环境中执行测试。此隔离模型提高了可重复性和防止了级联测试失败。测试可以加载现有的已认证状态。这样就不需要在每个测试中都进行身份验证，从而加快了测试执行速度。

学习

2024-11-15

Crawl4AI 提取策略：JSON CSS、LLM 和余弦相似度

Crawl4AI 提取策略：JSON CSS、LLM 和余弦相似度快速介绍介绍用于结构化数据的 JSON CSS 提取策略、用于智能解析的 LLM 提取策略和用于聚类相似内容的余弦策略。演示如何使用 JSON CSS 从电子商务网站抓取产品详细信息。以下是 LLM 提取策略视频的综合大纲，涵

学习

2024-11-11

arun() 方法的完整参数指南

arun() 方法的完整参数指南以下参数可以传递给 arun() 方法。它们根据主要使用上下文和功能组织。核心参数 python await crawler.arun( url="https://example.com", # 必填：要爬取的 URL verbose=Tru

学习

2024-11-11

AsyncWebCrawler 类介绍

AsyncWebCrawler 类介绍 AsyncWebCrawler 类是进行网络爬取操作的主要接口。它提供了异步网络爬取功能以及广泛的配置选项。构造函数参数浏览器设置 browser_type (str, 可选): 默认值为 "chromium"。可选值包括 "chromium"、"fire

学习

2024-11-11

Crawl4AI 使用 AsyncWebCrawler 进行 LLM 提取

Crawl4AI 使用 AsyncWebCrawler 进行 LLM 提取 Crawl4AI 的 AsyncWebCrawler 允许您使用语言模型（LLM）异步地从网页提取结构化数据或相关内容。以下两个示例展示了如何使用 AsyncWebCrawler 和 LLMExtractionStrateg

学习

2024-11-11

Crawl4AI 内容选择指南

Crawl4AI 内容选择指南 Crawl4AI 提供了多种方式来选择和过滤网页上的特定内容。学习如何精确地定位您需要的内容。 CSS 选择器提取特定内容的最简单方式： # 使用 CSS 选择器提取特定内容 python result = await crawler.arun( url="

学习

2024-11-11

Crawl4AI 页面交互指南

Crawl4AI 页面交互指南 Crawl4AI 提供了强大的功能，用于与动态网页交互，处理 JavaScript 执行和管理页面事件。 JavaScript 执行基本执行 # 单个 JavaScript 命令 python result = await crawler.arun( url

学习

2024-11-11

Crawl4AI 浏览器配置指南

Crawl4AI 浏览器配置指南 Crawl4AI 支持多种浏览器引擎，并为浏览器行为提供了广泛的配置选项。浏览器类型从三种浏览器引擎中选择： Chromium（默认） python async with AsyncWebCrawler(browser_type="chromium") as c

学习

2024-11-11

Crawl4AI 输出格式指南

Crawl4AI 输出格式指南 Crawl4AI 提供多种输出格式以满足不同需求，从原始 HTML 到使用 LLM 或基于模式的提取结构化数据。基本格式 python result = await crawler.arun(url="https://example.com") # 访问不同格式

学习

2024-11-11

MaXiaoTiao

爬虫

自助验证码滑动解决方案

PlayWright——身份验证

Crawl4AI 提取策略：JSON CSS、LLM 和 余弦相似度

arun() 方法的完整参数指南

AsyncWebCrawler 类介绍

Crawl4AI 使用 AsyncWebCrawler 进行 LLM 提取

Crawl4AI 内容选择指南

Crawl4AI 页面交互指南

Crawl4AI 浏览器配置指南

Crawl4AI 输出格式指南

Crawl4AI 提取策略：JSON CSS、LLM 和余弦相似度