PagePolly is a powerful and extensible web crawler built using Puppeteer, Node.js, and PostgreSQL. It enables you to crawl websites for text-based content, save results in a structured database, and visualize data with a React-based dashboard.
- Customizable Crawling: User-agent rotation, delays, and stealth mode.
- Text-Only Crawling: Extracts headings, paragraphs, and metadata.
- Database Integration: Uses PostgreSQL for structured storage.
- Modern Stack: Puppeteer, Node.js, React.
- Stealth Mode: Avoids detection using Puppeteer Extra Stealth Plugin.
-
Clone the repository:
git clone https://github.com/Ollie-nl/PagePolly.git cd PagePolly
-
Install dependencies:
pnpm install
-
Start the backend server with Docker:
docker-compose up -d
-
Run the development server:
pnpm start
- To start crawling:
pnpm run server
- Enter the target URL and depth in the frontend form.
- Expand crawling strategies.
- Add proxy support.
- React dashboard for visualization.
- Distributed crawling.
Contributions are welcome!
- Fork the repository.
- Create a branch:
git checkout -b feature-name
- Commit your changes:
git commit -m "Add feature description"
- Push to the branch:
git push origin feature-name
This project is licensed under the MIT License.
Happy Crawling! 🕷️
PagePolly is een krachtige en uitbreidbare webcrawler gebouwd met Puppeteer, Node.js en PostgreSQL. Het stelt je in staat om websites te crawlen naar tekstuele inhoud, resultaten op te slaan in een gestructureerde database, en data te visualiseren via een React-dashboard.
- Aanpasbare Crawling: User-agentrotatie, vertragingen, en stealth-modus.
- Alleen Tekst Crawlen: Headings, paragrafen en metadata.
- Database-integratie: Gebruik van PostgreSQL voor gestructureerde opslag.
- Moderne Technologieën: Puppeteer, Node.js, React.
- Stealth-modus: Verminder detectie met Puppeteer Extra Stealth Plugin.
-
Clone de repository:
git clone https://github.com/Ollie-nl/PagePolly.git cd PagePolly
-
Installeer afhankelijkheden:
pnpm install
-
Start de backendserver met Docker:
docker-compose up -d
-
Start de ontwikkelserver:
pnpm start
- Start de crawler:
pnpm run server
- Vul de doel-URL en diepte in via het frontendformulier.
- Crawling-strategieën uitbreiden.
- Proxy-ondersteuning toevoegen.
- React-dashboard voor visualisatie.
- Gedistribueerd crawlen.
Bijdragen zijn welkom!
- Fork de repository.
- Maak een branch:
git checkout -b feature-name
- Commit je wijzigingen:
git commit -m "Beschrijving van de wijziging"
- Push naar de branch:
git push origin feature-name
Dit project valt onder de MIT-licentie.
Veel Crawl-plezier! 🕷️