Skip to content

Ollie-nl/PagePolly

Repository files navigation

PagePolly EN

PagePolly is a powerful and extensible web crawler built using Puppeteer, Node.js, and PostgreSQL. It enables you to crawl websites for text-based content, save results in a structured database, and visualize data with a React-based dashboard.


Features

  • Customizable Crawling: User-agent rotation, delays, and stealth mode.
  • Text-Only Crawling: Extracts headings, paragraphs, and metadata.
  • Database Integration: Uses PostgreSQL for structured storage.
  • Modern Stack: Puppeteer, Node.js, React.
  • Stealth Mode: Avoids detection using Puppeteer Extra Stealth Plugin.

Getting Started

Prerequisites


Installation

  1. Clone the repository:

    git clone https://github.com/Ollie-nl/PagePolly.git
    cd PagePolly
  2. Install dependencies:

    pnpm install
  3. Start the backend server with Docker:

    docker-compose up -d
  4. Run the development server:

    pnpm start

Usage

Running the Crawler

  • To start crawling:
    pnpm run server
  • Enter the target URL and depth in the frontend form.

Roadmap

  • Expand crawling strategies.
  • Add proxy support.
  • React dashboard for visualization.
  • Distributed crawling.

Contributing

Contributions are welcome!

  1. Fork the repository.
  2. Create a branch:
    git checkout -b feature-name
  3. Commit your changes:
    git commit -m "Add feature description"
  4. Push to the branch:
    git push origin feature-name

License

This project is licensed under the MIT License.


Happy Crawling! 🕷️

PagePolly NL

PagePolly is een krachtige en uitbreidbare webcrawler gebouwd met Puppeteer, Node.js en PostgreSQL. Het stelt je in staat om websites te crawlen naar tekstuele inhoud, resultaten op te slaan in een gestructureerde database, en data te visualiseren via een React-dashboard.


Functionaliteiten

  • Aanpasbare Crawling: User-agentrotatie, vertragingen, en stealth-modus.
  • Alleen Tekst Crawlen: Headings, paragrafen en metadata.
  • Database-integratie: Gebruik van PostgreSQL voor gestructureerde opslag.
  • Moderne Technologieën: Puppeteer, Node.js, React.
  • Stealth-modus: Verminder detectie met Puppeteer Extra Stealth Plugin.

Aan de Slag

Vereisten


Installatie

  1. Clone de repository:

    git clone https://github.com/Ollie-nl/PagePolly.git
    cd PagePolly
  2. Installeer afhankelijkheden:

    pnpm install
  3. Start de backendserver met Docker:

    docker-compose up -d
  4. Start de ontwikkelserver:

    pnpm start

Gebruik

De Crawler Starten

  • Start de crawler:
    pnpm run server
  • Vul de doel-URL en diepte in via het frontendformulier.

Roadmap

  • Crawling-strategieën uitbreiden.
  • Proxy-ondersteuning toevoegen.
  • React-dashboard voor visualisatie.
  • Gedistribueerd crawlen.

Bijdragen

Bijdragen zijn welkom!

  1. Fork de repository.
  2. Maak een branch:
    git checkout -b feature-name
  3. Commit je wijzigingen:
    git commit -m "Beschrijving van de wijziging"
  4. Push naar de branch:
    git push origin feature-name

Licentie

Dit project valt onder de MIT-licentie.


Veel Crawl-plezier! 🕷️

About

Opensource crawler tryout

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published