Merge pull request #18 from 4ARMED/seleniumwire

Seleniumwire
4ARMED · Oct 17, 2024 · be240d1 · be240d1
2 parents b66c91a + c1c9629
commit be240d1
Show file tree

Hide file tree

Showing 4 changed files with 23 additions and 11 deletions.
diff --git a/pyproject.toml b/pyproject.toml
@@ -11,9 +11,10 @@ urls = {Homepage = "https://github.com/4armed/sri-check"}
 requires-python = ">=3.6"
 dependencies = [
     "beautifulsoup4>=4.0",
+    "blinker==1.7.0", # Required for Seleniumwire
     "lxml>=4.8",
     "requests>=2.0",
-    "selenium>=4.10",
+    "selenium>=4.25",
 ]
 
 [project.readme]

diff --git a/requirements.txt b/requirements.txt
@@ -1,4 +1,4 @@
 beautifulsoup4>=4.0
 lxml>=4.8
 requests>=2.0
-selenium>=4.10
+selenium>=4.25
diff --git a/sricheck/__init__.py b/sricheck/__init__.py
@@ -1 +1 @@
-__version__ = "1.10.0"
+__version__ = "1.12.11"
diff --git a/sricheck/sricheck.py b/sricheck/sricheck.py
@@ -3,6 +3,7 @@
 import argparse
 import base64
 import hashlib
+import os
 import re
 import sys
 import requests
@@ -91,10 +92,9 @@ def is_allowlisted(self, netloc):
 
     def get_html(self):
         if self.browser:
-            from selenium import webdriver
-            from selenium.webdriver.chrome.options import Options
+            from seleniumwire import webdriver
 
-            chrome_options = Options()
+            chrome_options = webdriver.ChromeOptions()
             chrome_options.add_argument("--headless")
             chrome_options.add_argument("--no-sandbox")
             chrome_options.add_argument("--disable-dev-shm-usage")
@@ -104,20 +104,31 @@ def get_html(self):
                 }
             }
 
-            browser = webdriver.Chrome(options=chrome_options)
+            browser = webdriver.Chrome(
+                options=chrome_options,
+                seleniumwire_options={
+                    'proxy': {
+                        'http': os.environ.get("http_proxy"),
+                        'https': os.environ.get("https_proxy"),
+                    }
+                }
+            )
 
             def interceptor(request):
-                request.headers.update(self.headers)
+                for key, value in self.headers.items():
+                    del request.headers[key]
+                    request.headers[key] = value
 
             browser.request_interceptor = interceptor
             browser.get(self.url)
-            return browser.execute_script("return document.documentElement.outerHTML;")
+            content = browser.execute_script("return document.documentElement.outerHTML;")
+
+            browser.quit()
+            return content
         else:
             # file deepcode ignore Ssrf: The purpose of the script is to parse remote URLs from the CLI
-
             return requests.get(self.url, headers=self.headers).content
 
-
     def get_remote_resource_tags(self, html):
         soup = BeautifulSoup(html, 'lxml')