minvws · Souf149 · Jun 19, 2024 · Jun 19, 2024 · Jun 24, 2024 · Jun 28, 2024
@@ -159,7 +159,7 @@ def create_boefje_meta(task, local_repository):
     arguments = {"oci_arguments": boefje_resource.oci_arguments}
 
     if input_ooi:
-        reference = Reference.from_str(input_ooi)
+        reference = Reference.from_str(input_ooi)  # TODO SOUF why is this here? Just giving `input_ooi` works too
         try:
             ooi = get_octopoes_api_connector(organization).get(reference, valid_time=datetime.now(timezone.utc))
         except ObjectNotFoundException as e:
@@ -170,7 +170,7 @@ def create_boefje_meta(task, local_repository):
     boefje_meta = BoefjeMeta(
         id=task.id,
         boefje=boefje,
-        input_ooi=input_ooi,
+        input_ooi=input_ooi,  # `input_ooi` is of type str, and we just give it an instance here?
         arguments=arguments,
         organization=organization,
         environment=environment,

@@ -99,10 +99,8 @@ def _fill_queue(self, task_queue: Queue, queue_type: WorkerManager.Queue):
         all_queues_empty = True
 
         for queue_type in queues:
-            logger.debug("Popping from queue %s", queue_type.id)
-
             try:
-                p_item = self.scheduler_client.pop_item(queue_type.id)
+                p_item = self.scheduler_client.pop_non_remote_item(queue_type.id)
             except (HTTPError, ValidationError):
                 logger.exception("Popping task from scheduler failed, sleeping 10 seconds")
                 time.sleep(10)

@@ -2,6 +2,7 @@
 import logging
 import uuid
 from enum import Enum
+from typing import Literal
 
 from httpx import Client, HTTPTransport, Response
 from pydantic import BaseModel, TypeAdapter
@@ -26,6 +27,7 @@ class QueuePrioritizedItem(BaseModel):
     priority: int
     hash: str | None = None
     data: BoefjeMeta | NormalizerMeta
+    remote: bool
 
 
 class TaskStatus(Enum):
@@ -47,13 +49,26 @@ class Task(BaseModel):
     status: TaskStatus
     created_at: datetime.datetime
     modified_at: datetime.datetime
+    remote: bool
+
+
+# TODO: SOUF ask where to put this
+class Filter(BaseModel):
+    column: str
+    field: str | None = None
+    operator: Literal["=="] = "=="
+    value: bool
+
+
+class QueuePopModel(BaseModel):
+    filters: list[Filter]
 
 
 class SchedulerClientInterface:
     def get_queues(self) -> list[Queue]:
         raise NotImplementedError()
 
-    def pop_item(self, queue: str) -> QueuePrioritizedItem | None:
+    def pop_non_remote_item(self, queue: str) -> QueuePrioritizedItem | None:
         raise NotImplementedError()
 
     def patch_task(self, task_id: uuid.UUID, status: TaskStatus) -> None:
@@ -80,8 +95,9 @@ def get_queues(self) -> list[Queue]:
 
         return TypeAdapter(list[Queue]).validate_json(response.content)
 
-    def pop_item(self, queue: str) -> QueuePrioritizedItem | None:
-        response = self._session.post(f"/queues/{queue}/pop")
+    def pop_non_remote_item(self, queue: str) -> QueuePrioritizedItem | None:
+        non_remote_filter = QueuePopModel(filters=[Filter(column="remote", operator="==", value=False)])
+        response = self._session.post(f"/queues/{queue}/pop", json=non_remote_filter.model_dump())
         self._verify_response(response)
 
         return TypeAdapter(QueuePrioritizedItem | None).validate_json(response.content)

@@ -19,6 +19,7 @@ class Job(BaseModel):
     id: UUID
     started_at: AwareDatetime | None = Field(default=None)
     ended_at: AwareDatetime | None = Field(default=None)
+    remote: bool = Field(default=False)
 
     @property
     def runtime(self) -> timedelta | None:
@@ -33,6 +34,7 @@ class Boefje(BaseModel):
 
     id: Annotated[str, StringConstraints(min_length=1)]
     version: str | None = Field(default=None)
+    remote: bool = Field(default=False)
 
 
 class Normalizer(BaseModel):

@@ -20,6 +20,7 @@ class Plugin(BaseModel):
     environment_keys: list[str] = Field(default_factory=list)
     related: list[str] | None = None
     enabled: bool = False
+    remote: bool = False
 
     def __str__(self):
         return f"{self.id}:{self.version}"

@@ -18,6 +18,7 @@
 from octopoes.models import OOI, DeclaredScanProfile
 
 logger = logging.getLogger(__name__)
+# TODO: SOUF change filename to `local_boefjes_runner` for consistency
 
 
 class TemporaryEnvironment:

@@ -0,0 +1,13 @@
+{
+  "id": "remote-scanner",
+  "name": "Remote scanner",
+  "description": "Scans from the remote",
+  "consumes": [
+    "HTTPResource",
+    "IPAddressV4",
+    "IPAddressV6"
+  ],
+  "environment_keys": [],
+  "scan_level": 4,
+  "remote": true
+}
@@ -0,0 +1,4 @@
+# REMOTE SCANNER
+
+TODO: SOUF ASK
+WHERE DO I GET DISPLAYED
@@ -0,0 +1,2 @@
+def run(boefje_meta: dict):
+    return [(set(), "[ERROR] This should never be ran")]
@@ -45,11 +45,12 @@ def get_queues(self) -> list[Queue]:
         time.sleep(self.sleep_time)
         return TypeAdapter(list[Queue]).validate_json(self.queue_response)
 
-    def pop_item(self, queue: str) -> QueuePrioritizedItem | None:
+    def pop_non_remote_item(self, queue: str) -> QueuePrioritizedItem | None:
         time.sleep(self.sleep_time)
 
         try:
             if WorkerManager.Queue.BOEFJES.value in queue:
+                print(self.boefje_responses[0].decode())
                 p_item = TypeAdapter(QueuePrioritizedItem).validate_json(self.boefje_responses.pop(0))
                 self._popped_items[str(p_item.id)] = p_item
                 self._tasks[str(p_item.id)] = self._task_from_id(p_item.id)
@@ -86,6 +87,7 @@ def _task_from_id(self, task_id: UUID):
             status=TaskStatus.DISPATCHED,
             created_at=datetime.now(timezone.utc),
             modified_at=datetime.now(timezone.utc),
+            remote=False,
         )
 
     def push_item(self, queue_id: str, p_item: QueuePrioritizedItem) -> None:

@@ -6,14 +6,17 @@
     "id": "70da7d4f-f41f-4940-901b-d98a92e9014b",
     "boefje": {
       "id": "dns-records",
-      "version": null
+      "version": null,
+      "remote": false
     },
     "input_ooi": "Hostname|internet|test.test",
     "organization": "_dev",
     "arguments": {},
     "started_at": null,
     "runnable_hash": null,
     "environment": null,
-    "ended_at": null
-  }
+    "ended_at": null,
+    "remote": false
+  },
+  "remote": false
 }
@@ -6,14 +6,17 @@
     "id": "70da7d4f-f41f-4940-901b-d98a92e9014b",
     "boefje": {
       "id": "dns-records",
-      "version": null
+      "version": null,
+      "remote": false
     },
     "input_ooi": "",
     "organization": "_dev",
     "arguments": {},
     "started_at": null,
     "runnable_hash": null,
     "environment": null,
-    "ended_at": null
-  }
+    "ended_at": null,
+    "remote": false
+  },
+  "remote": false
 }
@@ -3,6 +3,7 @@
   "priority": 1,
   "scheduler_id": "normalizer-_dev",
   "hash": "7e698c377cfd85015c0d7086b76b76b4",
+  "remote": false,
   "data": {
     "id": "60da7d4ff41f4940901bd98a92e9014b",
     "raw_data": {
@@ -33,7 +34,8 @@
             "DNSSOARecord",
             "DNSCNAMERecord"
           ],
-          "dispatches": null
+          "dispatches": null,
+          "remote": false
         },
         "input_ooi": "Hostname|internet|test.test",
         "organization": "_dev",

@@ -29,10 +29,13 @@
         "DNSSOARecord",
         "DNSCNAMERecord"
       ],
-      "dispatches": null
+      "dispatches": null,
+      "remote": false
     },
     "input_ooi": "Hostname|internet|test.test",
     "organization": "_dev",
-    "dispatches": []
-  }
+    "dispatches": [],
+    "remote": false
+  },
+  "remote": false
 }
@@ -23,7 +23,7 @@ def test_healthz(api):
 
 def test_boefje_input_running(api, tmp_path):
     scheduler_client = _mocked_scheduler_client(tmp_path)
-    task = scheduler_client.pop_item("boefje")
+    task = scheduler_client.pop_non_remote_item("boefje")
     scheduler_client.patch_task(task.id, TaskStatus.RUNNING)
     api.app.dependency_overrides[boefjes.api.get_scheduler_client] = lambda: scheduler_client
 
@@ -49,7 +49,7 @@ def test_boefje_input_running(api, tmp_path):
 
 def test_boefje_input_not_running(api, tmp_path):
     scheduler_client = _mocked_scheduler_client(tmp_path)
-    scheduler_client.pop_item("boefje")
+    scheduler_client.pop_non_remote_item("boefje")
     api.app.dependency_overrides[boefjes.api.get_scheduler_client] = lambda: scheduler_client
 
     response = api.get("/api/v0/tasks/70da7d4f-f41f-4940-901b-d98a92e9014b")

@@ -36,6 +36,7 @@ def upgrade():
             ),
             sa.Column("created_at", sa.DateTime(timezone=True), nullable=False),
             sa.Column("modified_at", sa.DateTime(timezone=True), nullable=False),
+            sa.Column("remote", sa.Boolean(), nullable=True),
             sa.PrimaryKeyConstraint("id"),
         )
         # ### end Alembic commands ###

@@ -30,6 +30,7 @@ def upgrade():
             sa.Column("data", sa.JSON(), nullable=False),
             sa.Column("created_at", sa.DateTime(timezone=True), nullable=False),
             sa.Column("modified_at", sa.DateTime(timezone=True), nullable=False),
+            sa.Column("remote", sa.Boolean(), nullable=True),
             sa.PrimaryKeyConstraint("id"),
         )
 

@@ -11,6 +11,7 @@ class Boefje(BaseModel):
     id: str
     name: str | None = Field(default=None)
     version: str | None = Field(default=None)
+    remote: bool = False
 
 
 class BoefjeMeta(BaseModel):

@@ -18,3 +18,4 @@ class Plugin(BaseModel):
     consumes: str | list[str]
     options: list[str] | None = None
     produces: list[str]
+    remote: bool = False
@@ -2,7 +2,7 @@
 from datetime import datetime, timezone
 
 from pydantic import BaseModel, ConfigDict, Field
-from sqlalchemy import Column, DateTime, Integer, String
+from sqlalchemy import Boolean, Column, DateTime, Integer, String
 from sqlalchemy.dialects.postgresql import JSONB
 from sqlalchemy.sql import func
 
@@ -34,6 +34,8 @@ class PrioritizedItem(BaseModel):
 
     modified_at: datetime = Field(default_factory=lambda: datetime.now(timezone.utc))
 
+    remote: bool = Field(default=False)
+
 
 class PrioritizedItemDB(Base):
     __tablename__ = "items"
@@ -61,6 +63,8 @@ class PrioritizedItemDB(Base):
         onupdate=func.now(),
     )
 
+    remote = Column(Boolean)
+
 
 class Queue(BaseModel):
     id: str

@@ -5,7 +5,7 @@
 
 import mmh3
 from pydantic import BaseModel, ConfigDict, Field
-from sqlalchemy import Column, DateTime, Enum, String
+from sqlalchemy import Boolean, Column, DateTime, Enum, String
 from sqlalchemy.dialects.postgresql import JSONB
 from sqlalchemy.schema import Index
 from sqlalchemy.sql import func
@@ -61,6 +61,8 @@ class Task(BaseModel):
 
     modified_at: datetime = Field(default_factory=lambda: datetime.now(timezone.utc))
 
+    remote: bool
+
     def __repr__(self):
         return f"Task(id={self.id}, scheduler_id={self.scheduler_id}, type={self.type}, status={self.status})"
 
@@ -95,6 +97,8 @@ class TaskDB(Base):
         onupdate=func.now(),
     )
 
+    remote = Column(Boolean)
+
     __table_args__ = (
         Index(
             "ix_p_item_hash",
@@ -132,6 +136,7 @@ class BoefjeTask(BaseModel):
     boefje: Boefje
     input_ooi: str | None
     organization: str
+    remote: bool = False
 
     dispatches: list[Normalizer] = Field(default_factory=list)
 

@@ -559,11 +559,11 @@ def push_task(self, boefje: Plugin, ooi: OOI, caller: str = "") -> None:
 
         """
         task = BoefjeTask(
-            boefje=Boefje.parse_obj(boefje.dict()),
+            boefje=Boefje.model_validate(boefje.model_dump()),
             input_ooi=ooi.primary_key,
             organization=self.organisation.id,
+            remote=boefje.remote,
         )
-
         if not self.is_task_allowed_to_run(boefje, ooi):
             self.logger.debug(
                 "Task is not allowed to run: %s",
@@ -690,6 +690,7 @@ def push_task(self, boefje: Plugin, ooi: OOI, caller: str = "") -> None:
             priority=score,
             data=task.model_dump(),
             hash=task.hash,
+            remote=boefje.remote,
         )
 
         try:

@@ -103,6 +103,7 @@ def post_push(self, p_item: models.PrioritizedItem) -> None:
             status=models.TaskStatus.QUEUED,
             created_at=datetime.now(timezone.utc),
             modified_at=datetime.now(timezone.utc),
+            remote=p_item.remote,
         )
 
         task_db = self.ctx.datastores.task_store.get_task_by_id(str(p_item.id))
@@ -232,6 +233,7 @@ def push_item_to_queue(self, p_item: models.PrioritizedItem) -> None:
                 scheduler_id=self.scheduler_id,
             )
             raise exc
+        # TODO: SOUF WHEN PULLING FROM TASKSTORE WITH INVALID MODEL EXCEPTION DOES NOT GET CAUGHT
 
         self.logger.debug(
             "Pushed item %s to queue %s with priority %s ",

@@ -553,6 +553,7 @@ def push_queue(self, queue_id: str, item: models.PrioritizedItemRequest) -> Any:
                 p_item.scheduler_id = s.scheduler_id
 
             p_item.priority = item.priority
+            p_item.remote = item.data["remote"]
 
             if s.queue.item_type == models.BoefjeTask:
                 p_item.data = models.BoefjeTask(**item.data).dict()
Original file line number	Diff line number	Diff line change
		@@ -0,0 +1,2 @@
		def run(boefje_meta: dict):
		return [(set(), "[ERROR] This should never be ran")]