maycuatroi1 · February 6, 2026 07:01
diff --git a/gistfile1.py b/gistfile1.py
 # Pseudo-code from paper concept
 class DeepEncoderV2:
    def forward(self, visual_tokens):
        # visual_tokens: [B, m, d] - m tokens, d=896 dim

        # Append learnable queries (same count as visual tokens)
        queries = self.learnable_queries  # [n, d] where n = m
        combined = concat([visual_tokens, queries], dim=1)  # [B, 2m, d]

        # Mixed attention: visual=bidirectional, queries=causal
        output = self.qwen2_encoder(combined, attention_mask=M)

        # Only return query outputs (causal flow tokens)
        return output[:, m:, :]  # [B, n, d]
	# Pseudo-code from paper concept
	class DeepEncoderV2:
	def forward(self, visual_tokens):
	# visual_tokens: [B, m, d] - m tokens, d=896 dim

	# Append learnable queries (same count as visual tokens)
	queries = self.learnable_queries # [n, d] where n = m
	combined = concat([visual_tokens, queries], dim=1) # [B, 2m, d]

	# Mixed attention: visual=bidirectional, queries=causal
	output = self.qwen2_encoder(combined, attention_mask=M)

	# Only return query outputs (causal flow tokens)
	return output[:, m:, :] # [B, n, d]
No results found