it-swarm.com.de

T-SQL - Was ist der effizienteste Weg, um eine Tabelle zu durchlaufen, bis eine Bedingung erfüllt ist

Ich habe eine Programmieraufgabe im Bereich T-SQL.

Aufgabe:

  1. Die Leute wollen in einen Aufzug, jede Person hat ein bestimmtes Gewicht.
  2. Die Reihenfolge der in der Schlange wartenden Personen wird durch die Spaltenumdrehung bestimmt.
  3. Der Aufzug hat eine maximale Kapazität von <= 1000 lbs.
  4. Geben Sie den Namen der letzten Person zurück, die den Aufzug betreten kann, bevor er zu schwer wird!
  5. Der Rückgabetyp sollte table sein

(enter image description here

Frage: Was ist der effizienteste Weg, um dieses Problem zu lösen? Wenn die Schleife korrekt ist, gibt es Raum für Verbesserungen?

Ich habe eine Schleife und # temporäre Tabellen verwendet, hier meine Lösung:

set rowcount 0
-- THE SOURCE TABLE "LINE" HAS THE SAME SCHEMA AS #RESULT AND #TEMP
use Northwind
go

declare @sum int
declare @curr int
set @sum = 0
declare @id int

IF OBJECT_ID('tempdb..#temp','u') IS NOT NULL
    DROP TABLE #temp

IF OBJECT_ID('tempdb..#result','u') IS NOT NULL
    DROP TABLE #result

create table #result( 
    id int not null,
    [name] varchar(255) not null,
    weight int not null,
    turn int not null
)

create table #temp( 
    id int not null,
    [name] varchar(255) not null,
    weight int not null,
    turn int not null
)

INSERT into #temp SELECT * FROM line order by turn

 WHILE EXISTS (SELECT 1 FROM #temp)
  BEGIN
   -- Get the top record
   SELECT TOP 1 @curr =  r.weight  FROM  #temp r order by turn  
   SELECT TOP 1 @id =  r.id  FROM  #temp r order by turn

    --print @curr
    print @sum

    IF(@sum + @curr <= 1000)
    BEGIN
    print 'entering........ again'
    --print @curr
      set @sum = @sum + @curr
      --print @sum
      INSERT INTO #result SELECT * FROM  #temp where [id] = @id  --id, [name], turn
      DELETE FROM #temp WHERE id = @id
    END
     ELSE
    BEGIN    
    print 'breaaaking.-----'
      BREAK
    END 
  END

   SELECT TOP 1 [name] FROM #result r order by r.turn desc 

Hier das Create-Skript für die Tabelle, die ich mit Northwind zum Testen verwendet habe:

USE [Northwind]
GO

/****** Object:  Table [dbo].[line]    Script Date: 28.05.2018 21:56:18 ******/
SET ANSI_NULLS ON
GO

SET QUOTED_IDENTIFIER ON
GO

CREATE TABLE [dbo].[line](
    [id] [int] NOT NULL,
    [name] [varchar](255) NOT NULL,
    [weight] [int] NOT NULL,
    [turn] [int] NOT NULL,
PRIMARY KEY CLUSTERED 
(
    [id] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY],
UNIQUE NONCLUSTERED 
(
    [turn] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY]
) ON [PRIMARY]

GO

ALTER TABLE [dbo].[line]  WITH CHECK ADD CHECK  (([weight]>(0)))
GO

INSERT INTO [dbo].[line]
    ([id], [name], [weight], [turn])
VALUES
    (5, 'gary', 800, 1),
    (3, 'jo', 350, 2),
    (6, 'thomas', 400, 3),
    (2, 'will', 200, 4),
    (4, 'mark', 175, 5),
    (1, 'james', 100, 6)
;
10
Legends

Sie sollten versuchen, Schleifen generell zu vermeiden. Sie sind normalerweise weniger effizient als satzbasierte Lösungen und weniger lesbar.

Das Folgende sollte ziemlich effizient sein.

Dies gilt umso mehr, wenn die Spalten name und weight im Index INCLUDE- D sein könnten, um die Schlüsselsuche zu vermeiden.

Es kann den eindeutigen Index in der Reihenfolge turn scannen und die laufende Summe der Spalte Weight berechnen. Verwenden Sie dann LEAD mit denselben Ordnungskriterien, um die laufende Summe zu ermitteln Die nächste Reihe wird sein.

Sobald die erste Zeile gefunden wird, in der diese 1000 überschreitet oder NULL ist (was anzeigt, dass keine nächste Zeile vorhanden ist), kann der Scan gestoppt werden.

WITH T1
     AS (SELECT *,
                SUM(Weight) OVER (ORDER BY turn ROWS UNBOUNDED PRECEDING) AS cume_weight
         FROM   [dbo].[line]),
     T2
     AS (SELECT LEAD(cume_weight) OVER (ORDER BY turn) AS next_cume_weight,
                *
         FROM   T1)
SELECT TOP 1 name
FROM   T2
WHERE  next_cume_weight > 1000
        OR next_cume_weight IS NULL
ORDER  BY turn 

Ausführungsplan

(enter image description here

In der Praxis scheint es ein paar Zeilen vor dem unbedingt erforderlichen zu lesen - es sieht so aus, als würde jedes Fenster-Spool/Stream-Aggregat-Paar zwei zusätzliche Zeilen lesen.

Für die Beispieldaten in der Frage müssten im Idealfall nur zwei Zeilen aus dem Index-Scan gelesen werden, in Wirklichkeit werden jedoch 6 Zeilen gelesen. Dies ist jedoch kein wesentliches Effizienzproblem und verschlechtert sich nicht, wenn der Tabelle weitere Zeilen hinzugefügt werden (wie in) diese Demo )

Für diejenigen, die an dieser Ausgabe interessiert sind, wird unten ein Bild mit den von jedem Operator ausgegebenen Zeilen (wie durch das erweiterte Ereignis query_trace_column_values Gezeigt) angezeigt. Die Zeilen werden in der Reihenfolge row_id Ausgegeben (beginnend mit 47 Für die erste Zeile, die vom Index-Scan gelesen wurde und bei 113 Für TOP endet)

Klicken Sie auf das Bild unten, um es zu vergrößern, oder sehen Sie alternativ die animierte Version, um den Ablauf einfacher zu verfolgen .

Anhalten der Animation an dem Punkt, an dem das rechte Stream-Aggregat seine erste Zeile ausgegeben hat (für gary - turn = 1). Es scheint offensichtlich, dass es darauf gewartet hat, seine erste Zeile mit einem anderen WindowCount zu erhalten (für Jo - turn = 2). Und die Fensterspule gibt die erste "Jo" -Zeile erst frei, wenn sie die nächste Zeile mit einem anderen turn gelesen hat (für thomas - turn = 3)

Die Fensterspule und das Stream-Aggregat bewirken also, dass eine zusätzliche Zeile gelesen wird, und es gibt vier davon im Plan - daher 4 zusätzliche Zeilen.

(enter image description here

Es folgt eine Erläuterung der oben gezeigten Spalten (basierend auf info hier )

  • Knotenname: Index-Scan, Knoten-ID: 15, Spaltenname: ID Basistabellenspalte, die vom Index abgedeckt wird
  • Knotenname: Index-Scan, Knoten-ID: 15, Spaltenname: Drehen Sie die Basistabellenspalte , die vom Index abgedeckt wird
  • NodeName: Clustered Index Seek, NodeId: 17, ColumnName: Gewicht Basistabellenspalte, die aus der Suche abgerufen wurde
  • NodeName: Clustered Index Seek, NodeId: 17, ColumnName: Name Basistabellenspalte, die aus der Suche abgerufen wurde
  • NodeName: Segment, NodeId: 13, ColumnName: Segment1010 Gibt 1 am Anfang einer neuen Gruppe zurück oder andernfalls null. Da kein Partition By In SUM vorhanden ist, erhält nur die erste Zeile 1
  • NodeName: Sequenzprojekt, NodeId: 12, ColumnName: RowNumber1009 row_number() innerhalb der durch das Segment1010-Flag angegebenen Gruppe. Da sich alle Zeilen in derselben Gruppe befinden, werden ganze Zahlen von 1 bis 6 aufgestiegen. Wird in Fällen wie rows between 5 preceding and 2 following Zum Filtern von Zeilen mit rechten Rahmen verwendet. (oder wie für LEAD später)
  • NodeName: Segment, NodeId: 11, ColumnName: Segment1011 Gibt 1 am Anfang einer neuen Gruppe zurück oder andernfalls null. Da kein Partition By In SUM vorhanden ist, erhält nur die erste Zeile 1 (wie Segment1010).
  • NodeName: Window Spool, NodeId: 10, ColumnName: WindowCount1012 Attribut, das Zeilen gruppiert, die zu einem Fensterrahmen gehören. Diese Fensterspule verwendet den Fall "Fast Track" für UNBOUNDED PRECEDING. Wo es zwei Zeilen pro Quellzeile ausgibt. Eins mit den kumulativen Werten und eins mit den Detailwerten. Obwohl es keinen sichtbaren Unterschied in den durch query_trace_column_values Offenbarten Zeilen gibt, gehe ich davon aus, dass kumulative Spalten in der Realität vorhanden sind.
  • NodeName: Stream Aggregate, NodeId: 9, ColumnName: Expr1004 Count(*) gruppiert nach WindowCount1012 gemäß Plan, aber tatsächlich eine laufende Anzahl
  • NodeName: Stream Aggregate, NodeId: 9, ColumnName: Expr1005 SUM(weight) gruppiert nach WindowCount1012 gemäß Plan, aber tatsächlich die laufende Gewichtssumme (dh cume_weight)
  • NodeName: Segment, NodeId: 7, ColumnName: Expr1002 CASE WHEN [Expr1004]=(0) THEN NULL ELSE [Expr1005] END - Sehen Sie nicht, wie COUNT(*) kann sei 0, also läuft immer die Summe (cume_weight)
  • Knotenname: Segment, Knoten-ID: 7, Spaltenname: Segment1013 Nein partition by In LEAD, sodass die erste Zeile 1 erhält. Alle verbleibenden werden null
  • NodeName: Sequenzprojekt, NodeId: 6, ColumnName: RowNumber1006 row_number() innerhalb der durch das Segment1013-Flag angegebenen Gruppe. Da sich alle Zeilen in derselben Gruppe befinden, sind dies ganze Zahlen von 1 bis 4
  • NodeName: Segment, NodeId: 4, ColumnName: BottomRowNumber1008 RowNumber1006 + 1, da LEAD die nächste Zeile erfordert
  • NodeName: Segment, NodeId: 4, ColumnName: TopRowNumber1007 RowNumber1006 + 1, da LEAD die nächste Zeile erfordert
  • Knotenname: Segment, Knoten-ID: 4, Spaltenname: Segment1014 Nein partition by In LEAD, sodass die erste Zeile 1 erhält. Alle verbleibenden werden null
  • NodeName: Window Spool, NodeId: 3, ColumnName: WindowCount1015 Attribut, das Zeilen, die zu einem Fensterrahmen gehören, unter Verwendung der vorherigen Zeilennummern gruppiert. Der Fensterrahmen für LEAD hat maximal 2 Zeilen (die aktuelle und die nächste)
  • NodeName: Stream Aggregate, NodeId: 2, ColumnName: Expr1003 LAST_VALUE([Expr1002]) für LEAD(cume_weight)
16
Martin Smith

Ebenso neugierig (da in der Frage T-SQL steht) ist es auch möglich, dieses Problem mit SQLCLR effizient zu lösen.

Die Idee ist, die Zeilen einzeln in der Reihenfolge turn zu lesen, bis weight 1000 überschreitet (oder uns die Zeilen ausgehen), und dann den letzten gelesenen name zurückzugeben.

Der Quellcode lautet:

using Microsoft.SqlServer.Server;
using System.Data;
using System.Data.SqlClient;
using System.Data.SqlTypes;

public partial class UserDefinedFunctions
{
    [SqlFunction(DataAccess = DataAccessKind.Read,
        SystemDataAccess = SystemDataAccessKind.None,
        IsDeterministic = true, IsPrecise = true)]
    [return: SqlFacet(IsFixedLength = false, IsNullable = true, MaxSize = 255)]
    public static SqlString Elevator()
    {
        const string query =
            @"SELECT L.[name], L.[weight]
            FROM dbo.line AS L
            ORDER BY L.turn;";

        using (var con = new SqlConnection("context connection = true"))
        {
            con.Open();
            using (var cmd = new SqlCommand(query, con))
            {
                var rdr = cmd.ExecuteReader(CommandBehavior.SingleResult);
                var name = SqlString.Null;
                var total = 0;

                while (rdr.Read() && (total += rdr.GetInt32(1)) <= 1000)
                {
                    name = rdr.GetSqlString(0);
                }
                return name;
            }
        }
    }
}

Die kompilierte Assembly- und T-SQL-Funktion:

CREATE Assembly Elevator AUTHORIZATION [dbo]
FROM 0x
WITH PERMISSION_SET = SAFE;
GO
CREATE FUNCTION dbo.Elevator ()
RETURNS nvarchar(255)
AS EXTERNAL NAME Elevator.UserDefinedFunctions.Elevator;

Das Ergebnis erhalten:

SELECT dbo.Elevator();
6
Paul White 9

Leichte Abweichung von Martin Smiths Lösung

SELECT top 1 name
FROM (
    SELECT id, name, weight, turn
         , SUM(weight) OVER (ORDER BY turn) AS cumulative_weight
    FROM line                               
) as T
WHERE cumulative_weight <= 1000
ORDER BY turn DESC 

RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW ist der Standardfensterrahmen, daher habe ich das nicht deklariert.

Anstelle des nächsten kumulativen Gewichts wird ein Prädikat für das aktuelle kumulative Gewicht verwendet.

Ich habe keinen Plan überprüft, daher kann ich nicht sagen, ob diesbezüglich ein Unterschied besteht.

1
Lennart

Sie können einen Join gegen sich selbst durchführen:

select 
    a.id, a.turn, a.game, 
    coalesce(sum(b.weight), 0) as cumulative_weight
from
    table a
left join 
    table b
on
    a.turn > b.turn
group by
    a.id, a.turn, a.game ;

Diese Art von Dingen ist nicht sehr effizient, da sie eine Auswahl pro Zeile verursachen. Aber zumindest wird es als eine einzige Aussage ausgedrückt.

Wenn Sie dies nicht vollständig in SQL tun müssen, können Sie einfach alle Zeilen auswählen und sie durchlaufen.

Sie können dasselbe auch in einer gespeicherten Prozedur ohne die temporäre Tabelle tun. Halten Sie einfach die Summe und den Namen der letzten Zeile in einer Variablen.

0
Ewan