Przelicz jednostki miary

10

Próbujemy obliczyć najbardziej odpowiednią jednostkę miary dla listy substancji, których substancje podano w różnych (ale zgodnych) jednostkach objętości.

Tabela przeliczania jednostek

Tabela konwersji jednostek przechowuje różne jednostki i ich relacje:

id  unit          coefficient                 parent_id
36  "microlitre"  0.0000000010000000000000000 37
37  "millilitre"  0.0000010000000000000000000 5
 5  "centilitre"  0.0000100000000000000000000 18
18  "decilitre"   0.0001000000000000000000000 34
34  "litre"       0.0010000000000000000000000 19
19  "dekalitre"   0.0100000000000000000000000 29
29  "hectolitre"  0.1000000000000000000000000 33
33  "kilolitre"   1.0000000000000000000000000 35
35  "megalitre"   1000.0000000000000000000000 0

Sortowanie według współczynnika pokazuje, że parent_idłączy jednostkę potomną z jej liczbową wartością nadrzędną.

Tę tabelę można utworzyć w PostgreSQL przy użyciu:

CREATE TABLE unit_conversion (
  id serial NOT NULL, -- Primary key.
  unit text NOT NULL, -- Unit of measurement name.
  coefficient numeric(30,25) NOT NULL DEFAULT 0, -- Conversion value.
  parent_id integer NOT NULL DEFAULT 0, -- Relates units in order of increasing measurement volume.
  CONSTRAINT pk_unit_conversion PRIMARY KEY (id)
)

Powinien istnieć klucz obcy od parent_iddo id.

Tabela substancji

Tabela substancji zawiera określone ilości substancji. Na przykład:

 id  unit          label     quantity
 1   "microlitre"  mercury   5
 2   "millilitre"  water     500
 3   "centilitre"  water     2
 4   "microlitre"  mercury   10
 5   "millilitre"  water     600

Tabela może przypominać:

CREATE TABLE substance (
  id bigserial NOT NULL, -- Uniquely identifies this row.
  unit text NOT NULL, -- Foreign key to unit conversion.
  label text NOT NULL, -- Name of the substance.
  quantity numeric( 10, 4 ) NOT NULL, -- Amount of the substance.
  CONSTRAINT pk_substance PRIMARY KEY (id)
)

Problem

Jak utworzyłbyś zapytanie, które znajdzie pomiar reprezentujący sumę substancji przy użyciu jak najmniejszej liczby cyfr, które mają liczbę całkowitą (i opcjonalnie rzeczywisty składnik)?

Na przykład, jak byś zwrócił:

  quantity  unit        label
        15  microlitre  mercury 
       112  centilitre  water

Ale nie:

  quantity  unit        label
        15  microlitre  mercury 
      1.12  litre       water

Ponieważ 112 ma mniej rzeczywistych cyfr niż 1,12, a 112 jest mniejszy niż 1120. Jednak w niektórych sytuacjach użycie prawdziwych cyfr jest krótsze - na przykład 1,1 litra w porównaniu do 110 centylitrów.

Przeważnie mam problemy z wybraniem właściwej jednostki na podstawie relacji rekurencyjnej.

Kod źródłowy

Do tej pory mam (oczywiście nie działa):

-- Normalize the quantities
select
  sum( coefficient * quantity ) AS kilolitres
from
  unit_conversion uc,
  substance s
where
  uc.unit = s.unit
group by
  s.label

Pomysły

Czy wymaga to użycia dziennika 10 do ustalenia liczby cyfr?

Ograniczenia

Nie wszystkie jednostki mają moc dziesięciu. Na przykład: http://unitsofmeasure.org/ucum-essence.xml

Dave Jarvis
źródło
3
@mustaccio Miałem dokładnie ten sam problem w poprzednim miejscu, na bardzo produkcyjnym systemie. Tam musieliśmy obliczyć ilości wykorzystane w kuchni dostarczającej żywność.
dezso
2
Pamiętam co najmniej dwupoziomową rekurencyjną CTE. Myślę, że najpierw obliczyłem sumy z najmniejszą jednostką, która pojawiła się na liście dla danej substancji, a następnie przekształciłem ją w największą jednostkę, która wciąż ma niezerową liczbę całkowitą.
dezso
1
Czy wszystkie jednostki są wymienialne z mocami 10? Czy twoja lista jednostek jest kompletna?
Erwin Brandstetter

Odpowiedzi:

2

To wygląda brzydko:

  with uu(unit, coefficient, u_ord) as (
    select
     unit, 
     coefficient,
     case 
      when log(u.coefficient) < 0 
      then floor (log(u.coefficient)) 
      else ceil(log(u.coefficient)) 
     end u_ord
    from
     unit_conversion u 
  ),
  norm (label, norm_qty) as (
   select
    s.label,
    sum( uc.coefficient * s.quantity ) AS norm_qty
  from
    unit_conversion uc,
    substance s
  where
    uc.unit = s.unit
  group by
    s.label
  ),
  norm_ord (label, norm_qty, log, ord) as (
   select 
    label,
    norm_qty, 
    log(t.norm_qty) as log,
    case 
     when log(t.norm_qty) < 0 
     then floor(log(t.norm_qty)) 
     else ceil(log(t.norm_qty)) 
    end ord
   from norm t
  )
  select
   norm_ord.label,
   norm_ord.norm_qty,
   norm_ord.norm_qty / uu.coefficient val,
   uu.unit
  from 
   norm_ord,
   uu where uu.u_ord = 
     (select max(uu.u_ord) 
      from uu 
      where mod(norm_ord.norm_qty , uu.coefficient) = 0);

ale wydaje się, że załatwia sprawę:

|   LABEL | NORM_QTY | VAL |       UNIT |
-----------------------------------------
| mercury |   1.5e-8 |  15 | microlitre |
|   water |  0.00112 | 112 | centilitre |

Tak naprawdę nie potrzebujesz relacji rodzic-dziecko w unit_conversiontabeli, ponieważ jednostki w tej samej rodzinie są naturalnie powiązane ze sobą według kolejności coefficient, o ile zidentyfikujesz rodzinę.

mustaccio
źródło
2

Myślę, że można to znacznie uprościć.

1. Zmodyfikuj unit_conversiontabelę

Lub, jeśli nie możesz zmodyfikować tabeli, po prostu dodaj kolumnę exp10„podstawa wykładnika 10”, która pokrywa się z liczbą cyfr do przesunięcia w systemie dziesiętnym:

CREATE TABLE unit_conversion(
   unit text PRIMARY KEY
  ,exp10 int
);

INSERT INTO unit_conversion VALUES
     ('microlitre', 0)
    ,('millilitre', 3)
    ,('centilitre', 4)
    ,('litre',      6)
    ,('hectolitre', 8)
    ,('kilolitre',  9)
    ,('megalitre',  12)
    ,('decilitre',  5);

2. Funkcja zapisu

aby obliczyć liczbę pozycji do przesunięcia w lewo lub w prawo:

CREATE OR REPLACE FUNCTION f_shift_comma(n numeric)
  RETURNS int LANGUAGE SQL IMMUTABLE AS
$$
SELECT CASE WHEN ($1 % 1) = 0 THEN                    -- no fractional digits
          CASE WHEN ($1 % 10) = 0 THEN 0              -- no trailing 0, don't shift
          ELSE length(rtrim(trunc($1, 0)::text, '0')) -- trunc() because numeric can be 1.0
                   - length(trunc($1, 0)::text)       -- trailing 0, shift right .. negative
          END
       ELSE                                           -- fractional digits
          length(rtrim(($1 % 1)::text, '0')) - 2      -- shift left .. positive
       END
$$;

3. Zapytanie

SELECT DISTINCT ON (substance_id)
       s.substance_id, s.label, s.quantity, s.unit
      ,COALESCE(s.quantity * 10^(u1.exp10 - u2.exp10)::numeric
              , s.quantity)::float8 AS norm_quantity
      ,COALESCE(u2.unit, s.unit) AS norm_unit
FROM   substance s 
JOIN   unit_conversion u1 USING (unit)
LEFT   JOIN unit_conversion u2 ON f_shift_comma(s.quantity) <> 0
                              AND @(u2.exp10 - (u1.exp10 - f_shift_comma(s.quantity))) < 2
                              -- since maximum gap between exp10 in unit table = 3
                              -- adapt to ceil(to max_gap / 2) if you have bigger gaps
ORDER  BY s.substance_id
     , @(u2.exp10 - (u1.exp10 - f_shift_comma(s.quantity))) -- closest unit first
     , u2.exp10    -- smaller unit first to avoid point for ties.

Wyjaśnić:

  • DOŁĄCZ tabele substancji i jednostek.
  • Oblicz idealną liczbę pozycji do przesunięcia z funkcją f_shift_comma()z góry.
  • W LEWO DOŁĄCZ do tabeli jednostek po raz drugi, aby znaleźć jednostki zbliżone do optymalnego.
  • Wybierz najbliższą jednostkę za pomocą DISTINCT ON ()i ORDER BY.
  • Jeśli nie zostanie znaleziona lepsza jednostka, wróć do tego, co mieliśmy COALESCE().
  • Powinno to obejmować wszystkie przypadki narożne i być dość szybkie .

-> Demo SQLfiddle .

Erwin Brandstetter
źródło
1
@DaveJarvis: I pomyślałem, że wszystko opisałem ... ten szczegół byłby naprawdę pomocny w skądinąd starannie dopracowanym pytaniu.
Erwin Brandstetter,