transf ormations

Transf ormations: sebuah pengantar -------------------------------------------------- --------------------------- Dalam analisis data transformasi adalah penggantian variabel dengan fungsi variabel yang: misalnya, mengganti variabel x dengan akar kuadrat dari x atau logaritma dari x. Dalam arti kuat, transformasi adalah pengganti yang mengubah bentuk dari distribusi atau hubungan. Bantuan ini tidak berpura-pura lengkap atau bahkan murah hati pada kutipan sastra. Berbagai referensi yang saya temukan membantu adalah ditaburi di sana-sini. Dua yang telah membentuk khususnya saya pemahaman yang Emerson dan Stoto (1983) dan Emerson (1983). Di Balik artikel-artikel terletak penekanan terus-menerus ditempatkan pada nilai transformasi dalam karya John Wilder Tukey (1915-2000). Item bantuan ini mencakup topik-topik berikut. Anda dapat membaca secara berurutan atau skim langsung ke setiap bagian. Bagian membintangi cenderung tampil lebih esoteris atau lebih sulit daripada yang lain untuk mereka yang baru untuk subjek. Alasan menggunakan transformasi Ulasan kebanyakan transformasi umum Komentar psikologis - untuk bingung Bagaimana melakukan transformasi di Stata * Transformasi untuk proporsi dan persen * Transformasi sebagai sebuah keluarga * Transformasi variabel yang positif dan negatif Catatan ketik: ^ Berarti meningkatkan kekuatan apa pun yang berikut. _ Berarti bahwa apa pun berikut harus dipertimbangkan subscript (Ditulis di bawah garis). The Stata notasi == untuk "sama dengan" dan! = Untuk "tidak sama dengan" digunakan untuk tes berbagai kondisi benar atau salah. Alasan menggunakan transformasi Ada banyak alasan untuk transformasi. Daftar di sini bukan komprehensif. 1. Kenyamanan 2. Mengurangi skewness 3. spread Sama 4. Hubungan Linear 5. Hubungan Aditif Jika Anda mencari di hanya satu variabel, 1, 2 dan 3 yang relevan, sementara jika Anda mencari di dua atau lebih variabel, 4 dan 5 yang lebih penting. Namun, transformasi yang mencapai 4 dan 5 sangat sering mencapai 2 dan 3. 1. Convenience Skala berubah mungkin sama alami seperti aslinya skala dan lebih nyaman untuk tujuan tertentu (misalnya persentase bukan data asli, Sines bukan derajat). Salah satu contoh penting adalah standarisasi, dimana nilai-nilai yang disesuaikan berbeda tingkat dan menyebar. Secara umum Nilai - tingkat Nilai standar = -------------. penyebaran Nilai Standarisasi memiliki level 0 dan 1 menyebar dan tidak memiliki unit: maka standardisasi berguna untuk variabel membandingkan dinyatakan dalam berbagai unit. Umumnya nilai standar dihitung dengan menggunakan mean dan standar deviasi (sd) dari variabel: x - rata-rata x z = -------------. sd x Standarisasi ada bedanya dengan bentuk distribusi. 2. Mengurangi skewness transformasi A dapat digunakan untuk mengurangi kemiringan. A distribusi yang simetris atau hampir jadi sering lebih mudah untuk menangani dan menafsirkan dari distribusi miring. Lebih khusus, normal atau Distribusi Gaussian sering dianggap sebagai ideal karena diasumsikan oleh banyak metode statistik. Untuk mengurangi skewness yang tepat, mengambil akar atau logaritma atau resiprokal (akar yang paling lemah). Ini adalah masalah yang paling umum dalam praktek. Untuk mengurangi skewness kiri, mengambil kotak atau kubus atau kekuatan yang lebih tinggi. 3. Sama menyebar transformasi A dapat digunakan untuk memproduksi sekitar spread yang sama, meskipun variasi ditandai tingkat, yang lagi-lagi membuat data lebih mudah untuk menangani dan menafsirkan. Mengatur setiap data atau bagian yang memiliki tentang spread atau variabilitas yang sama adalah suatu kondisi yang disebut homoscedasticity: nya berlawanan disebut heteroskedastisitas. (Ejaan yang -sked- daripada -sced- juga digunakan.) 4. Hubungan Linear Ketika melihat hubungan antara variabel, sering jauh lebih mudah untuk berpikir tentang pola yang kurang linier dari sekitar pola yang sangat melengkung. Hal ini sangat penting ketika menggunakan regresi linier, yang berjumlah pas seperti pola data. (Dalam Stata, kemunduran adalah perintah dasar untuk regresi.) Misalnya, plot logaritma dari serangkaian nilai-nilai dengan waktu memiliki properti yang periode dengan tingkat konstan perubahan (pertumbuhan atau Penurunan) Plot sebagai garis lurus. 5. Aditif hubungan Hubungan sering lebih mudah untuk menganalisis saat aditif bukan (katakanlah) perkalian. Jadi y = a + bx di mana dua istilah dan bx ditambahkan lebih mudah untuk menangani dari y = ax ^ b di mana dua istilah dan x ^ b dikalikan. Aditivitas adalah masalah penting dalam analisis varians (di Stata, anova, oneway, dll). Dalam prakteknya, transformasi sering bekerja, kebetulan, untuk melakukan beberapa ini sekaligus, terutama untuk mengurangi kecurangan, untuk menghasilkan hampir spread yang sama dan menghasilkan hubungan yang hampir linier atau aditif. Tapi ini tidak dijamin. Ulasan kebanyakan transformasi umum Transformasi yang paling berguna dalam analisis data pengantar adalah timbal balik, logaritma, akar pangkat, akar kuadrat, dan persegi. Dalam apa berikut, bahkan ketika itu tidak ditekankan, itu seharusnya yang transformasi yang digunakan hanya selama rentang di mana mereka menghasilkan (terbatas) bilangan real sebagai hasil. Timbal Balik Timbal balik, x 1 / x, dengan saudara timbal balik negatif, x ke -1 / X, adalah transformasi yang sangat kuat dengan efek drastis pada Bentuk distribusi. Hal ini tidak bisa diterapkan pada nilai nol. Meskipun dapat diterapkan untuk nilai-nilai negatif, tidak berguna kecuali semua nilai yang positif. Kebalikan dari rasio mungkin sering diartikan semudah rasio itu sendiri: misalnya kepadatan penduduk (orang per satuan luas) menjadi daerah per orang; orang per dokter menjadi dokter per orang; tingkat erosi menjadi waktu untuk mengikis kedalaman satuan. (Dalam prakteknya, kita mungkin ingin mengalikan atau membagi hasil pengambilan timbal balik oleh beberapa konstan, seperti 1000 atau 10000, untuk mendapatkan nomor yang mudah untuk mengelola, tapi itu sendiri tidak berpengaruh pada kemiringan atau linearitas.) Timbal balik yang membalikkan ketertiban di antara nilai-nilai dari tanda yang sama: terbesar menjadi terkecil, dll timbal balik negatif mempertahankan ketertiban di antara nilai tanda yang sama. Logaritma Logaritma, x untuk log basis 10 x atau x untuk log basis e x (ln x), atau x basis 2 x log, adalah transformasi yang kuat dengan pengaruh besar pada Bentuk distribusi. Hal ini biasanya digunakan untuk mengurangi kemiringan yang tepat dan sering tepat untuk variabel yang diukur. Hal ini tidak bisa diterapkan nol atau negatif nilai. Satu unit pada skala logaritmik berarti perkalian dengan dasar logaritma yang digunakan. Pertumbuhan eksponensial atau penurunan y = a exp (bx) dibuat linier dengan ln y = ln a + bx sehingga variabel respon y harus login. (Di sini exp () berarti meningkatkan kekuasaan e, sekitar 2,71828, yang merupakan dasar logaritma natural.) Samping pada persamaan pertumbuhan atau penurunan eksponensial ini: menempatkan x = 0, dan y = a exp (0) = a, jadi yang jumlah atau menghitung ketika x = 0. Jika a dan b> 0, maka y tumbuh pada tingkat yang lebih cepat dan lebih cepat (misalnya bunga majemuk atau dicentang pertumbuhan penduduk), sedangkan jika> 0 dan b 0, y = ax ^ b = 0, sehingga fungsi daya untuk positif b melewati asal, yang sering masuk akal fisik atau biologis atau ekonomi. Pikirkan: tidak nol untuk x menyiratkan nol untuk y? Semacam ini fungsi kekuasaan adalah bentuk yang pas banyak Data set cukup baik. Pertimbangkan rasio y = p / q dimana p dan q keduanya positif dalam praktek. Contohnya adalah laki-laki / perempuan; tanggungan / pekerja; Panjang hilir / panjang downvalley. Maka y adalah suatu tempat antara 0 dan tak terbatas, atau dalam kasus terakhir, antara 1 dan tak terhingga. Jika p = q, maka y = 1. definisi seperti ini seringkali menyebabkan Data miring, karena ada batas yang jelas lebih rendah dan tidak ada yang jelas atas batas. Logaritma, bagaimanapun, yaitu log y = log p / q = log p - log q, adalah suatu tempat antara -infinity dan tak terhingga dan p = q berarti bahwa log y = 0. Oleh karena itu logaritma dari rasio tersebut cenderung lebih simetris didistribusikan. Akar pangkat tiga Kubus root, x untuk x ^ (1/3). Ini adalah transformasi yang cukup kuat dengan efek besar pada bentuk distribusi: itu adalah lemah dari logaritma. Hal ini juga digunakan untuk mengurangi skewness yang tepat, dan memiliki keuntungan yang dapat diterapkan ke nol dan nilai-nilai negatif. Catat itu akar pangkat tiga dari volume memiliki satuan panjang a. Hal ini umumnya diterapkan untuk curah hujan data. Penerapan nilai-nilai negatif membutuhkan catatan khusus. Mempertimbangkan (2) (2) (2) = 8 dan (-2) (- 2) (- 2) = -8. Contoh-contoh ini menunjukkan bahwa kubus akar angka negatif memiliki tanda negatif dan nilai absolut yang sama sebagai akar pangkat tiga dari bilangan positif sama. Properti serupa dimiliki oleh akar lain yang kekuatannya adalah kebalikan dari yang aneh bilangan bulat positif (kekuatan 1/3, 1/5, 1/7, dll). Properti ini adalah sedikit rumit. Misalnya, mengubah kekuatan hanya smidgen dari 1/3, dan kita tidak bisa lagi menentukan hasilnya sebagai produk tepatnya tiga istilah. Namun, properti ada untuk dimanfaatkan jika berguna. Akar kuadrat Akar kuadrat, x ke x ^ (1/2) = sqrt (x), adalah transformasi dengan Efek moderat pada bentuk distribusi: itu lebih lemah dari logaritma dan akar pangkat tiga. Hal ini juga digunakan untuk mengurangi skewness yang tepat, dan juga memiliki keuntungan yang dapat diterapkan ke nol nilai. Perhatikan bahwa akar kuadrat dari suatu daerah memiliki satuan panjang a. Hal ini biasanya diterapkan untuk menghitung data, terutama jika nilai-nilai sebagian besar agak kecil. Persegi Alun-alun, x untuk x ^ 2, memiliki efek moderat pada bentuk distribusi dan dapat digunakan untuk mengurangi kemiringan kiri. Dalam prakteknya, alasan utama untuk menggunakannya adalah untuk menyesuaikan respons dengan fungsi y kuadrat = a + bx + c x ^ 2. Quadratics memiliki titik balik, baik maksimum atau minimum, meskipun titik balik dalam fungsi dipasang data mungkin jauh di luar batas pengamatan. Jarak dari tubuh dari asal adalah kuadrat jika tubuh yang bergerak di bawah percepatan konstan, yang memberikan pembenaran fisik yang sangat jelas untuk menggunakan kuadrat a. Jika tidak quadratics biasanya digunakan semata-mata karena mereka bisa meniru Hubungan di wilayah data. Luar daerah bahwa mereka dapat berperilaku sangat buruk, karena mereka mengambil nilai-nilai sewenang-wenang besar untuk ekstrim nilai x, dan kecuali mencegat sebuah dibatasi menjadi 0, mereka mungkin berperilaku realistis dekat dengan asal. Mengkuadratkan biasanya masuk akal hanya jika variabel yang bersangkutan adalah nol atau positif, mengingat bahwa (x) ^ 2 dan x ^ 2 adalah identik. Yang transformasi? Kriteria utama dalam memilih transformasi adalah: apa yang bekerja dengan Data? Sebagai contoh di atas menunjukkan, penting untuk mempertimbangkan juga dua pertanyaan. Apa yang membuat fisik (biologis, ekonomi, apa pun) akal, misalnya dalam hal perilaku membatasi sebagai nilai-nilai menjadi sangat kecil atau sangat besar? Pertanyaan ini sering mengarah pada penggunaan logaritma. Bisakah kita tetap dimensi dan unit sederhana dan nyaman? Jika mungkin, kami lebih skala pengukuran yang mudah untuk berpikir tentang. Akar pangkat tiga dari volume dan akar kuadrat dari suatu daerah keduanya memiliki dimensi panjang, sehingga jauh dari hal-hal yang rumit, transformasi tersebut dapat menyederhanakan mereka. Resiprokal biasanya memiliki unit yang sederhana, seperti yang disebutkan lebih awal. Seringkali, bagaimanapun, unit agak rumit adalah sebuah pengorbanan yang telah dibuat. Komentar psikologis - untuk bingung Motif utama untuk transformasi adalah lebih mudah dari deskripsi. Meskipun skala berubah mungkin tampak kurang alami, ini adalah sebagian besar keberatan psikologis. Pengalaman yang lebih besar dengan transformasi cenderung mengurangi perasaan ini, hanya karena transformasi begitu sering bekerja begitu dengan baik. Bahkan, banyak skala diukur akrab benar-benar berubah sisik: desibel, pH dan skala Richter besarnya gempa yang semua logaritmik. Namun, transformasi menyebabkan perdebatan bahkan di antara data yang berpengalaman analis. Beberapa menggunakannya secara rutin, apalagi orang lain. Berbagai pandangan, ekstrim atau tidak begitu ekstrim, yang sedikit karikatur di sini untuk merangsang refleksi atau diskusi. Untuk apa itu layak, saya menganggap semua ini pandangan dipertahankan, atau setidaknya dimengerti. "Ini tampak seperti semacam kecurangan. Anda tidak suka bagaimana data, sehingga Anda memutuskan untuk mengubahnya. " "Saya melihat bahwa ini adalah trik pintar yang bekerja dengan baik. Tapi bagaimana saya tahu ketika trik ini akan bekerja dengan beberapa data lain, atau jika trik lain adalah diperlukan, atau jika tidak ada transformasi yang dibutuhkan? " "Transformasi diperlukan karena tidak ada jaminan bahwa dunia bekerja pada timbangan itu terjadi diukur pada. " "Transformasi yang paling tepat ketika mereka cocok dengan pandangan ilmiah bagaimana variabel berperilaku. " Seringkali hal ini membantu untuk mengubah hasil kembali lagi, menggunakan sebaliknya atau transformasi inverse: t timbal balik = 1 / x timbal balik x = 1 / t log basis 10 t = log_10 x 10 kekuasaan x = 10 ^ t log basis et = log_e x = ln x dengan kekuatan x = exp (t) log basis 2 t = log_2 x 2 pangkat x = 2 ^ t kubus akar t = x ^ (1/3) kubus x = t ^ 3 persegi t root = x ^ (1/2) persegi x = t ^ 2 Bagaimana melakukan transformasi di Stata Dasar pertama langkah 1. Gambarkan grafik data untuk melihat seberapa jauh pola dalam data sesuai dengan paling sederhana pola yang ideal. Cobalah dotplot atau menyebarkan sesuai. 2. Lihat apa yang berkisar penutup data. Transformasi akan memiliki pengaruh yang kecil jika kisaran kecil. 3. Pikirkan baik-set data termasuk nol atau negatif nilai. Beberapa transformasi tidak didefinisikan secara matematis untuk beberapa nilai, dan sering mereka membuat sedikit atau tidak ada pengertian ilmiah. Sebagai contoh, saya tidak akan pernah mengubah suhu dalam derajat Celsius atau Fahrenheit untuk alasan ini (Kecuali untuk Kelvin). Nilai standar (rata-rata 0 dan 1 sd) dalam sebuah variabel baru diperoleh dengan . egen stdpopi = std (popi) sedangkan transformasi dasar semua dapat dimasukkan ke dalam variabel baru menghasilkan: . gen recener = 1 / energi . gen logeener = ln (energi) . gen l10ener = log10 (energi) . gen curtener = ^ energi (1/3) . gen sqrtener = sqrt (energi) . gen sqener = energi ^ 2 . gen logitp = logit (p) jika p adalah proporsi . gen logitp = logit (p / 100) jika p adalah persen . gen frootp = sqrt (p) - sqrt (1-p) jika p adalah proporsi . gen frootp = sqrt (p) - sqrt (100-p) jika p adalah persen Akar kubus angka negatif memerlukan perawatan khusus. Stata menggunakan umum rutin untuk menghitung kekuatan dan tidak terlihat untuk kasus-kasus khusus kekuasaan. Setiap kali nilai negatif yang hadir, resep yang lebih umum untuk akar kubus adalah tanda (x) * (abs (x) ^ (1/3)). Komentar serupa berlaku untuk kelima, ketujuh, akar dll Catatan pesan tentang nilai-nilai yang hilang dengan hati-hati: kecuali jika Anda telah hilang nilai-nilai dalam variabel asli, mereka menunjukkan upaya untuk menerapkan transformasi jika tidak didefinisikan. (Apakah Anda memiliki nol atau negatif nilai, misalnya?) Hal ini tidak selalu diperlukan untuk membuat sebuah variabel berubah sebelum bekerja dengan itu. Secara khusus, banyak perintah grafik memungkinkan pilihan yscale (log) dan XScale (log). Hal ini sangat berguna karena grafik adalah berlabel menggunakan nilai-nilai asli, tetapi tidak meninggalkan sebuah log-transformasi variabel dalam memori. Perintah lain Stata menawarkan berbagai perintah lain yang dirancang untuk membantu Anda memilih transformasi. tangga, gladder dan qladder mencoba beberapa transformasi variabel dengan tujuan menunjukkan seberapa jauh mereka menghasilkan lebih hampir normal (Gaussian) distribusi. Dalam prakteknya perintah tersebut dapat membantu, atau mereka dapat membingungkan pada tingkat dasar: untuk contoh, mereka dapat menyarankan mengubah bertentangan dengan apa pengetahuan ilmiah Anda akan menunjukkan. boxcox dan lnskew0 adalah perintah yang lebih canggih yang seharusnya digunakan hanya setelah mempelajari penjelasan buku teks apa yang mereka lakukan. Kotak dan Cox (1964) adalah referensi asli kunci. Bagi sebagian orang statistik perdebatan mengenai transformasi sebagian besar side-melangkah dengan munculnya model linear umum. Dalam model tersebut, estimasi dilakukan pada skala ditransformasikan menggunakan link tertentu fungsi, tetapi hasilnya dilaporkan pada skala asli dari respon. Perintah Stata adalah GLM. Transformasi untuk proporsi dan persen (lebih maju) Data yang proporsi (antara 0 dan 1) atau persen (antara 0 dan 100) sering mendapat manfaat dari transformasi khusus. Yang paling umum adalah logit (atau logistik) transformasi, yaitu logit p = log (p / (1 - p)) untuk proporsi OR logit p = log (p / (100 - p)) untuk persen di mana p adalah proporsi atau persen. Transformasi ini memperlakukan nilai-nilai yang sangat kecil dan sangat besar simetris, menarik keluar ekor dan menarik di tengah sekitar 0,5 atau 50%. Plot p terhadap logit p demikian pipih S-bentuk. Strictly, logit p tidak dapat ditentukan nilai-nilai ekstrim 0 dan 1 (100%): jika mereka terjadi pada data, perlu ada beberapa penyesuaian. Salah satu alasan untuk transformasi logit ini mungkin membuat sketsa di hal proses difusi seperti penyebaran keaksaraan. Push dari nol untuk beberapa persen mungkin memakan waktu yang adil; sekali keaksaraan dimulai menyebarkan kenaikannya menjadi lebih cepat dan kemudian pada gilirannya memperlambat; dan akhirnya beberapa persen terakhir mungkin sangat lambat dalam mengkonversi ke keaksaraan, seperti yang kita dibiarkan dengan terisolasi dan canggung, yang paling lambat untuk mengambil setiap hal yang baru. Kurva yang dihasilkan demikian pipih S-bentuk terhadap waktu, yang pada gilirannya membuat linear lebih hampir dengan mengambil logits melek huruf. Secara formal, ide yang sama dibenarkan karena membayangkan bahwa adopsi (infeksi, apa pun) sebanding dengan jumlah kontak antara mereka yang melakukan dan mereka yang tidak, yang akan naik dan kemudian jatuh kuadratik. Secara umum, ada banyak hubungan di yang diprediksi nilai tidak logis kurang dari 0 atau lebih dari 1 (100%). Menggunakan logits adalah salah satu cara untuk memastikan hal ini: jika model mungkin menghasilkan prediksi masuk akal. The logit (hanya melihat kasus proporsi) logit p = log (p / (1 - p)) dapat ditulis ulang logit p = log p - log (1 - p) dan dalam bentuk ini dapat dilihat sebagai anggota dari suatu himpunan dilipat transformasi Transformasi p = sesuatu yang dilakukan untuk p - sesuatu yang dilakukan untuk (1 - p). Dengan cara ini penulisan membawa keluar cara simetris yang sangat tinggi dan sangat rendah nilai diperlakukan. (Jika p kecil, 1 - p besar, dan wakil versa.) logit ini kadang-kadang disebut log dilipat. Yang paling sederhana transformasi seperti lainnya adalah akar dilipat (yang berarti akar kuadrat) akar dilipat p = akar p - akar (1 - p). Seperti akar kuadrat dan logaritma umum, akar dilipat memiliki Keuntungan yang dapat diterapkan tanpa penyesuaian nilai-nilai data 0 dan 1 (100%). Akar dilipat adalah transformasi lemah dari logit tersebut. Dalam prakteknya digunakan jauh lebih sering. Dua transformasi lain untuk proporsi dan persen bertemu di tua literatur (dan masih digunakan sesekali) adalah sudut dan probit tersebut. Angular adalah arcsin (akar p) atau sudut yang sinus adalah akar kuadrat dari p. Dalam prakteknya, itu berperilaku sangat mirip p ^ 0.41 - (1 - p) ^ 0.41, yang pada gilirannya dekat p ^ 0,5 - (1 - p) ^ 0,5, yang merupakan cara lain untuk menulis akar dilipat (Tukey 1960). Probit yang adalah transformasi dengan koneksi matematis untuk normal (Gaussian) distribusi, yang tidak hanya sangat mirip dalam perilaku yang logit, tetapi juga lebih canggung untuk bekerja dengan. Akibatnya, sekarang kurang terlihat, kecuali dalam banyak aplikasi canggih, di mana ia tetap beberapa keuntungan. Transformasi sebagai sebuah keluarga (lebih maju) Transformasi utama yang disebutkan sebelumnya, dengan pengecualian dari logaritma, yaitu timbal balik, akar pangkat, akar kuadrat dan persegi, yang semua kekuatan. Kekuasaan yang bersangkutan timbal balik -1 kubus akar 1/3 akar kuadrat 1/2 persegi 2 Perhatikan bahwa urutan penjelasan itu tidak berubah-ubah, tetapi dalam nomor urut kekuasaan. Oleh karena itu, transformasi ini semua anggota keluarga. Selain itu, bertentangan dengan apa yang mungkin muncul pada awalnya penglihatan, logaritma benar-benar termasuk dalam keluarga juga. Mengetahui hal ini adalah penting untuk menghargai bahwa transformasi yang digunakan dalam praktek adalah bukan hanya tas trik, tapi serangkaian alat dengan ukuran yang berbeda atau kekuatan, seperti satu set obeng atau bor. Dengan demikian kita bisa mengisi out urutan ini, tangga transformasi seperti itu kadang-kadang diketahui, dengan kekuasaan lebih, seperti misalnya di timbal balik persegi -2 timbal balik -1 (Hasil satu) 0 kubus akar 1/3 akar kuadrat 1/2 Identitas 1 persegi 2 kubus 3 kekuatan keempat 4 Di antara penambahan sini, transformasi identitas, mengatakan x ^ 1 = x, adalah transformasi yaitu, dalam arti, tidak ada transformasi. Grafik x terhadap x secara alami garis lurus dan jadi kekuatan 1 membagi transformasi yang grafiknya atas cembung (kekuatan kurang dari 1) dari transformasi yang grafiknya cekung ke atas (kekuatan lebih besar dari 1). Powers kurang dari 1 pemerasan nilai tinggi bersama-sama dan meregangkan nilai rendah terpisah, dan kekuatan lebih dari 1 melakukan hal yang sebaliknya. Transformasi x ^ 0, di sisi lain, adalah merosot, seperti yang selalu menghasilkan 1 sebagai hasilnya. Namun, sekarang kita akan melihat bahwa dalam log rasa yang kuat x (artinya, ketat, logaritma natural atau ln x) benar-benar milik di keluarga pada posisi kekuasaan 0. Jika Anda tahu kalkulus, Anda akan tahu bahwa urutan kekuasaan ..., X ^ -3, x ^ -2, x ^ -1, x ^ 0, x ^ 1, x ^ 2, ... telah sebagai integral, selain konstanta aditif, ..., X ^ -2/2, -x ^ -1, ln x, x, x ^ 2/2, x ^ 3/3, ... dan pemetaan dapat dibalik dengan diferensiasi. Jadi mengintegrasikan x ^ (p - 1) hasil x ^ p / p, kecuali p adalah 0, dalam hal ini menghasilkan ln x. Jadi kita dapat menentukan keluarga t_p (x) = x ^ p jika p! = 0, = Ln x jika p == 0. Gagasan memilih dari keluarga ketika kita memilih kekuasaan atau logaritma adalah ide kunci. Oleh karena itu kita biasanya dapat memilih anggota yang berbeda keluarga jika transformasi ternyata terlalu lemah, atau terlalu kuat, untuk tujuan kita dan data kami. Banyak diskusi transformasi fokus pada keluarga yang sedikit berbeda, untuk berbagai alasan matematika dan statistik. Kanonik yang referensi di sini adalah Box dan Cox (1964), meskipun catatan juga sebelumnya bekerja dengan Tukey (1957). Paling umum, definisi diubah menjadi t_p (x) = (x ^ p - 1)! / p jika p = 0, = Ln x jika p == 0. T ini (x, p) memiliki berbagai sifat yang menunjukkan kemiripan up keluarga. 1. Pada x adalah batas sebagai p -> 0 dari (x ^ p - 1) / p. 2. Pada x = 1, t_p (x) = 0, untuk semua hal. 3. turunan pertama (laju perubahan) dari t_p (x) adalah x ^ (p - 1)! Jika p = 0 dan 1 / x jika p == 0. Pada x = 1, ini selalu 1. 4. Turunan kedua t_p (x) adalah (p - 1) x ^ (p - 2)! Jika p = 0 dan -1 / X ^ 2 jika p == 0. Pada x = 1, ini selalu (p - 1). Perubahan lain kecil definisi memiliki beberapa konsekuensi yang sama, namun juga beberapa keuntungan lain. Mempertimbangkan t_p (x) = [(x + 1) ^ p - 1]! / p jika p = 0, = Ln (x + 1) jika p == 0. T ini (x, p) memiliki berbagai properti yang juga menunjukkan up keluarga kemiripan. 1. Jika p = 1, t_p (x) = x. 2. Pada x = 0, t_p (x) = 0, untuk semua hal. Jadi semua kurva mulai asal. 3. turunan pertama (laju perubahan) dari t_p (x) adalah (x + 1) ^ (p - 1) jika p! = 0 dan 1 / (x + 1) jika p == 0. Pada x = 0, ini selalu 1. Jadi kurva memiliki kemiringan yang sama pada titik asal. 4. Turunan kedua t_p (x) adalah (p - 1) (x + 1) ^ (p - 2)! Jika p = 0 dan -1 / (x + 1) ^ 2 jika p == 0. Pada x = 0, ini selalu (p - 1). Konsekuensi yang paling berguna, bagaimanapun, adalah bahwa definisi ini dapat diperpanjang lebih mudah untuk variabel yang dapat menjadi positif dan negatif, seperti sekarang akan terlihat. Transformasi variabel yang positif dan negatif (lebih maju > D) Sebagian besar literatur tentang transformasi berfokus pada salah satu atau kedua dari dua situasi terkait: variabel yang bersangkutan adalah sangat positif; atau itu nol atau positif. Jika situasi pertama tidak tahan, beberapa transformasi tidak menghasilkan hasil bilangan real (terutama, logaritma dan resiprokal); jika situasi kedua tidak tahan, kemudian beberapa lainnya transformasi tidak menghasilkan hasil bilangan real atau lebih umumnya tidak tampil berguna (akar terutama, persegi atau kotak). Namun, dalam beberapa situasi variabel respon pada khususnya dapat menjadi positif dan negatif. Hal ini biasa terjadi setiap kali respon keseimbangan, perubahan, perbedaan atau turunan. Meskipun variabel tersebut sering miring, properti yang paling canggung yang dapat mengundang transformasi berat (panjang atau lemak) ekor, kurtosis tinggi dalam satu terminologi. Nol biasanya memiliki makna substantif yang kuat, sehingga kita ingin melestarikan perbedaan antara nilai-nilai negatif, nol dan positif. (Catatan Celsius itu atau Suhu Fahrenheit tidak benar-benar memenuhi syarat di sini, seperti nol poin mereka secara statistik sewenang-wenang, untuk semua pentingnya apakah air mencair atau membeku.) Dalam keadaan seperti ini, pengalaman dengan hak-miring dan ketat variabel positif mungkin menyarankan mencari transformasi yang berperilaku seperti ln x saat x positif dan seperti -ln (x) ketika x adalah negatif. Ini masih menyisakan masalah apa yang harus dilakukan dengan nol. Selain itu, jelas dari sketsa saja yang (dalam hal Stata) cond (x 0, 0 jika x == 0 dan -1 jika x

transf ormations

Documents