Co to jest strona internetowa?

https://www.facebook.com/1105370079540013/

SKN Data Science Management SGH, Warsaw (2026)

06/06/2024

❗️❗️❗️Nasz projekt na dużej konferencji ❗️❗️❗️

W imieniu wszystkich członków SKN Data Science Management pragniemy was zaprosić na konferencję MedTech 4.0 – (R)ewolucja w medycynie i biznesie! Jest to wydarzenie poświęcone wykorzystaniu AI i nowoczesnych technologii w biznesie w branży medycznej na którym będziecie mieli okazję zaczerpnąć dużą dawkę wiedzy i inspiracji od prawdziwych ekspertów w branży. 👀👩‍🔬🦸‍♂️

Dla nas jest to wyjątkowe wydarzenie, ponieważ weźmiemy w nim czynny udział! W sobotę zaprezentujemy wam efekty naszej ciężkiej pracy, czyli projekt czymoddycham.pl poświęcony wpływowi zanieczyszczenia powietrza na wystąpienie zawału serca tworzony we współpracy z Warszawski Uniwersytet Medyczny.💕👩‍🔬

Z tego miejsca pragniemy serdecznie podziękować Blockchain Society Poland i dr Wojciech Kurowski za możliwość wystąpienia na konferencji, a także gratulacje za organizację wydarzenia tej skali. 🤝👏⭐️

Wstęp na wydarzenie jest wolny, w celu uczestnictwa prosimy o wypełnienie formularza: https://docs.google.com/forms/d/e/1FAIpQLSdSZWZZWPL0wNXhjIy2EtYYnVFJfMwVlza5NobHT7eOd9ZD7Q/viewform

Wszystkich zainteresowanych zapraszamy w sobotę 8 czerwca do budynku G SGH przy al. Niepodległości 152 od godziny 10. Jeszcze raz gratulujemy organizatorom, widzimy się w sobotę! 🎉🎉🎉

18/04/2024

Być normalnym? Co to znaczy❓❓❓ Nie wiemy, ale wiemy co znaczy rozkład normalny!

W statystyce, "normalność rozkładu" odnosi się do charakterystyki rozkładu danych, które przypominają kształt tzw. rozkładu normalnego, potocznie znane jako krzywa dzwonowa. Ten rodzaj rozkładu jest powszechnie spotykany w naturze i jest kluczowy dla wielu metod statystycznych.📈👀

Główne cechy normalności rozkładu obejmują:
Symetria: Rozkład normalny jest symetryczny względem środka, co oznacza, że jego lewa i prawa strona są lustrzanymi odbiciami.
Jednostajność: Dane są równomiernie rozłożone wokół środka rozkładu, tworząc charakterystyczny kształt dzwonu.
Punkty odstające: W normalnym rozkładzie, punkty odstające są rzadkie. Większość danych skupia się wokół średniej, a odchylenie standardowe określa, jak bardzo wartości różnią się od tej średniej.
średnia i mediana są sobie równe; obie miary zlokalizowane są w środku rozkładu
~68% danych znajduje się w przedziale do 1 odchylenia standardowego od średniej
~95% danych znajduje się w przedziale do 2 odchyleń standardowych od średniej
~99,7% danych znajduje się w przedziale do 3 odchyleń standardowych od średniej

Normalność rozkładu jest kluczowym założeniem wielu testów statystycznych i procedur analizy danych. Umożliwia to stosowanie metod opartych na własnościach rozkładu normalnego, co pozwala na dokładniejsze wnioskowanie na temat populacji na podstawie próby danych.📈📈
W praktyce, normalność rozkładu danych często jest sprawdzana za pomocą różnych testów statystycznych, takich jak test Kołmogorowa-Smirnowa czy test Shapiro-Wilka. Jednak nawet gdy dane nie są idealnie normalne, istnieją techniki statystyczne, które mogą być stosowane z pewnymi zastrzeżeniami, a także są metody transformacji danych, które mogą pomóc przybliżyć rozkład do normalności.
Pamiętajmy jednak, że normalność rozkładu jest jednym z wielu aspektów analizy danych, a jej brak nie zawsze oznacza błędność analizy. Ważne jest, aby stosować odpowiednie metody statystyczne, które uwzględniają charakterystykę danych i cel badania.

11/04/2024

Jak wiadomo, najważniejsze w życiu jest zaufanie, a więc dzisiaj o przedziałach ufności!
😊 📊
Zacznijmy od tego, co to są przedziały ufności. Przedział ufności to zakres wartości, w którym z dużym prawdopodobieństwem znajduje się prawdziwa wartość parametru populacji. Przedział ten obliczany jest na podstawie statystyki próbowej, takiej jak średnia arytmetyczna czy odchylenie standardowe, oraz wartości krytycznej, która zależy od poziomu ufności i rozmiaru próby. 📊

Poziom ufności to prawdopodobieństwo, że obliczony przedział ufności będzie zawierał prawdziwą wartość parametru populacji. Najczęściej stosuje się poziomy ufności równe 90%, 95% lub 99%. Im wyższy poziom ufności, tym szerszy przedział ufności. 📈

Przedziały ufności są bardzo przydatne w praktyce, ponieważ pozwalają określić, jak dokładnie wyniki próby odzwierciedlają rzeczywistość. Dzięki nim możemy wyciągać wnioski o populacji na podstawie badanej próby. 🔍

Przykładowo, jeśli przeprowadzimy badanie na próbie 100 studentów i obliczymy, że średnia ich wieku wynosi 22 lata, ale chcemy wiedzieć, jaki jest przedział ufności dla tej średniej, to musimy ustalić poziom ufności i obliczyć odpowiednią wartość krytyczną. Jeśli przyjmiemy poziom ufności równy 95%, to na podstawie rozkładu studenta i rozmiaru próby obliczymy wartość krytyczną, która pozwoli nam obliczyć przedział ufności. 📏

W ten sposób możemy wyznaczyć przedział, w którym z prawdopodobieństwem 95% znajduje się prawdziwa średnia wieku wszystkich studentów. Jeśli na przykład obliczymy, że przedział ufności to [21; 23], oznacza to, że z prawdopodobieństwem 95% prawdziwa średnia wieku studentów znajduje się w przedziale od 21 do 23 lat. 🧑‍🎓

Warto zaznaczyć, że im większa próba, tym węższy przedział ufności i tym bardziej precyzyjne szacunki parametrów populacji. Tak więc zbieranie jak największej próby jest bardzo ważne w badaniach statystycznych. 📈
Przedziały ufności są stosowane w wielu dziedzinach, takich jak medycyna, ekonomia, psychologia czy marketing, i pozwalają na dokładne szacowanie parametrów populacji na podstawie próby losowej. 💼

04/04/2024

Ostatnio panuje moda na bycie niezależnym, więc i my wspomnimy o niezależności, ale w statystyce. Dzisiaj o Chi-kwadrat (χ²) 😎

Chi-kwadrat (χ²) to statystyczny test używany do określenia, czy istnieje istotna różnica między oczekiwaną a obserwowaną częstością występowania różnych zdarzeń. Jest używany w analizie danych, aby określić, czy obserwowane częstości różnią się od tych oczekiwanych na podstawie pewnej hipotezy.🧐🧐

Test chi-kwadrat polega na porównaniu wartości obserwowanych z wartościami oczekiwanymi. W zależności od konkretnego kontekstu, wartości obserwowane mogą być np. liczbą obiektów w różnych kategoriach, częstościami zdarzeń w grupach czy też wynikami w badaniach. Wartości oczekiwane są wyliczane na podstawie założonego modelu teoretycznego lub hipotezy zerowej.➕

Istnieją różne warianty testu chi-kwadrat, z których najczęściej spotykanymi są:

Test niezależności chi-kwadrat: Służy do sprawdzenia, czy występuje związek między dwoma zmiennymi kategorycznymi. Zmienne kategoryczne, czyli zmienne, które reprezentują kategorie lub grupy, a ich wartości są wyrażone w formie etykiet lub nazw. Zmienne te nie mają porządku naturalnego, co oznacza, że nie można ich uporządkować w sposób numeryczny. Zamiast tego, kategorie są rozróżnialne jedynie na podstawie przynależności do danej grupy.

Test zgodności chi-kwadrat: Wykorzystywany, gdy chcemy porównać obserwowane częstości z danymi oczekiwanymi z jednej zmiennej, takiej jak rozkład populacji.

W przypadku testu niezależności, hipoteza zerowa zakłada brak związku między zmiennymi, podczas gdy w przypadku testu zgodności zakłada się, że obserwowane częstości zgadzają się z danymi oczekiwanymi. O ile wynik testu wskazuje na istotną różnicę między obserwowanymi a oczekiwanymi wartościami, o tyle odrzucana jest hipoteza zerowa na korzyść alternatywnej, która sugeruje istnienie związku lub różnicy. 👀

W przypadku odrzucenia hipotezy zerowej, wynik testu sugeruje istnienie istotnej statystycznie różnicy między danymi obserwowanymi a oczekiwanymi, co może prowadzić do dalszej analizy lub wnioskowania w kontekście badanej dziedziny.

28/03/2024

PowerBI? a komu to potrzebne❓ Dzisiaj omawiamy biblioteki ułatwiające wizualizację danych wewnątrz języków.👀

Jeżeli nie jesteśmy użytkownikiem końcowym analizy, lub jeżeli chcemy przedstawić wyniki naszych analiz w sposób zrozumiały i atrakcyjny, to warto się w te biblioteki zagłębić. Tutaj wkracza kolejna fascynująca dziedzina Data Science, która nie tylko pozwala zgłębiać ukryte wzorce i trendy w danych, ale także umożliwia ich wizualizację w sposób, który jest zarówno przystępny, jak i inspirujący.🤓

Ważnym narzędziem w arsenale każdego Data Scientist są potężne biblioteki wizualizacyjne, które umożliwiają konwersję surowych danych na wykresy, grafiki i mapy. Dzięki nim możliwe jest nie tylko lepsze zrozumienie danych, ale również skuteczniejsze przekazywanie wniosków i wyników analiz.

📊 Matplotlib (Python): Jest to jedna z najstarszych i najbardziej wszechstronnych bibliotek wizualizacyjnych w języku Python. Matplotlib oferuje szeroki zakres możliwości, od prostych wykresów liniowych po skomplikowane mapy cieplne i trójwymiarowe wykresy.📈🐍

🔍 Seaborn (Python): Dla tych, którzy szukają bardziej zaawansowanych i estetycznych wizualizacji danych, Seaborn jest idealnym wyborem. Zbudowana na bazie Matplotlib, Seaborn oferuje łatwe w użyciu interfejsy do tworzenia wykresów statystycznych, które potrafią wyeksponować najbardziej subtelne zależności w danych.🐍🐍🐍

🎨 ggplot2 (R): Równie niezastąpiona dla miłośników języka R, ggplot2 przynosi koncepcję "Grammar of Graphics" do życia, umożliwiając tworzenie wykresów w sposób logiczny i intuicyjny. Dzięki ggplot2, skomplikowane analizy danych mogą być łatwo przedstawione w formie atrakcyjnych grafik.

📈 Plots.jl: Jest to uniwersalna biblioteka wizualizacyjna w języku Julia, która oferuje intuicyjne API do tworzenia różnorodnych wykresów. Dzięki Plots.jl możesz szybko tworzyć wykresy o różnej złożoności, od prostych diagramów słupkowych po zaawansowane wizualizacje 3D.

21/03/2024

Dziś przechodzimy do kolejnego klasyka, czyli biblioteki Scikit-learn!

Scikit-learn to bezsprzecznie jedna z najbardziej cenionych bibliotek w świecie machine learningu dla języka Python. Jej uniwersalność sprawia, że jest niezastąpionym narzędziem dla każdego, kto zajmuje się analizą danych i budowaniem modeli predykcyjnych.

Biblioteka ta oferuje bogaty zestaw algorytmów uczenia maszynowego, w tym klasyfikację, regresję, klastrowanie, redukcję wymiarowości i wiele innych. Dzięki spójnemu interfejsowi, korzystanie z tych algorytmów jest intuicyjne i łatwe, nawet dla osób początkujących. 🤖📊

Scikit-learn posiada obszerną i starannie udokumentowaną bibliotekę, co ułatwia zarówno naukę, jak i codzienną pracę z biblioteką. Ponadto, aktywna społeczność użytkowników jest gotowa do udzielenia pomocy i wsparcia, co sprawia, że rozwiązywanie problemów staje się łatwiejsze i bardziej efektywne. 📘👩💻
Doskonale współpracuje z innymi popularnymi bibliotekami Pythona, takimi jak NumPy, Pandas o którym rozmawialiśmy w poprzednim tygodniu czy Matplotlib. Dzięki temu użytkownicy mogą łatwo integrować funkcjonalności Scikit-learn z innymi narzędziami do analizy danych i wizualizacji, tworząc kompleksowe rozwiązania analizy danych. 🧩🔬

Scikit-learn został zoptymalizowany pod kątem wydajności i skalowalności, co oznacza, że może obsługiwać zarówno małe, jak i duże zbiory danych. Ponadto, biblioteka ta oferuje możliwość wykorzystania technik równoległego przetwarzania, co przyspiesza proces trenowania modeli na wielu rdzeniach procesora. 🚀⚡️
Podsumowując, jeśli chcesz być w grze w świecie machine learningu z Pythonem, to Scikit-learn to Twoje must-have. Łatwość użycia, wszechstronność i wydajność - to wszystko czyni ją niezastąpionym partnerem w Twojej przygodzie z analizą danych i modelowaniem predykcyjnym!

14/03/2024

Dziś wchodzimy trochę głębiej, zaczynamy omawianie bibliotek, najlepsze na początek, czyli Pandas! 🐼🐼🐼

Pandas to najpopularniejsza biblioteka oprogramowania do manipulacji i analizy danych dla języka programowania Python. Jest też bez wątpienia jedną z najbardziej klasycznych i wyjątkowych bibliotek w dziedzinie data science. Oprócz pythona, do napisania jej kodu źródłowego wykorzystano także język C. Sama nazwa pochodzi z ekonometrii od “Panel Data”. Istnieje wiele powodów, dla których pandas jest uważany za niezbędny element w analizie danych:

Łatwość w obsłudze danych: Pandas zapewnia intuicyjne i łatwe w użyciu struktury danych, przede wszystkim takie jak DataFrame, które są bardzo podobne do arkuszy kalkulacyjnych (jak w Excelu). Pozwala to na szybkie wczytywanie, przetwarzanie i manipulację danymi bez potrzeby korzystania z bardziej skomplikowanych operacji. 📊🚀

Wszechstronność: Biblioteka pandas oferuje szeroki zakres funkcji do manipulacji danych, w tym operacje filtrowania, grupowania, sortowania, łączenia, czy też obliczania statystyk opisowych. Dzięki temu badacze danych mogą wygodnie przeprowadzać różnorodne analizy, bez konieczności korzystania z wielu różnych narzędzi. 🛠️

Obsługa brakujących danych: Pandas posiada wbudowane metody do radzenia sobie z brakującymi danymi, które w świecie data science się zdarzają. Posiada możliwość wygodnego usuwania, uzupełniania lub interpolowania brakujących wartości pozwala na zachowanie spójności i dokładności analizy. 🔄

Wsparcie dla różnych formatów danych: Pandas umożliwia wczytywanie i zapisywanie danych w wielu popularnych formatach, takich jak CSV, Excel, SQL, JSON, czy też HDF5. Dzięki temu użytkownicy mogą łatwo pracować z danymi z różnych źródeł i w różnych formatach. 📁

Łączenie z innymi bibliotekami: Pandas integruje się dobrze z innymi potężnymi bibliotekami Pythona, takimi jak NumPy, Matplotlib czy też Scikit-learn. Dzięki temu użytkownicy mogą wykorzystać pełnię możliwości tych bibliotek wraz z funkcjonalnościami pandas, tworząc potężne narzędzia do analizy danych i modelowania. 📈

Aktywna społeczność i obszerna dokumentacja: Pandas posiada ogromną społeczność użytkowników oraz dobrze udokumentowane API. To oznacza, że nowi użytkownicy mogą łatwo znaleźć wsparcie i porady, a także szybko się nauczyć korzystania z biblioteki. 🌐

W świecie data science i środowisku pythona Pandas jest absolutnym GOATem i członkiem kolekcji klasyki każdego szanującego się data scientista bez której ciężko byłoby sobie wyobrazić funkcjonowanie w danych, jakie znamy. 🚀

07/03/2024

🐍📊 "Granice mojego języka wyznaczają granice mojego świata", jak to się ma w Data Science? Dziś przyjrzymy się najpopularniejszym językom programowania!

🐍 Python w Data Science:
Python to niekwestionowany lider w świecie analizy danych. Dzięki bibliotekom takim jak NumPy, Pandas, czy Matplotlib, Python oferuje potężne narzędzia do manipulacji danymi, wizualizacji i analizy statystycznej. Dodatkowo mamy popularne frameworki takie jak TensorFlow czy PyTorch oraz bibliotekę scikitlearn, które sprawiają, że Python jest także świetnym wyborem do uczenia maszynowego.

📊 Język R w Data Science:
Język R odgrywa istotną rolę w świecie analizy danych i Data Science. Jest ceniony za bogactwo dedykowanych pakietów do analizy statystycznej, wizualizacji danych oraz modelowania predykcyjnego. Pakiety takie jak ggplot2, dplyr czy tidyr stanowią fundament narzędzi używanych przez analityków danych do eksploracji i interpretacji danych. Ponadto, R oferuje szeroką gamę rozszerzeń do analizy danych czasowych, bioinformatyki, czy eksploracji danych geoprzestrzennych. Dzięki swojej specjalizacji i wsparciu społeczności, język R pozostaje kluczowym graczem w ekosystemie Data Science, szczególnie w obszarach, gdzie analiza statystyczna odgrywa kluczową rolę.

📈 Julia w Data Science:
Julia to stosunkowo nowy język programowania, który zyskuje na popularności wśród analityków. Jest ceniony za swoją wydajność, pozwalającą na szybkie obliczenia numeryczne. Dzięki specjalnie zaimplementowanym pakietom takim jak DataFrames.jl czy Plots.jl, Julia jest użyteczna zarówno dla analizy danych, jak i prezentacji wizualnej.

🚀 Scala w Data Science:
Scala, będąca językiem kompatybilnym z platformą Java, zdobywa uznanie w środowisku Data Science. Dzięki narzędziom takim jak Apache Spark, Scala umożliwia przetwarzanie dużych zbiorów danych w sposób równoległy i efektywny. Scala w połączeniu z Sparkiem jest szczególnie ceniona w dziedzinie analizy danych na dużą skalę.

🤔 Ostateczny wybór języka zależy od konkretnych potrzeb projektu oraz osobistych preferencji. My podaliśmy tylko te najpopularniejsze. Python jest wszechstronny i posiada ogromną społeczność, Julia oferuje wydajność w obliczeniach numerycznych, a Scala z Apache Spark stanowi potężne narzędzie do przetwarzania rozproszonego. Wybierając język, warto zastanowić się nad kontekstem projektu oraz tym, co będzie najbardziej efektywne dla konkretnych celów analizy danych.

29/02/2024

A dzisiaj trochę o sieciach GAN, co to takiego❓❓

Sieci GAN (Generative Adversarial Networks) to rodzaj modelu uczenia maszynowego, który składa się z dwóch głównych komponentów: generatora i dyskryminatora. 👀

Co robią poszczególne komponenty❓

Generator: Jest to sieć neuronowa, która generuje nowe przykłady danych. Na przykład, jeśli pracujemy z obrazami, generator próbuje stworzyć obrazy, które wyglądają jak prawdziwe. Na początku, gdy model jest niewytrenowany, generowane obrazy mogą być losowe i nieprzekonujące. Jednak w miarę treningu, generator staje się coraz lepszy w produkowaniu realistycznych danych. 💪

Dyskryminator: Jest to również sieć neuronowa, ale działa jako klasyfikator binarny. Jego zadaniem jest odróżnianie prawdziwych danych od tych wygenerowanych przez generator. Dla przykładu obrazów, dyskryminator stara się rozróżniać prawdziwe obrazy od tych wygenerowanych przez generator. 🧐🧐

Trening sieci GAN polega na iteracyjnej grze pomiędzy generatorem a dyskryminatorem:

Generator próbuje produkować dane, które są jak najbardziej zbliżone do prawdziwych, aby oszukać dyskryminatora.
Dyskryminator stara się nauczyć odróżniać prawdziwe dane od tych wygenerowanych przez generator.
Te dwie sieci są trenowane jednocześnie, a ich zdolności ewoluują w trakcie treningu.
Istotą sieci GAN jest to, że obie sieci są ze sobą sprzeczne (stąd nazwa "adwersarialne"). Generator stara się oszukać dyskryminatora, podczas gdy dyskryminator stara się wykryć fałszywe dane generowane przez generator. 📈

W rezultacie, podczas gdy generator stara się produkować coraz lepsze podróbki danych, dyskryminator staje się coraz lepszy w ich wykrywaniu. Dzięki tej dynamicznej interakcji, obie sieci są w stanie osiągnąć wysoki poziom jakości generowanych danych. Gra kończy się w momencie, gdy dyskryminator nie jest w stanie odróżnić prawdziwego obrazu od wygenerowanej kopii przez generator. 😎

Odpowiednio wytrenowane generatory mogą działać bez konieczności istnienia dyskryminatora. Jedną z najpopularniejszych aplikacji wykorzystujących sieci GAN jest Faceapp, gdzie mogliśmy bez problemu dorobić sobie wąsy, brodę, lub bujne afro.🤓🤠

22/02/2024

Sorry, ale też musimy wspomnieć o SORA 😅

A właściwie o tym, czym jest generatywne AI❓❓❓

Ogólnie rzecz biorąc, można powiedzieć, że generatywne AI to po prostu gałąź sztucznej inteligencji i uczenia maszynowego, na podstawie której maszyny są zdolne do generowania nowych, autentycznych treści na podstawie istniejących danych. Jednak należy podkreślić tu pewną wyjątkowość generatywnego AI. Generatywne modele AI, poprzez wykorzystanie sieci neuronowych, generują zupełnie nowe instancje treści na podstawie identyfikowania wzorców i struktur zawartych w danych, na których zostały wytrenowane. Generatywna sztuczna inteligencja ma także zdolność do generowania różnych typów danych. 🤖📊

Generatywna sztuczna inteligencja to forma AI, która tworzy treści, takie jak tekst, obrazy, a jak się także okazało dzięki ujawnieniu informacji na temat SORA, jest w stanie generować także wysokiej jakości filmy. Proces tworzenia polega na analizie ogromnych zbiorów danych, a następnie na naśladowaniu charakterystycznych cech i wzorców, aby stworzyć coś zupełnie nowego. Dzięki temu generatywne AI ma większe możliwości niż tylko do reprodukcji treści. 🎨🎬

Wśród rodzajów generatywnej sztucznej inteligencji możemy wyróżnić m.in. modele oparte na transformacji, które pozwalają na przeanalizowanie całego kontekstu tekstu wejściowego, umożliwiając generowanie kontekstowo spójnego i składnego tekstu, jednocześnie bawiąc się słowami wedle "własnego uznania", sieci GAN, czyli sieci generatywnych przeciwników, czy VAE (Variational Autoencoders), czyli autoenkodery wariancyjne. 📝✨

W kontekście narzędzi takich jak DALL-E, stable diffusion (które wygenerowało nam tego pieska), czy najnowsza i najbardziej zaawansowana SORA istotą jest fakt, że do tej pory programy potrafiły wykonywać jedynie ściśle określone przez programistę polecenia, nie wykraczając poza granice tego, w jaki sposób zostały napisane, nauczone. To, co prezentuje, na przykład, SORA, daleko wykracza poza nakreśloną przez nas przestrzeń, dzięki mechanizmowi samouczenia. Nasz prompt jest oczywiście instrukcją, jednak niesamowita ilość detali jest już efektem zdolności, jakie posiada model i jakie sam postanawia umieścić, ponieważ na podstawie tego, w jaki sposób został nauczony, uznaje, że będą one odpowiednie w danym kontekście. 🧠🚀

15/02/2024

Jak stworzyć turbowzmocnione drzewo decyzyjne❓ 🌳🚀 Dziś przyjrzymy się Gradient Boosting'owi!

Gradient Boosting to zaawansowana technika nadzorowanego uczenia maszynowego, która również znajduje szerokie zastosowanie w zadaniach klasyfikacji oraz regresji. W przeciwieństwie do lasów losowych, które opierają się na współpracy wielu drzew decyzyjnych, Gradient Boosting działa na zasadzie budowy pojedynczego drzewa w iteracyjny sposób, minimalizując błędy prognozowane przez poprzednie drzewo. 🌳🌳🌳

Podstawową ideą Gradient Boostingu jest budowa drzewa decyzyjnego, które koryguje błędy poprzedniego drzewa, skupiając się na obszarach, w których prognozy były niedokładne. Proces ten powtarza się wielokrotnie, a każde kolejne drzewo dostosowuje się do reszt błędów poprzednich drzew, poprawiając skuteczność modelu. W ten sposób tworzymy coraz potężniejsze pojedyncze drzewo. Ostateczny model będzie wynikową agregacją wszystkich drzew decyzyjnych, jakie posłużyły nam w trakcie jego tworzenia. 👀📈

Gradient Boosting wykorzystuje gradient funkcji straty (stąd nazwa), czyli kierunek największego spadku błędu prognozy. Popularne funkcje straty obejmują Mean Squared Error (MSE) w przypadku regresji i Cross-Entropy w przypadku klasyfikacji. Korzyści z Gradient Boostingu obejmują zdolność do modelowania bardziej złożonych wzorców w danych, skuteczność w radzeniu sobie z problemem nadmiernego dopasowania (overfittingu) i umiejętność obsługi różnorodnych typów danych.

Jak wyglądałby proces budowy modelu wykorzystującego Gradient Boosting❓

Na sam początek - pierwsze drzewo próbuje zamodelować dane.
Obliczanie reszt - liczymy różnice między prognozą a rzeczywistą wartością.
Budowa kolejnego drzewa, które koncentruje się na zredukowaniu pozostałych błędów.
Proces powtarzamy, jak już wiemy, każde kolejne drzewo skupi się na korygowaniu reszt poprzednich drzew, powtarzamy aż do osiągnięcia określonej liczby drzew lub osiągnięcia zdefiniowanego przez nas celu. 🌱🌿🌳

08/02/2024

Drzewa omówione, pora na lasy! Dziś kładziemy pod lupę lasy losowe! 🌳🌲🌿

Lasy losowe to potężne narzędzie w obszarze uczenia maszynowego, znakomicie sprawdzające się w klasyfikacji oraz regresji. Składają się z wielu drzew decyzyjnych, które współpracują, aby osiągnąć bardziej stabilne i precyzyjne wyniki. 🌟💡

Podobnie jak drzewa decyzyjne, lasy losowe opierają się na zestawie reguł decyzyjnych wywnioskowanych z danych uczących. 📊🔍 Las składający się z wielu drzew (co nawet brzmi intuicyjnie) wykorzystuje technikę ensemble learning, co oznacza, że łączą wyniki wielu modeli w celu uzyskania lepszej wydajności predykcyjnej. 🌳🌟

W tym przypadku każde drzewo wnosi swój wkład do procesu decyzyjnego, a końcowa klasyfikacja lub prognoza jest rezultatem głosowania wszystkich drzew. 🌟🗳️ Czym jest to głosowanie? Jest to proces klasyfikacji lub predykcji w lesie losowym, w którym wybierane są większościowe wyniki z poszczególnych drzew. 📊🌟 W przypadku klasyfikacji, klasa otrzymująca największą liczbę głosów zostaje uznana za wynik. W przypadku regresji, można uśrednić wyniki z poszczególnych drzew.

Dzięki temu lasy losowe są odporne na pojedyncze błędy i wykazują większą stabilność w różnych sytuacjach. 📊 Podobnie jak w przypadku drzew decyzyjnych, interpretowalność i łatwość wizualizacji są silnymi stronami lasów losowych. Dodatkowo dzięki zastosowaniu wielu drzew, są one bardziej odporne na overfitting, co może występować przy pojedynczych drzewach. 🌟🌳

Proces budowy lasu losowego opiera się na generowaniu wielu drzew decyzyjnych, każdego na podstawie innego podzbioru danych wejściowych. Kombinacja wyników tych drzew prowadzi do ostatecznej prognozy modelu. Kryteria podziału, takie jak entropia czy współczynnik Giniego, są również używane w procesie budowy drzew w ramach lasu losowego. 🌲🌿🔍

SKN Data Science Management SGH

06/06/2024

18/04/2024

11/04/2024

04/04/2024

28/03/2024

21/03/2024

14/03/2024

07/03/2024

29/02/2024

22/02/2024

15/02/2024

08/02/2024

Adres

Strona Internetowa

Ostrzeżenia

Skontaktuj Się Z Firmę

Skróty

Udostępnij