https://ironsoftware.com/csharp/webscraper/tutorials/webscraping-in-c-sharp/#scroll-helloscraper-our-first-ironwebscraper-sample

Cách quét dữ liệu từ các trang web trong C #

Webscraping chưa bao giờ là một nhiệm vụ đơn giản, không có khung thống trị để sử dụng trong môi trường lập trình C # hoặc .Net. Iron Web Scraper đã được tạo ra để thay đổi điều này

C # PDF HTML

Ngày 8 tháng 8 năm 2018 bởi Ahmed Aboelmagd

Cách quét dữ liệu từ các trang web trong C #

IronWebscraper là một Thư viện .Net để quét web, trích xuất dữ liệu web và phân tích nội dung web. Đây là một thư viện dễ sử dụng có thể được thêm vào các dự án Microsoft Visual Studio để sử dụng trong phát triển và sản xuất.

IronWebscraper có nhiều tính năng và khả năng độc đáo như kiểm soát các trang, đối tượng, phương tiện được phép và bị cấm, v.v. Nó cũng cho phép quản lý nhiều danh tính, bộ đệm web và nhiều tính năng khác mà chúng tôi sẽ thảo luận trong tài liệu hướng dẫn này.

Khán giả mục tiêu

Hướng dẫn này nhắm đến các nhà phát triển phần mềm với các kỹ năng lập trình cơ bản hoặc nâng cao, những người muốn xây dựng và triển khai các giải pháp cho khả năng cạo nâng cao (quét trang web, thu thập và trích xuất dữ liệu trang web, phân tích nội dung trang web, thu hoạch web).

Kỹ năng cần có

Các nguyên tắc cơ bản cơ bản của lập trình với các kỹ năng sử dụng một trong các ngôn ngữ Lập trình Microsoft như C # hoặc VB.NET
Hiểu biết cơ bản về Công nghệ web (HTML, JavaScript, JQuery, CSS, v.v.) và cách chúng hoạt động
Kiến thức cơ bản về Bộ chọn DOM, XPath, HTML và CSS

Công cụ

Microsoft Visual Studio 2010 trở lên
Tiện ích mở rộng dành cho nhà phát triển web dành cho trình duyệt, chẳng hạn như trình kiểm tra web cho Chrome hoặc Fireorms cho Firefox

Tại sao phải cạo? (Lý do và khái niệm)

Nếu bạn muốn xây dựng một sản phẩm hoặc giải pháp có khả năng:

Trích xuất dữ liệu trang web
So sánh nội dung, giá cả, tính năng, vv từ nhiều trang web
Quét và lưu trữ nội dung trang web

Nếu bạn có một hoặc nhiều lý do từ những điều trên, thì IronWebscraper là một thư viện tuyệt vời để phù hợp với nhu cầu của bạn

Làm thế nào để cài đặt IronWebScraper?

Sau khi bạn tạo một dự án mới (Xem Phụ lục A), bạn có thể thêm thư viện IronWebScraper vào dự án của mình bằng cách tự động chèn thư viện bằng NuGet hoặc cài đặt DLL thủ công.

Cài đặt bằng NuGet

Để thêm thư viện IronWebScraper vào dự án của chúng tôi bằng NuGet, chúng tôi có thể thực hiện bằng giao diện trực quan (Trình quản lý gói NuGet) hoặc bằng lệnh bằng Bảng điều khiển quản lý gói.

Sử dụng Trình quản lý gói NuGet

Sử dụng chuột -> nhấp chuột phải vào tên dự án -> Chọn quản lý Gói NuGet
Từ tab lông mày -> tìm kiếm IronWebScraper -> Cài đặt
Nhấp vào Ok
Và chúng ta đã xong

Sử dụng Bảng điều khiển gói NuGet

Từ các công cụ -> Trình quản lý gói NuGet -> Bảng điều khiển quản lý gói
Chọn dự án thư viện lớp làm dự án mặc định
Chạy lệnh -> Cài đặt gói IronWebScraper

Cài đặt thủ công

Tới www.ironsoftware.com
Nhấp vào IronWebScraper hoặc truy cập Trang của nó trực tiếp bằng URL https://ironsoftware.com/csharp/webscraper
Nhấp vào Tải xuống DLL.
Giải nén tập tin nén
Trong studio trực quan, nhấp chuột phải vào dự án -> thêm -> tham khảo -> duyệt
Chuyển đến thư mục được giải nén -> bin -> chọn Franklin IronWebScraper.
Và thế là xong!

HelloScraper - Mẫu IronWebScraper đầu tiên của chúng tôi

Như thường lệ, chúng tôi sẽ bắt đầu triển khai Ứng dụng Hello Scraper để thực hiện bước đầu tiên bằng cách sử dụng IronWebScraper.

Chúng tôi đã tạo một Ứng dụng Bảng điều khiển mới với tên là Iron IronScScetterSample

Các bước để tạo mẫu IronWebScraper

Tạo một thư mục và đặt tên cho nó
Sau đó, một lớp mới và đặt tên là

Thêm đoạn mã này vào HelloScraper

public class HelloScraper : WebScraper
{
    /// <summary>
    /// Override this method initialize your web-scraper.
    /// Important tasks will be to Request at least one start url... and set allowed/banned domain or url patterns.
    /// </summary>
    public override void Init()
    {
        License.LicenseKey = "LicenseKey"; // Write License Key
        this.LoggingLevel = WebScraper.LogLevel.All; // All Events Are Logged
        this.Request("https://blog.scrapinghub.com", Parse);
    }
    /// <summary>
    /// Override this method to create the default Response handler for your web scraper.
    /// If you have multiple page types, you can add additional similar methods.
    /// </summary>
    /// <param name="response">The http Response object to parse</param>
    public override void Parse(Response response)
    {
        // set working directory for the project
        this.WorkingDirectory = AppSetting.GetAppRoot()+ @"\HelloScraperSample\Output\";
        // Loop on all Links
        foreach (var title_link in response.Css("h2.entry-title a"))
        {
            // Read Link Text
            string strTitle = title_link.TextContentClean;
            // Save Result to File
            Scrape(new ScrapedData() { { "Title", strTitle } }, "HelloScraper.Jsonl");
        }
        // Loop On All Links
        if (response.CssExists("div.prev-post > a[href]"))
        {
            // Get Link URL
            var next_page = response.Css("div.prev-post > a[href]")[0].Attributes["href"];
            // Scrpae Next URL
            this.Request(next_page, Parse);
        }
    }
}



VB 
 C #

Bây giờ để bắt đầu Scrape Thêm đoạn mã này vào chính

static void Main(string[] args)
{
    // Create Object From Hello Scrape class
    HelloScraperSample.HelloScraper scrape = new HelloScraperSample.HelloScraper();
        // Start Scraping
        scrape.Start();
}



VB 
 C #

Kết quả sẽ được lưu trong một tệp có định dạng WebSraper.WorkingDirecty / classname.Json

Tổng quan về mã

Scrape.Start () => kích hoạt logic scrape như sau:

Gọi phương thức init () trước tiên để bắt đầu các biến, thuộc tính cạo và thuộc tính hành vi.,
Như chúng ta có thể thấy nó đặt trang bắt đầu thành Yêu cầu ("https://blog.scrapinghub.com ", Parse) và Parse (Phản hồi phản hồi) được xác định là quá trình được sử dụng để phân tích phản hồi.
Quản lý trang web song song: http và chủ đề, giữ cho tất cả mã của bạn dễ dàng gỡ lỗi và đồng bộ.
Phương thức phân tích bắt đầu sau init () để phân tích trang.
1. Bạn có thể tìm thấy các phần tử bằng cách sử dụng (bộ chọn Css, Js DOM, XPath)
2. Các phần tử được chọn được chuyển sang loại ScrapedData, bạn có thể chuyển chúng sang bất kỳ Lớp tùy chỉnh nào như (Sản phẩm, Nhân viên, Tin tức, v.v.)
3. Các đối tượng được lưu trong một tệp có Định dạng Json trong Thư mục (Thùng bin / Scrape / Lần). Hoặc bạn có thể đặt đường dẫn của tệp làm tham số như chúng ta sẽ thấy sau trong các ví dụ khác.

Các tùy chọn và chức năng của Thư viện IronWebScraper

Bạn có thể tìm thấy tài liệu cập nhật bên trong tệp zip đã được tải xuống bằng phương pháp cài đặt thủ công (Tập tin IronWebScifier Documentation.chm)

Hoặc bạn có thể kiểm tra Tài liệu trực tuyến để cập nhật thư viện lần cuối http://ironsoftware.com/csharp/webscraper/object-reference/

Để bắt đầu sử dụng IronWebscraper trong dự án của bạn, bạn phải kế thừa từ lớp (IronWebScraper.WebScraper) mở rộng thư viện lớp của bạn và thêm chức năng cạo cho nó.

Ngoài ra, bạn phải triển khai các phương thức {init (), Parse (Phản hồi phản hồi)}.

namespace IronWebScraperEngine
{
    public class NewsScraper : IronWebScraper.WebScraper
    {
        public override void Init()
        {
            throw new NotImplementedException();
        }
        public override void Parse(Response response)
        {
            throw new NotImplementedException();
        }
    }
}



VB 
 C #

Thuộc tính \ chức năng	Kiểu	Sự miêu tả
Trong đó ()	phương pháp	được sử dụng để thiết lập cạp
Phân tích cú pháp (Phản hồi)	phương pháp	Được sử dụng để thực hiện logic mà bộ cạp sẽ sử dụng và cách nó sẽ xử lý nó. Bảng sắp tới chứa danh sách các phương thức và thuộc tính mà Thư viện IronWebScraper đang cung cấp LƯU Ý: Có thể triển khai nhiều phương thức cho các hành vi hoặc cấu trúc trang khác nhau
BnedUrls Được phép Tên miền bị cấm	Bộ sưu tập	Được sử dụng để cấm / Cho phép / URL và / hoặc Tên miền Ex: BnedUrls.Add ("* .zip", "* .exe", "* .gz", "* .pdf"); Chú thích: Bạn có thể sử dụng ký tự đại diện (* và / hoặc?) Bạn có thể sử dụng chuỗi và biểu thức chính quy BnedUrls, allowUrls, BnedDomains, allowDomains BnedUrls.Add ("* .zip", "* .exe", "* .gz", "* .pdf"); *? ký tự đại diện bán toàn cầu chuỗi và biểu thức chính quy bạn có thể ghi đè hành vi này bằng cách ghi đè phương thức: công khai ảo bool AcceptUrl (url chuỗi)
ObeyRobotsDotTxt	Boolean	Được sử dụng để bật hoặc tắt đọc và làm theo robot.txt chỉ thị của nó hay không
công khai ghi đè bool ObeyRobotsDotTxtForhost (chuỗi máy chủ)	phương pháp	Được sử dụng để bật hoặc tắt đọc và làm theo robot.txt chỉ thị của nó hoặc không cho miền nhất định
Cạo	phương pháp
ScrapeUnique	phương pháp
ThrottMode	Bảng liệt kê
EnableWebCache ()	phương pháp
EnableWebCache (TimeSpan cacheDuration)	phương pháp
MaxHttpConnectionLimit	Int
RateLimitPerhost	Thời gian
OpenConnectionLimitPerhost	Int
ObeyRobotsDotTxt	Boolean
ThrottMode	Enum	Tùy chọn Enum: ByIpAddress ByDomainhostName
SetSiteSpecificCrawlRateLimit (chuỗi hostName, TimeSpan crawlRate)	phương pháp
Danh tính	Bộ sưu tập	Một danh sách của httpIdentity () sẽ được sử dụng để tìm nạp tài nguyên web. Mỗi danh tính có thể có một địa chỉ IP proxy khác nhau, Tác nhân người dùng, tiêu đề http, cookie liên tục, tên người dùng và mật khẩu. Cách thực hành tốt nhất là tạo Danh tính trong Phương thức WebScraper.Init của bạn và Thêm chúng vào Danh sách WebScraper.Identities này.
Thư mục làm việc	chuỗi	Thiết lập thư mục làm việc sẽ được sử dụng cho tất cả các dữ liệu liên quan đến scrape sẽ được lưu trữ vào đĩa.

Các mẫu và thực hành trong thế giới thực

Quét một trang web phim trực tuyến

Hãy bắt đầu một ví dụ khác từ một trang web thế giới thực. Chúng tôi sẽ chọn để cạo một trang web phim.

Chúng ta hãy thêm một lớp mới và đặt tên nó là Phim MovieScetter ':

Bây giờ chúng ta hãy xem trên trang web mà chúng tôi sẽ cạo:

Đây là một phần của HTML trang chủ mà chúng tôi thấy trên trang web:

<div id="movie-featured" class="movies-list movies-list-full tab-pane in fade active">
    <div data-movie-id="20746" class="ml-item">
        <a href="https://website.com/film/king-arthur-legend-of-the-sword-20746/">
            <span class="mli-quality">CAM</span>
            <img data-original="https://img.gocdn.online/2017/05/16/poster/2116d6719c710eabe83b377463230fbe-king-arthur-legend-of-the-sword.jpg" 
                 class="lazy thumb mli-thumb" alt="King Arthur: Legend of the Sword"
                  src="https://img.gocdn.online/2017/05/16/poster/2116d6719c710eabe83b377463230fbe-king-arthur-legend-of-the-sword.jpg" 
                 style="display: inline-block;">
            <span class="mli-info"><h2>King Arthur: Legend of the Sword</h2></span>
        </a>
    </div>
    <div data-movie-id="20724" class="ml-item">
        <a href="https://website.com/film/snatched-20724/" >
            <span class="mli-quality">CAM</span>
            <img data-original="https://img.gocdn.online/2017/05/16/poster/5ef66403dc331009bdb5aa37cfe819ba-snatched.jpg" 
                 class="lazy thumb mli-thumb" alt="Snatched" 
                 src="https://img.gocdn.online/2017/05/16/poster/5ef66403dc331009bdb5aa37cfe819ba-snatched.jpg" 
                 style="display: inline-block;">
            <span class="mli-info"><h2>Snatched</h2></span>
        </a>
    </div>
</div>



HTML

Như chúng ta có thể thấy, chúng ta có ID phim, Tiêu đề và Liên kết đến Trang chi tiết.

Hãy bắt đầu cạo bộ dữ liệu này:

public class MovieScraper : WebScraper
{
    public override void Init()
    {
        License.LicenseKey = "LicenseKey";
        this.LoggingLevel = WebScraper.LogLevel.All;
        this.WorkingDirectory = AppSetting.GetAppRoot() + @"\MovieSample\Output\";
        this.Request("www.website.com", Parse);
    }
    public override void Parse(Response response)
    {
        foreach (var Divs in response.Css("#movie-featured > div"))
        {
            if (Divs.Attributes["class"] != "clearfix")
            {
                var MovieId = Divs.GetAttribute("data-movie-id");
                var link = Divs.Css("a")[0];
                var MovieTitle = link.TextContentClean;
                Scrape(new ScrapedData() { { "MovieId", MovieId }, { "MovieTitle", MovieTitle } }, "Movie.Jsonl");
            }
        }           
    }
}



VB 
 C #

Có gì mới trong mã này?

Thuộc tính Work Directory được sử dụng để đặt thư mục làm việc chính cho tất cả các dữ liệu bị loại bỏ và các tệp liên quan.

Hãy làm nhiều hơn nữa.

Điều gì sẽ xảy ra nếu chúng ta cần xây dựng các đối tượng được gõ sẽ giữ dữ liệu bị loại bỏ trong các đối tượng được định dạng?

Hãy thực hiện một lớp phim sẽ chứa dữ liệu được định dạng của chúng tôi:

public class Movie
{
    public int Id { get; set; }
    public string Title { get; set; }
    public string URL { get; set; }
}



VB 
 C #

Bây giờ chúng tôi sẽ cập nhật mã của chúng tôi:

public class MovieScraper : WebScraper
{
    public override void Init()
    {
        License.LicenseKey = "LicenseKey";
        this.LoggingLevel = WebScraper.LogLevel.All;
        this.WorkingDirectory = AppSetting.GetAppRoot() + @"\MovieSample\Output\";
        this.Request("https://website.com/", Parse);
    }
    public override void Parse(Response response)
    {
        foreach (var Divs in response.Css("#movie-featured > div"))
        {
            if (Divs.Attributes["class"] != "clearfix")
            {
                var movie = new Movie();
                movie.Id = Convert.ToInt32( Divs.GetAttribute("data-movie-id"));
                var link = Divs.Css("a")[0];
                movie.Title = link.TextContentClean;
                movie.URL = link.Attributes["href"];
                Scrape(movie, "Movie.Jsonl");
            }
        }
    }
}



VB 
 C #

Có gì mới?

Chúng tôi triển khai Lớp phim để giữ dữ liệu bị loại bỏ
Chúng tôi chuyển các đối tượng phim cho Phương thức Scrape và nó hiểu định dạng của chúng tôi và lưu ở định dạng được xác định như chúng ta có thể thấy ở đây:

Hãy bắt đầu cạo một trang chi tiết hơn.

Trang phim trông như thế này:

<div class="mvi-content">
    <div class="thumb mvic-thumb"
         style="background-image: url(https://img.gocdn.online/2017/04/28/poster/5a08e94ba02118f22dc30f298c603210-guardians-of-the-galaxy-vol-2.jpg);"></div>
    <div class="mvic-desc">
        <h3>Guardians of the Galaxy Vol. 2</h3>        
        <div class="desc">
            Set to the backdrop of Awesome Mixtape #2, Marvel's Guardians of the Galaxy Vol. 2 continues the team's adventures as they travel throughout the cosmos to help Peter Quill learn more about his true parentage.
        </div>
        <div class="mvic-info">
            <div class="mvici-left">
                <p>
                    <strong>Genre: </strong>
                    <a href="https://Domain/genre/action/" title="Action">Action</a>,
                    <a href="https://Domain/genre/adventure/" title="Adventure">Adventure</a>,
                    <a href="https://Domain/genre/sci-fi/" title="Sci-Fi">Sci-Fi</a>
                </p>
                <p>
                    <strong>Actor: </strong>
                    <a target="_blank" href="https://Domain/actor/chris-pratt" title="Chris Pratt">Chris Pratt</a>,
                    <a target="_blank" href="https://Domain/actor/-zoe-saldana" title="Zoe Saldana">Zoe Saldana</a>,
                    <a target="_blank" href="https://Domain/actor/-dave-bautista-" title="Dave Bautista">Dave Bautista</a>
                </p>
                <p>
                    <strong>Director: </strong>
                    <a href="#" title="James Gunn">James Gunn</a>
                </p>
                <p>
                    <strong>Country: </strong>
                    <a href="https://Domain/country/us" title="United States">United States</a>
                </p>
            </div>
            <div class="mvici-right">
                <p><strong>Duration:</strong> 136 min</p>
                <p><strong>Quality:</strong> <span class="quality">CAM</span></p>
                <p><strong>Release:</strong> 2017</p>
                <p><strong>IMDb:</strong> 8.3</p>
            </div>
            <div class="clearfix"></div>
        </div>
        <div class="clearfix"></div>
    </div>
    <div class="clearfix"></div>
</div>



HTML

Chúng tôi có thể mở rộng lớp phim của mình với các thuộc tính mới (Mô tả, Thể loại, Diễn viên, Đạo diễn, Quốc gia, Thời lượng, Điểm IMDB) nhưng chúng tôi sẽ chỉ sử dụng (Mô tả, Thể loại, Diễn viên) cho mẫu của chúng tôi.

public class Movie
{
    public int Id { get; set; }
    public string Title { get; set; }
    public string URL { get; set; }
    public string Description { get; set; }
    public List<string> Genre { get; set; }
    public List<string> Actor { get; set; }
}



VB 
 C #

Bây giờ chúng tôi sẽ điều hướng đến trang Chi tiết để cạo nó.

IronWebScraper cho phép bạn thêm nhiều hơn vào chức năng cạo để cạo các loại định dạng trang khác nhau

Như chúng ta có thể thấy ở đây:

public class MovieScraper : WebScraper
{
    public override void Init()
    {
        License.LicenseKey = "LicenseKey";
        this.LoggingLevel = WebScraper.LogLevel.All;
        this.WorkingDirectory = AppSetting.GetAppRoot() + @"\MovieSample\Output\";
        this.Request("https://domain/", Parse);
    }
    public override void Parse(Response response)
    {
        foreach (var Divs in response.Css("#movie-featured > div"))
        {
            if (Divs.Attributes["class"] != "clearfix")
            {
                var movie = new Movie();
                movie.Id = Convert.ToInt32( Divs.GetAttribute("data-movie-id"));
                var link = Divs.Css("a")[0];
                movie.Title = link.TextContentClean;
                movie.URL = link.Attributes["href"];
                this.Request(movie.URL, ParseDetails, new MetaData() { { "movie", movie } });// to scrap Detailed Page
            }
        }           
    }
    public void ParseDetails(Response response)
    {
        var movie = response.MetaData.Get<Movie>("movie");
        var Div = response.Css("div.mvic-desc")[0];
        movie.Description = Div.Css("div.desc")[0].TextContentClean;
        foreach(var Genre in Div.Css("div > p > a"))
        {
            movie.Genre.Add(Genre.TextContentClean);
        }
        foreach (var Actor in Div.Css("div > p:nth-child(2) > a"))
        {
            movie.Actor.Add(Actor.TextContentClean);
        }
        Scrape(movie, "Movie.Jsonl");
    }
}



VB 
 C #

Có gì mới?

Chúng tôi có thể thêm các chức năng cạo (ParseDetails) để cạo các trang chi tiết
Chúng tôi đã chuyển chức năng Scrape tạo tệp của chúng tôi sang chức năng mới
Chúng tôi đã sử dụng tính năng IronWebScraper (MetaData) để chuyển đối tượng phim của mình sang chức năng cạo mới
Chúng tôi đã quét trang và lưu dữ liệu đối tượng phim của mình vào một tệp

Nội dung cạo từ một trang web mua sắm

Chúng tôi chọn một trang web mua sắm để cạo nội dung từ nó

Như bạn có thể thấy từ hình ảnh, chúng tôi có một thanh bên trái chứa các liên kết cho các danh mục sản phẩm của trang web

Vì vậy, bước đầu tiên của chúng tôi là điều tra HTML của trang web và lên kế hoạch về cách chúng tôi muốn cạo nó.

Các danh mục trang web thời trang có các danh mục phụ (Nam, Nữ, Trẻ em)

<li class="menu-item" data-id="">
    <a href="https://domain.com/fashion-by-/" class="main-category">
        <i class="cat-icon osh-font-fashion"></i> <span class="nav-subTxt">FASHION </span> <i class="osh-font-light-arrow-left"></i><i class="osh-font-light-arrow-right"></i>
    </a> <div class="navLayerWrapper" style="width: 633px; display: none;"><div class="submenu"><div class="column"><div class="categories"><a class="category" href="https://domain.com/fashion-by-/?sort=newest&amp;dir=desc&amp;viewType=gridView3">New Arrivals !</a>  </div><div class="categories"><a class="category" href="https://domain.com/men-fashion/">Men</a>   <a class="subcategory" href="https://domain.com/mens-shoes/">Shoes</a>   <a class="subcategory" href="https://domain.com/mens-clothing/">Clothing</a>   <a class="subcategory" href="https://domain.com/mens-accessories/">Accessories</a>  </div><div class="categories"><a class="category" href="https://domain.com/women-fashion/">Women</a>   <a class="subcategory" href="https://domain.com/womens-shoes/">Shoes</a>   <a class="subcategory" href="https://domain.com/womens-clothing/">Clothing</a>   <a class="subcategory" href="https://domain.com/womens-accessories/">Accessories</a>  </div><div class="categories"><a class="category" href="https://domain.com/girls-boys-fashion/">Kids</a>   <a class="subcategory" href="https://domain.com/boys-fashion/">Boys</a>   <a class="subcategory" href="https://domain.com/girls/">Girls</a>  </div><div class="categories"><a class="category" href="https://domain.com/maternity-clothes/">Maternity Clothes</a>  </div></div><div class="column"><div class="categories"> <span class="category defaultCursor">Men Best Sellers</span>  <a class="subcategory" href="https://domain.com/mens-casual-shoes/">Casual Shoes</a>   <a class="subcategory" href="https://domain.com/mens-sneakers/">Sneakers</a>   <a class="subcategory" href="https://domain.com/mens-t-shirts/">T-shirts</a>   <a class="subcategory" href="https://domain.com/mens-polos/">Polos</a>  </div><div class="categories"> <span class="category defaultCursor">Women Best Sellers</span>  <a class="subcategory" href="https://domain.com/womens-sandals/">Sandals</a>   <a class="subcategory" href="https://domain.com/womens-sneakers/">Sneakers</a>   <a class="subcategory" href="https://domain.com/women-dresses/">Dresses</a>   <a class="subcategory" href="https://domain.com/women-tops/">Tops</a>  </div><div class="categories"><a class="category" href="https://domain.com/womens-curvy-clothing/">Women's Curvy Clothing</a>  </div><div class="categories"><a class="category" href="https://domain.com/fashion-bundles/v/">Fashion Bundles</a>  </div><div class="categories"><a class="category" href="https://domain.com/hijab-fashion/">Hijab Fashion</a>  </div></div><div class="column"><div class="categories"><a class="category" href="https://domain.com/brands/fashion-by-/">SEE ALL BRANDS</a>   <a class="subcategory" href="https://domain.com/adidas/">Adidas</a>   <a class="subcategory" href="https://domain.com/converse/">Converse</a>   <a class="subcategory" href="https://domain.com/ravin/">Ravin</a>   <a class="subcategory" href="https://domain.com/dejavu/">Dejavu</a>   <a class="subcategory" href="https://domain.com/agu/">Agu</a>   <a class="subcategory" href="https://domain.com/activ/">Activ</a>   <a class="subcategory" href="https://domain.com/oxford--bellini--tie-house--milano/">Tie House</a>   <a class="subcategory" href="https://domain.com/shoe-room/">Shoe Room</a>   <a class="subcategory" href="https://domain.com/town-team/">Town Team</a>  </div></div></div></div>
</li>



HTML

Hãy lập một dự án

Tạo Ứng dụng Bảng điều khiển mới hoặc Thêm thư mục mới cho mẫu mới của chúng tôi với tên là Mua sắmSiteSampleSample
Thêm lớp mới với tên gọi Mua sắm
Bước đầu tiên sẽ là cạo các danh mục trang web và các danh mục phụ của nó

Hãy tạo một mô hình danh mục:

public class Category
{
    /// <summary>
    /// Gets or sets the name.
    /// </summary>
    /// <value>
    /// The name.
    /// </value>
    public string Name { get; set; }
    /// <summary>
    /// Gets or sets the URL.
    /// </summary>
    /// <value>
    /// The URL.
    /// </value>
    public string URL { get; set; }
    /// <summary>
    /// Gets or sets the sub categories.
    /// </summary>
    /// <value>
    /// The sub categories.
    /// </value>
    public List<Category> SubCategories { get; set; }
}



VB 
 C #

Bây giờ hãy xây dựng logic scrape của chúng tôi

public class ShoppingScraper : WebScraper
{
/// <summary>
/// Override this method initialize your web-scraper.
/// Important tasks will be to Request at least one start url... and set allowed/banned domain or url patterns.
/// </summary>
public override void Init()
{
    License.LicenseKey = "LicenseKey";
    this.LoggingLevel = WebScraper.LogLevel.All;
    this.WorkingDirectory = AppSetting.GetAppRoot() + @"\ShoppingSiteSample\Output\";
    this.Request("www.webSite.com", Parse);
}
/// <summary>
/// Override this method to create the default Response handler for your web scraper.
/// If you have multiple page types, you can add additional similar methods.
/// </summary>
/// <param name="response">The http Response object to parse</param>
public override void Parse(Response response)
{
    var categoryList = new List<Category>();
    foreach (var Links in response.Css("#menuFixed > ul > li > a "))
    {
        var cat = new Category();
        cat.URL = Links.Attributes["href"];
        cat.Name = Links.InnerText;
        categoryList.Add(cat);
    }
    Scrape(categoryList, "Shopping.Jsonl");
}
}



VB 
 C #

Nạo các liên kết từ menu

Hãy cập nhật mã của chúng tôi để cạo các Danh mục chính và tất cả các liên kết phụ của nó

public override void Parse(Response response)
{
    // List of Categories Links (Root)
    var categoryList = new List<Category>();
    foreach (var li in response.Css("#menuFixed > ul > li"))
    {
        // List Of Main Links
        foreach (var Links in li.Css("a"))
        {
            var cat = new Category();
            cat.URL = Links.Attributes["href"];
            cat.Name = Links.InnerText;
            cat.SubCategories = new List<Category>();
            // List of Sub Catgories Links
            foreach (var subCategory in li.Css("a[class=subcategory]"))
            {
                var subcat = new Category();
                subcat.URL = Links.Attributes["href"];
                subcat.Name = Links.InnerText;
                // Check If Link Exist Before 
                if (cat.SubCategories.Find(c=>c.Name== subcat.Name && c.URL == subcat.URL) == null)
                {
                    // Add Sublinks
                    cat.SubCategories.Add(subcat);
                }
            }
            // Add Categories
            categoryList.Add(cat);
        }
    }
    Scrape(categoryList, "Shopping.Jsonl");
}



VB 
 C #

Bây giờ chúng tôi có các liên kết đến tất cả các danh mục trang web, hãy bắt đầu cạo các sản phẩm trong mỗi danh mục

Hãy điều hướng đến bất kỳ danh mục và kiểm tra nội dung.

Hãy xem mã của nó

<section class="products">
    <div class="sku -gallery -validate-size " data-sku="AG249FA0T2PSGNAFAMZ" ft-product-sizes="41,42,43,44,45" ft-product-color="Multicolour">
        <a class="link" href="http://www.WebSite.com/agu-bundle-of-2-sneakers-black-navy-blue-653884.html">
            <div class="image-wrapper default-state">
                <img class="lazy image -loaded" alt="Bundle Of 2 Sneakers - Black &amp;amp; Navy Blue" data-image-vertical="1" width="210" height="262" src="https://static.WebSite.com/p/agu-6208-488356-1-catalog_grid_3.jpg" data-sku="AG249FA0T2PSGNAFAMZ" data-src="https://static.WebSite.com/p/agu-6208-488356-1-catalog_grid_3.jpg" data-placeholder="placeholder_m_1.jpg"><noscript>&lt;img src="https://static.WebSite.com/p/agu-6208-488356-1-catalog_grid_3.jpg" width="210" height="262" class="image" /&gt;</noscript>
            </div> <h2 class="title">
                <span class="brand ">Agu&nbsp;</span>
                <span class="name" dir="ltr">Bundle Of 2 Sneakers - Black &amp; Navy Blue</span>
            </h2><div class="price-container clearfix">
                <span class="price-box">
                    <span class="price">
                        <span data-currency-iso="EGP">EGP</span>
                        <span dir="ltr" data-price="299">299</span>
                    </span>   <span class="price -old  -no-special"></span>
                </span>
            </div><div class="rating-stars"><div class="stars-container"><div class="stars" style="width: 62%"></div></div> <div class="total-ratings">(30)</div> </div>    <span class="shop-first-logo-container"><img src="http://www.WebSite.com/images/local/logos/shop_first/ShoppingSite/logo_normal.png" data-src="http://www.WebSite.com/images/local/logos/shop_first/ShoppingSite/logo_normal.png" class="lazy shop-first-logo-img -mbxs -loaded"> </span>
            <span class="osh-icon -ShoppingSite-local shop_local--logo -block -mbs -mts"></span>
            <div class="list -sizes" data-selected-sku="">
                <span class="js-link sku-size" data-href="http://www.WebSite.com/agu-bundle-of-2-sneakers-black-navy-blue-653884.html?size=41">41</span>     <span class="js-link sku-size" data-href="http://www.WebSite.com/agu-bundle-of-2-sneakers-black-navy-blue-653884.html?size=42">42</span>
                <span class="js-link sku-size" data-href="http://www.WebSite.com/agu-bundle-of-2-sneakers-black-navy-blue-653884.html?size=43">43</span>     <span class="js-link sku-size" data-href="http://www.WebSite.com/agu-bundle-of-2-sneakers-black-navy-blue-653884.html?size=44">44</span>
                <span class="js-link sku-size" data-href="http://www.WebSite.com/agu-bundle-of-2-sneakers-black-navy-blue-653884.html?size=45">45</span>
            </div>
        </a>
    </div>
    <div class="sku -gallery -validate-size " data-sku="LE047FA01SRK4NAFAMZ" ft-product-sizes="110,115,120,125,130,135" ft-product-color="Black">
        <a class="link" href="http://www.WebSite.com/leather-shop-genuine-leather-belt-black-712030.html">
            <div class="image-wrapper default-state"><img class="lazy image -loaded" alt="Genuine Leather Belt - Black" data-image-vertical="1" width="210" height="262" src="https://static.WebSite.com/p/leather-shop-1831-030217-1-catalog_grid_3.jpg" data-sku="LE047FA01SRK4NAFAMZ" data-src="https://static.WebSite.com/p/leather-shop-1831-030217-1-catalog_grid_3.jpg" data-placeholder="placeholder_m_1.jpg"><noscript>&lt;img src="https://static.WebSite.com/p/leather-shop-1831-030217-1-catalog_grid_3.jpg" width="210" height="262" class="image" /&gt;</noscript></div>
            <h2 class="title"><span class="brand ">Leather Shop&nbsp;</span> <span class="name" dir="ltr">Genuine Leather Belt - Black</span></h2><div class="price-container clearfix">
                <span class="sale-flag-percent">-29%</span>  <span class="price-box"> <span class="price"><span data-currency-iso="EGP">EGP</span> <span dir="ltr" data-price="96">96</span> </span>   <span class="price -old "><span data-currency-iso="EGP">EGP</span> <span dir="ltr" data-price="135">135</span> </span> </span>
            </div><div class="rating-stars"><div class="stars-container"><div class="stars" style="width: 100%"></div></div> <div class="total-ratings">(1)</div> </div>
            <span class="osh-icon -ShoppingSite-local shop_local--logo -block -mbs -mts"></span>    <div class="list -sizes" data-selected-sku="">
                <span class="js-link sku-size" data-href="http://www.WebSite.com/leather-shop-genuine-leather-belt-black-712030.html?size=110">110</span>     <span class="js-link sku-size" data-href="http://www.WebSite.com/leather-shop-genuine-leather-belt-black-712030.html?size=115">115</span>
                <span class="js-link sku-size" data-href="http://www.WebSite.com/leather-shop-genuine-leather-belt-black-712030.html?size=120">120</span>     <span class="js-link sku-size" data-href="http://www.WebSite.com/leather-shop-genuine-leather-belt-black-712030.html?size=125">125</span>     <span class="js-link sku-size" data-href="http://www.WebSite.com/leather-shop-genuine-leather-belt-black-712030.html?size=130">130</span>
                <span class="js-link sku-size" data-href="http://www.WebSite.com/leather-shop-genuine-leather-belt-black-712030.html?size=135">135</span>
            </div>
        </a>
    </div>
</section>



HTML

Hãy xây dựng mô hình sản phẩm của chúng tôi cho nội dung này.

public class Product
{
    /// <summary>
    /// Gets or sets the name.
    /// </summary>
    /// <value>
    /// The name.
    /// </value>
    public string Name { get; set; }
    /// <summary>
    /// Gets or sets the price.
    /// </summary>
    /// <value>
    /// The price.
    /// </value>
    public string Price { get; set; }
    /// <summary>
    /// Gets or sets the image.
    /// </summary>
    /// <value>
    /// The image.
    /// </value>
    public string Image { get; set; }
}



VB 
 C #

Để cạo các trang danh mục, chúng tôi thêm một phương pháp cạo mới:

public void ParseCatgory(Response response)
{          
    // List of Products Links (Root)
    var productList = new List<Product>();
    foreach (var Links in response.Css("body > main > section.osh-content > section.products > div > a"))
    {
        var product = new Product();
        product.Name = Links.InnerText;
        product.Image = Links.Css("div.image-wrapper.default-state > img")[0].Attributes["src"];                
        productList.Add(product);
    }
    Scrape(productList, "Products.Jsonl");
}



VB 
 C #

Các tính năng Webscraping nâng cao

Tính năng httpIdentity:

Một số hệ thống trang web yêu cầu người dùng phải đăng nhập để xem nội dung; trong trường hợp này, chúng ta có thể sử dụng một HTTPIdentity: -

HttpIdentity id = new HttpIdentity();
id.NetworkUsername = "username";
id.NetworkPassword = "pwd";
Identities.Add(id); 



VB 
 C #

Một trong những tính năng ấn tượng và mạnh mẽ nhất trong IronWebScraper, là khả năng sử dụng hàng ngàn thông tin độc đáo (thông tin người dùng và / hoặc công cụ trình duyệt) để giả mạo hoặc cạo trang web bằng nhiều phiên đăng nhập.

public override void Init()
{
    License.LicenseKey = " LicenseKey ";
    this.LoggingLevel = WebScraper.LogLevel.All;
    this.WorkingDirectory = AppSetting.GetAppRoot() + @"\ShoppingSiteSample\Output\";
    var proxies = "IP-Proxy1: 8080,IP-Proxy2: 8081".Split(',');
    foreach (var UA in IronWebScraper.CommonUserAgents.ChromeDesktopUserAgents)
    {
        foreach (var proxy in proxies)
        {
            Identities.Add(new HttpIdentity()
            {
                UserAgent = UA,
                UseCookies = true,
                Proxy = proxy
            });
        }
    }
    this.Request("http://www.Website.com", Parse);
}



VB 
 C #

Bạn có nhiều thuộc tính để cung cấp cho bạn các hành vi khác nhau, do đó, ngăn chặn các trang web chặn bạn.

Một số thuộc tính sau: -

NetworkDomain : Tên miền mạng được sử dụng để xác thực người dùng. Hỗ trợ các mạng Windows, NTLM, Keroberos, Linux, BSD và Mac OS X. Phải được sử dụng với (NetworkUsername và NetworkPassword)
NetworkUsername : Tên người dùng mạng / http sẽ được sử dụng để xác thực người dùng. Hỗ trợ các mạng http, Windows, NTLM, Kerberos, Linux, mạng BSD và Mac OS.
NetworkPassword : Mật khẩu mạng / http được sử dụng để xác thực người dùng. Hỗ trợ các mạng http, Windows, NTLM, Keroberos, Linux, mạng BSD và Mac OS.
Proxy : để đặt cài đặt proxy
UserAgent : để đặt công cụ trình duyệt (máy tính để bàn chrome, điện thoại di động chrome, máy tính bảng chrome, IE và Firefox, v.v.)
HttpRequestHeaders : cho các giá trị tiêu đề tùy chỉnh sẽ được sử dụng với danh tính này và nó chấp nhận đối tượng từ điển (Từ điển <chuỗi, chuỗi>)
UseCookies : bật / tắt bằng cookie

IronWebScraper chạy cạp bằng cách sử dụng danh tính ngẫu nhiên. Nếu chúng ta cần xác định việc sử dụng một danh tính cụ thể để phân tích một trang, chúng ta có thể làm như vậy.

public override void Init()
{
    License.LicenseKey = " LicenseKey ";
    this.LoggingLevel = WebScraper.LogLevel.All;
    this.WorkingDirectory = AppSetting.GetAppRoot() + @"\ShoppingSiteSample\Output\";
    HttpIdentity identity = new HttpIdentity();
    identity.NetworkUsername = "username";
    identity.NetworkPassword = "pwd";
    Identities.Add(id);
    this.Request("http://www.Website.com", Parse, identity);
}



VB 
 C #

Kích hoạt tính năng Web Cache:

Tính năng này được sử dụng để lưu các trang được yêu cầu. Nó thường được sử dụng trong các giai đoạn phát triển và thử nghiệm; cho phép các nhà phát triển lưu trữ các trang cần thiết để sử dụng lại sau khi cập nhật mã. Điều này cho phép bạn thực thi mã của mình trên các trang được lưu trong bộ nhớ cache sau khi khởi động lại bộ quét Web và không cần kết nối với trang web trực tiếp mỗi lần (phát lại hành động).

Bạn có thể sử dụng nó trong Phương thức init ()

EnableWebCache ();

HOẶC LÀ

EnableWebCache (Hết hạn Timespan);

Nó sẽ lưu dữ liệu được lưu trong bộ nhớ cache của bạn vào thư mục WebCache trong thư mục thư mục làm việc

public override void Init()
{
    License.LicenseKey = " LicenseKey ";
    this.LoggingLevel = WebScraper.LogLevel.All;
    this.WorkingDirectory = AppSetting.GetAppRoot() + @"\ShoppingSiteSample\Output\";
    EnableWebCache(new TimeSpan(1,30,30));
    this.Request("http://www.WebSite.com", Parse);
}



VB 
 C #

IronWebScraper cũng có các tính năng cho phép công cụ của bạn tiếp tục quét sau khi khởi động lại mã bằng cách đặt tên quy trình khởi động động cơ bằng cách sử dụng Bắt đầu (CrawlID)

static void Main(string[] args)
{
    // Create Object From Scraper class
    EngineScraper scrape = new EngineScraper();
    // Start Scraping
    scrape.Start("enginestate");
}



VB 
 C #

Yêu cầu thực hiện và phản hồi sẽ được lưu trong thư mục SavingState bên trong thư mục làm việc.

Điều tiết

Chúng tôi có thể kiểm soát số lượng kết nối tối thiểu và tối đa và tốc độ kết nối cho mỗi tên miền.

public override void Init()
{
    License.LicenseKey = "LicenseKey";
    this.LoggingLevel = WebScraper.LogLevel.All;
    this.WorkingDirectory = AppSetting.GetAppRoot() + @"\ShoppingSiteSample\Output\";
    // Gets or sets the total number of allowed open HTTP requests (threads)
    this.MaxHttpConnectionLimit = 80;
    // Gets or sets minimum polite delay (pause)between request to a given domain or IP address.
    this.RateLimitPerHost = TimeSpan.FromMilliseconds(50);            
    //     Gets or sets the allowed number of concurrent HTTP requests (threads) per hostname
    //     or IP address. This helps protect hosts against too many requests.
    this.OpenConnectionLimitPerHost = 25;
    this.ObeyRobotsDotTxt = false;
    //     Makes the WebSraper intelligently throttle requests not only by hostname, but
    //     also by host servers' IP addresses. This is polite in-case multiple scraped domains
    //     are hosted on the same machine.
    this.ThrottleMode = Throttle.ByDomainHostName;
    this.Request("https://www.Website.com", Parse);
}



VB 
 C #

Đặc tính tiết lưu

MaxHttpConnectionLimit
tổng số yêu cầu (luồng) mở được phép
RateLimitPerhost
trì hoãn hoặc tạm dừng lịch sự tối thiểu (tính bằng mili giây) giữa yêu cầu đến một tên miền hoặc địa chỉ IP nhất định
OpenConnectionLimitPerhost
cho phép số lượng yêu cầu HTTP đồng thời (luồng)
ThrottleMode
Làm cho WebSraper yêu cầu một cách thông minh ga không chỉ bởi tên máy, mà còn bởi địa chỉ IP máy chủ lưu trữ. Đây là lịch sự trong trường hợp nhiều tên miền bị loại bỏ được lưu trữ trên cùng một máy.

ruột thừa

Làm thế nào để tạo một ứng dụng Windows Form?

Chúng ta nên sử dụng Visual Studio 2013 hoặc cao hơn cho việc này.

Thực hiện theo các bước sau để tạo Dự án Windows Forms mới:

Phòng thu hình ảnh mở
Tệp -> Mới -> Dự án
Từ Mẫu, Chọn ngôn ngữ lập trình (Visual C # hoặc VB) -> Windows -> Ứng dụng Windows Forms

Tên dự án : IronScraperSample
location : chọn một vị trí trên Đĩa cứng của bạn

Làm thế nào để tạo một ứng dụng biểu mẫu web?

Bạn nên sử dụng Visual Studio 2013 hoặc cao hơn cho việc này.

Làm theo các bước để tạo Dự án biểu mẫu web Asp.NET mới

Mở Visual Studio
Tệp -> Mới -> Dự án
Từ Mẫu Chọn ngôn ngữ lập trình (Visual C # hoặc VB) -> Web -> Ứng dụng web ASP.NET (.NET Framework).

Tên dự án : IronScraperSample
location : chọn vị trí từ Đĩa cứng của bạn

Từ mẫu ASP.NET của bạn
1. Chọn mẫu trống
2. Kiểm tra biểu mẫu web
Bây giờ Dự án mẫu ASP.NET Web cơ bản của bạn đã được tạo

Nhấn vào đây để tải về dự án mã poroject mẫu đầy đủ hướng dẫn.

Thứ Ba, 23 tháng 4, 2019

IronWebScraper Hướng dẫn Quét web trong C #

Cách quét dữ liệu từ các trang web trong C #

Cách quét dữ liệu từ các trang web trong C #

Khán giả mục tiêu

Kỹ năng cần có

Công cụ

Tại sao phải cạo? (Lý do và khái niệm)

Làm thế nào để cài đặt IronWebScraper?

Cài đặt bằng NuGet

Sử dụng Trình quản lý gói NuGet

Sử dụng Bảng điều khiển gói NuGet

Cài đặt thủ công

HelloScraper - Mẫu IronWebScraper đầu tiên của chúng tôi

Các bước để tạo mẫu IronWebScraper

Tổng quan về mã

Các tùy chọn và chức năng của Thư viện IronWebScraper

Các mẫu và thực hành trong thế giới thực

Quét một trang web phim trực tuyến

Nội dung cạo từ một trang web mua sắm

Các tính năng Webscraping nâng cao

Tính năng httpIdentity:

Kích hoạt tính năng Web Cache:

Điều tiết

ruột thừa

Làm thế nào để tạo một ứng dụng Windows Form?

Làm thế nào để tạo một ứng dụng biểu mẫu web?

Admin: Nguyễn Tỉnh

Phản Hồi Độc Giả

Một số lưu ý khi bình luận

Thứ Ba, 23 tháng 4, 2019

IronWebScraper Hướng dẫn Quét web trong C #

Cách quét dữ liệu từ các trang web trong C #

Cách quét dữ liệu từ các trang web trong C #

Khán giả mục tiêu

Kỹ năng cần có

Công cụ

Tại sao phải cạo? (Lý do và khái niệm)

Làm thế nào để cài đặt IronWebScraper?

Cài đặt bằng NuGet

Sử dụng Trình quản lý gói NuGet

Sử dụng Bảng điều khiển gói NuGet

Cài đặt thủ công

HelloScraper - Mẫu IronWebScraper đầu tiên của chúng tôi

Các bước để tạo mẫu IronWebScraper

Tổng quan về mã

Các tùy chọn và chức năng của Thư viện IronWebScraper

Các mẫu và thực hành trong thế giới thực

Quét một trang web phim trực tuyến

Nội dung cạo từ một trang web mua sắm

Các tính năng Webscraping nâng cao

Tính năng httpIdentity:

Kích hoạt tính năng Web Cache:

Điều tiết

ruột thừa

Làm thế nào để tạo một ứng dụng Windows Form?

Làm thế nào để tạo một ứng dụng biểu mẫu web?

Admin: Nguyễn Tỉnh

BÀI VIẾT CÙNG CHUYÊN MỤC

Phản Hồi Độc Giả

Một số lưu ý khi bình luận